Changes between Version 2 and Version 3 of ZpravaFI2019
- Timestamp:
- Mar 22, 2020, 9:59:14 AM (5 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
ZpravaFI2019
v2 v3 7 7 == Zpráva za rok 2019 == 8 8 9 V roce 2019 jsme dokončili vývoj několika nástrojů . Prvním z nich je hlavní editor, vykázaný jako software ''BAISA, Vít, Ondřej HERMAN a Aleš HORÁK. Propaganda analysis and annotation. 2019.''9 V roce 2019 jsme dokončili vývoj několika nástrojů spojených s úkolem rozpoznávání manipulativních technik v textu: 10 10 11 Druhý nástroj, webová aplikace, slouží k analýze sentimentu na základě prostého textu. Vykázaný jako software ''BILÍK, Jan a Vít BAISA. Webová aplikace pro analýzu sentimentu. 2019.'' 11 1. Anotační editor a prohlížeč korpusu Propaganda ([https://www.muni.cz/vyzkum/publikace/1631559 publikace R-software] ''BAISA, Vít, Ondřej HERMAN a Aleš HORÁK. Propaganda analysis and annotation. 2019''), 12 12 13 Třetí nástroj je určen pro pravidelné stahování a analyzování online článků z vybraných domén, vykázaný jako software ''PANČÍK, Juraj a Vít BAISA. Propaganda web crawler. 2019.'' 13 2. On-line detekce propagandy ve volném textu, model neuronové sítě natrénovaný na anotovaných datech, který pro vstupní text určí pravděpodobnosti využití manipulativních technik ([https://www.muni.cz/vyzkum/publikace/1631559 publikace R-software] ''HERMAN, Ondřej, Vít BAISA a Aleš HORÁK. Propaganda detection tool. 2020''). 14 14 15 Čtvrtý nástroj je neuronová síť (model) natrénovaná na anotovaných datech, která pro vstupní text určí pravděpodobnosti využití manipulativních technik, vykázaná jako software ''HERMAN, Ondřej, Vít BAISA a Aleš HORÁK. Propaganda detection tool. 2020.'' 15 3. Analýza sentimentu, webová aplikace, slouží k rozpoznání sentimentu na základě prostého textu ([https://www.muni.cz/vyzkum/publikace/1602459 publikace R-software] ''BILÍK, Jan a Vít BAISA. Webová aplikace pro analýzu sentimentu. 2019''), 16 16 17 Implementovali jsme několik modelů s využitím technik deep learningu (BERT, bi-RNN) a vyhodnotili jejich úspěšnost na trénovacích datech. Výsledky budeme publikovat v časopiseckém článku na jaře 2020. 17 4. Datový nástroj pro pravidelné stahování a analyzování online článků z vybraných domén ([https://www.muni.cz/vyzkum/publikace/1603782 publikace R-software] ''PANČÍK, Juraj a Vít BAISA. Propaganda web crawler. 2019''), 18 19 Všechny nástroje jsou dostupné z webové stránky projektu https://nlp.fi.muni.cz/projekty/propaganda. 20 21 Anotacemi manipulativních technik v textech vznikla finální datová sada (anotovaný korpus) nazvaný Propaganda, který se s 8464 dokumenty řadí mezi největší datové sady s tímto zaměřením na světě. Korpus Propaganda bude zveřejněn a umožní tak replikaci a průběžné další vylepšování výsledků detekce analyzovaných technik. Prefinální verze byla prezentována na konferenci RANLP 2019 ([https://www.muni.cz/vyzkum/publikace/1552518 Scopus publikace]), kde několik zahraničních týmů projevilo zájem o přístup k datové sadě. 22 23 Detekci sedmnácti technik manipulace a propagandy jsme rozšířili o poslední metody neuronových jazykových modelů založených na hlubokém učení (deep learning, metody BERT a BiRNN). Vážená F1 míry úspěšnosti je nyní v průměru 85% (10% zlepšení proti roku 2018) v rozsahu 71-95% pro jednotlivé atributy (démonizace je snadněji rozpoznatelná s 95%, argumentace pouze 71%). U většiny atributů testované metody přesahují úspěšnost "lidské" shody mezi anotátory. Finální výsledky budou shrnuty v časopiseckém článku dokončovaném v první polovině roku 2020.