wiki:ZpravaFI2019

Projekt GAMU Manipulativní techniky propagandy v době internetu

MUNI/G/0872/2016

Zpráva za tým FI, 2019

Zpráva za rok 2019

V roce 2019 jsme dokončili vývoj několika nástrojů spojených s úkolem rozpoznávání manipulativních technik v textu:

  1. Anotační editor a prohlížeč korpusu Propaganda (publikace R-software BAISA, Vít, Ondřej HERMAN a Aleš HORÁK. Propaganda analysis and annotation. 2019),
  1. On-line detekce propagandy ve volném textu, model neuronové sítě natrénovaný na anotovaných datech, který pro vstupní text určí pravděpodobnosti využití manipulativních technik (publikace R-software HERMAN, Ondřej, Vít BAISA a Aleš HORÁK. Propaganda detection tool. 2020).
  1. Analýza sentimentu, webová aplikace, slouží k rozpoznání sentimentu na základě prostého textu (publikace R-software BILÍK, Jan a Vít BAISA. Webová aplikace pro analýzu sentimentu. 2019),
  1. Datový nástroj pro pravidelné stahování a analyzování online článků z vybraných domén (publikace R-software PANČÍK, Juraj a Vít BAISA. Propaganda web crawler. 2019),

Všechny nástroje jsou dostupné z webové stránky projektu https://nlp.fi.muni.cz/projekty/propaganda.

Anotacemi manipulativních technik v textech vznikla finální datová sada (anotovaný korpus) s označením Propaganda, která se s 8464 dokumenty řadí mezi největší datové sady s tímto zaměřením na světě. Korpus Propaganda bude zveřejněn a umožní tak replikaci a průběžné další vylepšování výsledků detekce analyzovaných technik. Prefinální verze byla prezentována na konferenci RANLP 2019 (Scopus publikace), kde několik zahraničních týmů projevilo zájem o přístup k datové sadě.

Detekci sedmnácti technik manipulace a propagandy jsme rozšířili o poslední metody neuronových jazykových modelů založených na hlubokém učení (deep learning, metody BERT a BiRNN). Vážená F1 míra úspěšnosti nyní dosahuje v průměru 85% (10% zlepšení proti roku 2018) v rozsahu 71-95% pro jednotlivé atributy (démonizace je snadněji rozpoznatelná s 95%, argumentace pouze 71%). Na datech jsme také vyhodnotili úspěšnost "lidské" shody mezi anotátory, u většiny atributů ji testované metody přesahují. Finální výsledky budou shrnuty v časopiseckém článku dokončovaném v první polovině roku 2020.

Last modified 4 years ago Last modified on Mar 22, 2020, 10:02:27 AM