Projekt GAMU Manipulativní techniky propagandy v době internetu
MUNI/G/0872/2016
Zpráva za tým FI, 2018
Zpráva za rok 2018
V roce 2018 jsme do vyvíjeného nástroje pro expertní anotaci článků na výskyt propagandy doplnili automatické návrhy detekce manipulativních technik v textu. Na základě anotací 7494 dokumentů jsme vytvořili 2 modely: jeden pro predikci hodnot jednotlivých atributů v novém neanotovaném dokumentu a jeden pro odhad částí textů, které souvisí s vybraným atributem. Uživatelská aplikace potom umožňuje přímé porovnání automatických návrhů s ruční kontrolou anotátory. Automatické návrhy implicitně nejsou zobrazené, ale anotátor si je může nechat zobrazit po dokončení vlastních anotací.
Aktuální model založený na metodě Random Forest jsme vyhodnotili jako nejlepší z testování 11 technik strojového učení na vytvořené datové sadě. Výsledná klasifikace navrhování hodnot atributů přiřazuje pro každý atribut s omezeným množstvím hodnot (např. ano/ne/nevím) každé této hodnotě pravděpodobnost. Důležitou vlastností vybrané metody je schopnost nabídnout "vysvětlení" navrhované hodnoty poukázáním na úroveň důležitosti vybraných slov v textu (individuálně pro každý atribut). Současná prototypová implementace detekčního nástroje dosahuje vážené F1 míry úspěšnosti v rozsahu 65-85% pro jednotlivé atributy - např. démonizace je snadněji rozpoznatelná s 85%, ale argumentace pouze s 65%.
V roce 2018 proběhly další anotace dat. Tyto anotace byly přidány do databáze článků, ve které je aktuálně 9694 plně anotovaných článků. Z toho 2585 je anotováno více anotátory, u těchto budeme zkoumat mezianotátorskou shodu, což nám umožní určit "lidskou" složitost stanovení hodnoty pro každý atribut.
Plán na rok 2019
V posledním roce se zaměříme na rozšiřování sady rysů pro trénování modelů automatických návrhů anotací. Očekáváme potenciál zvýšení úspěšnosti detekce v průměru až o 10%. Výsledek plánujeme publikovat jako článek v odborném časopise. Kromě vyhodnocování na datech z českých propagandistických webů plánujeme pro srovnání automaticky získávat časová a textová data i z vybraných mainstreamových médií.
Attachments (1)
- propaganda_scr.png (150.8 KB) - added by 5 years ago.
Download all attachments as: .zip