wiki:ZpravaFI2018

Projekt GAMU Manipulativní techniky propagandy v době internetu

MUNI/G/0872/2016

Zpráva za tým FI, 2018

Zpráva za rok 2018

V roce 2018 jsme do vyvíjeného nástroje pro expertní anotaci článků na výskyt propagandy doplnili automatické návrhy detekce manipulativních technik v textu. Na základě anotací 7494 dokumentů jsme vytvořili 2 modely: jeden pro predikci hodnot jednotlivých atributů v novém neanotovaném dokumentu a jeden pro odhad částí textů, které souvisí s vybraným atributem. Uživatelská aplikace potom umožňuje přímé porovnání automatických návrhů s ruční kontrolou anotátory. Automatické návrhy implicitně nejsou zobrazené, ale anotátor si je může nechat zobrazit po dokončení vlastních anotací.

Aktuální model založený na metodě Random Forest jsme vyhodnotili jako nejlepší z testování 11 technik strojového učení na vytvořené datové sadě. Výsledná klasifikace navrhování hodnot atributů přiřazuje pro každý atribut s omezeným množstvím hodnot (např. ano/ne/nevím) každé této hodnotě pravděpodobnost. Důležitou vlastností vybrané metody je schopnost nabídnout "vysvětlení" navrhované hodnoty poukázáním na úroveň důležitosti vybraných slov v textu (individuálně pro každý atribut). Současná prototypová implementace detekčního nástroje dosahuje vážené F1 míry úspěšnosti v rozsahu 65-85% pro jednotlivé atributy - např. démonizace je snadněji rozpoznatelná s 85%, ale argumentace pouze s 65%.

V roce 2018 proběhly další anotace dat. Tyto anotace byly přidány do databáze článků, ve které je aktuálně 9694 plně anotovaných článků. Z toho 2585 je anotováno více anotátory, u těchto budeme zkoumat mezianotátorskou shodu, což nám umožní určit "lidskou" složitost stanovení hodnoty pro každý atribut.

Plán na rok 2019

V posledním roce se zaměříme na rozšiřování sady rysů pro trénování modelů automatických návrhů anotací. Očekáváme potenciál zvýšení úspěšnosti detekce v průměru až o 10%. Výsledek plánujeme publikovat jako článek v odborném časopise. Kromě vyhodnocování na datech z českých propagandistických webů plánujeme pro srovnání automaticky získávat časová a textová data i z vybraných mainstreamových médií.

Last modified 5 years ago Last modified on Mar 8, 2019, 2:34:32 PM

Attachments (1)

Download all attachments as: .zip