Changes between Version 5 and Version 6 of ZpravaFI2018
- Timestamp:
- Mar 8, 2019, 9:57:12 AM (6 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
ZpravaFI2018
v5 v6 1 1 = Projekt GAMU Manipulativní techniky propagandy v době internetu = 2 2 MUNI/G/0872/2016 3 4 [[Image(propaganda_scr.png, align=right, 50%)]] 3 5 4 6 Zpráva za tým FI, 2018 … … 7 9 == Zpráva za rok 2018 == 8 10 9 V roce 2018 jsme do editoru doplnili automatické návrhy detekce manipulativních technik v textu. 10 Na základě manuálních anotací 7494 dokumentů jsme vytvořili 2 modely: jeden pro predikci hodnot jednotlivých atributů v novém neanotovaném dokumentu a jeden pro odhad částí textů, které souvisí s vybraným atributem. Uživatelská aplikace potom umožňuje přímé porovnání automatických návrhů s ruční kontrolou anotátory. Automatické návrhy implicitně nejsou zobrazené, ale anotátor si je může nechat zobrazit až po dokončení vlastních anotací. 11 12 13 [[Image(propaganda_scr.png, align=right, 50%)]] 11 V roce 2018 jsme do vyvíjeného nástroje pro expertní anotaci článků na výskyt propagandy doplnili automatické návrhy detekce manipulativních technik v textu. Na základě anotací 7494 dokumentů jsme vytvořili 2 modely: jeden pro predikci hodnot jednotlivých atributů v novém neanotovaném dokumentu a jeden pro odhad částí textů, které souvisí s vybraným atributem. Uživatelská aplikace potom umožňuje přímé porovnání automatických návrhů s ruční kontrolou anotátory. Automatické návrhy implicitně nejsou zobrazené, ale anotátor si je může nechat zobrazit až po dokončení vlastních anotací. 14 12 15 13 Aktuální model založený na metodě Random Forest jsme vyhodnotili jako nejlepší z testování 11 technik strojového učení na vytvořené datové sadě. Výsledná klasifikace navrhování hodnot atributů přiřazuje pro každý atribut s omezeným množstvím hodnot (např. ano/ne/nevím) každé této hodnotě pravděpodobnost. Důležitou vlastností vybrané metody je schopnost nabídnout "vysvětlení" navrhované hodnoty poukázáním na úroveň důležitosti vybraných slov v textu (individuálně pro každý atribut). Současná prototypová implementace detekčního nástroje dosahuje vážené F1 míry úspěšnosti v rozsahu 65-85% pro jednotlivé atributy - např. ''démonizace'' je snadněji rozpoznatelná s 85%, ale ''argumentace'' pouze s 65%. 16 14 17 V roce 2018 proběhly další anotace dat. Tyto anotace byly přidány do databáze článků, ve které je aktuálně 9694 plně anotovaných článků. Z toho 2585 je anotováno více anotátory, takže lze zkoumat mezianotátorskou shodu.15 V roce 2018 proběhly další anotace dat. Tyto anotace byly přidány do databáze článků, ve které je aktuálně 9694 plně anotovaných článků. Z toho 2585 je anotováno více anotátory, u těchto budeme zkoumat mezianotátorskou shodu, což nám umožní určit "lidskou" složitost stanovení hodnoty pro každý atribut. 18 16 19 17 == Plán na rok 2019 == 20 18 21 Dále se zaměříme na vylepšování trénování modelů pro automatické návrhy anotací. V rámci své magisterské práce se student pokusí stáhnout co nejčistší data z českých propagandistických webů (pro srovnání budou zahrnuty i mainstreamová média) i s metadaty. Toto stahování bude probíhat pravidelně a bude plně automatizované; bude na něj navázané následné zpracování dat (čištění, jazyková analýza) a několik datových analýz s využitím nástrojů NLP centra. 19 Dále se zaměříme na vylepšování rozšiřování sady rysů pro trénování modelů automatických návrhů anotací. Očekáváme vylepšení úspěšnosti detekce v průměru až o 10%. Výsledek plánujeme publikovat jako článek v odborném časopise. Kromě vyhodnocování na datech z českých propagandistických webů budeme pro srovnání automaticky získávat data i z vybraných mainstreamových médií. Vyvíjíme nástroj pro automatizaci pravidelného 20 21 ahování bude probíhat pravidelně a bude plně automatizované; bude na něj navázané následné zpracování dat (čištění, jazyková analýza) a několik datových analýz s využitím nástrojů NLP centra.