Changes between Version 3 and Version 4 of ZpravaFI2018
- Timestamp:
- Mar 7, 2019, 5:42:24 PM (6 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
ZpravaFI2018
v3 v4 7 7 == Zpráva za rok 2018 == 8 8 9 V roce 2018 jsme do editoru doplnili automatické návrhy .10 Na základě manuálních anotací [DOPLNIT POCET] dokumentů jsme vytvořili 2 modely: jeden pro predikci hodnot jednotlivých atributů v novém neanotovaném dokumentu a jeden pro odhad částí textů, které souvisí s vybraným atributem. Na obrázku je vidět náhled automatických návrhů (které jsou určeny pro ruční kontrolu anotátory). Tyto návrhy nejsou zobrazené defaultně, ale anotátor si je může nechat zobrazit.9 V roce 2018 jsme do editoru doplnili automatické návrhy detekce manipulativních technik v textu. 10 Na základě manuálních anotací 7494 dokumentů jsme vytvořili 2 modely: jeden pro predikci hodnot jednotlivých atributů v novém neanotovaném dokumentu a jeden pro odhad částí textů, které souvisí s vybraným atributem. Uživatelská aplikace potom umožňuje přímé porovnání automatických návrhů s ruční kontrolou anotátory. Automatické návrhy implicitně nejsou zobrazené, ale anotátor si je může nechat zobrazit až po dokončení vlastních anotací. 11 11 12 12 13 13 [[Image(propaganda_scr.png, align=right, 50%)]] 14 14 15 Model [DOPLNIT INFO O METODĚ] pro navrhování hodnot atributů přiřazuje pro každý atribut s omezeným množstvím hodnot (např. ano/ne/nevím) každé této hodnotě pravděpodobnost. Na obrázku je znázorněna různou sytostí červené. Nejsytější znamená nejvyšší pravděpodobnost dané hodnoty a daného atributu. 16 17 Druhý model [DOPLNIT INFO O METODĚ] pro vybraný atribut, ke kterému jsou k dispozici anotované rozsahy v textech, přiřadí všem slovům z článku pravděpodobnost, která je opět zobrazena jako různá sytost červené. 15 Aktuální model založený na metodě Random Forest jsme vyhodnotili jako nejlepší z testování 11 technik strojového učení na vytvořené datové sadě. Výsledná klasifikace navrhování hodnot atributů přiřazuje pro každý atribut s omezeným množstvím hodnot (např. ano/ne/nevím) každé této hodnotě pravděpodobnost. Důležitou vlastností vybrané metody je schopnost nabídnout "vysvětlení" navrhované hodnoty poukázáním na úroveň důležitosti vybraných slov v textu (individuálně pro každý atribut). Současná prototypová implementace detekčního nástroje dosahuje vážené F1 míry úspěšnosti v rozsahu 65-85% pro jednotlivé atributy - např. ''démonizace'' je snadněji rozpoznatelná s 85%, ale ''argumentace'' pouze s 65%. 18 16 19 17 V roce 2018 proběhly další anotace dat. Tyto anotace byly přidány do databáze článků, ve které je aktuálně [DOPLNIT] plně anotovaných článků. Z toho [DOPLNIT] je anotováno více anotátory, takže lze zkoumat mezianotátorskou shodu. … … 21 19 == Plán na rok 2019 == 22 20 23 [TADY VAŘÍM Z VODY]24 25 21 Dále se zaměříme na vylepšování trénování modelů pro automatické návrhy anotací. V rámci své magisterské práce se student pokusí stáhnout co nejčistší data z českých propagandistických webů (pro srovnání budou zahrnuty i mainstreamová média) i s metadaty. Toto stahování bude probíhat pravidelně a bude plně automatizované; bude na něj navázané následné zpracování dat (čištění, jazyková analýza) a několik datových analýz s využitím nástrojů NLP centra.