Changes between Version 2 and Version 3 of ZpravaFI2018
- Timestamp:
- Mar 6, 2019, 11:42:53 PM (6 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
ZpravaFI2018
v2 v3 8 8 9 9 V roce 2018 jsme do editoru doplnili automatické návrhy. 10 Na základě manuálních anotací [DOPLNIT POCET] dokumentů jsme vytvořili 2 modely: jeden pro predikci hodnot jednotlivých atributů v novém neanotovaném dokumentu a jeden pro odhad částí textů, které souvisí s vybraným atributem. Na obrázku je vidět náhled automatických návrhů (které jsou určeny pro ruční kontrolu anotátory). 10 Na základě manuálních anotací [DOPLNIT POCET] dokumentů jsme vytvořili 2 modely: jeden pro predikci hodnot jednotlivých atributů v novém neanotovaném dokumentu a jeden pro odhad částí textů, které souvisí s vybraným atributem. Na obrázku je vidět náhled automatických návrhů (které jsou určeny pro ruční kontrolu anotátory). Tyto návrhy nejsou zobrazené defaultně, ale anotátor si je může nechat zobrazit. 11 11 12 12 13 13 [[Image(propaganda_scr.png, align=right, 50%)]] 14 14 15 Model [DOPLNIT INFO O METODĚ] pro navrhování hodnot atributů přiřazuje pro každý atribut s omezeným množstvím hodnot (např. ano/ne/nevím) každé této hodnotě pravděpodobnost. Na obrázku je znázorněna různou sytostí červené. Nejsytější znamená nejvyšší pravděpodobnost dané hodnoty a daného atributu. 16 17 Druhý model [DOPLNIT INFO O METODĚ] pro vybraný atribut, ke kterému jsou k dispozici anotované rozsahy v textech, přiřadí všem slovům z článku pravděpodobnost, která je opět zobrazena jako různá sytost červené. 18 19 V roce 2018 proběhly další anotace dat. Tyto anotace byly přidány do databáze článků, ve které je aktuálně [DOPLNIT] plně anotovaných článků. Z toho [DOPLNIT] je anotováno více anotátory, takže lze zkoumat mezianotátorskou shodu. 15 20 16 21 == Plán na rok 2019 == 22 23 [TADY VAŘÍM Z VODY] 24 25 Dále se zaměříme na vylepšování trénování modelů pro automatické návrhy anotací. V rámci své magisterské práce se student pokusí stáhnout co nejčistší data z českých propagandistických webů (pro srovnání budou zahrnuty i mainstreamová média) i s metadaty. Toto stahování bude probíhat pravidelně a bude plně automatizované; bude na něj navázané následné zpracování dat (čištění, jazyková analýza) a několik datových analýz s využitím nástrojů NLP centra.