Context Navigation

Changes between Version 1 and Version 2 of ZpravaFI2017

Timestamp:: Feb 21, 2018, 1:57:18 PM (7 years ago)
Author:: hales
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

ZpravaFI2017

-                      v1
+                      v2
 == Zpráva za rok 2017 ==
+Bylo vyvinuto anotační rozhraní jako webová aplikace, dále editor. Ten sestává z frontendové části (responzivní vzhled pomocí knihovny Bootstrap) a backendové části (server pomocí knihovny Bootle.py). Na serveru se ukládají anotace jednotlivých anotátorů do databáze (SQLite).
+Editor umožňuje fulltextově vyhledávat mezi texty, případně upřesnit kritéria pomocí metadat. Jednotlivé texty lze po vybrání jednoduše anotovat. Metadata jsou rozdělena na úroveň dokumentovou (např. zda dokument obsahuje manipulativní video) a rozsahovou (např. citové zabarvení zmínek o konkrétních politicích). Podle zpětné vazby anotátorů byly implementovány prvky pro urychlení anotace.
+(DOPLNIT screenshot?)
+Tým FI MU se v rámci projektu zaměřuje na podklady a vývoj automatizovaného nástroje rozpoznání prvků propagandy v novinových textech. V roce 2017 jsme se zaměřili na tvorbu specializovaného nástroje pro anotace novinových textů.  Navrhli a implementovali jsme anotační rozhraní ve formě webové aplikace, dále editor. Technicky se aplikace člení na uživatelské rozhraní (s přizpůsobitelným responzivním chováním pomocí knihovny Bootstrap) a serverové části (server pomocí knihovny Bottle.py). Na serveru se zpracovávají data článků v podobě korpusu a k článkům se ukládají anotace jednotlivých anotátorů do databáze SQLite.
+Na základě původní metody byl vytvořen nový skript pro získávání odkazů na nejnovější články ze 4 sledovaných domén: cz.sputniknews.com, parlamentnilisty.cz, ac24.cz a svetkolemnas.info. Tyto odkazy pak byly dalším skriptem staženy, převedeny do jednoduchého textového formátu, ze kterého byl následně vytvořen korpus pomocí knihovny manatee. Tento korpus obsahuje přibližně 3 600 000 slov v 8 000 článcích. Z toho již v 5 800 článcích byla vyznačena metadata na dokumentové úrovni.
+[[Image(propaganda_scr.png)]]
+Editor umožňuje fulltextově vyhledávat v textech článků, případně upřesnit kritéria pomocí metadat. V rámci jednotlivých článků anotátoři vyznačují jednak hodnoty zvolených metadat (jako jsou např. vina, nálepkování, argumentace, démonizace), a jednak ke každému pozitivnímu nálezu odkazují konkrétní části textu (tzv. rozsahy) jako doklady metadat. Metadata jsou rozdělena na úroveň dokumentovou (např. zda dokument obsahuje manipulativní video) a rozsahovou (např. citové zabarvení zmínek o konkrétních politicích). Podle zpětné vazby anotátorů byly implementovány prvky pro urychlení anotace.
+Výběr článků pro anotace vycházel z předchozí metodiky připravené týmem FSS. Na základě původní metody byl vytvořen nový nástroj pro automatické získávání odkazů na nejnovější články ze 4 sledovaných domén: `cz.sputniknews.com`, `parlamentnilisty.cz`, `ac24.cz` a `svetkolemnas.info`. Tyto odkazy pak byly automatizovaně staženy, převedeny do základního textového formátu pro anotace a následně byl vytvořen korpus pomocí knihovny Manatee korpusového manažeru vyvíjeného na FI MU. Tento korpus obsahuje přibližně 3 600 000 slov v 8 000 článcích. Z toho již v 5 800 článcích byla vyznačena metadata na dokumentové úrovni.
 == Plán na rok 2018 ==
 V další fázi bude do editoru přidána funkcionalita, která urychlí práci anotátorům. Zejména automatické předvyplňování rozsahových a dokumentových metadat.
 Bude také doplněno generování statistik pro výsledky vyhledávání a pro celý korpus na základě předlohy (DOPLNIT).
+V dalším roce bude do editoru přidána funkcionalita, která bude tvořit základ automatické detekce, i když v první fázi bude primárně ověřována jako urychlení práce anotátorů, jako je automatické předvyplňování rozsahových a dokumentových metadat.
+Do nástroje budou také doplněny statistiky a grafy na základě pokročilého vyhledávání, které umožní výzkumy propagandistických prvků podle kombinace jednotlivých faktorů (zdroj, závislosti metadat apod.).
 Anotace z listopadu 2017 budou použity pro strojové učení (polo-)automatického vyznačování metadat v nově stažených dokumentech. Bude vybrána vhodná technika (SVM, hloubkové neuronové sítě), která bude ověřena na předem připravených vyhodnocovacích datech.
+Anotace z poslední sady (listopad 2017) obsahující i příslušné metadatové odkazy do textů budou použity pro experimenty a vyhodnocení technik strojového učení pro (polo-)automatické vyznačování metadat v nově stažených dokumentech. Bude vybrána vhodná technika (SVM, hloubkové neuronové sítě), která bude ověřena na předem připravených vyhodnocovacích datech.
 Strojové učení bude mít za úkol automaticky doplňovat metadata, která budou posléze schvalována a upravována anotátory.
 Techniky budou vyhodnoceny i metodou měření ušetřeného času při anotacích.
 V rámci dalších pravidelných sběrů budou staženy články z domén a následně z nich vytvořen korpus textů určených pro anotaci.
+V rámci dalších pravidelných sběrů budou staženy články ze stanovených domén a následně z nich rozšířen korpus textů určených pro anotaci.