wiki:ZpravaFI2017

Projekt GAMU Manipulativní techniky propagandy v době internetu

MUNI/G/0872/2016

Zpráva za tým FI, 2017

Zpráva za rok 2017

Tým FI MU se v rámci projektu zaměřuje na podklady a vývoj automatizovaného nástroje rozpoznání prvků propagandy v novinových textech. V roce 2017 jsme se zaměřili na tvorbu specializovaného nástroje pro anotace novinových textů. Navrhli a implementovali jsme anotační rozhraní ve formě webové aplikace, dále editor. Technicky se aplikace člení na uživatelské rozhraní (s přizpůsobitelným responzivním chováním pomocí knihovny Bootstrap) a serverové části (server pomocí knihovny Bottle.py). Na serveru se zpracovávají data článků v podobě korpusu a k článkům se ukládají anotace jednotlivých anotátorů do databáze SQLite.

Editor umožňuje fulltextově vyhledávat v textech článků, případně upřesnit kritéria pomocí metadat. V rámci jednotlivých článků anotátoři vyznačují jednak hodnoty zvolených metadat (jako jsou např. vina, nálepkování, argumentace, démonizace), a jednak ke každému pozitivnímu nálezu odkazují konkrétní části textu (tzv. rozsahy) jako doklady metadat. Metadata jsou rozdělena na úroveň dokumentovou (např. zda dokument obsahuje manipulativní video) a rozsahovou (např. citové zabarvení zmínek o konkrétních politicích). Podle zpětné vazby anotátorů byly implementovány prvky pro urychlení anotace.

Výběr článků pro anotace vycházel z předchozí metodiky připravené týmem FSS. Na základě původní metody byl vytvořen nový nástroj pro automatické získávání odkazů na nejnovější články ze 4 sledovaných domén: cz.sputniknews.com, parlamentnilisty.cz, ac24.cz a svetkolemnas.info. Tyto odkazy pak byly automatizovaně staženy, převedeny do základního textového formátu pro anotace a následně byl vytvořen korpus pomocí knihovny Manatee korpusového manažeru vyvíjeného na FI MU. Tento korpus obsahuje přibližně 3 600 000 slov v 8 000 článcích. Z toho již v 5 800 článcích byla vyznačena metadata na dokumentové úrovni.

Plán na rok 2018

V dalším roce bude do editoru přidána funkcionalita, která bude tvořit základ automatické detekce, i když v první fázi bude primárně ověřována jako urychlení práce anotátorů, jako je automatické předvyplňování rozsahových a dokumentových metadat. Do nástroje budou také doplněny statistiky a grafy na základě pokročilého vyhledávání, které umožní výzkumy propagandistických prvků podle kombinace jednotlivých faktorů (zdroj, závislosti metadat apod.).

Anotace z poslední sady (listopad 2017) obsahující i příslušné metadatové odkazy do textů budou použity pro experimenty a vyhodnocení technik strojového učení pro (polo-)automatické vyznačování metadat v nově stažených dokumentech. Bude vybrána vhodná technika (SVM, hloubkové neuronové sítě), která bude ověřena na předem připravených vyhodnocovacích datech. Strojové učení bude mít za úkol automaticky doplňovat metadata, která budou posléze schvalována a upravována anotátory. Techniky budou vyhodnoceny i metodou měření ušetřeného času při anotacích.

V rámci dalších pravidelných sběrů budou staženy články ze stanovených domén a následně z nich rozšířen korpus textů určených pro anotaci.

Last modified 6 years ago Last modified on Feb 21, 2018, 2:01:42 PM

Attachments (1)

Download all attachments as: .zip