wiki:ZpravaFI2017

Version 1 (modified by hales, 7 years ago) (diff)

--

TODO

Zpráva za tým FI, 2017

projekt GAMU Manipulativní techniky propagandy v době internetu (MUNI/G/0872/2016)

Zpráva za rok 2017

Bylo vyvinuto anotační rozhraní jako webová aplikace, dále editor. Ten sestává z frontendové části (responzivní vzhled pomocí knihovny Bootstrap) a backendové části (server pomocí knihovny Bootle.py). Na serveru se ukládají anotace jednotlivých anotátorů do databáze (SQLite). Editor umožňuje fulltextově vyhledávat mezi texty, případně upřesnit kritéria pomocí metadat. Jednotlivé texty lze po vybrání jednoduše anotovat. Metadata jsou rozdělena na úroveň dokumentovou (např. zda dokument obsahuje manipulativní video) a rozsahovou (např. citové zabarvení zmínek o konkrétních politicích). Podle zpětné vazby anotátorů byly implementovány prvky pro urychlení anotace. (DOPLNIT screenshot?)

Na základě původní metody byl vytvořen nový skript pro získávání odkazů na nejnovější články ze 4 sledovaných domén: cz.sputniknews.com, parlamentnilisty.cz, ac24.cz a svetkolemnas.info. Tyto odkazy pak byly dalším skriptem staženy, převedeny do jednoduchého textového formátu, ze kterého byl následně vytvořen korpus pomocí knihovny manatee. Tento korpus obsahuje přibližně 3 600 000 slov v 8 000 článcích. Z toho již v 5 800 článcích byla vyznačena metadata na dokumentové úrovni.

Plán na rok 2018

V další fázi bude do editoru přidána funkcionalita, která urychlí práci anotátorům. Zejména automatické předvyplňování rozsahových a dokumentových metadat. Bude také doplněno generování statistik pro výsledky vyhledávání a pro celý korpus na základě předlohy (DOPLNIT).

Anotace z listopadu 2017 budou použity pro strojové učení (polo-)automatického vyznačování metadat v nově stažených dokumentech. Bude vybrána vhodná technika (SVM, hloubkové neuronové sítě), která bude ověřena na předem připravených vyhodnocovacích datech. Strojové učení bude mít za úkol automaticky doplňovat metadata, která budou posléze schvalována a upravována anotátory. Techniky budou vyhodnoceny i metodou měření ušetřeného času při anotacích.

V rámci dalších pravidelných sběrů budou staženy články z domén a následně z nich vytvořen korpus textů určených pro anotaci.

Attachments (1)

Download all attachments as: .zip