| 1 | = TODO = |
| 2 | = Zpráva za tým FI, 2017 = |
| 3 | projekt GAMU Manipulativní techniky propagandy v době internetu (MUNI/G/0872/2016) |
| 4 | |
| 5 | == Zpráva za rok 2017 == |
| 6 | |
| 7 | Bylo vyvinuto anotační rozhraní jako webová aplikace, dále editor. Ten sestává z frontendové části (responzivní vzhled pomocí knihovny Bootstrap) a backendové části (server pomocí knihovny Bootle.py). Na serveru se ukládají anotace jednotlivých anotátorů do databáze (SQLite). |
| 8 | Editor umožňuje fulltextově vyhledávat mezi texty, případně upřesnit kritéria pomocí metadat. Jednotlivé texty lze po vybrání jednoduše anotovat. Metadata jsou rozdělena na úroveň dokumentovou (např. zda dokument obsahuje manipulativní video) a rozsahovou (např. citové zabarvení zmínek o konkrétních politicích). Podle zpětné vazby anotátorů byly implementovány prvky pro urychlení anotace. |
| 9 | (DOPLNIT screenshot?) |
| 10 | |
| 11 | Na základě původní metody byl vytvořen nový skript pro získávání odkazů na nejnovější články ze 4 sledovaných domén: cz.sputniknews.com, parlamentnilisty.cz, ac24.cz a svetkolemnas.info. Tyto odkazy pak byly dalším skriptem staženy, převedeny do jednoduchého textového formátu, ze kterého byl následně vytvořen korpus pomocí knihovny manatee. Tento korpus obsahuje přibližně 3 600 000 slov v 8 000 článcích. Z toho již v 5 800 článcích byla vyznačena metadata na dokumentové úrovni. |
| 12 | |
| 13 | == Plán na rok 2018 == |
| 14 | |
| 15 | V další fázi bude do editoru přidána funkcionalita, která urychlí práci anotátorům. Zejména automatické předvyplňování rozsahových a dokumentových metadat. |
| 16 | Bude také doplněno generování statistik pro výsledky vyhledávání a pro celý korpus na základě předlohy (DOPLNIT). |
| 17 | |
| 18 | Anotace z listopadu 2017 budou použity pro strojové učení (polo-)automatického vyznačování metadat v nově stažených dokumentech. Bude vybrána vhodná technika (SVM, hloubkové neuronové sítě), která bude ověřena na předem připravených vyhodnocovacích datech. |
| 19 | Strojové učení bude mít za úkol automaticky doplňovat metadata, která budou posléze schvalována a upravována anotátory. |
| 20 | Techniky budou vyhodnoceny i metodou měření ušetřeného času při anotacích. |
| 21 | |
| 22 | V rámci dalších pravidelných sběrů budou staženy články z domén a následně z nich vytvořen korpus textů určených pro anotaci. |