Changes between Version 1 and Version 2 of ZpravaFI2017


Ignore:
Timestamp:
Feb 21, 2018, 1:57:18 PM (7 years ago)
Author:
hales
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • ZpravaFI2017

    v1 v2  
    55== Zpráva za rok 2017 ==
    66
    7 Bylo vyvinuto anotační rozhraní jako webová aplikace, dále editor. Ten sestává z frontendové části (responzivní vzhled pomocí knihovny Bootstrap) a backendové části (server pomocí knihovny Bootle.py). Na serveru se ukládají anotace jednotlivých anotátorů do databáze (SQLite).
    8 Editor umožňuje fulltextově vyhledávat mezi texty, případně upřesnit kritéria pomocí metadat. Jednotlivé texty lze po vybrání jednoduše anotovat. Metadata jsou rozdělena na úroveň dokumentovou (např. zda dokument obsahuje manipulativní video) a rozsahovou (např. citové zabarvení zmínek o konkrétních politicích). Podle zpětné vazby anotátorů byly implementovány prvky pro urychlení anotace.
    9 (DOPLNIT screenshot?)
     7Tým FI MU se v rámci projektu zaměřuje na podklady a vývoj automatizovaného nástroje rozpoznání prvků propagandy v novinových textech. V roce 2017 jsme se zaměřili na tvorbu specializovaného nástroje pro anotace novinových textů.  Navrhli a implementovali jsme anotační rozhraní ve formě webové aplikace, dále editor. Technicky se aplikace člení na uživatelské rozhraní (s přizpůsobitelným responzivním chováním pomocí knihovny Bootstrap) a serverové části (server pomocí knihovny Bottle.py). Na serveru se zpracovávají data článků v podobě korpusu a k článkům se ukládají anotace jednotlivých anotátorů do databáze SQLite.
    108
    11 Na základě původní metody byl vytvořen nový skript pro získávání odkazů na nejnovější články ze 4 sledovaných domén: cz.sputniknews.com, parlamentnilisty.cz, ac24.cz a svetkolemnas.info. Tyto odkazy pak byly dalším skriptem staženy, převedeny do jednoduchého textového formátu, ze kterého byl následně vytvořen korpus pomocí knihovny manatee. Tento korpus obsahuje přibližně 3 600 000 slov v 8 000 článcích. Z toho již v 5 800 článcích byla vyznačena metadata na dokumentové úrovni.
     9[[Image(propaganda_scr.png)]]
     10Editor umožňuje fulltextově vyhledávat v textech článků, případně upřesnit kritéria pomocí metadat. V rámci jednotlivých článků anotátoři vyznačují jednak hodnoty zvolených metadat (jako jsou např. vina, nálepkování, argumentace, démonizace), a jednak ke každému pozitivnímu nálezu odkazují konkrétní části textu (tzv. rozsahy) jako doklady metadat. Metadata jsou rozdělena na úroveň dokumentovou (např. zda dokument obsahuje manipulativní video) a rozsahovou (např. citové zabarvení zmínek o konkrétních politicích). Podle zpětné vazby anotátorů byly implementovány prvky pro urychlení anotace.
     11
     12Výběr článků pro anotace vycházel z předchozí metodiky připravené týmem FSS. Na základě původní metody byl vytvořen nový nástroj pro automatické získávání odkazů na nejnovější články ze 4 sledovaných domén: `cz.sputniknews.com`, `parlamentnilisty.cz`, `ac24.cz` a `svetkolemnas.info`. Tyto odkazy pak byly automatizovaně staženy, převedeny do základního textového formátu pro anotace a následně byl vytvořen korpus pomocí knihovny Manatee korpusového manažeru vyvíjeného na FI MU. Tento korpus obsahuje přibližně 3 600 000 slov v 8 000 článcích. Z toho již v 5 800 článcích byla vyznačena metadata na dokumentové úrovni.
    1213
    1314== Plán na rok 2018 ==
    1415
    15 V další fázi bude do editoru přidána funkcionalita, která urychlí práci anotátorům. Zejména automatické předvyplňování rozsahových a dokumentových metadat.
    16 Bude také doplněno generování statistik pro výsledky vyhledávání a pro celý korpus na základě předlohy (DOPLNIT).
     16V dalším roce bude do editoru přidána funkcionalita, která bude tvořit základ automatické detekce, i když v první fázi bude primárně ověřována jako urychlení práce anotátorů, jako je automatické předvyplňování rozsahových a dokumentových metadat.
     17Do nástroje budou také doplněny statistiky a grafy na základě pokročilého vyhledávání, které umožní výzkumy propagandistických prvků podle kombinace jednotlivých faktorů (zdroj, závislosti metadat apod.).
    1718
    18 Anotace z listopadu 2017 budou použity pro strojové učení (polo-)automatického vyznačování metadat v nově stažených dokumentech. Bude vybrána vhodná technika (SVM, hloubkové neuronové sítě), která bude ověřena na předem připravených vyhodnocovacích datech.
     19Anotace z poslední sady (listopad 2017) obsahující i příslušné metadatové odkazy do textů budou použity pro experimenty a vyhodnocení technik strojového učení pro (polo-)automatické vyznačování metadat v nově stažených dokumentech. Bude vybrána vhodná technika (SVM, hloubkové neuronové sítě), která bude ověřena na předem připravených vyhodnocovacích datech.
    1920Strojové učení bude mít za úkol automaticky doplňovat metadata, která budou posléze schvalována a upravována anotátory.
    2021Techniky budou vyhodnoceny i metodou měření ušetřeného času při anotacích.
    2122
    22 V rámci dalších pravidelných sběrů budou staženy články z domén a následně z nich vytvořen korpus textů určených pro anotaci.
     23V rámci dalších pravidelných sběrů budou staženy články ze stanovených domén a následně z nich rozšířen korpus textů určených pro anotaci.