Changes between Initial Version and Version 1 of ZpravaFI2017


Ignore:
Timestamp:
Feb 19, 2018, 9:09:14 AM (7 years ago)
Author:
hales
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • ZpravaFI2017

    v1 v1  
     1= TODO =
     2= Zpráva za tým FI, 2017 =
     3projekt GAMU Manipulativní techniky propagandy v době internetu (MUNI/G/0872/2016)
     4
     5== Zpráva za rok 2017 ==
     6
     7Bylo vyvinuto anotační rozhraní jako webová aplikace, dále editor. Ten sestává z frontendové části (responzivní vzhled pomocí knihovny Bootstrap) a backendové části (server pomocí knihovny Bootle.py). Na serveru se ukládají anotace jednotlivých anotátorů do databáze (SQLite).
     8Editor umožňuje fulltextově vyhledávat mezi texty, případně upřesnit kritéria pomocí metadat. Jednotlivé texty lze po vybrání jednoduše anotovat. Metadata jsou rozdělena na úroveň dokumentovou (např. zda dokument obsahuje manipulativní video) a rozsahovou (např. citové zabarvení zmínek o konkrétních politicích). Podle zpětné vazby anotátorů byly implementovány prvky pro urychlení anotace.
     9(DOPLNIT screenshot?)
     10
     11Na základě původní metody byl vytvořen nový skript pro získávání odkazů na nejnovější články ze 4 sledovaných domén: cz.sputniknews.com, parlamentnilisty.cz, ac24.cz a svetkolemnas.info. Tyto odkazy pak byly dalším skriptem staženy, převedeny do jednoduchého textového formátu, ze kterého byl následně vytvořen korpus pomocí knihovny manatee. Tento korpus obsahuje přibližně 3 600 000 slov v 8 000 článcích. Z toho již v 5 800 článcích byla vyznačena metadata na dokumentové úrovni.
     12
     13== Plán na rok 2018 ==
     14
     15V další fázi bude do editoru přidána funkcionalita, která urychlí práci anotátorům. Zejména automatické předvyplňování rozsahových a dokumentových metadat.
     16Bude také doplněno generování statistik pro výsledky vyhledávání a pro celý korpus na základě předlohy (DOPLNIT).
     17
     18Anotace z listopadu 2017 budou použity pro strojové učení (polo-)automatického vyznačování metadat v nově stažených dokumentech. Bude vybrána vhodná technika (SVM, hloubkové neuronové sítě), která bude ověřena na předem připravených vyhodnocovacích datech.
     19Strojové učení bude mít za úkol automaticky doplňovat metadata, která budou posléze schvalována a upravována anotátory.
     20Techniky budou vyhodnoceny i metodou měření ušetřeného času při anotacích.
     21
     22V rámci dalších pravidelných sběrů budou staženy články z domén a následně z nich vytvořen korpus textů určených pro anotaci.