= Vyhodnocení výstupu GPT-2 abstraktivní sumarizace = == Anotační manuál == Cílem je najít a klasifikovat chyby ve strojově generovaných sumarizacích českých novinových článků. Tedy nejde o hodnocení kvality sumarizace ve smyslu výstižnosti, jde nám jen o mechanismus a charakter případné chyby. === Technické předpoklady === Anotace se provádí pomocí dotazníkové platformy Qualtrics (možné na počítači i mobilním zařízení). Zadání se skládá z částí Input Text, Gold a Generated. Hodnotíme pouze Generated sumarizaci ve vztahu k Input Text. Gold sumarizace nám může poskytnout určitý kontext pro lepší pochopení, ale musíme si uvědomit, že se na generování Generated nepodílela, tudíž nesmí zasahovat do hodnocení. Tabulka odpovědí o Abstraktu je přiřazen seznam o třech prvcích (3 věty v každém abstraktu) Větám je přiřazena dvojice `(A, (B, C))` kde: - `A` = typ chyby v `Mapping` {`1`, ..., `5`} - `B` = kategorie chyby v `Malformed` {`1`, `2`} - `C` = typ chyby v `Malformed` {`a`, `b`, `c`} - použití `None` místo seznamu v případě, že je v sumarizaci méně než tři věty (zřídka) - k nové přidanému `Repetitive` vyjádření pak přiřadit: `(5, None)` - žádná další chyba by tam totiž z definice neměla být - kromě `(5, None)` vždy přiřadit jak `Mapping`, tak `Misleading` - pokud je věta celá v pořádku, označujeme ji `"OK"` === Obecné rady === * === Vysvětlení hodnot anotace === `Mapping`: - pomáhá odhalit PŘÍČINU chyby - povrchová hladina - jak sumarizátor používá slova a věty k vytvoření chyby v abstraktu - hodnoty: 1. `Omission`: zkopírování věty/fráze, ale vynechání slova/fráze 2. `Wrong combination`: kopírování části z více různých vět a jejich chybová kombinace 3. `Fabrication`: přidání jednoho nebo více nových slov, které způsobí chybu 4. `Lack of rewriting`: chybné přepsání vět (např. nedostatečný kontext, chybné nahrazení referenčních výrazu nepůvodním objektem) 5. `Repetitive` (přidáno): Repetitivní vyjádření, jinak všechno ok `Meaning`: - EFEKT chyby (`Malformed` má přednost před `Misleading`, je méně častá) - kategorie a typy: 1. `Malformed`: čtenář se zaráží nad kvalitou, ale věta není zavádějící/lživá a. `Ungrammatical`: syntakticky poškozena/nepřirozená věta, mluvčí by ji takto neřekl b. `Semantically implausible`: sémantický nesmyslná/nepřirozená věta c. `No meaning can be inferred`: - gramaticky správná věta, které není možné přiřadit význam - většinou spojené s `Lack of rewriting` - chybí kontext a tím věta ztrácí význam 2. `Misleading`: můžou navodit nesprávné přesvědčení, nevyvoditelné z článku a. `Meaning changed, not entailed`: význam věty nelze vyvodit z článku (v kontextu sumarizace) b. `Meaning changed, contradiction`: význam věty má opačný nebo JINÝ význam než vyvozujeme z článku (v kontextu sumarizace) c. `Pragmatic meaning changed`: věta nabývá PRAGMATICKÉHO významu, který v článku není, nebo se PRAGMATICKÝ význam vytrácí (v kontextu sumarizace) např. byla použita obrazná věta a její význam se v sumarizaci změnil nebo vytratil (zní, že je myšlen doslovně) Praktické příklady (angl.) lze dohledat v [https://aclanthology.org/2020.eval4nlp-1.1.pdf článku]. ------------ = Pro inspiraci: Manipulativní techniky propagandy v době internetu = == Anotační manuál == [[Image(https://nlp.fi.muni.cz/trac/propaganda/raw-attachment/wiki/ZpravaFI2017/propaganda_scr.png,width=50%,right)]] Cílem je vyznačit v textech článků ze zpravodajských webových portálů přítomnost stanovených manipulativních technik. U každého článku je potřeba přiřadit hodnotu několika atributům, které jsou v pravé části obrazovky (doporučujeme pracovat na velkém monitoru). Atributy dělíme na 2 typy: ''atributy s rozsahem'' a ''dokumentové atributy''. K atributům s rozsahem je kromě určení jejich hodnoty navíc potřeba vyznačit odpovídající část/části textu. Rozsah se vybírá kliknutím na první a poslední slovo následované kliknutím na název atributu, ke kterému rozsah patří (pro výběr pouze jednoho slova na něj klikněte dvakrát). Nevyplněný rozsah se indikuje červenou ikonkou `<>` u příslušného atributu. Při každé akci se zobrazí nahoře v okně hláška o úspěšném uložení údajů. {{{#!comment Anotační editor je dostupný [https://nlp.fi.muni.cz/projekty/propaganda/edit zde]. Před vlastním anotováním se musíte v aplikaci nejprve přihlásit svým loginem na FI. }}} === Technické předpoklady === Aplikace je vyvíjena a testována s webovým prohlížečem **Google Chromium**. V jiných prohlížečích může fungovat také, ale je možné, že některé interaktivní funkce nebudou korektní. Pro jednoduchost prosím použijte Chromium. === Obecné rady === * Vyvarujte se nechávání hodnot `===NONE===` ve formuláři. * V případě potřeby je možné nahlédnout na originální článek, použijte odkaz z názvu článku. * Zpětnou vazbu (něco nefunguje, něco není jasné) posílejte na adresu: propaganda@aurora.fi.muni.cz * Po vyplnění všech atributů můžete přejít na další dokument odkazem vpravo nahoře. * Anotujte sami a nekonzultujte anotace s dalšími studenty. * Hodnocení anotací bude provedeno podle množství anotovaných článků a pečlivosti anotací včetně rozsahů === Vysvětlení atributů s rozsahem === * Místo (EU/ČR/USA/jiná země/nelze určit/Rusko) * jaká je hlavní lokace, které se článek týká * v textu vyznačte přímo frázi označující danou lokaci nebo, pokud tam lokace konkrétně není, tak tu část textu, podle které čtenář lokaci odhaduje, např. "'''Německá policie zasáhla''' proti ..." `->` Německo/jiná země * [https://cz.sputniknews.com/svet/201611014052058-Rusko-Japonsko-priprava-mirova-smlouva/ příklad Rusko] * Vina (ano/ne/nevím) * je v textu na někoho svalována vina? * v textu by mělo být zřetelné co je vina (co se vytýká) a kdo je viník (na koho se svaluje) * [http://www.svetkolemnas.info/novinky/zahranicni/4011-v-oklahome-mozna-bude-potrat-kvalifikovan-jako-vrazda-1-stupne příklad vina] * Nálepkování (ano/ne/nevím) * stereotypy, kolektivní vina * krátké jednoduché, úderné, výstižné, zapamatovatelné slovní spojení (ne celý odstavec), pejorativní * nejčastěji přídavná jména * může být i pozitivní * [http://www.svetkolemnas.info/novinky/zahranicni/4012-cizi-agenti-jsou-mezi-nami příklad nálepkování] * Argumentace (ano/ne/nevím) * pokud se jenom něco konstatuje (že se něco stalo), tak NE * pokud působí jako argument (logický nebo emotivní), tak ANO * logika může být zdánlivá a ne nutně úplná - jak to působí na čtenáře * [http://www.svetkolemnas.info/novinky/zahranicni/4019-obama-vlade-by-melo-byt-dovoleno-dostat-se-kdykoliv-do-jakehokoliv-mobilniho-telefonu příklad argumentace] * Obsažené emoce (rozhořčení/strach/nenávist/...) * jakou převažující emoci text ve čtenáři vyvolává? * emotivně zabarvené výrazy, nezáleží na obsahu, ale na emoci, kterou má text vyvolat * [http://www.svetkolemnas.info/novinky/zahranicni/4022-rusti-chlapci-v-nemecku-se-s-drzymi-migranty-nemazlili-takhle-necekane-to-dopadlo příklad emoce (rozhořčení)] * [http://www.svetkolemnas.info/novinky/domaci/4023-pozor-je-vydavatel-britskych-listu-jan-culik-je-udavac-prevleceny-za-novinare příklad emoce (nenávist)] * [http://www.svetkolemnas.info/novinky/zahranicni/4034-vrcholny-dansky-imam-priznal-agendu-pro-muslimy-cilem-je-dobyt-evropu příklad emoce (strach)] * Démonizace * je nepřítel v textu démonizován? * musí být definovaný nepřítel, většinou velmi negativní * destrukce, negativní zájmy/cíle * emotivně velmi vyhrocené nálepkování * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad démonizace] * Relativizace * relativizuje se negativní konání Ruska/pozitivní zásluha Západu? * většinou použita pro zmírnění něčeho negativního * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad relativizace] * Strach * přesah do budoucna, apel na strach, nejistotu či ohrožení * např. zavírající se podniky, rušení soc. dávek * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad strach] * Fabulace * zveličování problémů, fámy, nepodložená tvrzení * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad fabulace] * Názor * obsahuje článek jasný osobní názor ''_autora_'' článku? * může mít i formu komentáře nebo sugestivně položené otázky v rozhovoru * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad (hejtman Martin Půta)] * Zdroj * je text/názor zaštítěn odkazem na jiný zdroj? * webové stránky, médium, dokumenty; i Facebook * [https://www.parlamentnilisty.cz/arena/rozhovory/-Kavarna-a-jeji-zahranicni-loutkovodici-nemohou-cekat-do-voleb-Musi-k-sesazeni-Zemana-pouzit-nedemokraticke-metody-odhaduje-vysokoskolsky-pedagog-461641 příklad zdroj (pořad ČT Máte slovo)] * Rusko * nemusíte vyplňovat (projeví se u Místo) * Odborník (ano/ne/nevím) * je text/názor zaštítěn odborníkem? * i zdánlivý (expert); musí být označen jménem, nikoli celá instituce * [https://www.parlamentnilisty.cz/arena/rozhovory/-Kavarna-a-jeji-zahranicni-loutkovodici-nemohou-cekat-do-voleb-Musi-k-sesazeni-Zemana-pouzit-nedemokraticke-metody-odhaduje-vysokoskolsky-pedagog-461641 příklad (pedagog)] * Politik N * označte v textu, předvyplní se automaticky * pokud se politik vyskytuje na více místech textu, je nejdůležitější vyznačení jeho plného jména (když v textu je). je možné označit i další výskyty (např. pouze zmínka o "prezidentovi", když z textu víme o kterém), ale kvůli časové náročnosti to není vyžadováno. * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad politik (Si Tin-Pching)] * Vyznění N (neutrální/negativní/pozitivní/velebící/nenávistné) * pokud jsou argumenty pro i proti => neutrální * [http://www.parlamentnilisty.cz/arena/monitor/-Donalde-preju-ti-to-vzkazuje-Ivana-Trump-Na-Vanoce-do-USA-leta-i-jeji-mama-ktera-zije-v-CR-Syn-vzpomina-na-dedu-Milose-462118 příklad vyznění (pozitivní)] === Atributy dokumentu === * Téma (migrační krize/domácí politika/...) * vyberte co se nejvíce hodí * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad téma (migrační krize)] * Žánr (zpravodajství/rozhovor/komentář) * zpravodajství: mezi normálními články, článek většinou má autora/redaktora * rozhovor obvykle obsahuje dialog (střídající se odstavce) * komentář: má vždy autora, slovo komentář v názvu * [http://www.parlamentnilisty.cz/arena/rozhovory/-Sedi-prase-na-Hrade-libuje-si-v-urade-Co-chcete-od-spolecnosti-ktera-tomu-tleska-Cechokanadan-Jirovec-ukazuje-v-zasadni-veci-na-Schwarzenberga-463944 příklad rozhovor] * Zaměření (zahraniční/domácí/nelze určit) * portály mají většinou zahraniční/domácí v URL * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad zaměření (zahraničí, viz URL)] * Celkové vyznění (neutrální/negativní/pozitivní) * [http://cz.sputniknews.com/svet/201611224173147-karjakin-porazka-carlsen-utkani-svetova-sachova-koruna příklad vyznění (neutrální)] * Obrázek (ano/ne/nevím) * je nutné nahlédnout do zdroje * obsahuje článek MANIPULATIVNÍ obrázek? * montáž * ANO pouze pokud má obrázek ovlivnit mínění; normální ilustrativní obrázky ignorujte * [http://www.svetkolemnas.info/novinky/zahady/4002-astronaut-willams-vyfotil-na-zemske-obezne-draze-neco-co-tam-nepatri příklad obrázek] * Video (ano/ne/nevím) * jako obrázek * Poznámka * nemusíte vyplňovat