= Vyhodnocení výstupu GPT-2 abstraktivní sumarizace = == Anotační manuál == Cílem je najít a klasifikovat chyby ve strojově generovaných sumarizacích českých novinových článků. Tedy nejde o hodnocení kvality sumarizace ve smyslu výstižnosti, jde nám jen o mechanismus a charakter případné chyby. === Technické předpoklady === Anotace se provádí pomocí dotazníkové platformy Qualtrics (možné na počítači i mobilním zařízení). Zadání se skládá z částí Input Text, Gold a Generated. Hodnotíme pouze Generated sumarizaci ve vztahu k Input Text. Gold sumarizace nám může poskytnout určitý kontext pro lepší pochopení, ale musíme si uvědomit, že se na generování Generated nepodílela, tudíž nesmí zasahovat do hodnocení. Tabulka odpovědí obsahuje čtyři sloupce a 1 nebo 3 řádky (podle toho, jestli jde o generování abstraktu nebo nadpisu). Řádky "Sentence1", "Sentence2", ... se týkají odpovídajících vět v sekci Generated označených znakem "•". ! V kazdém sloupci (Special cases, Mapping, Meaning) smí být maximálně jedno zaškrtlé políčko (např. OK nebo Repetitive nebo Sentence missing) ! ! Pro každou větu vyplníme buďto první sloupec (Special cases) NEBO ty zbylé (Mapping, Meaning)! (toto chování bohužel nelze nijak vynutit, proto si prosím dejte pozor, jinak nebude odpověď platná) === Obecné rady === * === Vysvětlení hodnot anotace === `Special cases`: - pokud určovat chybu nedává smysl - ! v případě, že vyplníme, musíme pro danou větu nechat ostatní sloupce prázdné 1. `OK`: ve větě jsme nenašli žádnou gramatickou ani faktickou chybu vzhledem k Input Text a zbytku Generated sumarizace. 2. `Repetitive`: věta se už v Generated sumarizaci vyskytla nebo měla některá z předchozích vět sumarizace zcela TOTOŽNÝ význam. Kromě repetice věta neobsahuje žádné faktické ani gramatické chyby. 3. `Sentence missing`: Generated sumarizace má chybný počet vět (např. abstrakt má jen dvě věty (•) => řádek pro Sentence3 je označen speciálním případem `Sentence missing`) `Mapping`: - pomáhá odhalit PŘÍČINU chyby - povrchová hladina - jak sumarizátor používá slova a věty k vytvoření chyby v abstraktu 1. `Omission`: zkopírování věty/fráze, ale vynechání slova/fráze - např.: - Input: (...) Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití v Premiere League (...) - Generated: Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje **v boji o přežití**. 2. `Wrong combination`: kopírování části z více různých vět a jejich chybová kombinace - např.: Input: (...) Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zmizí. Pokud hráč dívku mine, začne dívka ztrácet na váze, až nakonec zemře. (...) Generated: Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně **zemře**. 3. `Fabrication`: přidání jednoho nebo více nových slov, které způsobí chybu - např.: Input: (...) Mauresmo, která by měla v srpnu porodit, bude zhruba v osmém měsíci během Wimbledonu toto léto. (...) Generated: Mauresmo bude v osmém měsíci těhotenství **se svým prvním dítětem**. 4. `Lack of rewriting`: chybné přepsání vět (např. nedostatečný kontext, chybné nahrazení referenčních výrazu nepůvodním objektem) - např.: Input: (...) **Ukázalo se, že korporace může být skutečně stíhána jako osoba.** Je to praxe, kterou Nejvyšší soud prosazuje již více než století. (...) Generated: Je to praxe, kterou Nejvyšší soud prosazuje již více než století. `Meaning`: - EFEKT chyby - ! `Malformed` má přednost před `Misleading` (je méně častá) - kategorie a typy: 1. `Malformed`: čtenář se zaráží nad kvalitou, ale věta není zavádějící/lživá a. `Ungrammatical`: syntakticky poškozená/nepřirozená věta, mluvčí by ji takto neřekl b. `Semantically implausible`: sémanticky (významově) nesmyslná/nepřirozená věta c. `No meaning can be inferred`: - gramaticky správná věta, které není možné přiřadit význam - většinou spojené s `Lack of rewriting` - chybí kontext a tím věta ztrácí význam - např.: Input: (...) **Ukázalo se, že korporace může být skutečně stíhána jako osoba.** Je to praxe, kterou Nejvyšší soud prosazuje již více než století. (...) Generated: Je to praxe, kterou Nejvyšší soud prosazuje již více než století. 2. `Misleading`: můžou navodit nesprávné přesvědčení, nevyvoditelné z článku a. `Meaning changed, not entailed`: význam věty nelze vyvodit z článku (v kontextu sumarizace) - např.: Input: (...) Mauresmo, která by měla v srpnu porodit, bude zhruba v osmém měsíci během Wimbledonu toto léto. (...) Generated: Mauresmo bude v osmém měsíci těhotenství **se svým prvním dítětem**. b. `Meaning changed, contradiction`: význam věty má opačný nebo JINÝ význam než vyvozujeme z článku (v kontextu sumarizace) - např.: Input: (...) Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zmizí. Pokud hráč dívku mine, začne dívka ztrácet na váze, až nakonec zemře. (...) Generated: Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně **zemře**. c. `Pragmatic meaning changed`: věta nabývá PRAGMATICKÉHO významu, který v článku není, nebo se PRAGMATICKÝ význam vytrácí (v kontextu sumarizace) = např. byla použita obrazná věta a její význam se v sumarizaci změnil nebo vytratil (zní, že je myšlen doslovně) - např.: Input: (...) Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití v Premiere League. (...) Generated: Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje **v boji o přežití**. Praktické příklady (angl.) lze dohledat v [https://aclanthology.org/2020.eval4nlp-1.1.pdf článku]. ------------ = Pro inspiraci: Manipulativní techniky propagandy v době internetu = == Anotační manuál == [[Image(https://nlp.fi.muni.cz/trac/propaganda/raw-attachment/wiki/ZpravaFI2017/propaganda_scr.png,width=50%,right)]] Cílem je vyznačit v textech článků ze zpravodajských webových portálů přítomnost stanovených manipulativních technik. U každého článku je potřeba přiřadit hodnotu několika atributům, které jsou v pravé části obrazovky (doporučujeme pracovat na velkém monitoru). Atributy dělíme na 2 typy: ''atributy s rozsahem'' a ''dokumentové atributy''. K atributům s rozsahem je kromě určení jejich hodnoty navíc potřeba vyznačit odpovídající část/části textu. Rozsah se vybírá kliknutím na první a poslední slovo následované kliknutím na název atributu, ke kterému rozsah patří (pro výběr pouze jednoho slova na něj klikněte dvakrát). Nevyplněný rozsah se indikuje červenou ikonkou `<>` u příslušného atributu. Při každé akci se zobrazí nahoře v okně hláška o úspěšném uložení údajů. {{{#!comment Anotační editor je dostupný [https://nlp.fi.muni.cz/projekty/propaganda/edit zde]. Před vlastním anotováním se musíte v aplikaci nejprve přihlásit svým loginem na FI. }}} === Technické předpoklady === Aplikace je vyvíjena a testována s webovým prohlížečem **Google Chromium**. V jiných prohlížečích může fungovat také, ale je možné, že některé interaktivní funkce nebudou korektní. Pro jednoduchost prosím použijte Chromium. === Obecné rady === * Vyvarujte se nechávání hodnot `===NONE===` ve formuláři. * V případě potřeby je možné nahlédnout na originální článek, použijte odkaz z názvu článku. * Zpětnou vazbu (něco nefunguje, něco není jasné) posílejte na adresu: propaganda@aurora.fi.muni.cz * Po vyplnění všech atributů můžete přejít na další dokument odkazem vpravo nahoře. * Anotujte sami a nekonzultujte anotace s dalšími studenty. * Hodnocení anotací bude provedeno podle množství anotovaných článků a pečlivosti anotací včetně rozsahů === Vysvětlení atributů s rozsahem === * Místo (EU/ČR/USA/jiná země/nelze určit/Rusko) * jaká je hlavní lokace, které se článek týká * v textu vyznačte přímo frázi označující danou lokaci nebo, pokud tam lokace konkrétně není, tak tu část textu, podle které čtenář lokaci odhaduje, např. "'''Německá policie zasáhla''' proti ..." `->` Německo/jiná země * [https://cz.sputniknews.com/svet/201611014052058-Rusko-Japonsko-priprava-mirova-smlouva/ příklad Rusko] * Vina (ano/ne/nevím) * je v textu na někoho svalována vina? * v textu by mělo být zřetelné co je vina (co se vytýká) a kdo je viník (na koho se svaluje) * [http://www.svetkolemnas.info/novinky/zahranicni/4011-v-oklahome-mozna-bude-potrat-kvalifikovan-jako-vrazda-1-stupne příklad vina] * Nálepkování (ano/ne/nevím) * stereotypy, kolektivní vina * krátké jednoduché, úderné, výstižné, zapamatovatelné slovní spojení (ne celý odstavec), pejorativní * nejčastěji přídavná jména * může být i pozitivní * [http://www.svetkolemnas.info/novinky/zahranicni/4012-cizi-agenti-jsou-mezi-nami příklad nálepkování] * Argumentace (ano/ne/nevím) * pokud se jenom něco konstatuje (že se něco stalo), tak NE * pokud působí jako argument (logický nebo emotivní), tak ANO * logika může být zdánlivá a ne nutně úplná - jak to působí na čtenáře * [http://www.svetkolemnas.info/novinky/zahranicni/4019-obama-vlade-by-melo-byt-dovoleno-dostat-se-kdykoliv-do-jakehokoliv-mobilniho-telefonu příklad argumentace] * Obsažené emoce (rozhořčení/strach/nenávist/...) * jakou převažující emoci text ve čtenáři vyvolává? * emotivně zabarvené výrazy, nezáleží na obsahu, ale na emoci, kterou má text vyvolat * [http://www.svetkolemnas.info/novinky/zahranicni/4022-rusti-chlapci-v-nemecku-se-s-drzymi-migranty-nemazlili-takhle-necekane-to-dopadlo příklad emoce (rozhořčení)] * [http://www.svetkolemnas.info/novinky/domaci/4023-pozor-je-vydavatel-britskych-listu-jan-culik-je-udavac-prevleceny-za-novinare příklad emoce (nenávist)] * [http://www.svetkolemnas.info/novinky/zahranicni/4034-vrcholny-dansky-imam-priznal-agendu-pro-muslimy-cilem-je-dobyt-evropu příklad emoce (strach)] * Démonizace * je nepřítel v textu démonizován? * musí být definovaný nepřítel, většinou velmi negativní * destrukce, negativní zájmy/cíle * emotivně velmi vyhrocené nálepkování * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad démonizace] * Relativizace * relativizuje se negativní konání Ruska/pozitivní zásluha Západu? * většinou použita pro zmírnění něčeho negativního * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad relativizace] * Strach * přesah do budoucna, apel na strach, nejistotu či ohrožení * např. zavírající se podniky, rušení soc. dávek * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad strach] * Fabulace * zveličování problémů, fámy, nepodložená tvrzení * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad fabulace] * Názor * obsahuje článek jasný osobní názor ''_autora_'' článku? * může mít i formu komentáře nebo sugestivně položené otázky v rozhovoru * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad (hejtman Martin Půta)] * Zdroj * je text/názor zaštítěn odkazem na jiný zdroj? * webové stránky, médium, dokumenty; i Facebook * [https://www.parlamentnilisty.cz/arena/rozhovory/-Kavarna-a-jeji-zahranicni-loutkovodici-nemohou-cekat-do-voleb-Musi-k-sesazeni-Zemana-pouzit-nedemokraticke-metody-odhaduje-vysokoskolsky-pedagog-461641 příklad zdroj (pořad ČT Máte slovo)] * Rusko * nemusíte vyplňovat (projeví se u Místo) * Odborník (ano/ne/nevím) * je text/názor zaštítěn odborníkem? * i zdánlivý (expert); musí být označen jménem, nikoli celá instituce * [https://www.parlamentnilisty.cz/arena/rozhovory/-Kavarna-a-jeji-zahranicni-loutkovodici-nemohou-cekat-do-voleb-Musi-k-sesazeni-Zemana-pouzit-nedemokraticke-metody-odhaduje-vysokoskolsky-pedagog-461641 příklad (pedagog)] * Politik N * označte v textu, předvyplní se automaticky * pokud se politik vyskytuje na více místech textu, je nejdůležitější vyznačení jeho plného jména (když v textu je). je možné označit i další výskyty (např. pouze zmínka o "prezidentovi", když z textu víme o kterém), ale kvůli časové náročnosti to není vyžadováno. * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad politik (Si Tin-Pching)] * Vyznění N (neutrální/negativní/pozitivní/velebící/nenávistné) * pokud jsou argumenty pro i proti => neutrální * [http://www.parlamentnilisty.cz/arena/monitor/-Donalde-preju-ti-to-vzkazuje-Ivana-Trump-Na-Vanoce-do-USA-leta-i-jeji-mama-ktera-zije-v-CR-Syn-vzpomina-na-dedu-Milose-462118 příklad vyznění (pozitivní)] === Atributy dokumentu === * Téma (migrační krize/domácí politika/...) * vyberte co se nejvíce hodí * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad téma (migrační krize)] * Žánr (zpravodajství/rozhovor/komentář) * zpravodajství: mezi normálními články, článek většinou má autora/redaktora * rozhovor obvykle obsahuje dialog (střídající se odstavce) * komentář: má vždy autora, slovo komentář v názvu * [http://www.parlamentnilisty.cz/arena/rozhovory/-Sedi-prase-na-Hrade-libuje-si-v-urade-Co-chcete-od-spolecnosti-ktera-tomu-tleska-Cechokanadan-Jirovec-ukazuje-v-zasadni-veci-na-Schwarzenberga-463944 příklad rozhovor] * Zaměření (zahraniční/domácí/nelze určit) * portály mají většinou zahraniční/domácí v URL * [https://www.parlamentnilisty.cz/arena/rozhovory/-Hejtman-samopal-Martin-Puta-o-Zemanovi-Alespon-nekdo-vidi-ze-i-na-venkove-ziji-lide-Obcas-prestreli-ale-protistrana-se-chova-velmi-podobne-jako-on-424857 příklad zaměření (zahraničí, viz URL)] * Celkové vyznění (neutrální/negativní/pozitivní) * [http://cz.sputniknews.com/svet/201611224173147-karjakin-porazka-carlsen-utkani-svetova-sachova-koruna příklad vyznění (neutrální)] * Obrázek (ano/ne/nevím) * je nutné nahlédnout do zdroje * obsahuje článek MANIPULATIVNÍ obrázek? * montáž * ANO pouze pokud má obrázek ovlivnit mínění; normální ilustrativní obrázky ignorujte * [http://www.svetkolemnas.info/novinky/zahady/4002-astronaut-willams-vyfotil-na-zemske-obezne-draze-neco-co-tam-nepatri příklad obrázek] * Video (ano/ne/nevím) * jako obrázek * Poznámka * nemusíte vyplňovat