wiki:VyhodnoceniSumarizaceManual

Version 17 (modified by xhajek9, 2 years ago) (diff)

--

Vyhodnocení výstupu GPT-2 abstraktivní sumarizace

Anotační manuál

Cílem je najít a klasifikovat chyby ve strojově generovaných sumarizacích českých novinových článků. Tedy nejde o hodnocení kvality sumarizace ve smyslu výstižnosti, jde nám jen o mechanismus a charakter případné chyby.

Technické předpoklady

Anotace se provádí pomocí dotazníkové platformy Qualtrics (možné na počítači i mobilním zařízení).

Zadání se skládá z částí Input Text, Gold a Generated. Hodnotíme pouze Generated sumarizaci ve vztahu k Input Text. Gold sumarizace nám může poskytnout určitý kontext pro lepší pochopení, ale musíme si uvědomit, že se na generování Generated nepodílela, tudíž nesmí zasahovat do hodnocení.

Tabulka odpovědí obsahuje čtyři sloupce a 1 nebo 3 řádky (podle toho, jestli jde o generování abstraktu nebo nadpisu). Řádky "Sentence1", "Sentence2", ... se týkají odpovídajících vět v sekci Generated označených znakem "•".

! V kazdém sloupci (Special cases, Mapping, Meaning) smí být maximálně jedno zaškrtlé políčko (např. OK nebo Repetitive nebo Sentence missing) ! ! Pro každou větu vyplníme buďto první sloupec (Special cases) NEBO ty zbylé (Mapping, Meaning)!

(toto chování bohužel nelze nijak vynutit, proto si prosím dejte pozor, jinak nebude odpověď platná)

Obecné rady

Vysvětlení hodnot anotace

Special cases:

  • pokud určovat chybu nedává smysl
  • ! v případě, že vyplníme, musíme pro danou větu nechat ostatní sloupce prázdné
    1. OK: ve větě jsme nenašli žádnou gramatickou ani faktickou chybu vzhledem k Input Text a zbytku Generated sumarizace.
    2. Repetitive: věta se už v Generated sumarizaci vyskytla nebo měla některá z předchozích vět sumarizace zcela TOTOŽNÝ význam. Kromě repetice věta neobsahuje žádné faktické ani gramatické chyby.
    3. Sentence missing: Generated sumarizace má chybný počet vět (např. abstrakt má jen dvě věty (•) => řádek pro Sentence3 je označen speciálním případem Sentence missing)

Mapping:

  • pomáhá odhalit PŘÍČINU chyby
  • povrchová hladina
  • jak sumarizátor používá slova a věty k vytvoření chyby v abstraktu
  1. Omission: zkopírování věty/fráze, ale vynechání slova/fráze
    • např.:
      • Input: (...) Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití v Premiere League. (...)
      • Generated: Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití.
  2. Wrong combination: kopírování části z více různých vět a jejich chybová kombinace
    • např.:
      • Input: (...) Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zmizí. Pokud hráč dívku mine, začne dívka ztrácet na váze, až nakonec zemře. (...)
      • Generated: Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zemře.
  3. Fabrication: přidání jednoho nebo více nových slov (nevyskytují se v Input textu, tedy se nejedná o Wrong combination), které způsobí chybu
    • např.:
      • Input: (...) Mauresmo, která by měla v srpnu porodit, bude zhruba v osmém měsíci během Wimbledonu toto léto. (...)
      • Generated: Mauresmo bude v osmém měsíci těhotenství se svým prvním dítětem.
  4. Lack of rewriting: chybné přepsání vět (např. nedostatečný kontext, chybné nahrazení referenčních výrazu nepůvodním objektem)
    • např.:
      • Input: (...) Ukázalo se, že korporace může být skutečně stíhána jako osoba. Je to praxe, kterou Nejvyšší soud prosazuje již více než století. (...)
      • Generated: Je to praxe, kterou Nejvyšší soud prosazuje již více než století.

Meaning:

  • EFEKT chyby
  • ! Malformed má přednost před Misleading (je méně častá)
  • kategorie a typy:
    1. Malformed: čtenář se zaráží nad kvalitou, ale věta není zavádějící/lživá
      1. Ungrammatical: syntakticky poškozená/nepřirozená věta, mluvčí by ji takto neřekl
      2. Semantically implausible: sémanticky (významově) nesmyslná/nepřirozená věta
      3. No meaning can be inferred:
        • gramaticky správná věta, které není možné přiřadit význam
        • většinou spojené s Lack of rewriting - chybí kontext a tím věta ztrácí význam
        • např.:
          • Input: (...) Ukázalo se, že korporace může být skutečně stíhána jako osoba. Je to praxe, kterou Nejvyšší soud prosazuje již více než století. (...)
          • Generated: Je to praxe, kterou Nejvyšší soud prosazuje již více než století.
    2. Misleading: můžou navodit nesprávné přesvědčení, nevyvoditelné z článku
      1. Meaning changed, not entailed: význam věty nelze vyvodit z článku (v kontextu sumarizace)
        • např.:
          • Input: (...) Mauresmo, která by měla v srpnu porodit, bude zhruba v osmém měsíci během Wimbledonu toto léto. (...)
          • Generated: Mauresmo bude v osmém měsíci těhotenství se svým prvním dítětem.
      2. Meaning changed, contradiction: význam věty má opačný nebo JINÝ význam než vyvozujeme z článku (v kontextu sumarizace)
        • např.:
          • Input: (...) Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zmizí. Pokud hráč dívku mine, začne dívka ztrácet na váze, až nakonec zemře. (...)
          • Generated: Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zemře.
      3. Pragmatic meaning changed: věta nabývá PRAGMATICKÉHO významu, který v článku není, nebo se PRAGMATICKÝ význam vytrácí (v kontextu sumarizace) = např. byla použita obrazná věta a její význam se v sumarizaci změnil nebo vytratil (zní, že je myšlen doslovně)
        • např.:
          • Input: (...) Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití v Premiere League. (...)
          • Generated: Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití.

Praktické příklady (angl.) lze dohledat v článku.


Pro inspiraci: Manipulativní techniky propagandy v době internetu

Anotační manuál

https://nlp.fi.muni.cz/trac/propaganda/raw-attachment/wiki/ZpravaFI2017/propaganda_scr.png

Cílem je vyznačit v textech článků ze zpravodajských webových portálů přítomnost stanovených manipulativních technik. U každého článku je potřeba přiřadit hodnotu několika atributům, které jsou v pravé části obrazovky (doporučujeme pracovat na velkém monitoru).

Atributy dělíme na 2 typy: atributy s rozsahem a dokumentové atributy. K atributům s rozsahem je kromě určení jejich hodnoty navíc potřeba vyznačit odpovídající část/části textu. Rozsah se vybírá kliknutím na první a poslední slovo následované kliknutím na název atributu, ke kterému rozsah patří (pro výběr pouze jednoho slova na něj klikněte dvakrát). Nevyplněný rozsah se indikuje červenou ikonkou <> u příslušného atributu.

Při každé akci se zobrazí nahoře v okně hláška o úspěšném uložení údajů.

Technické předpoklady

Aplikace je vyvíjena a testována s webovým prohlížečem Google Chromium. V jiných prohlížečích může fungovat také, ale je možné, že některé interaktivní funkce nebudou korektní. Pro jednoduchost prosím použijte Chromium.

Obecné rady

  • Vyvarujte se nechávání hodnot ===NONE=== ve formuláři.
  • V případě potřeby je možné nahlédnout na originální článek, použijte odkaz z názvu článku.
  • Zpětnou vazbu (něco nefunguje, něco není jasné) posílejte na adresu: propaganda@aurora.fi.muni.cz
  • Po vyplnění všech atributů můžete přejít na další dokument odkazem vpravo nahoře.
  • Anotujte sami a nekonzultujte anotace s dalšími studenty.
  • Hodnocení anotací bude provedeno podle množství anotovaných článků a pečlivosti anotací včetně rozsahů

Vysvětlení atributů s rozsahem

  • Místo (EU/ČR/USA/jiná země/nelze určit/Rusko)
    • jaká je hlavní lokace, které se článek týká
    • v textu vyznačte přímo frázi označující danou lokaci nebo, pokud tam lokace konkrétně není, tak tu část textu, podle které čtenář lokaci odhaduje, např. "Německá policie zasáhla proti ..." -> Německo/jiná země
    • příklad Rusko
  • Vina (ano/ne/nevím)
    • je v textu na někoho svalována vina?
    • v textu by mělo být zřetelné co je vina (co se vytýká) a kdo je viník (na koho se svaluje)
    • příklad vina
  • Nálepkování (ano/ne/nevím)
    • stereotypy, kolektivní vina
    • krátké jednoduché, úderné, výstižné, zapamatovatelné slovní spojení (ne celý odstavec), pejorativní
    • nejčastěji přídavná jména
    • může být i pozitivní
    • příklad nálepkování
  • Argumentace (ano/ne/nevím)
    • pokud se jenom něco konstatuje (že se něco stalo), tak NE
    • pokud působí jako argument (logický nebo emotivní), tak ANO
    • logika může být zdánlivá a ne nutně úplná - jak to působí na čtenáře
    • příklad argumentace
  • Obsažené emoce (rozhořčení/strach/nenávist/...)
  • Démonizace
    • je nepřítel v textu démonizován?
    • musí být definovaný nepřítel, většinou velmi negativní
    • destrukce, negativní zájmy/cíle
    • emotivně velmi vyhrocené nálepkování
    • příklad démonizace
  • Relativizace
    • relativizuje se negativní konání Ruska/pozitivní zásluha Západu?
    • většinou použita pro zmírnění něčeho negativního
    • příklad relativizace
  • Strach
    • přesah do budoucna, apel na strach, nejistotu či ohrožení
    • např. zavírající se podniky, rušení soc. dávek
    • příklad strach
  • Fabulace
  • Názor
    • obsahuje článek jasný osobní názor _autora_ článku?
    • může mít i formu komentáře nebo sugestivně položené otázky v rozhovoru
    • příklad (hejtman Martin Půta)
  • Zdroj
  • Rusko
    • nemusíte vyplňovat (projeví se u Místo)
  • Odborník (ano/ne/nevím)
    • je text/názor zaštítěn odborníkem?
    • i zdánlivý (expert); musí být označen jménem, nikoli celá instituce
    • příklad (pedagog)
  • Politik N
    • označte v textu, předvyplní se automaticky
    • pokud se politik vyskytuje na více místech textu, je nejdůležitější vyznačení jeho plného jména (když v textu je). je možné označit i další výskyty (např. pouze zmínka o "prezidentovi", když z textu víme o kterém), ale kvůli časové náročnosti to není vyžadováno.
    • příklad politik (Si Tin-Pching)
  • Vyznění N (neutrální/negativní/pozitivní/velebící/nenávistné)

Atributy dokumentu

  • Téma (migrační krize/domácí politika/...)
  • Žánr (zpravodajství/rozhovor/komentář)
    • zpravodajství: mezi normálními články, článek většinou má autora/redaktora
    • rozhovor obvykle obsahuje dialog (střídající se odstavce)
    • komentář: má vždy autora, slovo komentář v názvu
    • příklad rozhovor
  • Zaměření (zahraniční/domácí/nelze určit)
  • Celkové vyznění (neutrální/negativní/pozitivní)
  • Obrázek (ano/ne/nevím)
    • je nutné nahlédnout do zdroje
    • obsahuje článek MANIPULATIVNÍ obrázek?
    • montáž
    • ANO pouze pokud má obrázek ovlivnit mínění; normální ilustrativní obrázky ignorujte
    • příklad obrázek
  • Video (ano/ne/nevím)
    • jako obrázek
  • Poznámka
    • nemusíte vyplňovat

Attachments (2)

Download all attachments as: .zip