wiki:VyhodnoceniSumarizaceManual

Version 2 (modified by xhajek9, 2 years ago) (diff)

--

Vyhodnocení výstupu GPT-2 abstraktivní sumarizace

Anotační manuál

Cílem je najít a klasifikovat chyby ve strojově generovaných sumarizacích českých novinových článků. Tedy nejde o hodnocení kvality sumarizace ve smyslu výstižnosti, jde nám jen o mechanismus a charakter případné chyby.

Technické předpoklady

Anotace se provádí pomocí dotazníkové platformy Qualtrics (možné na počítači i mobilním zařízení).

Zadání se skládá z částí Input Text, Gold a Generated. Hodnotíme pouze Generated sumarizaci ve vztahu k Input Text. Gold sumarizace nám může poskytnout určitý kontext pro lepší pochopení, ale musíme si uvědomit, že se na generování Generated nepodílela, tudíž nesmí zasahovat do hodnocení.

Tabulka odpovědí o

Abstraktu je přiřazen seznam o třech prvcích (3 věty v každém abstraktu) Větám je přiřazena dvojice (A, (B, C)) kde:

  • A = typ chyby v Mapping {1, ..., 5}
  • B = kategorie chyby v Malformed {1, 2}
  • C = typ chyby v Malformed {a, b, c}
  • použití None místo seznamu v případě, že je v sumarizaci méně než tři věty (zřídka)
  • k nové přidanému Repetitive vyjádření pak přiřadit: (5, None) - žádná další chyba by tam totiž z definice neměla být
  • kromě (5, None) vždy přiřadit jak Mapping, tak Misleading
  • pokud je věta celá v pořádku, označujeme ji "OK"

Obecné rady

Vysvětlení hodnot anotace

Mapping:

  • pomáhá odhalit PŘÍČINU chyby
  • povrchová hladina
  • jak sumarizátor používá slova a věty k vytvoření chyby v abstraktu
  • hodnoty:
    1. Omission: zkopírování věty/fráze, ale vynechání slova/fráze
    2. Wrong combination: kopírování části z více různých vět a jejich chybová kombinace
    3. Fabrication: přidání jednoho nebo více nových slov, které způsobí chybu
    4. Lack of rewriting: chybné přepsání vět (např. nedostatečný kontext, chybné nahrazení referenčních výrazu nepůvodním objektem)
    5. Repetitive (přidáno): Repetitivní vyjádření, jinak všechno ok

Meaning:

  • EFEKT chyby (Malformed má přednost před Misleading, je méně častá)
  • kategorie a typy:
    1. Malformed: čtenář se zaráží nad kvalitou, ale věta není zavádějící/lživá
      1. Ungrammatical: syntakticky poškozena/nepřirozená věta, mluvčí by ji takto neřekl
      2. Semantically implausible: sémantický nesmyslná/nepřirozená věta
      3. No meaning can be inferred:
        • gramaticky správná věta, které není možné přiřadit význam
        • většinou spojené s Lack of rewriting - chybí kontext a tím věta ztrácí význam
    2. Misleading: můžou navodit nesprávné přesvědčení, nevyvoditelné z článku
      1. Meaning changed, not entailed: význam věty nelze vyvodit z článku (v kontextu sumarizace)
      2. Meaning changed, contradiction: význam věty má opačný nebo JINÝ význam než vyvozujeme z článku (v kontextu sumarizace)
      3. Pragmatic meaning changed: věta nabývá PRAGMATICKÉHO významu, který v článku není, nebo se PRAGMATICKÝ význam vytrácí (v kontextu sumarizace)

např. byla použita obrazná věta a její význam se v sumarizaci změnil nebo vytratil (zní, že je myšlen doslovně)

Praktické příklady (angl.) lze dohledat v článku.


Pro inspiraci: Manipulativní techniky propagandy v době internetu

Anotační manuál

https://nlp.fi.muni.cz/trac/propaganda/raw-attachment/wiki/ZpravaFI2017/propaganda_scr.png

Cílem je vyznačit v textech článků ze zpravodajských webových portálů přítomnost stanovených manipulativních technik. U každého článku je potřeba přiřadit hodnotu několika atributům, které jsou v pravé části obrazovky (doporučujeme pracovat na velkém monitoru).

Atributy dělíme na 2 typy: atributy s rozsahem a dokumentové atributy. K atributům s rozsahem je kromě určení jejich hodnoty navíc potřeba vyznačit odpovídající část/části textu. Rozsah se vybírá kliknutím na první a poslední slovo následované kliknutím na název atributu, ke kterému rozsah patří (pro výběr pouze jednoho slova na něj klikněte dvakrát). Nevyplněný rozsah se indikuje červenou ikonkou <> u příslušného atributu.

Při každé akci se zobrazí nahoře v okně hláška o úspěšném uložení údajů.

Technické předpoklady

Aplikace je vyvíjena a testována s webovým prohlížečem Google Chromium. V jiných prohlížečích může fungovat také, ale je možné, že některé interaktivní funkce nebudou korektní. Pro jednoduchost prosím použijte Chromium.

Obecné rady

  • Vyvarujte se nechávání hodnot ===NONE=== ve formuláři.
  • V případě potřeby je možné nahlédnout na originální článek, použijte odkaz z názvu článku.
  • Zpětnou vazbu (něco nefunguje, něco není jasné) posílejte na adresu: propaganda@aurora.fi.muni.cz
  • Po vyplnění všech atributů můžete přejít na další dokument odkazem vpravo nahoře.
  • Anotujte sami a nekonzultujte anotace s dalšími studenty.
  • Hodnocení anotací bude provedeno podle množství anotovaných článků a pečlivosti anotací včetně rozsahů

Vysvětlení atributů s rozsahem

  • Místo (EU/ČR/USA/jiná země/nelze určit/Rusko)
    • jaká je hlavní lokace, které se článek týká
    • v textu vyznačte přímo frázi označující danou lokaci nebo, pokud tam lokace konkrétně není, tak tu část textu, podle které čtenář lokaci odhaduje, např. "Německá policie zasáhla proti ..." -> Německo/jiná země
    • příklad Rusko
  • Vina (ano/ne/nevím)
    • je v textu na někoho svalována vina?
    • v textu by mělo být zřetelné co je vina (co se vytýká) a kdo je viník (na koho se svaluje)
    • příklad vina
  • Nálepkování (ano/ne/nevím)
    • stereotypy, kolektivní vina
    • krátké jednoduché, úderné, výstižné, zapamatovatelné slovní spojení (ne celý odstavec), pejorativní
    • nejčastěji přídavná jména
    • může být i pozitivní
    • příklad nálepkování
  • Argumentace (ano/ne/nevím)
    • pokud se jenom něco konstatuje (že se něco stalo), tak NE
    • pokud působí jako argument (logický nebo emotivní), tak ANO
    • logika může být zdánlivá a ne nutně úplná - jak to působí na čtenáře
    • příklad argumentace
  • Obsažené emoce (rozhořčení/strach/nenávist/...)
  • Démonizace
    • je nepřítel v textu démonizován?
    • musí být definovaný nepřítel, většinou velmi negativní
    • destrukce, negativní zájmy/cíle
    • emotivně velmi vyhrocené nálepkování
    • příklad démonizace
  • Relativizace
    • relativizuje se negativní konání Ruska/pozitivní zásluha Západu?
    • většinou použita pro zmírnění něčeho negativního
    • příklad relativizace
  • Strach
    • přesah do budoucna, apel na strach, nejistotu či ohrožení
    • např. zavírající se podniky, rušení soc. dávek
    • příklad strach
  • Fabulace
  • Názor
    • obsahuje článek jasný osobní názor _autora_ článku?
    • může mít i formu komentáře nebo sugestivně položené otázky v rozhovoru
    • příklad (hejtman Martin Půta)
  • Zdroj
  • Rusko
    • nemusíte vyplňovat (projeví se u Místo)
  • Odborník (ano/ne/nevím)
    • je text/názor zaštítěn odborníkem?
    • i zdánlivý (expert); musí být označen jménem, nikoli celá instituce
    • příklad (pedagog)
  • Politik N
    • označte v textu, předvyplní se automaticky
    • pokud se politik vyskytuje na více místech textu, je nejdůležitější vyznačení jeho plného jména (když v textu je). je možné označit i další výskyty (např. pouze zmínka o "prezidentovi", když z textu víme o kterém), ale kvůli časové náročnosti to není vyžadováno.
    • příklad politik (Si Tin-Pching)
  • Vyznění N (neutrální/negativní/pozitivní/velebící/nenávistné)

Atributy dokumentu

  • Téma (migrační krize/domácí politika/...)
  • Žánr (zpravodajství/rozhovor/komentář)
    • zpravodajství: mezi normálními články, článek většinou má autora/redaktora
    • rozhovor obvykle obsahuje dialog (střídající se odstavce)
    • komentář: má vždy autora, slovo komentář v názvu
    • příklad rozhovor
  • Zaměření (zahraniční/domácí/nelze určit)
  • Celkové vyznění (neutrální/negativní/pozitivní)
  • Obrázek (ano/ne/nevím)
    • je nutné nahlédnout do zdroje
    • obsahuje článek MANIPULATIVNÍ obrázek?
    • montáž
    • ANO pouze pokud má obrázek ovlivnit mínění; normální ilustrativní obrázky ignorujte
    • příklad obrázek
  • Video (ano/ne/nevím)
    • jako obrázek
  • Poznámka
    • nemusíte vyplňovat

Attachments (2)

Download all attachments as: .zip