wiki:VyhodnoceniSumarizaceManual

Version 25 (modified by xhajek9, 2 years ago) (diff)

--

Vyhodnocení výstupu GPT-2 abstraktivní sumarizace

Příklad otázky v dotazníku

Anotační manuál

Cílem je najít a klasifikovat chyby ve strojově generovaných sumarizacích českých novinových článků. Tedy nejde o hodnocení kvality sumarizace ve smyslu výstižnosti, jde nám jen o mechanismus a charakter případné chyby.

Technické předpoklady

Anotace se provádí pomocí dotazníkové platformy Qualtrics (možné na počítači i mobilním zařízení).

Zadání se skládá z částí Input Text, Gold a Generated. Hodnotíme pouze Generated sumarizaci ve vztahu k Input Text. Gold sumarizace nám může poskytnout určitý kontext pro lepší pochopení, ale musíme si uvědomit, že se na generování Generated nepodílela, tudíž nesmí zasahovat do hodnocení.

Tabulka odpovědí obsahuje čtyři sloupce a 1 nebo 3 řádky (podle toho, jestli jde o generování abstraktu nebo nadpisu). Řádky "Sentence1", "Sentence2", ... se týkají odpovídajících vět v sekci Generated označených znakem "•".

! V každém sloupci (Special cases, Mapping, Meaning) smí být maximálně jedno zaškrtlé políčko (např. OK nebo Repetitive nebo Sentence missing) ! ! Pro každou větu vyplníme buďto první sloupec (Special cases) NEBO ty zbylé (Mapping, Meaning)!

(toto chování bohužel nelze nijak vynutit, proto si prosím dejte pozor, jinak nebude odpověď platná)

Po zpracování všech textů odešlete výsledek do systému tlačítkem

Vysvětlení hodnot anotace

Special cases:

  • pokud určovat chybu nedává smysl
  • ! v případě, že vyplníme, musíme pro danou větu nechat ostatní sloupce prázdné
    1. OK: ve větě jsme nenašli žádnou gramatickou ani faktickou chybu vzhledem k Input Text a zbytku Generated sumarizace.
    2. Repetitive: věta se už v Generated sumarizaci vyskytla nebo měla některá z předchozích vět sumarizace zcela TOTOŽNÝ význam. Kromě repetice věta neobsahuje žádné faktické ani gramatické chyby.
    3. Sentence missing: Generated sumarizace má chybný počet vět (např. abstrakt má jen dvě věty (•) => řádek pro Sentence3 je označen speciálním případem Sentence missing)

Mapping:

  • pomáhá odhalit PŘÍČINU chyby
  • povrchová hladina
  • jak sumarizátor používá slova a věty k vytvoření chyby v abstraktu
  1. Omission: zkopírování věty/fráze, ale vynechání slova/fráze
    • např.:
      • Input: (...) Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití v Premiere League. (...)
      • Generated: Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití.
  2. Wrong combination: kopírování části z více různých vět a jejich chybová kombinace
    • např.:
      • Input: (...) Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zmizí. Pokud hráč dívku mine, začne dívka ztrácet na váze, až nakonec zemře. (...)
      • Generated: Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zemře.
  3. Fabrication: přidání jednoho nebo více nových slov (nevyskytují se v Input textu, tedy se nejedná o Wrong combination), které způsobí chybu
    • např.:
      • Input: (...) Mauresmo, která by měla v srpnu porodit, bude zhruba v osmém měsíci během Wimbledonu toto léto. (...)
      • Generated: Mauresmo bude v osmém měsíci těhotenství se svým prvním dítětem.
  4. Lack of rewriting: chybné přepsání vět (např. nedostatečný kontext, chybné nahrazení referenčních výrazu nepůvodním objektem)
    • např.:
      • Input: (...) Ukázalo se, že korporace může být skutečně stíhána jako osoba. Je to praxe, kterou Nejvyšší soud prosazuje již více než století. (...)
      • Generated: Je to praxe, kterou Nejvyšší soud prosazuje již více než století.

Meaning:

  • EFEKT chyby
  • ! Malformed má přednost před Misleading (je méně častá)
  • kategorie a typy:
    1. Malformed: čtenář se zaráží nad kvalitou, ale věta není zavádějící ani lživá
      1. Ungrammatical: syntakticky poškozená/nepřirozená věta, mluvčí by ji takto neřekl
      2. Semantically implausible: sémanticky (významově) nesmyslná/nepřirozená věta
      3. No meaning can be inferred:
        • gramaticky správná věta, které není možné přiřadit význam
        • většinou spojené s Lack of rewriting - chybí kontext a tím věta ztrácí význam
        • např.:
          • Input: (...) Ukázalo se, že korporace může být skutečně stíhána jako osoba. Je to praxe, kterou Nejvyšší soud prosazuje již více než století. (...)
          • Generated: Je to praxe, kterou Nejvyšší soud prosazuje již více než století.
    2. Misleading: můžou navodit nesprávné přesvědčení, nevyvoditelné z článku
      1. Meaning changed, not entailed: význam věty nelze vyvodit z článku (v kontextu sumarizace)
        • např.:
          • Input: (...) Mauresmo, která by měla v srpnu porodit, bude zhruba v osmém měsíci během Wimbledonu toto léto. (...)
          • Generated: Mauresmo bude v osmém měsíci těhotenství se svým prvním dítětem.
      2. Meaning changed, contradiction: význam věty má opačný nebo JINÝ význam než vyvozujeme z článku (v kontextu sumarizace)
        • např.:
          • Input: (...) Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zmizí. Pokud hráč dívku mine, začne dívka ztrácet na váze, až nakonec zemře. (...)
          • Generated: Hráči musí házet jídlo na dívku, která se objeví v jedné z devíti děr, a následně zemře.
      3. Pragmatic meaning changed: věta nabývá PRAGMATICKÉHO významu, který v článku není, nebo se PRAGMATICKÝ význam vytrácí (v kontextu sumarizace) = např. byla použita obrazná věta a její význam se v sumarizaci změnil nebo vytratil (zní, že je myšlen doslovně)
        • např.:
          • Input: (...) Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití v Premiere League. (...)
          • Generated: Trenér Nigel Pearson se obává dalších zranění, zatímco jeho mužstvo pokračuje v boji o přežití.

Mistake explanation

  • pole pro bližší textovou specifikaci chyby pro porovnaní přítupu jednotlivých anotátorů k vyhodnocení
  • není strojově kontrolované, ale zásadně nám pomůže v hodnocení konzistence odpovědí
  • např. věta o trenéru Nigelovi (výše)
    • Mistake explanation: Vynechání slov "v Premiere League" mění význam sousloví "boj o přežití".

Další praktické příklady (angl.) lze dohledat v článku.

Možné problémy

Při vyplňování jsme narazili na následující možné potíže:

  • je potřeba zkontrolovat, že zobrazený dotazník má zaškrtávací políčka ve tvaru ČTVERCE a nikoliv KOLEČKA (tedy multiple answer a ne single answer)

=> ŘEŠENÍ: použití jiného prohlížeče než Chrome (pokud zobrazuje špatně) - Mozzila by měla fungovat, mobilní verze Chrome mi taky fungovala. Nemám moc jak dále chybu testovat.

  • přestože vyplnění Mistake explanation není povinně vyžadované (pro případ, že věta, neobsahuje chybu), systém ho u některých otázek vyžaduje a odmítá uživateli dotazník odevzat (zaznamenáno u INPUTU 575)

=> ŘEŠENÍ: pokud situace nastane, doplňte do textových polí libovolný text (např. OK v případě bezchybných vět), při yhodnocení si s tím poradíme.

Jakékoliv problémy prosím hlaste na 485410@mail.muni.cz, pokusím se co nejpružněji reagovat.

Attachments (2)

Download all attachments as: .zip