wiki:cs/ExtractionOfFactsGoldStandard

Version 14 (modified by Ales Horak, 8 years ago) (diff)

--

Anotace faktových prvků pro extrakci informací

Cílem projektu je vytvořit podklady pro vyhodnocení a vylepšení programů, které provádí hrubou extrakci informací (faktů) z českého textu. V zásadě se jedná o nalezení sémanticky ucelených jmenných, předložkových a slovesných frází a jejich zařazení do základních sémantických tříd. Tyto třídy zhruba odpovídají kategoriím větného rozboru, jak je vyučován na středních školách -- nebo také z jiného pohledu, určují odpovědi na otázky, kterými je možné se na danou část věty zeptat (kdo, kde, jak, ...).

Pravidla anotace

Základními jednotkami pro nás jsou fráze na úrovni klauze (jednoduché věty) -- podmět, přísudek, předmět atp. Označujeme vždy největší možné fráze, které spadají do dané třídy, resp. odpovídají na příslušnou otázku; jejich další vnitřní struktura nás již nezajímá. Např. v případě věty "Vzal jsem si na sebe boty z Německa." označíme boty z Německa jako předmět a její části (slovy boty a fráze z Německa) nás nyní nezajímají.

Vaším úkolem je tedy identifikovat tyto fráze na základě jazykové intuice a přiřadit k nim sémantické třídy. Třídy, které budeme rozpoznávat, jsou tyto (v závorce vždy otázky, na které příslušná fráze může odpovídat):

  • podmět (kdo/co)
  • přísudek (co dělá)
  • předmět (koho/co, komu/čemu, kým/čím, ...), rovněž jmenná část přísudku nebo doplněk
  • způsob, míra, důvod (jak, proč, ...)
  • místo (kde, kam, kudy, odkud, ...)
  • čas (kdy, odkdy, dokdy, ...)
  • jiné příslovečné určení (používejte co nejméně)

Takto identifikované fráze většinou nebudou pokrývat všechna slova textu (i když většinu ano). Zejména neoznačujeme:

  • interpunkci (pokud není součástí jiné fráze)
  • spojky a částice (pokud nejsou součástí jiné fráze)
  • mezery a interpunkci na začátku/konci fráze
    • s výjimkou pravé závorky v případě, že levá je součástí fráze
  • zvratná zájmena "se", "si", a to ani tehdy, jsou li součástí přísudku, např. jako reflexivum tantum
    • s výjimkou případu, kdy tato zájmena leží uvnitř fráze, jako např. "smějící se bestie"
  • citoslovce
  • oslovení

Naopak označujeme:

  • osobní zájmena
  • vztažná a tázací zájmena, pokud mají v klauzi některou ze sledovaných funkcí
  • čísla, číslovky a fráze s nimi
  • speciální symboly (např. symboly měn) a fráze s nimi, ale pouze pokud mají jasnou sémantiku, která spadá do naší klasifikace

Vlastní anotace

bude probíhat v jednoduché webové aplikaci, na kterou se dostanete při zadání UČO na následující adrese:

https://nlp.fi.muni.cz/projekty/set/efa/gold/list.cgi

Zobrazí se několik anotačních sad, které postupně projdete všechny. Po vybrání sady se otevře relativně krátký text v jednoduchém webovém editoru, kde můžete pouze měnit barvy pozadí.

Vždy označte myší text příslušné fráze a obarvěte jej podle sémantické třídy, které odpovídá. Vlastní text v žádném případě nijak neupravujte, ani pokud v něm najdete chybu.

Po dokončení anotace soubor odešlete tlačítkem ve spodní části stránky. Zobrazí se výsledek anotace a odkaz na původní seznam, kde bude indikováno, že jste příslušnou část úkolu splnili. Můžete si hotovou anotaci znovu prohlédnout, případně anotovat znovu. V aplikaci není možné jednoduše upravit již uloženou anotaci (takže si vždy dobře prohlédněte, co odesíláte).

Jsme si vědomi toho, že u některých rozhodnutí bude existovat více dobrých možností (nebo naopak žádná nebude dost dobrá) -- není ovšem reálné všechny pokrýt jakýmkoli vysvětlujícím textem. V případě, že budete nerozhodní, se rozhodujte podle své jazykové intuice -- např. jakou otázkou byste se na danou skutečnost zeptali zrovna vy?

Rozdíly v řešení sporných případů nebudou předmětem hodnocení. Pravidla mohou být nicméně v průběhu řešení upřesněna, zejména v reakci na případné dotazy. O každé změně vás budeme informovat e-mailem.

Po dokončení všech částí anotace nás informujte, že můžeme zahájit hodnocení -- e-mailem na adresu ib030ling@aurora.fi.muni.cz. Rovněž připojte několik krátkých postřehů o tom, co se vám rozhodovalo špatně a proč, a co naopak dobře (bude rovněž bráno v potaz při hodnocení, ale spíše okrajově).

Jakékoli dotazy směřujte na e-mailovou adresu ib030ling@aurora.fi.muni.cz, do předmětu vždy uvádějte kód IB030.

Příklad

Praktické tipy

  • Všimněte si, že řazení sémantických kategorií (a barev) v aplikaci často kopíruje obvyklý pořádek větných členů (asi tedy hlavně anglických) SVOMPT -- tedy Subject, Verb, Object, Manner, Place, Time. Může vám to posloužit jako mnemotechnická pomůcka při anotaci.
  • Při označování celých slov je nejrychlejší začít dvojklikem na první slovo, výběr pak pokračuje po slovech.
  • Práce vám půjde nejspíš mnohem lépe od ruky s myší než např. s touchpadem.
  • Funkce "zpět" je v editoru dostupná jako Ctrl+Z.

Hodnocení

Na základě ručního vyhodnocení náhodného vzorku vámi anotovaných dat vám budou přiděleny body. V úvahu bude brána zejména míra dodržení výše uvedených pokynů a faktická (lingvistická) správnost a kvalita anotace.

Attachments (2)

Download all attachments as: .zip