wiki:cs/ExtractionOfFactsGoldStandard

Version 2 (modified by xkovar3, 5 years ago) (diff)

--

Anotace dat pro extrakci informací

Cílem projektu je vytvořit podklady pro vyhodnocení programu, který provádí hrubou extrakci informací z českého textu. V zásadě se jedná o nalezení sémanticky ucelených jmenných, předložkových a slovesných frází a jejich zařazení do základních sémantických tříd. Tyto třídy zhruba odpovídají kategoriím větného rozboru, jak je vyučován na středních školách -- nebo také z jiného pohledu, určují otázky, kterými je možné se na danou část věty zeptat.

Pravidla anotace

Základními jednotkami pro nás jsou fráze na úrovni klauze (jednoduché věty) -- podmět, přísudek, předmět atp. Označujeme vždy největší možné fráze, které spadají do dané třídy, resp. odpovídají na příslušnou otázku; jejich další vnitřní struktura nás již nezajímá. Např. v případě věty "Vzal jsem si na sebe boty z Německa." označíme *boty z Německa* jako předmět a fráze z Německa již nás dále nezajímá.

Vaším úkolem je tedy identifikovat tyto fráze na základě jazykové intuice a přiřadit k nim sémantické třídy. Třídy, které budeme rozpoznávat, jsou tyto (v závorce vždy otázky, na které příslušná fráze může odpovídat):

  • podmět (kdo/co)
  • přísudek
  • předmět (koho/co, komu/čemu, kým/čím, ...), rovněž jmenná část přísudku nebo doplněk
  • způsob, míra, důvod (jak, proč, ...)
  • místo (kde, kam, kudy, odkud, ...)
  • čas (kdy, odkdy, dokdy, ...)
  • jiné příslovečné určení (používejte co nejméně)

Takto identifikované fráze většinou nebudou pokrývat všechna slova textu (i když většinu ano). Zejména neoznačujeme:

  • interpunkci (pokud není součástí jiné fráze)
  • spojky a částice (pokud nejsou součástí jiné fráze)
  • mezery a interpunkci na začátku/konci fráze
    • s výjimkou pravé závorky v případě, že levá je součástí fráze
  • zvratná zájmena "se", "si", a to ani tehdy, jsou li součástí přísudku, např. jako reflexivum tantum
    • s výjimkou případu, kdy tato zájmena leží uvnitř fráze, jako např. "smějící se bestie"

Naopak označujeme:

  • osobní zájmena
  • vztažná a tázací zájmena, pokud mají v klauzi některou ze sledovaných funkcí
  • čísla, číslovky a fráze s nimi
  • speciální symboly (např. symboly měn) a fráze s nimi, ale pouze pokud mají jasnou sémantiku, která spadá do naší klasifikace

Praktické tipy

  • Všimněte si, že řazení sémantických kategorií kopíruje obvyklý pořádek větných členů (asi tedy hlavně anglických) SVOMPT -- tedy Subject, Verb, Object, Manner, Place, Time. Může vám to posloužit jako mnemotechnická pomůcka při anotaci.
  • pokud označujete pouze jedno slovo, nejrychlejší bude dvojklik na něj
  • práce vám půjde mnohem lépe od ruky s myší než např. s touchpadem

Attachments (2)

Download all attachments as: .zip