Version 11 (modified by 9 years ago) (diff) | ,
---|
Anotace dat pro extrakci informací
Cílem projektu je vytvořit podklady pro vyhodnocení a vylepšení programů, které provádí hrubou extrakci informací z českého textu. V zásadě se jedná o nalezení sémanticky ucelených jmenných, předložkových a slovesných frází a jejich zařazení do základních sémantických tříd. Tyto třídy zhruba odpovídají kategoriím větného rozboru, jak je vyučován na středních školách -- nebo také z jiného pohledu, určují otázky, kterými je možné se na danou část věty zeptat.
Pravidla anotace
Základními jednotkami pro nás jsou fráze na úrovni klauze (jednoduché věty) -- podmět, přísudek, předmět atp. Označujeme vždy největší možné fráze, které spadají do dané třídy, resp. odpovídají na příslušnou otázku; jejich další vnitřní struktura nás již nezajímá. Např. v případě věty "Vzal jsem si na sebe boty z Německa." označíme boty z Německa jako předmět a fráze z Německa již nás dále nezajímá.
Vaším úkolem je tedy identifikovat tyto fráze na základě jazykové intuice a přiřadit k nim sémantické třídy. Třídy, které budeme rozpoznávat, jsou tyto (v závorce vždy otázky, na které příslušná fráze může odpovídat):
- podmět (kdo/co)
- přísudek
- předmět (koho/co, komu/čemu, kým/čím, ...), rovněž jmenná část přísudku nebo doplněk
- způsob, míra, důvod (jak, proč, ...)
- místo (kde, kam, kudy, odkud, ...)
- čas (kdy, odkdy, dokdy, ...)
- jiné příslovečné určení (používejte co nejméně)
Takto identifikované fráze většinou nebudou pokrývat všechna slova textu (i když většinu ano). Zejména neoznačujeme:
- interpunkci (pokud není součástí jiné fráze)
- spojky a částice (pokud nejsou součástí jiné fráze)
- mezery a interpunkci na začátku/konci fráze
- s výjimkou pravé závorky v případě, že levá je součástí fráze
- zvratná zájmena "se", "si", a to ani tehdy, jsou li součástí přísudku, např. jako reflexivum tantum
- s výjimkou případu, kdy tato zájmena leží uvnitř fráze, jako např. "smějící se bestie"
- citoslovce
- oslovení
Naopak označujeme:
- osobní zájmena
- vztažná a tázací zájmena, pokud mají v klauzi některou ze sledovaných funkcí
- čísla, číslovky a fráze s nimi
- speciální symboly (např. symboly měn) a fráze s nimi, ale pouze pokud mají jasnou sémantiku, která spadá do naší klasifikace
Vlastní anotace
bude probíhat v jednoduché webové aplikaci, na kterou se dostanete, pokud zkopírujete a vložíte do URL řádku svého prohlížeče následující adresu:
https://nlp.fi.muni.cz/projekty/set/efa/gold/list.cgi?uco=xxxxxx
přičemž písmena xxxxxx
nahraďte svým UČO. Zobrazí se několik anotačních sad, které postupně projdete všechny. Po vybrání sady se otevře relativně krátký text v jednoduchém webovém editoru, kde můžete pouze měnit barvy -- používejte barvu pozadí, tedy to pravé ze dvou tlačítek v horní liště. Vždy označte myší text příslušné fráze a obarvěte jej podle sémantické třídy, které odpovídá. Vlastní text v žádném případě nijak neupravujte, ani pokud v něm najdete chybu.
Po dokončení anotace soubor odešlete tlačítkem ve spodní části stránky. Zobrazí se výsledek anotace a odkaz na původní seznam, kde bude indikováno, že jste příslušnou část úkolu splnili. Můžete si hotovou anotaci znovu prohlédnout, případně anotovat znovu. V aplikaci není možné jednoduše upravit již uloženou anotaci (takže si vždy dobře prohlédněte, co odesíláte).
Jsme si vědomi toho, že u některých rozhodnutí bude existovat více dobrých možností (nebo naopak žádná nebude dost dobrá) -- není ovšem reálné všechny pokrýt jakýmkoli vysvětlujícím textem. V případě, že budete nerozhodní, se rozhodujte podle své jazykové intuice -- např. jakou otázkou byste se na danou skutečnost zeptali zrovna vy?
Rozdíly v řešení sporných případů nebudou předmětem hodnocení. Pravidla mohou být nicméně v průběhu řešení upřesněna, zejména v reakci na případné dotazy. O každé změně vás budeme informovat e-mailem.
Po dokončení všech částí anotace nás informujte, že můžeme zahájit hodnocení -- e-mailem na adresy xkovar3@fi.muni.cz a hales@fi.muni.cz . Rovněž připojte několik krátkých postřehů o tom, co se vám rozhodovalo špatně a proč, a co naopak dobře (bude rovněž bráno v potaz při hodnocení, ale spíše okrajově).
Jakékoli dotazy směřujte na e-mailovou adresu xkovar3@fi.muni.cz, do předmětu vždy uvádějte kód IB030.
Příklad
- Příklad dobře anotovaného textu: https://nlp.fi.muni.cz/projekty/set/efa/gold/priklad.finished.html
- Původní stav a legenda k barvám: https://nlp.fi.muni.cz/projekty/set/efa/gold/xkovar3_1.html
Praktické tipy
- Všimněte si, že řazení sémantických kategorií kopíruje obvyklý pořádek větných členů (asi tedy hlavně anglických) SVOMPT -- tedy Subject, Verb, Object, Manner, Place, Time. Může vám to posloužit jako mnemotechnická pomůcka při anotaci.
- pokud označujete pouze jedno slovo, nejrychlejší bude dvojklik na něj
- práce vám půjde mnohem lépe od ruky s myší než např. s touchpadem
- funkce "zpět" je v editoru dostupná jako Ctrl+Z
Hodnocení
Na základě ručního vyhodnocení náhodného vzorku vámi anotovaných dat vám budou přiděleny body. V úvahu bude brána zejména míra dodržení výše uvedených pokynů a faktická (lingvistická) správnost a kvalita anotace.
Attachments (2)
- text_k_anotaci.png (79.0 KB) - added by 9 years ago.
- anotovany_text.png (92.1 KB) - added by 9 years ago.
Download all attachments as: .zip