| 1 | = Anotace dat pro extrakci informací = |
| 2 | |
| 3 | Cílem projektu je vytvořit podklady pro vyhodnocení programu, který provádí hrubou extrakci informací z českého textu. V zásadě se jedná o nalezení sémanticky ucelených jmenných, předložkových a slovesných frází a jejich zařazení do základních sémantických tříd. Tyto třídy zhruba odpovídají kategoriím větného rozboru, jak je vyučován na středních školách -- nebo také z jiného pohledu, určují otázky, kterými je možné se na danou část věty zeptat. |
| 4 | |
| 5 | == Pravidla anotace == |
| 6 | |
| 7 | Základními jednotkami pro nás jsou fráze na úrovni klauze (jednoduché věty) -- podmět, přísudek, předmět atp. Označujeme vždy **největší možné fráze**, které spadají do dané třídy, resp. odpovídají na příslušnou otázku; jejich další vnitřní struktura nás již nezajímá. Např. v případě věty **"Vzal jsem si na sebe boty z Německa."** označíme *boty z Německa* jako předmět a fráze **z Německa** již nás dále nezajímá. |
| 8 | |
| 9 | Vaším úkolem je tedy identifikovat tyto fráze na základě jazykové intuice a přiřadit k nim sémantické třídy. |
| 10 | Třídy, které budeme rozpoznávat, jsou tyto (v závorce vždy otázky, na které příslušná fráze může odpovídat): |
| 11 | |
| 12 | * podmět (kdo/co) |
| 13 | * přísudek |
| 14 | * předmět (koho/co, komu/čemu, kým/čím, ...), rovněž jmenná část přísudku nebo doplněk |
| 15 | * způsob, míra, důvod (jak, proč, ...) |
| 16 | * místo (kde, kam, kudy, odkud, ...) |
| 17 | * čas (kdy, odkdy, dokdy, ...) |
| 18 | * jiné příslovečné určení (používejte co nejméně) |
| 19 | |
| 20 | Takto identifikované fráze většinou nebudou pokrývat všechna slova textu (i když většinu ano). Zejména neoznačujeme: |
| 21 | |
| 22 | * **interpunkci** (pokud není součástí jiné fráze) |
| 23 | * **spojky a částice** (pokud nejsou součástí jiné fráze) |
| 24 | * **mezery a interpunkci** na začátku/konci fráze |
| 25 | * s výjimkou pravé závorky v případě, že levá je součástí fráze |
| 26 | * **zvratná zájmena "se", "si"**, a to ani tehdy, jsou li součástí přísudku, např. jako reflexivum tantum |
| 27 | * s výjimkou případu, kdy tato zájmena leží uvnitř fráze, jako např. "smějící se bestie" |
| 28 | |
| 29 | Naopak označujeme: |
| 30 | |
| 31 | * osobní zájmena |
| 32 | * vztažná a tázací zájmena, pokud mají v klauzi některou ze sledovaných funkcí |
| 33 | * čísla, číslovky a fráze s nimi |
| 34 | * speciální symboly (např. symboly měn) a fráze s nimi, ale pouze pokud mají jasnou sémantiku, která spadá do naší klasifikace |
| 35 | |
| 36 | {{{ |
| 37 | #!html |
| 38 | <form action=<https://nlp.fi.muni.cz/projekty/set/efa/gold/list.cgi"> |
| 39 | <input type="text" name="uco"/> |
| 40 | <input type="submit" name="Go"/> |
| 41 | </form> |
| 42 | }}} |
| 43 | |
| 44 | == Praktické tipy == |
| 45 | |
| 46 | * Všimněte si, že řazení sémantických kategorií kopíruje obvyklý pořádek větných členů (asi tedy hlavně anglických) SVOMPT -- tedy Subject, Verb, Object, Manner, Place, Time. Může vám to posloužit jako mnemotechnická pomůcka při anotaci. |
| 47 | * pokud označujete pouze jedno slovo, nejrychlejší bude dvojklik na něj |
| 48 | * práce vám půjde mnohem lépe od ruky s myší než např. s touchpadem |