Changes between Initial Version and Version 1 of cs/ExtractionOfFactsGoldStandard


Ignore:
Timestamp:
Mar 22, 2016, 1:30:36 AM (7 years ago)
Author:
xkovar3
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/ExtractionOfFactsGoldStandard

    v1 v1  
     1= Anotace dat pro extrakci informací =
     2
     3Cílem projektu je vytvořit podklady pro vyhodnocení programu, který provádí hrubou extrakci informací z českého textu. V zásadě se jedná o nalezení sémanticky ucelených jmenných, předložkových a slovesných frází a jejich zařazení do základních sémantických tříd. Tyto třídy zhruba odpovídají kategoriím větného rozboru, jak je vyučován na středních školách -- nebo také z jiného pohledu, určují otázky, kterými je možné se na danou část věty zeptat.
     4
     5== Pravidla anotace ==
     6
     7Základními jednotkami pro nás jsou fráze na úrovni klauze (jednoduché věty) -- podmět, přísudek, předmět atp. Označujeme vždy **největší možné fráze**, které spadají do dané třídy, resp. odpovídají na příslušnou otázku; jejich další vnitřní struktura nás již nezajímá. Např. v případě věty **"Vzal jsem si na sebe boty z Německa."** označíme *boty z Německa* jako předmět a fráze **z Německa** již nás dále nezajímá.
     8
     9Vaším úkolem je tedy identifikovat tyto fráze na základě jazykové intuice a přiřadit k nim sémantické třídy.
     10Třídy, které budeme rozpoznávat, jsou tyto (v závorce vždy otázky, na které příslušná fráze může odpovídat):
     11
     12* podmět (kdo/co)
     13* přísudek
     14* předmět (koho/co, komu/čemu, kým/čím, ...), rovněž jmenná část přísudku nebo doplněk
     15* způsob, míra, důvod (jak, proč, ...)
     16* místo (kde, kam, kudy, odkud, ...)
     17* čas (kdy, odkdy, dokdy, ...)
     18* jiné příslovečné určení (používejte co nejméně)
     19
     20Takto identifikované fráze většinou nebudou pokrývat všechna slova textu (i když většinu ano). Zejména neoznačujeme:
     21
     22* **interpunkci** (pokud není součástí jiné fráze)
     23* **spojky a částice** (pokud nejsou součástí jiné fráze)
     24* **mezery a interpunkci** na začátku/konci fráze
     25  * s výjimkou pravé závorky v případě, že levá je součástí fráze
     26* **zvratná zájmena "se", "si"**, a to ani tehdy, jsou li součástí přísudku, např. jako reflexivum tantum
     27  * s výjimkou případu, kdy tato zájmena leží uvnitř fráze, jako např. "smějící se bestie"
     28
     29Naopak označujeme:
     30
     31* osobní zájmena
     32* vztažná a tázací zájmena, pokud mají v klauzi některou ze sledovaných funkcí
     33* čísla, číslovky a fráze s nimi
     34* speciální symboly (např. symboly měn) a fráze s nimi, ale pouze pokud mají jasnou sémantiku, která spadá do naší klasifikace
     35
     36{{{
     37#!html
     38<form action=<https://nlp.fi.muni.cz/projekty/set/efa/gold/list.cgi">
     39 <input type="text" name="uco"/>
     40 <input type="submit" name="Go"/>
     41</form>
     42}}}
     43
     44== Praktické tipy ==
     45
     46* Všimněte si, že řazení sémantických kategorií kopíruje obvyklý pořádek větných členů (asi tedy hlavně anglických) SVOMPT -- tedy Subject, Verb, Object, Manner, Place, Time. Může vám to posloužit jako mnemotechnická pomůcka při anotaci.
     47* pokud označujete pouze jedno slovo, nejrychlejší bude dvojklik na něj
     48* práce vám půjde mnohem lépe od ruky s myší než např. s touchpadem