Changes between Version 13 and Version 14 of cs/ExtractionOfFactsGoldStandard


Ignore:
Timestamp:
Mar 22, 2016, 9:25:38 AM (8 years ago)
Author:
Ales Horak
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/ExtractionOfFactsGoldStandard

    v13 v14  
    1 = Anotace dat pro extrakci informací =
     1= Anotace faktových prvků pro extrakci informací =
    22
    3 Cílem projektu je vytvořit podklady pro vyhodnocení a vylepšení programů, které provádí hrubou extrakci informací z českého textu. V zásadě se jedná o nalezení sémanticky ucelených jmenných, předložkových a slovesných frází a jejich zařazení do základních sémantických tříd. Tyto třídy zhruba odpovídají kategoriím větného rozboru, jak je vyučován na středních školách -- nebo také z jiného pohledu, určují otázky, kterými je možné se na danou část věty zeptat.
     3Cílem projektu je vytvořit podklady pro vyhodnocení a vylepšení programů, které provádí hrubou extrakci informací (faktů) z českého textu. V zásadě se jedná o nalezení sémanticky ucelených jmenných, předložkových a slovesných frází a jejich zařazení do základních sémantických tříd. Tyto třídy zhruba odpovídají kategoriím větného rozboru, jak je vyučován na středních školách -- nebo také z jiného pohledu, určují odpovědi na otázky, kterými je možné se na danou část věty zeptat (kdo, kde, jak, ...).
    44
    55== Pravidla anotace ==
    66
    7 Základními jednotkami pro nás jsou fráze na úrovni klauze (jednoduché věty) -- podmět, přísudek, předmět atp. Označujeme vždy **největší možné fráze**, které spadají do dané třídy, resp. odpovídají na příslušnou otázku; jejich další vnitřní struktura nás již nezajímá. Např. v případě věty **"Vzal jsem si na sebe boty z Německa."** označíme **boty z Německa** jako předmět a fráze **z Německa** již nás dále nezajímá.
     7Základními jednotkami pro nás jsou fráze na úrovni klauze (jednoduché věty) -- podmět, přísudek, předmět atp. Označujeme vždy **největší možné fráze**, které spadají do dané třídy, resp. odpovídají na příslušnou otázku; jejich další vnitřní struktura nás již nezajímá. Např. v případě věty **"Vzal jsem si na sebe boty z Německa."** označíme **boty z Německa** jako předmět a její části (slovy **boty** a fráze **z Německa**) nás nyní nezajímají.
    88
    99Vaším úkolem je tedy identifikovat tyto fráze na základě jazykové intuice a přiřadit k nim sémantické třídy.
     
    1111
    1212* podmět (kdo/co)
    13 * přísudek
     13* přísudek (co dělá)
    1414* předmět (koho/co, komu/čemu, kým/čím, ...), rovněž jmenná část přísudku nebo doplněk
    1515* způsob, míra, důvod (jak, proč, ...)
     
    3939== Vlastní anotace ==
    4040
    41 bude probíhat v jednoduché webové aplikaci, na kterou se dostanete, pokud zkopírujete a vložíte do URL řádku svého prohlížeče následující adresu:
     41bude probíhat v jednoduché webové aplikaci, na kterou se dostanete při zadání UČO na následující adrese:
    4242
    43 {{{https://nlp.fi.muni.cz/projekty/set/efa/gold/list.cgi?uco=xxxxxx}}}
     43 https://nlp.fi.muni.cz/projekty/set/efa/gold/list.cgi
    4444
    45 přičemž písmena {{{xxxxxx}}} nahraďte svým UČO. Zobrazí se několik anotačních sad, které postupně projdete všechny. Po vybrání sady se otevře relativně krátký text v jednoduchém webovém editoru, kde můžete pouze měnit barvy -- používejte barvu pozadí, tedy to pravé ze dvou tlačítek v horní liště. Vždy označte myší text příslušné fráze a obarvěte jej podle sémantické třídy, které odpovídá. **Vlastní text v žádném případě nijak neupravujte, ani pokud v něm najdete chybu.**
     45Zobrazí se několik anotačních sad, které postupně projdete všechny. Po vybrání sady se otevře relativně krátký text v jednoduchém webovém editoru, kde můžete pouze měnit barvy pozadí.
     46
     47 [[Image(text_k_anotaci.png)]]
     48
     49Vždy označte myší text příslušné fráze a obarvěte jej podle sémantické třídy, které odpovídá. **Vlastní text v žádném případě nijak neupravujte, ani pokud v něm najdete chybu.**
    4650
    4751Po dokončení anotace soubor odešlete tlačítkem ve spodní části stránky. Zobrazí se výsledek anotace a odkaz na původní seznam, kde bude indikováno, že jste příslušnou část úkolu splnili. Můžete si hotovou anotaci znovu prohlédnout, případně anotovat znovu. V aplikaci není možné jednoduše upravit již uloženou anotaci (takže si vždy dobře prohlédněte, co odesíláte).
     52
     53 [[Image(anotovany_text.png)]]
    4854
    4955**Jsme si vědomi toho, že u některých rozhodnutí bude existovat více dobrých možností (nebo naopak žádná nebude dost dobrá) -- není ovšem reálné všechny pokrýt jakýmkoli vysvětlujícím textem. V případě, že budete nerozhodní, se rozhodujte podle své jazykové intuice -- např. jakou otázkou byste se na danou skutečnost zeptali zrovna vy?**
     
    5157**Rozdíly v řešení sporných případů nebudou předmětem hodnocení.** Pravidla mohou být nicméně v průběhu řešení upřesněna, zejména v reakci na případné dotazy. O každé změně vás budeme informovat e-mailem.
    5258
    53 Po dokončení všech částí anotace nás informujte, že můžeme zahájit hodnocení -- e-mailem na adresy xkovar3@fi.muni.cz a hales@fi.muni.cz . Rovněž připojte několik krátkých postřehů o tom, co se vám rozhodovalo špatně a proč, a co naopak dobře (bude rovněž bráno v potaz při hodnocení, ale spíše okrajově).
     59Po dokončení všech částí anotace nás informujte, že můžeme zahájit hodnocení -- e-mailem na adresu [[mailto:ib030ling@aurora.fi.muni.cz?subject=IB030: lingvisticky ukol|ib030ling@aurora.fi.muni.cz]]. Rovněž připojte několik krátkých postřehů o tom, co se vám rozhodovalo špatně a proč, a co naopak dobře (bude rovněž bráno v potaz při hodnocení, ale spíše okrajově).
    5460
    55 Jakékoli dotazy směřujte na e-mailovou adresu xkovar3@fi.muni.cz, do předmětu vždy uvádějte kód IB030.
     61Jakékoli dotazy směřujte na e-mailovou adresu [[mailto:ib030ling@aurora.fi.muni.cz?subject=IB030 - dotaz k lingvistickemu ukolu|ib030ling@aurora.fi.muni.cz]], do předmětu vždy uvádějte kód IB030.
    5662
    5763
     
    6470== Praktické tipy ==
    6571
    66 * Všimněte si, že řazení sémantických kategorií (a barev) v aplikaci kopíruje obvyklý pořádek větných členů (asi tedy hlavně anglických) SVOMPT -- tedy Subject, Verb, Object, Manner, Place, Time. Může vám to posloužit jako mnemotechnická pomůcka při anotaci.
    67 * Pokud označujete pouze jedno slovo, nejrychlejší bude dvojklik na něj.
     72* Všimněte si, že řazení sémantických kategorií (a barev) v aplikaci často kopíruje obvyklý pořádek větných členů (asi tedy hlavně anglických) SVOMPT -- tedy Subject, Verb, Object, Manner, Place, Time. Může vám to posloužit jako mnemotechnická pomůcka při anotaci.
     73* Při označování celých slov je nejrychlejší začít dvojklikem na první slovo, výběr pak pokračuje po slovech.
    6874* Práce vám půjde nejspíš mnohem lépe od ruky s myší než např. s touchpadem.
    6975* Funkce "zpět" je v editoru dostupná jako Ctrl+Z.