Changes between Version 4 and Version 5 of cs/TopicRecognition


Ignore:
Timestamp:
Mar 10, 2014 7:26:43 PM (6 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/TopicRecognition

    v4 v5  
    11= Rozpoznávání témat (Topic Recognition) =
    2 Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je vychozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi ručně vyhledaných témat, podle které je možné otestovat program; budeme moci změřit pokrytí (kolik témat program rozpoznal stejně jako lidé a kolik jich "minul") i přesnost (jaká témata program rozpoznal ve shodě s ruční anotací a jaká poznal "navíc").
     2
     3Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je vychozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi textů a k nim přiřazeným tématům. Témata dohromady tvoří hrubý bodový souhrn daného textu.
    34
    45== Témata (topics) ==
     6
    57Tématem (topic) ve větě jsou takové fráze, které by bylo možné označit za ''klíčová slova'' (či obecněji za '''klíčové fráze'''). Každá věta může obsahovat více témat, ale je v pořádku, pokud neobsahuje žádné. Zatím nás zajímají pouze jmenné fráze a předložkové fráze (tj. ne slovesa ani příslovce).
    68
    79== Zadání lingvistického úkolu do IB030 Úvod do počítačové lingvistiky ==
    8 Cílem je vytvořit část výše zmíněné databáze. Každý student přečte a vyhodnotí 120 krátkých textů (perexy z novinových zpráv) a vyznačí v nich témata - očekáváme, že jich bude v každém textu okolo pěti. Počítáme průměrně 3-5 minut na přečtení článku a výběr témat (ze začátku to zřejmě bude více, pak to půjde rychleji, jak si osvojíte pokyny). Následují pokyny k vypracování otázek.
    910
    10  * každý anotátor dostane náhodný vzorek z perexů z nedávných novinových článků
    11  * klíčové fráze musí být jmenné nebo předložkové fráze, což znamená:
    12    * fráze musí být souvislý podřetězec v textu (frázi musíte uvést přesně tak, jak se v textu vyskytuje)
     11Každý student přečte 150 krátkých textů (perexy z novinových zpráv) a vyhodnotí k nim nalezená témata: cílem je pro všechny nalezené fráze určit, jestli jsou v textu klíčové. Očekáváme, že témat bude v každém textu okolo pěti. Počítáme průměrně 3 minuty na přečtení článku a seřazení témat (ze začátku to zřejmě bude více, pak to půjde rychleji, jak si osvojíte pokyny). Následují pokyny k vypracování otázek.
     12
     13 * každý anotátor dostane náhodný vzorek z perexů z nedávných novinových článků, pod každým článkem bude na každém řádku jedna fráze
     14 * klíčové fráze jsou jmenné nebo předložkové fráze, což znamená:
    1315   * fráze musí obsahovat podstatné jméno (např. ''prezident'') - tomuto podstatnému jménu říkáme '''hlava''' (head)
     16   * fráze nemusí být v prvním pádě (např. ''v Brně'')
    1417   * fráze může obsahovat více podstatných jmen, která rozvíjejí hlavu, v tom případě jsou součástí všechna - hlava i podstatná jména rozvíjející (např. ''prezident Francie'')
    1518   * fráze může obsahovat přídavná jména, která rozvíjejí podstatné jméno (např. ''Česká republika'', ''prezident Spojených států'')
    1619   * fráze může obsahovat příslovce, jen pokud rozvíjejí jmennou nebo předložkovou frázi či její část (např. ''velmi arogantní postoj''), neočekáváme však mnoho výskytů
    17    * v případě přísudku jmenného se sponou, může fráze obsahovat pouze přídavné jméno, případně přídavné jméno rozvité příslovcem (např.
     20   * v případě přísudku jmenného se sponou, může fráze obsahovat pouze přídavné jméno, případně přídavné jméno rozvité příslovcem (např. ''opilý'' ve větě ''Prezident byl opilý.'')
    1821   * fráze může být rozvinuta předložkovou frází (např. ''mistrovství světa v krasobruslení'')
    1922   * fráze může být také předložková fráze (např. ''pro prezidenta Ukrajiny'')
    2023   * fráze by neměla obsahovat koordinaci (čárky nebo spojky), pokud nejde o ustálenou koordinaci (např. ''Trinidad a Tobago'' je OK, zatímco ''prezident a ministr'' ne)
    2124   * fráze může obsahovat neslova (zkratky, číslice)
    22  * vybírejte maximální klíčové fráze, které je možné považovat za jeden celek (např. ''sedminásobný mistr světa Formule 1 Michael Schumacher''), rozvití, která obsahují koordinaci nevybírejte (např. ''bývalý německý automobilový závodník a sedminásobný mistr světa Formule 1 Michael Schumacher'' jsou dva celky)
    23  * vybraná témata napište pod text '''přesně tak, jak jsou v textu''', každé na nový řádek
    24  * ke každému tématu napište '''za dvojtečku jeho podobu v prvním pádě''', případnou předložku samozřejmě odmažte (např. ''pro oba ministry'' -> ''oba ministři'', ''nejlepším hráčem roku'' -> ''nejlepší hráč roku'', ''k prezidentovi Ruska'' -> ''prezident Ruska'')
    25  * z každého textu vyberte minimálně 3 témata (zejména u textů přehledových), maximálně 8 témat, v průměru 5 témat z jednoho textu
    26  * vybírejte témata od nejdůležitějšího po nejméně důležité, v tomto (vašem) pořadí je uveďte pod text
     25 * ke každé frázi napište '''na řádek, ve kterém se vyskytuje, za dvojtečku anotaci'''
     26   * 0 znamená, že fráze není téma
     27   * - znamená, že fráze je špatně (syntaktická chyba)
     28   * číslo větší než 0 vyjadřuje, jak moc je fráze klíčové téma, 1 je nejdůležitější téma, 8 je nejméně důležité téma
     29 * z každého textu vyberte minimálně 3 témata, maximálně 8 témat, v průměru 5 témat z jednoho textu
     30
    2731
    2832Volba témat je samozřejmě dost subjektivní. Uvedeným návodem se snažíme dosáhnout co největší shody. Při hodnocení úkolu bude splnění podmínek hrát velkou roli, zatímco subjektivita malou.
    2933
    3034=== Pozitivní příklady ===
    31 možná řešení následujícího textu:
     35
     36možné anotace následujícího textu:
    3237
    3338''Pracuje jako učitel, ale když ho někdo nazve vědcem, cestovatelem či fotografem, nesplete se. Profesor brněnské fakulty strojního inženýrství Miroslav Drückmiller má od nudného života rozhodně daleko. Na jeho poslední vědecké výpravě na Havaj se jeho týmu jako jedinému na světě podařilo vyfotit kometu Ison v těsné blízkosti slunce předtím, než se rozpadla.''
    3439
    3540{{{
    36 kometu Ison:kometa Ison
    37 Miroslav Drückmiller:Miroslav Drückmiller
    38 na Havaj:Havaj
    39 Na jeho poslední vědecké výpravě:jeho poslední vědecká výprava
    40 brněnské fakulty strojního inženýrství:brněnská fakulta strojního inženýrství
    41 učitel:učitel
     41učitel:6
     42vědcem:0
     43cestovatelem:0
     44fotografem:0
     45Profesor brněnské fakulty strojního inženýrství Miroslav Drückmiller:2
     46nudného života:0
     47Na jeho poslední vědecké výpravě na Havaj:4
     48jeho týmu:3
     49jedinému na světě:0
     50kometu Ison:1
     51v těsné blízkosti slunce:5
    4252}}}
     53
    4354{{{
    44 kometu Ison:kometa Ison
    45 Profesor brněnské fakulty strojního inženýrství Miroslav Drückmiller:profesor brněnské fakulty strojního inženýrství Miroslav Drückmiller
    46 Na jeho poslední vědecké výpravě na Havaj:jeho poslední vědecká výprava na Havaj
    47 jedinému na světě:jediný na světě
    48 od nudného života:nudný život
     55učitel:0
     56vědcem:0
     57cestovatelem:0
     58fotografem:0
     59Profesor brněnské fakulty strojního inženýrství Miroslav Drückmiller:2
     60nudného života:4
     61Na jeho poslední vědecké výpravě na Havaj:3
     62jeho týmu:0
     63jedinému na světě:0
     64kometu Ison:1
     65v těsné blízkosti slunce:0
    4966}}}
    50 === Negativní příklady ===
     67
    5168''Na brněnském výstavišti ve čtvrtek začal mezinárodní veletrh motocyklů, čtyřkolek, příslušenství a oblečení Motosalon.''
    5269
    5370{{{
    54 začal:začít
     71brněnském výstavišti:3
     72mezinárodní veletrh motocyklů:2
     73čtyřkolek:4
     74příslušenství:0
     75oblečení Motosalon:-
     76Motosalon:1
    5577}}}
    56 není jmenná fráze
    57 
    58 {{{
    59 oblečení Motosalon:oblečení Motosalon
    60 }}}
    61 není jedna jmenná fráze
    62 
    63 {{{
    64 mezinárodní veletrh motocyklů, čtyřkolek, příslušenství a oblečení Motosalon
    65 }}}
    66 fráze neobsahuje za dvojtečkou první pád
    67 
    68 {{{
    69 mezinárodní veletrh motocyklů, čtyřkolek, příslušenství a oblečení Motosalon:mezinárodní veletrh motocyklů, čtyřkolek, příslušenství a oblečení Motosalon
    70 }}}
    71 fráze obsahuje koordinaci, správně by byla témata ''mezinárodní veletrh motocyklů'' a ''Motosalon''
    7278
    7379''Přes sto padesát medailí ročně. Za třicet let jich studenti Sportovního gymnázia Ludvíka Daňka v Brně nasbírali téměř pět a půl tisíce. Právě dnes si škola připomíná třicet let svojí existence. Oslavy začnou v sedm večer ve sportovní hale Sokola v Kounicově ulici.''
    7480
    7581{{{
    76 téměř pět a půl tisíce medailí:téměř pět a půl tisíce medailí
     82Přes sto padesát medailí:0
     83třicet let:1
     84studenti Sportovního gymnázia Ludvíka Daňka:1
     85v Brně:6
     86pět a půl tisíce:0
     87škola:5
     88třicet let svojí existence:0
     89Oslavy:2
     90v sedm večer:0
     91ve sportovní hale Sokola:3
     92v Kounicově ulici:4
    7793}}}
    78 není souvislý podřetězec v textu
    7994
    80 {{{
    81 studenti Sportovního gymnázia:studenti Sportovního gymnázia
    82 }}}
    83 neúplná fráze - jiný význam (zde je podstatné to, že jde o konkrétní gymnázium, tj. správně mělo být ''studenti Sportovního gymnázia Ludvíka Daňka v Brně'' nebo ''studenti Sportovního gymnázia Ludvíka Daňka'')
     95=== Vyhodnocení úkolu ===
    8496
    85 {{{
    86 Sokola v Kounicově ulici:Sokol v Kounicově ulici
    87 }}}
    88 neúplná fráze - jiný význam (správně je ve ''sportovní hale Sokola v Kounicově ulici'' nebo ''ve sportovní hale Sokola'' nebo ''Sokola'')
    89 
    90 == Vyhodnocení úkolu ==
    91 Za splnění úkolu můžete získat 0-20 bodů. Z vámi zpracovávaných textů bude náhodně vybráno několik, u nichž zkontrolujeme, zda vybraná témata splňují kritéria popsaná výše. Za každé vybrané téma splňující kritéria dostanete 1 bod, celkové body budou přepočítány do max. 20 podle počtu kontrolovaných textů. Porušení globálních instrukcí (např. špatný formát souboru, zvolení tématu, které není souvislým podřetězcem textu) bude sankcionováno deseti zápornými body.
     97Za splnění úkolu můžete získat 0-20 bodů. Z vámi zpracovávaných textů bude náhodně vybráno několik, u nichž zkontrolujeme, zda vybraná témata splňují kritéria popsaná výše. Za každé vybrané téma splňující kritéria dostanete 1 bod, celkové body budou přepočítány do max. 20 podle počtu kontrolovaných textů. Porušení globálních instrukcí (např. špatný formát souboru) bude sankcionováno deseti zápornými body.
    9298
    9399V případě nejasností a otázek se neváhejte obracet e-mailem na skupinovou adresu ib030ling@aurora.fi.muni.cz, která zahrnuje následující lidi:
    94100
    95   Aleš Horák[[BR]] Zuzana Nevěřilová[[BR]] Vojtěch Kovář
     101  Aleš Horák[[BR]]  Zuzana Nevěřilová[[BR]] Vojtěch Kovář
    96102
    97103Pamatujte, že nejhloupější otázka je ta, která zůstala nepoložena.