Changes between Version 2 and Version 3 of cs/TopicRecognition


Ignore:
Timestamp:
Mar 9, 2014 5:56:59 PM (6 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/TopicRecognition

    v2 v3  
    33
    44== Témata (topics) ==
    5 
    65Tématem (topic) ve větě jsou takové fráze, které by bylo možné označit za ''klíčová slova'' (či obecněji za '''klíčové fráze'''). Každá věta může obsahovat více témat, ale je v pořádku, pokud neobsahuje žádné. Zatím nás zajímají pouze jmenné fráze a předložkové fráze (tj. ne slovesa ani příslovce).
    76
    87== Zadání lingvistického úkolu do IB030 Úvod do počítačové lingvistiky ==
    9 
    10 Cílem je vytvořit část výše zmíněné databáze. Každý student přečte a vyhodnotí 70 krátkých textů (perexy z novinových zpráv) a vyznačí v nich témata - očekáváme, že jich bude v každém textu okolo pěti. Počítáme průměrně 5 minut na přečtení článku a výběr témat (ze začátku to zřejmě bude více, pak to půjde rychleji, jak si osvojíte pokyny). Následují pokyny k vypracování otázek.
     8Cílem je vytvořit část výše zmíněné databáze. Každý student přečte a vyhodnotí 70 krátkých textů (perexy z novinových zpráv) a vyznačí v nich témata - očekáváme, že jich bude v každém textu okolo pěti. Počítáme průměrně 5 minut na přečtení článku a výběr témat (ze začátku to zřejmě bude více, pak to půjde rychleji, jak si osvojíte pokyny). Následují pokyny k vypracování otázek.
    119
    1210 * každý anotátor dostane náhodný vzorek z perexů z nedávných novinových článků
    1311 * klíčové fráze musí být jmenné nebo předložkové fráze, což znamená:
    14     * fráze musí být souvislý podřetězec v textu (frázi musíte uvést přesně tak, jak se v textu vyskytuje)
    15     * fráze musí obsahovat podstatné jméno (např. ''prezident'') - tomuto podstatnému jménu říkáme '''hlava''' (head)
    16     * fráze může obsahovat více podstatných jmen, která rozvíjejí hlavu, v tom případě jsou součástí všechna - hlava i podstatná jména rozvíjející (např. ''prezident Francie'')
    17     * fráze může obsahovat přídavná jména, která rozvíjejí podstatné jméno (např. ''Česká republika'', ''prezident Spojených států'')
    18     * fráze může obsahovat příslovce, jen pokud rozvíjejí jmennou nebo předložkovou frázi či její část (např. ''velmi arogantní postoj''), neočekáváme však mnoho výskytů
    19     * v případě přísudku jmenného se sponou, může fráze obsahovat pouze přídavné jméno, případně přídavné jméno rozvité příslovcem (např.
    20     * fráze může být rozvinuta předložkovou frází (např. ''mistrovství světa v krasobruslení'')
    21     * fráze může být také předložková fráze (např. ''pro prezidenta Ukrajiny'')
    22     * fráze by neměla obsahovat koordinaci (čárky nebo spojky), pokud nejde o ustálenou koordinaci (např. ''Trinidad a Tobago'' je OK, zatímco ''prezident a ministr'' ne)
    23     * fráze může obsahovat neslova (zkratky, číslice)
     12   * fráze musí být souvislý podřetězec v textu (frázi musíte uvést přesně tak, jak se v textu vyskytuje)
     13   * fráze musí obsahovat podstatné jméno (např. ''prezident'') - tomuto podstatnému jménu říkáme '''hlava''' (head)
     14   * fráze může obsahovat více podstatných jmen, která rozvíjejí hlavu, v tom případě jsou součástí všechna - hlava i podstatná jména rozvíjející (např. ''prezident Francie'')
     15   * fráze může obsahovat přídavná jména, která rozvíjejí podstatné jméno (např. ''Česká republika'', ''prezident Spojených států'')
     16   * fráze může obsahovat příslovce, jen pokud rozvíjejí jmennou nebo předložkovou frázi či její část (např. ''velmi arogantní postoj''), neočekáváme však mnoho výskytů
     17   * v případě přísudku jmenného se sponou, může fráze obsahovat pouze přídavné jméno, případně přídavné jméno rozvité příslovcem (např.
     18   * fráze může být rozvinuta předložkovou frází (např. ''mistrovství světa v krasobruslení'')
     19   * fráze může být také předložková fráze (např. ''pro prezidenta Ukrajiny'')
     20   * fráze by neměla obsahovat koordinaci (čárky nebo spojky), pokud nejde o ustálenou koordinaci (např. ''Trinidad a Tobago'' je OK, zatímco ''prezident a ministr'' ne)
     21   * fráze může obsahovat neslova (zkratky, číslice)
    2422 * vybírejte maximální klíčové fráze, které je možné považovat za jeden celek (např. ''sedminásobný mistr světa Formule 1 Michael Schumacher''), rozvití, která obsahují koordinaci nevybírejte (např. ''bývalý německý automobilový závodník a sedminásobný mistr světa Formule 1 Michael Schumacher'' jsou dva celky)
    2523 * vybraná témata napište pod text '''přesně tak, jak jsou v textu''', každé na nový řádek
     
    4341učitel:učitel
    4442}}}
    45 
    4643{{{
    4744kometu Ison:kometa Ison
     
    5148od nudného života:nudný život
    5249}}}
    53 
    5450=== Negativní příklady ===
    55 
    5651''Na brněnském výstavišti ve čtvrtek začal mezinárodní veletrh motocyklů, čtyřkolek, příslušenství a oblečení Motosalon.''
    5752
     
    7772
    7873''Přes sto padesát medailí ročně. Za třicet let jich studenti Sportovního gymnázia Ludvíka Daňka v Brně nasbírali téměř pět a půl tisíce. Právě dnes si škola připomíná třicet let svojí existence. Oslavy začnou v sedm večer ve sportovní hale Sokola v Kounicově ulici.''
     74
    7975{{{
    8076téměř pět a půl tisíce medailí:téměř pět a půl tisíce medailí
     
    8581studenti Sportovního gymnázia:studenti Sportovního gymnázia
    8682}}}
    87 neúplná fráce - jiný význam (zde je podstatné to, že jde o konkrétní gymnázium, tj. správně mělo být ''studenti Sportovního gymnázia Ludvíka Daňka v Brně'' nebo ''studenti Sportovního gymnázia Ludvíka Daňka'')
     83neúplná fráze - jiný význam (zde je podstatné to, že jde o konkrétní gymnázium, tj. správně mělo být ''studenti Sportovního gymnázia Ludvíka Daňka v Brně'' nebo ''studenti Sportovního gymnázia Ludvíka Daňka'')
    8884
    8985{{{
     
    9389
    9490== Vyhodnocení úkolu ==
    95 
    9691Za splnění úkolu můžete získat 0-20 bodů. Z vámi zpracovávaných textů bude náhodně vybráno několik, u nichž zkontrolujeme, zda vybraná témata splňují kritéria popsaná výše. Za každé vybrané téma splňující kritéria dostanete 1 bod, celkové body budou přepočítány do max.20 podle počtu kontrolovaných textů. Porušení globálních instrukcí (např. špatný formát souboru, zvolení tématu, které není souvislým podřetězcem textu) bude sankcionováno deseti zápornými body.
    9792
    9893V případě nejasností a otázek se neváhejte obracet e-mailem na skupinovou adresu ib030ling@aurora.fi.muni.cz, která zahrnuje následující lidi:
    9994
    100     Aleš Horák
    101     Zuzana Nevěřilová
    102     Vojtěch Kovář
     95  Aleš Horák[[BR]]Zuzana Nevěřilová[[BR]]Vojtěch Kovář
    10396
    10497Pamatujte, že nejhloupější otázka je ta, která zůstala nepoložena.
    10598
    106 Na uvedenou adresu rovněž zašlete výsledek vaší práce. 
     99Na uvedenou adresu rovněž zašlete výsledek vaší práce.