Changes between Initial Version and Version 1 of cs/TopicRecognition


Ignore:
Timestamp:
Mar 9, 2014, 10:47:51 AM (9 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
 • cs/TopicRecognition

  v1 v1  
   1= Rozpoznávání témat (Topic Recognition) =
   2Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je vychozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi ručně vyhledaných témat, podle které je možné otestovat program; budeme moci změřit pokrytí (kolik témat program rozpoznal stejně jako lidé a kolik jich "minul") i přesnost (jaká témata program rozpoznal ve shodě s ruční anotací a jaká poznal "navíc").
   3
   4== Témata (topics) ==
   5
   6Tématem (topic) ve větě jsou takové fráze, které by bylo možné označit za ''klíčová slova'' (či obecněji za '''klíčové fráze'''). Každá věta může obsahovat více témat, ale je v pořádku, pokud neobsahuje žádné. Zatím nás zajímají pouze jmenné fráze a předložkové fráze (tj. ne slovesa ani příslovce).
   7
   8== Zadání lingvistického úkolu do IB030 Úvod do počítačové lingvistiky ==
   9
   10Cílem je vytvořit část výše zmíněné databáze. Každý student přečte a vyhodnotí 70 krátkých textů (perexy z novinových zpráv) a vyznačí v nich témata - očekáváme, že jich bude v každém textu okolo pěti. Počítáme průměrně 5 minut na přečtení článku a výběr témat (ze začátku to zřejmě bude více, pak to půjde rychleji, jak si osvojíte pokyny). Následují pokyny k vypracování otázek.
   11
   12 * každý anotátor dostane náhodný vzorek z perexů z nedávných novinových článků
   13 * klíčové fráze musí být jmenné nebo předložkové fráze, což znamená:
   14    * fráze musí být souvislý podřetězec v textu (frázi musíte uvést přesně tak, jak se v textu vyskytuje)
   15    * fráze musí obsahovat podstatné jméno (např. ''prezident'') - tomuto podstatnému jménu říkáme '''hlava''' (head)
   16    * fráze může obsahovat více podstatných jmen, která rozvíjejí hlavu, v tom případě jsou součástí všechna - hlava i podstatná jména rozvíjející (např. ''prezident Francie'')
   17    * fráze může obsahovat přídavná jména, která rozvíjejí podstatné jméno (např. ''Česká republika'', ''prezident Spojených států'')
   18    * fráze může obsahovat příslovce, jen pokud rozvíjejí jmennou nebo předložkovou frázi či její část (např. ''velmi arogantní postoj''), neočekáváme však mnoho výskytů
   19    * v případě přísudku jmenného se sponou, může fráze obsahovat pouze přídavné jméno, případně přídavné jméno rozvité příslovcem (např.
   20    * fráze může být rozvinuta předložkovou frází (např. ''mistrovství světa v krasobruslení'')
   21    * fráze může být také předložková fráze (např. ''pro prezidenta Ukrajiny'')
   22 * vybírejte maximální klíčové fráze, které je možné považovat za jeden celek (např. ''sedminásobný mistr světa Formule 1 Michael Schumacher''), rozvití, která obsahují koordinaci nevybírejte (např. ''bývalý německý automobilový závodník a sedminásobný mistr světa Formule 1 Michael Schumacher'' jsou dva celky)
   23 * vybraná témata napište pod text, každé na nový řádek
   24 * ke každému tématu napište za dvojtečku jeho podobu v prvním pádě, případnou předložku samozřejmě odmažte (např. ''pro oba ministry'' -> ''oba ministři'', ''nejlepším hráčem roku'' -> ''nejlepší hráč roku'', ''k prezidentovi Ruska'' -> ''prezident Ruska'')
   25 * z každého textu vyberte minimálně 3 témata (zejména u textů přehledových), maximálně 7 témat, v průměru 5 témat z jednoho textu
   26 * vybírejte témata od nejdůležitějšího po nejméně důležité
   27
   28=== Pozitivní příklady ===
   29
   30=== Negativní příklady ===
   31
   32== Vyhodnocení úkolu ==
   33
   34Za splnění úkolu můžete získat 0-20 bodů. Z vámi zpracovávaných textů bude náhodně vybráno několik, u nichž zkontrolujeme, zda vybraná témata splňují kritéria popsaná výše. Za každé vybrané téma splňující kritéria dostanete 1 bod, celkové body budou přepočítány do max.20 podle počtu kontrolovaných textů. Porušení globálních instrukcí (např. špatný formát souboru, zvolení tématu, které není souvislým podřetězcem textu) bude sankcionováno deseti zápornými body.
   35
   36V případě nejasností a otázek se neváhejte obracet e-mailem na skupinovou adresu ib030ling@aurora.fi.muni.cz, která zahrnuje následující lidi:
   37
   38    Aleš Horák
   39    Zuzana Nevěřilová
   40    Vojtěch Kovář
   41
   42Pamatujte, že nejhloupější otázka je ta, která zůstala nepoložena.
   43
   44Na uvedenou adresu rovněž zašlete výsledek vaší práce.