= Rozpoznávání témat (Topic Recognition) = Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je vychozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi ručně vyhledaných témat, podle které je možné otestovat program; budeme moci změřit pokrytí (kolik témat program rozpoznal stejně jako lidé a kolik jich "minul") i přesnost (jaká témata program rozpoznal ve shodě s ruční anotací a jaká poznal "navíc"). == Témata (topics) == Tématem (topic) ve větě jsou takové fráze, které by bylo možné označit za ''klíčová slova'' (či obecněji za '''klíčové fráze'''). Každá věta může obsahovat více témat, ale je v pořádku, pokud neobsahuje žádné. Zatím nás zajímají pouze jmenné fráze a předložkové fráze (tj. ne slovesa ani příslovce). == Zadání lingvistického úkolu do IB030 Úvod do počítačové lingvistiky == Cílem je vytvořit část výše zmíněné databáze. Každý student přečte a vyhodnotí 70 krátkých textů (perexy z novinových zpráv) a vyznačí v nich témata - očekáváme, že jich bude v každém textu okolo pěti. Počítáme průměrně 5 minut na přečtení článku a výběr témat (ze začátku to zřejmě bude více, pak to půjde rychleji, jak si osvojíte pokyny). Následují pokyny k vypracování otázek. * každý anotátor dostane náhodný vzorek z perexů z nedávných novinových článků * klíčové fráze musí být jmenné nebo předložkové fráze, což znamená: * fráze musí být souvislý podřetězec v textu (frázi musíte uvést přesně tak, jak se v textu vyskytuje) * fráze musí obsahovat podstatné jméno (např. ''prezident'') - tomuto podstatnému jménu říkáme '''hlava''' (head) * fráze může obsahovat více podstatných jmen, která rozvíjejí hlavu, v tom případě jsou součástí všechna - hlava i podstatná jména rozvíjející (např. ''prezident Francie'') * fráze může obsahovat přídavná jména, která rozvíjejí podstatné jméno (např. ''Česká republika'', ''prezident Spojených států'') * fráze může obsahovat příslovce, jen pokud rozvíjejí jmennou nebo předložkovou frázi či její část (např. ''velmi arogantní postoj''), neočekáváme však mnoho výskytů * v případě přísudku jmenného se sponou, může fráze obsahovat pouze přídavné jméno, případně přídavné jméno rozvité příslovcem (např. * fráze může být rozvinuta předložkovou frází (např. ''mistrovství světa v krasobruslení'') * fráze může být také předložková fráze (např. ''pro prezidenta Ukrajiny'') * vybírejte maximální klíčové fráze, které je možné považovat za jeden celek (např. ''sedminásobný mistr světa Formule 1 Michael Schumacher''), rozvití, která obsahují koordinaci nevybírejte (např. ''bývalý německý automobilový závodník a sedminásobný mistr světa Formule 1 Michael Schumacher'' jsou dva celky) * vybraná témata napište pod text, každé na nový řádek * ke každému tématu napište za dvojtečku jeho podobu v prvním pádě, případnou předložku samozřejmě odmažte (např. ''pro oba ministry'' -> ''oba ministři'', ''nejlepším hráčem roku'' -> ''nejlepší hráč roku'', ''k prezidentovi Ruska'' -> ''prezident Ruska'') * z každého textu vyberte minimálně 3 témata (zejména u textů přehledových), maximálně 7 témat, v průměru 5 témat z jednoho textu * vybírejte témata od nejdůležitějšího po nejméně důležité === Pozitivní příklady === === Negativní příklady === == Vyhodnocení úkolu == Za splnění úkolu můžete získat 0-20 bodů. Z vámi zpracovávaných textů bude náhodně vybráno několik, u nichž zkontrolujeme, zda vybraná témata splňují kritéria popsaná výše. Za každé vybrané téma splňující kritéria dostanete 1 bod, celkové body budou přepočítány do max.20 podle počtu kontrolovaných textů. Porušení globálních instrukcí (např. špatný formát souboru, zvolení tématu, které není souvislým podřetězcem textu) bude sankcionováno deseti zápornými body. V případě nejasností a otázek se neváhejte obracet e-mailem na skupinovou adresu ib030ling@aurora.fi.muni.cz, která zahrnuje následující lidi: Aleš Horák Zuzana Nevěřilová Vojtěch Kovář Pamatujte, že nejhloupější otázka je ta, která zůstala nepoložena. Na uvedenou adresu rovněž zašlete výsledek vaší práce.