| 1 | = Rozpoznávání témat (Topic Recognition) = |
| 2 | Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je vychozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi ručně vyhledaných témat, podle které je možné otestovat program; budeme moci změřit pokrytí (kolik témat program rozpoznal stejně jako lidé a kolik jich "minul") i přesnost (jaká témata program rozpoznal ve shodě s ruční anotací a jaká poznal "navíc"). |
| 3 | |
| 4 | == Témata (topics) == |
| 5 | |
| 6 | Tématem (topic) ve větě jsou takové fráze, které by bylo možné označit za ''klíčová slova'' (či obecněji za '''klíčové fráze'''). Každá věta může obsahovat více témat, ale je v pořádku, pokud neobsahuje žádné. Zatím nás zajímají pouze jmenné fráze a předložkové fráze (tj. ne slovesa ani příslovce). |
| 7 | |
| 8 | == Zadání lingvistického úkolu do IB030 Úvod do počítačové lingvistiky == |
| 9 | |
| 10 | Cílem je vytvořit část výše zmíněné databáze. Každý student přečte a vyhodnotí 70 krátkých textů (perexy z novinových zpráv) a vyznačí v nich témata - očekáváme, že jich bude v každém textu okolo pěti. Počítáme průměrně 5 minut na přečtení článku a výběr témat (ze začátku to zřejmě bude více, pak to půjde rychleji, jak si osvojíte pokyny). Následují pokyny k vypracování otázek. |
| 11 | |
| 12 | * každý anotátor dostane náhodný vzorek z perexů z nedávných novinových článků |
| 13 | * klíčové fráze musí být jmenné nebo předložkové fráze, což znamená: |
| 14 | * fráze musí být souvislý podřetězec v textu (frázi musíte uvést přesně tak, jak se v textu vyskytuje) |
| 15 | * fráze musí obsahovat podstatné jméno (např. ''prezident'') - tomuto podstatnému jménu říkáme '''hlava''' (head) |
| 16 | * fráze může obsahovat více podstatných jmen, která rozvíjejí hlavu, v tom případě jsou součástí všechna - hlava i podstatná jména rozvíjející (např. ''prezident Francie'') |
| 17 | * fráze může obsahovat přídavná jména, která rozvíjejí podstatné jméno (např. ''Česká republika'', ''prezident Spojených států'') |
| 18 | * fráze může obsahovat příslovce, jen pokud rozvíjejí jmennou nebo předložkovou frázi či její část (např. ''velmi arogantní postoj''), neočekáváme však mnoho výskytů |
| 19 | * v případě přísudku jmenného se sponou, může fráze obsahovat pouze přídavné jméno, případně přídavné jméno rozvité příslovcem (např. |
| 20 | * fráze může být rozvinuta předložkovou frází (např. ''mistrovství světa v krasobruslení'') |
| 21 | * fráze může být také předložková fráze (např. ''pro prezidenta Ukrajiny'') |
| 22 | * vybírejte maximální klíčové fráze, které je možné považovat za jeden celek (např. ''sedminásobný mistr světa Formule 1 Michael Schumacher''), rozvití, která obsahují koordinaci nevybírejte (např. ''bývalý německý automobilový závodník a sedminásobný mistr světa Formule 1 Michael Schumacher'' jsou dva celky) |
| 23 | * vybraná témata napište pod text, každé na nový řádek |
| 24 | * ke každému tématu napište za dvojtečku jeho podobu v prvním pádě, případnou předložku samozřejmě odmažte (např. ''pro oba ministry'' -> ''oba ministři'', ''nejlepším hráčem roku'' -> ''nejlepší hráč roku'', ''k prezidentovi Ruska'' -> ''prezident Ruska'') |
| 25 | * z každého textu vyberte minimálně 3 témata (zejména u textů přehledových), maximálně 7 témat, v průměru 5 témat z jednoho textu |
| 26 | * vybírejte témata od nejdůležitějšího po nejméně důležité |
| 27 | |
| 28 | === Pozitivní příklady === |
| 29 | |
| 30 | === Negativní příklady === |
| 31 | |
| 32 | == Vyhodnocení úkolu == |
| 33 | |
| 34 | Za splnění úkolu můžete získat 0-20 bodů. Z vámi zpracovávaných textů bude náhodně vybráno několik, u nichž zkontrolujeme, zda vybraná témata splňují kritéria popsaná výše. Za každé vybrané téma splňující kritéria dostanete 1 bod, celkové body budou přepočítány do max.20 podle počtu kontrolovaných textů. Porušení globálních instrukcí (např. špatný formát souboru, zvolení tématu, které není souvislým podřetězcem textu) bude sankcionováno deseti zápornými body. |
| 35 | |
| 36 | V případě nejasností a otázek se neváhejte obracet e-mailem na skupinovou adresu ib030ling@aurora.fi.muni.cz, která zahrnuje následující lidi: |
| 37 | |
| 38 | Aleš Horák |
| 39 | Zuzana Nevěřilová |
| 40 | Vojtěch Kovář |
| 41 | |
| 42 | Pamatujte, že nejhloupější otázka je ta, která zůstala nepoložena. |
| 43 | |
| 44 | Na uvedenou adresu rovněž zašlete výsledek vaší práce. |