wiki:cs/TopicRecognition

Version 7 (modified by Ales Horak, 10 years ago) (diff)

--

Rozpoznávání témat (Topic Recognition)

Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je výchozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi textů a k nim přiřazeným tématům. Témata dohromady tvoří hrubý bodový souhrn daného textu.

Témata (topics)

Tématem (topic) ve větě jsou takové fráze, které by bylo možné označit za klíčová slova (či obecněji za klíčové fráze). Každá věta může obsahovat více témat, ale je v pořádku, pokud neobsahuje žádné. Zatím nás zajímají pouze jmenné fráze a předložkové fráze (tj. ne slovesa ani příslovce).

Příklad:

Kriminalisté z Útvaru pro odhalování organizovaného zločinu obvinili bývalého hejtmana 
Ústeckého kraje a exposlance ODS Jiřího Šulce a další čtyři bývalé a současné zaměstnance 
dotačního úřadu Severozápad. Obvinění se týká uzavření konkurenčních doložek v řádu 
statisíců korun pro dva bývalé ředitele úřadu.

Témata:

 • hejtman Ústeckého kraje
 • exposlanec ODS Jiří Šulc
 • kriminalisté z Útvaru pro odhalování organizovaného zločinu
 • obvinění
 • uzavření konkurenčních doložek

Zadání lingvistického úkolu do IB030 Úvod do počítačové lingvistiky

Každý student přečte 150 krátkých textů (perexy z novinových zpráv) a vyhodnotí k nim nalezená témata: cílem je pro všechny nalezené fráze určit, jestli jsou v textu klíčové. Očekáváme, že témat bude v každém textu okolo pěti. Počítáme průměrně 3 minuty na přečtení článku a seřazení témat (ze začátku to zřejmě bude více, pak to půjde rychleji, jak si osvojíte pokyny). Následují pokyny k vypracování otázek.

 • každý anotátor dostane náhodný vzorek z perexů z nedávných novinových článků, pod každým článkem bude na každém řádku jedna fráze
 • klíčové fráze jsou jmenné nebo předložkové fráze, což znamená:
  • fráze musí obsahovat podstatné jméno (např. prezident) - tomuto podstatnému jménu říkáme hlava (head)
  • fráze nemusí být v prvním pádě (např. v Brně)
  • fráze může obsahovat více podstatných jmen, která rozvíjejí hlavu, v tom případě jsou součástí všechna - hlava i podstatná jména rozvíjející (např. prezident Francie)
  • fráze může obsahovat přídavná jména, která rozvíjejí podstatné jméno (např. Česká republika, prezident Spojených států)
  • fráze může obsahovat příslovce, jen pokud rozvíjejí jmennou nebo předložkovou frázi či její část (např. velmi arogantní postoj), neočekáváme však mnoho výskytů
  • v případě přísudku jmenného se sponou, může fráze obsahovat pouze přídavné jméno, případně přídavné jméno rozvité příslovcem (např. opilý ve větě Prezident byl opilý.)
  • fráze může být rozvinuta předložkovou frází (např. mistrovství světa v krasobruslení)
  • fráze může být také předložková fráze (např. pro prezidenta Ukrajiny)
  • fráze by neměla obsahovat koordinaci (čárky nebo spojky), pokud nejde o ustálenou koordinaci (např. Trinidad a Tobago je OK, zatímco prezident a ministr ne)
  • fráze může obsahovat neslova (zkratky, číslice)
 • ke každé frázi napište na řádek, ve kterém se vyskytuje, za dvojtečku anotaci
  • 0 znamená, že fráze není téma
  • - znamená, že fráze je špatně (syntaktická chyba)
  • číslo větší než 0 vyjadřuje, kolikátá klíčová fráze to je vzhledem k tématu, tj. 1 je nejdůležitější téma, 8 je nejméně důležité téma
 • z každého textu vyberte minimálně 3 témata, maximálně 8 témat, v průměru 5 témat z jednoho textu

Volba témat je samozřejmě dost subjektivní. Uvedeným návodem se snažíme dosáhnout co největší shody. Při hodnocení úkolu bude splnění podmínek hrát velkou roli, zatímco subjektivita menší.

Pozitivní příklady

možné anotace následujícího textu:

Pracuje jako učitel, ale když ho někdo nazve vědcem, cestovatelem či fotografem, nesplete se. Profesor brněnské fakulty strojního inženýrství Miroslav Drückmiller má od nudného života rozhodně daleko. Na jeho poslední vědecké výpravě na Havaj se jeho týmu jako jedinému na světě podařilo vyfotit kometu Ison v těsné blízkosti slunce předtím, než se rozpadla.

učitel:6
vědcem:0
cestovatelem:0
fotografem:0
Profesor brněnské fakulty strojního inženýrství Miroslav Drückmiller:2
nudného života:0
Na jeho poslední vědecké výpravě na Havaj:4 
jeho týmu:3
jedinému na světě:0
kometu Ison:1 
v těsné blízkosti slunce:5
učitel:0
vědcem:0
cestovatelem:0
fotografem:0
Profesor brněnské fakulty strojního inženýrství Miroslav Drückmiller:2
nudného života:4
Na jeho poslední vědecké výpravě na Havaj:3
jeho týmu:0
jedinému na světě:0
kometu Ison:1 
v těsné blízkosti slunce:0

Na brněnském výstavišti ve čtvrtek začal mezinárodní veletrh motocyklů, čtyřkolek, příslušenství a oblečení Motosalon.

brněnském výstavišti:3
mezinárodní veletrh motocyklů:2
čtyřkolek:4
příslušenství:0
oblečení Motosalon:-
Motosalon:1

Přes sto padesát medailí ročně. Za třicet let jich studenti Sportovního gymnázia Ludvíka Daňka v Brně nasbírali téměř pět a půl tisíce. Právě dnes si škola připomíná třicet let svojí existence. Oslavy začnou v sedm večer ve sportovní hale Sokola v Kounicově ulici.

Přes sto padesát medailí:0
třicet let:1
studenti Sportovního gymnázia Ludvíka Daňka:1
v Brně:6
pět a půl tisíce:0
škola:5
třicet let svojí existence:0
Oslavy:2
v sedm večer:0
ve sportovní hale Sokola:3
v Kounicově ulici:4

Vyhodnocení úkolu

Za splnění úkolu můžete získat 0-20 bodů. Z vámi zpracovávaných textů bude náhodně vybráno několik, u nichž zkontrolujeme, zda vybraná témata splňují kritéria popsaná výše. Za každé vybrané téma splňující kritéria dostanete 1 bod, celkové body budou přepočítány do max. 20 podle počtu kontrolovaných textů. Porušení globálních instrukcí (např. špatný formát souboru) bude sankcionováno deseti zápornými body.

V případě nejasností a otázek se neváhejte obracet e-mailem na skupinovou adresu ib030ling@aurora.fi.muni.cz, která zahrnuje následující lidi:

Aleš Horák
Zuzana Nevěřilová
Vojtěch Kovář

Pamatujte, že nejhloupější otázka je ta, která zůstala nepoložena.

Na uvedenou adresu rovněž zašlete výsledek vaší práce.