Changes between Version 5 and Version 6 of cs/TopicRecognition
- Timestamp:
- Mar 12, 2014, 2:29:56 PM (11 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/TopicRecognition
v5 v6 1 1 = Rozpoznávání témat (Topic Recognition) = 2 2 3 Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je v ychozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi textů a k nim přiřazeným tématům. Témata dohromady tvoří hrubý bodový souhrn daného textu.3 Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je výchozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi textů a k nim přiřazeným tématům. Témata dohromady tvoří hrubý bodový souhrn daného textu. 4 4 5 5 == Témata (topics) == 6 6 7 7 Tématem (topic) ve větě jsou takové fráze, které by bylo možné označit za ''klíčová slova'' (či obecněji za '''klíčové fráze'''). Každá věta může obsahovat více témat, ale je v pořádku, pokud neobsahuje žádné. Zatím nás zajímají pouze jmenné fráze a předložkové fráze (tj. ne slovesa ani příslovce). 8 9 Příklad: 10 {{{ 11 Kriminalisté z Útvaru pro odhalování organizovaného zločinu obvinili bývalého hejtmana Ústeckého kraje a exposlance ODS Jiřího Šulce a další čtyři bývalé a současné zaměstnance dotačního úřadu Severozápad. Obvinění se týká uzavření konkurenčních doložek v řádu statisíců korun pro dva bývalé ředitele úřadu. 12 }}} 13 Témata: 14 * hejtman Ústeckého kraje 15 * exposlanec ODS Jiří Šulc 16 * kriminalisté z Útvaru pro odhalování organizovaného zločinu 17 * obvinění 18 * uzavření konkurenčních doložek 8 19 9 20 == Zadání lingvistického úkolu do IB030 Úvod do počítačové lingvistiky == … … 26 37 * 0 znamená, že fráze není téma 27 38 * - znamená, že fráze je špatně (syntaktická chyba) 28 * číslo větší než 0 vyjadřuje, jak moc je fráze klíčové téma,1 je nejdůležitější téma, 8 je nejméně důležité téma39 * číslo větší než 0 vyjadřuje, kolikátá klíčová fráze to je vzhledem k tématu, tj. 1 je nejdůležitější téma, 8 je nejméně důležité téma 29 40 * z každého textu vyberte minimálně 3 témata, maximálně 8 témat, v průměru 5 témat z jednoho textu 30 41 31 42 32 Volba témat je samozřejmě dost subjektivní. Uvedeným návodem se snažíme dosáhnout co největší shody. Při hodnocení úkolu bude splnění podmínek hrát velkou roli, zatímco subjektivita m alou.43 Volba témat je samozřejmě dost subjektivní. Uvedeným návodem se snažíme dosáhnout co největší shody. Při hodnocení úkolu bude splnění podmínek hrát velkou roli, zatímco subjektivita menší. 33 44 34 45 === Pozitivní příklady ===