Changes between Version 5 and Version 6 of cs/TopicRecognition


Ignore:
Timestamp:
Mar 12, 2014 2:29:56 PM (6 years ago)
Author:
Ales Horak
Comment:

drobne upravy

Legend:

Unmodified
Added
Removed
Modified
  • cs/TopicRecognition

    v5 v6  
    11= Rozpoznávání témat (Topic Recognition) =
    22
    3 Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je vychozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi textů a k nim přiřazeným tématům. Témata dohromady tvoří hrubý bodový souhrn daného textu.
     3Cílem projektu je vytvořit podklady pro vyhodnocení programu, který rozpoznává témata. Rozpoznání témat je výchozím bodem v problematice zjišťování názoru (opinion analysis). Chceme vytvořit databázi textů a k nim přiřazeným tématům. Témata dohromady tvoří hrubý bodový souhrn daného textu.
    44
    55== Témata (topics) ==
    66
    77Tématem (topic) ve větě jsou takové fráze, které by bylo možné označit za ''klíčová slova'' (či obecněji za '''klíčové fráze'''). Každá věta může obsahovat více témat, ale je v pořádku, pokud neobsahuje žádné. Zatím nás zajímají pouze jmenné fráze a předložkové fráze (tj. ne slovesa ani příslovce).
     8
     9Příklad:
     10{{{
     11Kriminalisté z Útvaru pro odhalování organizovaného zločinu obvinili bývalého hejtmana Ústeckého kraje a exposlance ODS Jiřího Šulce a další čtyři bývalé a současné zaměstnance dotačního úřadu Severozápad. Obvinění se týká uzavření konkurenčních doložek v řádu statisíců korun pro dva bývalé ředitele úřadu.
     12}}}
     13Témata:
     14 * hejtman Ústeckého kraje
     15 * exposlanec ODS Jiří Šulc
     16 * kriminalisté z Útvaru pro odhalování organizovaného zločinu
     17 * obvinění
     18 * uzavření konkurenčních doložek
    819
    920== Zadání lingvistického úkolu do IB030 Úvod do počítačové lingvistiky ==
     
    2637   * 0 znamená, že fráze není téma
    2738   * - znamená, že fráze je špatně (syntaktická chyba)
    28    * číslo větší než 0 vyjadřuje, jak moc je fráze klíčové téma, 1 je nejdůležitější téma, 8 je nejméně důležité téma
     39   * číslo větší než 0 vyjadřuje, kolikátá klíčová fráze to je vzhledem k tématu, tj. 1 je nejdůležitější téma, 8 je nejméně důležité téma
    2940 * z každého textu vyberte minimálně 3 témata, maximálně 8 témat, v průměru 5 témat z jednoho textu
    3041
    3142
    32 Volba témat je samozřejmě dost subjektivní. Uvedeným návodem se snažíme dosáhnout co největší shody. Při hodnocení úkolu bude splnění podmínek hrát velkou roli, zatímco subjektivita malou.
     43Volba témat je samozřejmě dost subjektivní. Uvedeným návodem se snažíme dosáhnout co největší shody. Při hodnocení úkolu bude splnění podmínek hrát velkou roli, zatímco subjektivita menší.
    3344
    3445=== Pozitivní příklady ===