Changes between Version 8 and Version 9 of cs/TopicRecognition


Ignore:
Timestamp:
Apr 16, 2014, 11:11:23 AM (7 years ago)
Author:
Ales Horak
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/TopicRecognition

    v8 v9  
    3737   * fráze by neměla obsahovat koordinaci (čárky nebo spojky), pokud nejde o ustálenou koordinaci (např. ''Trinidad a Tobago'' je OK, zatímco ''prezident a ministr'' ne)
    3838   * fráze může obsahovat neslova (zkratky, číslice)
     39   * "oprava" chyb v dělení frází (typicky vlastních jmen) - mezi frázemi se mohou vyskytnout "rozseknuté" fráze, např.
     40   {{{
     41fotbalistů Manchesteru
     42Manchesteru United
     43United
     44}}}
     45   místo správné fráze
     46   {{{
     47fotbalistů Manchesteru United
     48}}}
     49   V takovém případě anotujte tuto chybu tím, že dvěma frázím přiřadíte stejné číslo tématu doplněné o ''pořadové písmeno'' (a, b, c...):
     50   {{{
     51fotbalistů Manchesteru:1a
     52Manchesteru United:0
     53United:1b
     54}}}
    3955 * ke každé frázi napište '''na řádek, ve kterém se vyskytuje, za dvojtečku anotaci'''
    4056   * 0 znamená, že fráze není téma
    4157   * - znamená, že fráze je špatně (syntaktická chyba)
    42    * číslo větší než 0 vyjadřuje, kolikátá klíčová fráze to je vzhledem k tématu, tj. 1 je nejdůležitější téma, 8 je nejméně důležité téma
     58   * číslo větší než 0 vyjadřuje, kolikátá klíčová fráze to je vzhledem k tématu, tj. 1 je nejdůležitější téma, 8 je nejméně důležité téma. Čislo může být následováno písmenem (a, b, c...), pokud jde o rozdělené fráze, viz výše.
    4359 * z každého textu vyberte minimálně 3 témata, maximálně 8 témat, v průměru 5 témat z jednoho textu
    4460