Changes between Version 8 and Version 9 of cs/TopicRecognition
- Timestamp:
- Apr 16, 2014, 11:11:23 AM (10 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/TopicRecognition
v8 v9 37 37 * fráze by neměla obsahovat koordinaci (čárky nebo spojky), pokud nejde o ustálenou koordinaci (např. ''Trinidad a Tobago'' je OK, zatímco ''prezident a ministr'' ne) 38 38 * fráze může obsahovat neslova (zkratky, číslice) 39 * "oprava" chyb v dělení frází (typicky vlastních jmen) - mezi frázemi se mohou vyskytnout "rozseknuté" fráze, např. 40 {{{ 41 fotbalistů Manchesteru 42 Manchesteru United 43 United 44 }}} 45 místo správné fráze 46 {{{ 47 fotbalistů Manchesteru United 48 }}} 49 V takovém případě anotujte tuto chybu tím, že dvěma frázím přiřadíte stejné číslo tématu doplněné o ''pořadové písmeno'' (a, b, c...): 50 {{{ 51 fotbalistů Manchesteru:1a 52 Manchesteru United:0 53 United:1b 54 }}} 39 55 * ke každé frázi napište '''na řádek, ve kterém se vyskytuje, za dvojtečku anotaci''' 40 56 * 0 znamená, že fráze není téma 41 57 * - znamená, že fráze je špatně (syntaktická chyba) 42 * číslo větší než 0 vyjadřuje, kolikátá klíčová fráze to je vzhledem k tématu, tj. 1 je nejdůležitější téma, 8 je nejméně důležité téma 58 * číslo větší než 0 vyjadřuje, kolikátá klíčová fráze to je vzhledem k tématu, tj. 1 je nejdůležitější téma, 8 je nejméně důležité téma. Čislo může být následováno písmenem (a, b, c...), pokud jde o rozdělené fráze, viz výše. 43 59 * z každého textu vyberte minimálně 3 témata, maximálně 8 témat, v průměru 5 témat z jednoho textu 44 60