Changes between Version 2 and Version 3 of cs/Cestina
- Timestamp:
- May 22, 2015, 11:57:47 AM (9 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/Cestina
v2 v3 5 5 == Doplnění diakritiky == 6 6 7 czaccent 7 Poměrně hodně českých textů je napsáno bez diakritiky. Pro doplnění diakritiky můžete použít program `czaccent`: 8 9 http://nlp.fi.muni.cz/cz_accent/ 10 11 == Segmentace na věty == 12 13 Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada. 14 Segmentátory vět: 15 16 http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi 17 18 http://corpus.tools/ 19 20 8 21 9 22 == Tokenizace == 10 23 11 unitok 24 Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''? 25 Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka: 12 26 13 == Segmentace na věty == 14 27 http://corpus.tools/ 15 28 16 29 == Morfologická analýza ==