Context Navigation

Changes between Version 2 and Version 3 of cs/Cestina

-                      v2
+                      v3
 == Doplnění diakritiky ==
+czaccent
+Poměrně hodně českých textů je napsáno bez diakritiky. Pro doplnění diakritiky můžete použít program `czaccent`:
+http://nlp.fi.muni.cz/cz_accent/
+== Segmentace na věty ==
+Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada.
+Segmentátory vět:
+http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi
+http://corpus.tools/
 == Tokenizace ==
+unitok
+Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''?
+Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka:
+== Segmentace na věty ==
+http://corpus.tools/
 == Morfologická analýza ==