Changes between Version 2 and Version 3 of cs/Cestina


Ignore:
Timestamp:
May 22, 2015, 11:57:47 AM (9 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/Cestina

    v2 v3  
    55== Doplnění diakritiky ==
    66
    7 czaccent
     7Poměrně hodně českých textů je napsáno bez diakritiky. Pro doplnění diakritiky můžete použít program `czaccent`:
     8
     9http://nlp.fi.muni.cz/cz_accent/
     10
     11== Segmentace na věty ==
     12
     13Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada.
     14Segmentátory vět:
     15
     16http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi
     17
     18http://corpus.tools/
     19
     20
    821
    922== Tokenizace ==
    1023
    11 unitok
     24Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''?
     25Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka:
    1226
    13 == Segmentace na věty ==
    14 
     27http://corpus.tools/
    1528
    1629== Morfologická analýza ==