= Nástroje pro zpracování českých textů =

Zpracování češtiny věnujeme v Centru zpracování přirozeného jazyka značnou pozornost. Podívejte se, jaké nástroje pro zpracování českých textů vyvíjíme.

== Doplnění diakritiky ==

Poměrně hodně českých textů je napsáno bez diakritiky. Pro doplnění diakritiky můžete použít program `czaccent`:

http://nlp.fi.muni.cz/cz_accent/

== Segmentace na věty ==

Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada.
Segmentátory vět:

http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi

http://corpus.tools/



== Tokenizace ==

Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''?
Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka:

http://corpus.tools/

== Morfologická analýza ==

ajka, majka, odkaz na vysvětlení morfologických značek

== Morfologická desambiguace ==

desamb

== Syntaktická analýza ==

analyzátory synt a SET

== Český stoplist ==

[[cs/StopList|stoplist slov]] a
[[cs/StoplistZakladnichTvaru|stoplist základních tvarů]]

== Lexikální databáze ==

český !WordNet, [[cs/VerbaLex|VerbaLex]], klasické české slovníky (SSČ, SSJČ, PSJČ)

== Sémantická analýza ==

rozpoznávání anafor, vyhledávání klíčových frází (témat), aktuální členění větné