= Nástroje pro zpracování českých textů = Zpracování češtiny věnujeme v Centru zpracování přirozeného jazyka značnou pozornost. Podívejte se, jaké nástroje pro zpracování českých textů vyvíjíme. == Doplnění diakritiky == Poměrně hodně českých textů je napsáno bez diakritiky. Pro doplnění diakritiky můžete použít program `czaccent`: http://nlp.fi.muni.cz/cz_accent/ == Segmentace na věty == Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada. Segmentátory vět: http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi http://corpus.tools/ == Tokenizace == Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''? Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka: http://corpus.tools/ == Morfologická analýza == ajka, majka, odkaz na vysvětlení morfologických značek == Morfologická desambiguace == desamb == Syntaktická analýza == analyzátory synt a SET == Český stoplist == [[cs/StopList|stoplist slov]] a [[cs/StoplistZakladnichTvaru|stoplist základních tvarů]] == Lexikální databáze == český !WordNet, [[cs/VerbaLex|VerbaLex]], klasické české slovníky (SSČ, SSJČ, PSJČ) == Sémantická analýza == rozpoznávání anafor, vyhledávání klíčových frází (témat), aktuální členění větné