wiki:cs/Cestina

Version 3 (modified by Zuzana Nevěřilová, 8 years ago) (diff)

--

Nástroje pro zpracování českých textů

Zpracování češtiny věnujeme v Centru zpracování přirozeného jazyka značnou pozornost. Podívejte se, jaké nástroje pro zpracování českých textů vyvíjíme.

Doplnění diakritiky

Poměrně hodně českých textů je napsáno bez diakritiky. Pro doplnění diakritiky můžete použít program czaccent:

http://nlp.fi.muni.cz/cz_accent/

Segmentace na věty

Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada. Segmentátory vět:

http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi

http://corpus.tools/

Tokenizace

Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je tys ve větě tys to spletl: jedno slovo nebo dvě? Co jsou slova v případech jako jakž takž, jakžtakž, UB 40, UB40, 192.0.0.1, I'm? Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj unitok s nastavením českého jazyka:

http://corpus.tools/

Morfologická analýza

ajka, majka, odkaz na vysvětlení morfologických značek

Morfologická desambiguace

desamb

Syntaktická analýza

analyzátory synt a SET

Český stoplist

stoplist slov a stoplist základních tvarů

Lexikální databáze

český WordNet, VerbaLex, klasické české slovníky (SSČ, SSJČ, PSJČ)

Sémantická analýza

rozpoznávání anafor, vyhledávání klíčových frází (témat), aktuální členění větné