Version 3 (modified by 9 years ago) (diff) | ,
---|
Nástroje pro zpracování českých textů
Zpracování češtiny věnujeme v Centru zpracování přirozeného jazyka značnou pozornost. Podívejte se, jaké nástroje pro zpracování českých textů vyvíjíme.
Doplnění diakritiky
Poměrně hodně českých textů je napsáno bez diakritiky. Pro doplnění diakritiky můžete použít program czaccent
:
http://nlp.fi.muni.cz/cz_accent/
Segmentace na věty
Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada. Segmentátory vět:
http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi
Tokenizace
Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je tys ve větě tys to spletl: jedno slovo nebo dvě? Co jsou slova v případech jako jakž takž, jakžtakž, UB 40, UB40, 192.0.0.1, I'm?
Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj unitok
s nastavením českého jazyka:
Morfologická analýza
ajka, majka, odkaz na vysvětlení morfologických značek
Morfologická desambiguace
desamb
Syntaktická analýza
analyzátory synt a SET
Český stoplist
stoplist slov a stoplist základních tvarů
Lexikální databáze
český WordNet, VerbaLex, klasické české slovníky (SSČ, SSJČ, PSJČ)
Sémantická analýza
rozpoznávání anafor, vyhledávání klíčových frází (témat), aktuální členění větné