Changes between Version 4 and Version 5 of cs/Cestina
- Timestamp:
- Aug 8, 2017, 3:37:33 PM (7 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/Cestina
v4 v5 14 14 Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada. 15 15 16 === Stránk y projektů===16 === Stránka projektu === 17 17 18 * Rozdělovač Petra Machovce: http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi 19 * `unitok`: http://corpus.tools/ 18 * http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi 20 19 21 20 == Tokenizace == 22 21 23 Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v 24 Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka :22 Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''? 23 Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka. 25 24 26 25 Spuštění nástroje `unitok` na strojích CZPJ: … … 35 34 == Morfologická analýza == 36 35 37 Cílem morfologické analýzy je určit základní tvar (lemma) a gramatické kategorie tokenu. Typicky jeden token může mít více gramatických kategorií (např. slovo ''zdraví'' může být podstatné jméno v jednotném čísle, vmnožném čísle, přídavné jméno i sloveso). Morfologický analyzátor vypíše všechny možnosti.36 Cílem morfologické analýzy je určit základní tvar (lemma) a gramatické kategorie tokenu. Jeden token může mít více gramatických kategorií (např. slovo ''zdraví'' může být podstatné jméno v jednotném či množném čísle, přídavné jméno i sloveso). Morfologický analyzátor vypíše všechny možnosti. 38 37 39 38 Gramatické kategorie jsou kódovány pomocí morfologických značek. … … 57 56 JAKUBÍČEK, Miloš, Vojtěch KOVÁŘ a Pavel ŠMERK. Czech Morphological Tagset Revisited. In Horák, Rychlý. Proceedings of Recent Advances in Slavonic Natural Language Processing 2011. Brno: Tribun EU, 2011. s. 29-42, 14 s. ISBN 978-80-263-0077-9. https://is.muni.cz/auth/publication/959110 (dostupný po přihlášení do IS MU). 58 57 59 Stránka projektu:58 === Stránky projektů === 60 59 61 `ajka`: http://nlp.fi.muni.cz/projekty/ajka/60 * `ajka`: http://nlp.fi.muni.cz/projekty/ajka/ 62 61 63 `majka`: http://nlp.fi.muni.cz/czech-morphology-analyser/62 * `majka`: http://nlp.fi.muni.cz/czech-morphology-analyser/ 64 63 65 64 == Morfologická desambiguace (tagging) == 66 65 67 Morfologická desambiguace redukuje výstup morfologické analýzy na jeden základní tvar a jednu značku, které jsou platné pro token v konkrétním kontextu. Z věty ''Neustále se ženu za lepšími výsledky .'' je jasné, že ''ženu'' je sloveso v první osobě jednotného čísla. Výstupem morfologické desambiguace je tedy seznam trojic (token, základní tvar, gramatická značka) pro každou větu.66 Morfologická desambiguace redukuje výstup morfologické analýzy na jeden základní tvar a jednu značku, které jsou platné pro token v konkrétním kontextu. Z věty ''Neustále se ženu za lepšími výsledky'' je jasné, že ''ženu'' je sloveso v první osobě jednotného čísla. Výstupem morfologické desambiguace je tedy seznam trojic (token, základní tvar, gramatická značka) pro každou větu. 68 67 69 68 Pro morfologickou desambiguaci české věty je možné použít nástroj `desamb`. … … 91 90 == Syntaktická analýza == 92 91 93 Cílem syntaktické analýzy je získat informace o syntaktických závislostech mezi tokeny, případně identifikovat větší syntakticky závislé celky -fráze.92 Cílem syntaktické analýzy je získat informace o syntaktických závislostech mezi tokeny, případně identifikovat větší syntakticky závislé celky – fráze. 94 93 95 94 V CZPJ jsme vyvinuli dva různé syntaktické analyzátory: `synt` a `SET`. … … 116 115 }}} 117 116 117 {{{ 118 #!comment 119 120 118 121 Spuštění analyzátoru `synt` na strojích CZPJ: 119 122 120 123 TODO 124 }}} 121 125 122 126 === Stránky projektů === … … 127 131 == Český stoplist == 128 132 129 Pro některé aplikace se hodí zpracovávat texty jako (multi)množiny slov (bag of words). V 133 Pro některé aplikace se hodí zpracovávat texty jako (multi)množiny slov (bag of words). V takových případech je vhodné počítat jen s plnovýznamovými slovy, možná se bude hodit seznam stop-slov neboli stoplist. 130 134 131 135 Pro češtinu máme dva takové seznamy: … … 151 155 * rozpoznávání anafor `aara`: http://nlp.fi.muni.cz/projekty/watsonson/aara 152 156 * vyhledávání klíčových frází (témat): http://nlp.fi.muni.cz/projekty/topicks 153 * aktuální členění větné: TODO 154 157 {{{ 158 #!comment 159 * aktuální členění větné: TODO 160 }}} 155 161 == Korpusy == 156 162 157 Pro zpracování češtiny je v nástroji SketchEngine dostupných několik korpusů: czes2, desam, czTenTen, korpus české Wikipedie, Czechparl, paralelní korpus OPUS2.163 Pro zpracování češtiny je v nástroji !SketchEngine dostupných několik korpusů: czes2, desam, czTenTen, korpus české Wikipedie, Czechparl, paralelní korpus OPUS2. 158 164 159 165 === Stránka projektu ===