Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Version 4 and Version 5 of cs/Cestina

Timestamp:: Aug 8, 2017, 3:37:33 PM (8 years ago)
Author:: x413827
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

cs/Cestina

-                      v4
+                      v5
 Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada.
 === Stránky projektů ===
+=== Stránka projektu ===
+ * Rozdělovač Petra Machovce: http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi
+ * `unitok`: http://corpus.tools/
+ * http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi
 == Tokenizace ==
 Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''?
 Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka:
+Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''?
+Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka.
 Spuštění nástroje `unitok` na strojích CZPJ:
 …
 == Morfologická analýza ==
 Cílem morfologické analýzy je určit základní tvar (lemma) a gramatické kategorie tokenu. Typicky jeden token může mít více gramatických kategorií (např. slovo ''zdraví'' může být podstatné jméno v jednotném čísle, v množném čísle, přídavné jméno i sloveso). Morfologický analyzátor vypíše všechny možnosti.
+Cílem morfologické analýzy je určit základní tvar (lemma) a gramatické kategorie tokenu. Jeden token může mít více gramatických kategorií (např. slovo ''zdraví'' může být podstatné jméno v jednotném či množném čísle, přídavné jméno i sloveso). Morfologický analyzátor vypíše všechny možnosti.
 Gramatické kategorie jsou kódovány pomocí morfologických značek.
 …
 JAKUBÍČEK, Miloš, Vojtěch KOVÁŘ a Pavel ŠMERK. Czech Morphological Tagset Revisited. In Horák, Rychlý. Proceedings of Recent Advances in Slavonic Natural Language Processing 2011. Brno: Tribun EU, 2011. s. 29-42, 14 s. ISBN 978-80-263-0077-9. https://is.muni.cz/auth/publication/959110 (dostupný po přihlášení do IS MU).
 Stránka projektu:
+=== Stránky projektů ===
 `ajka`: http://nlp.fi.muni.cz/projekty/ajka/
+* `ajka`: http://nlp.fi.muni.cz/projekty/ajka/
 `majka`: http://nlp.fi.muni.cz/czech-morphology-analyser/
+* `majka`: http://nlp.fi.muni.cz/czech-morphology-analyser/
 == Morfologická desambiguace (tagging) ==
 Morfologická desambiguace redukuje výstup morfologické analýzy na jeden základní tvar a jednu značku, které jsou platné pro token v konkrétním kontextu. Z věty ''Neustále se ženu za lepšími výsledky.'' je jasné, že ''ženu'' je sloveso v první osobě jednotného čísla. Výstupem morfologické desambiguace je tedy seznam trojic (token, základní tvar, gramatická značka) pro každou větu.
+Morfologická desambiguace redukuje výstup morfologické analýzy na jeden základní tvar a jednu značku, které jsou platné pro token v konkrétním kontextu. Z věty ''Neustále se ženu za lepšími výsledky'' je jasné, že ''ženu'' je sloveso v první osobě jednotného čísla. Výstupem morfologické desambiguace je tedy seznam trojic (token, základní tvar, gramatická značka) pro každou větu.
 Pro morfologickou desambiguaci české věty je možné použít nástroj `desamb`.
 …
 == Syntaktická analýza ==
 Cílem syntaktické analýzy je získat informace o syntaktických závislostech mezi tokeny, případně identifikovat větší syntakticky závislé celky - fráze.
+Cílem syntaktické analýzy je získat informace o syntaktických závislostech mezi tokeny, případně identifikovat větší syntakticky závislé celky – fráze.
 V CZPJ jsme vyvinuli dva různé syntaktické analyzátory: `synt` a `SET`.
 …
 }}}
+{{{
+#!comment
 Spuštění analyzátoru `synt` na strojích CZPJ:
 TODO
+}}}
 === Stránky projektů ===
 …
 == Český stoplist ==
 Pro některé aplikace se hodí zpracovávat texty jako (multi)množiny slov (bag of words). V takových případech je vhodné počítat jen s plnovýznamovými slovy, možná se bude hodit seznam stop-slov neboli stoplist.
+Pro některé aplikace se hodí zpracovávat texty jako (multi)množiny slov (bag of words). V takových případech je vhodné počítat jen s plnovýznamovými slovy, možná se bude hodit seznam stop-slov neboli stoplist.
 Pro češtinu máme dva takové seznamy:
 …
  * rozpoznávání anafor `aara`: http://nlp.fi.muni.cz/projekty/watsonson/aara
  * vyhledávání klíčových frází (témat): http://nlp.fi.muni.cz/projekty/topicks
+ * aktuální členění větné: TODO
+ {{{
+#!comment
+* aktuální členění větné: TODO
+}}}
 == Korpusy ==
 Pro zpracování češtiny je v nástroji SketchEngine dostupných několik korpusů: czes2, desam, czTenTen, korpus české Wikipedie, Czechparl, paralelní korpus OPUS2.
+Pro zpracování češtiny je v nástroji !SketchEngine dostupných několik korpusů: czes2, desam, czTenTen, korpus české Wikipedie, Czechparl, paralelní korpus OPUS2.
 === Stránka projektu ===