Changes between Version 4 and Version 5 of cs/Cestina


Ignore:
Timestamp:
Aug 8, 2017, 3:37:33 PM (7 years ago)
Author:
x413827
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/Cestina

    v4 v5  
    1414Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada.
    1515
    16 === Stránky projektů ===
     16=== Stránka projektu ===
    1717
    18  * Rozdělovač Petra Machovce: http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi
    19  * `unitok`: http://corpus.tools/
     18 * http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi
    2019
    2120== Tokenizace ==
    2221
    23 Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''?
    24 Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka:
     22Tokenizace je rozdělení věty na slova. Co je slovo? Zpravidla je to ta část mezi mezerami (a, ano, interpunkcí). Co je ''tys'' ve větě ''tys to spletl'': jedno slovo nebo dvě? Co jsou slova v případech jako ''jakž takž'', ''jakžtakž'', ''UB 40'', ''UB40'', ''192.0.0.1'', ''I'm''?
     23Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka.
    2524
    2625Spuštění nástroje `unitok` na strojích CZPJ:
     
    3534== Morfologická analýza ==
    3635
    37 Cílem morfologické analýzy je určit základní tvar (lemma) a gramatické kategorie tokenu. Typicky jeden token může mít více gramatických kategorií (např. slovo ''zdraví'' může být podstatné jméno v jednotném čísle, v množném čísle, přídavné jméno i sloveso). Morfologický analyzátor vypíše všechny možnosti.
     36Cílem morfologické analýzy je určit základní tvar (lemma) a gramatické kategorie tokenu. Jeden token může mít více gramatických kategorií (např. slovo ''zdraví'' může být podstatné jméno v jednotném či množném čísle, přídavné jméno i sloveso). Morfologický analyzátor vypíše všechny možnosti.
    3837
    3938Gramatické kategorie jsou kódovány pomocí morfologických značek.
     
    5756JAKUBÍČEK, Miloš, Vojtěch KOVÁŘ a Pavel ŠMERK. Czech Morphological Tagset Revisited. In Horák, Rychlý. Proceedings of Recent Advances in Slavonic Natural Language Processing 2011. Brno: Tribun EU, 2011. s. 29-42, 14 s. ISBN 978-80-263-0077-9. https://is.muni.cz/auth/publication/959110 (dostupný po přihlášení do IS MU).
    5857
    59 Stránka projektu:
     58=== Stránky projektů ===
    6059
    61 `ajka`: http://nlp.fi.muni.cz/projekty/ajka/
     60* `ajka`: http://nlp.fi.muni.cz/projekty/ajka/
    6261
    63 `majka`: http://nlp.fi.muni.cz/czech-morphology-analyser/
     62* `majka`: http://nlp.fi.muni.cz/czech-morphology-analyser/
    6463
    6564== Morfologická desambiguace (tagging) ==
    6665
    67 Morfologická desambiguace redukuje výstup morfologické analýzy na jeden základní tvar a jednu značku, které jsou platné pro token v konkrétním kontextu. Z věty ''Neustále se ženu za lepšími výsledky.'' je jasné, že ''ženu'' je sloveso v první osobě jednotného čísla. Výstupem morfologické desambiguace je tedy seznam trojic (token, základní tvar, gramatická značka) pro každou větu.
     66Morfologická desambiguace redukuje výstup morfologické analýzy na jeden základní tvar a jednu značku, které jsou platné pro token v konkrétním kontextu. Z věty ''Neustále se ženu za lepšími výsledky'' je jasné, že ''ženu'' je sloveso v první osobě jednotného čísla. Výstupem morfologické desambiguace je tedy seznam trojic (token, základní tvar, gramatická značka) pro každou větu.
    6867
    6968Pro morfologickou desambiguaci české věty je možné použít nástroj `desamb`.
     
    9190== Syntaktická analýza ==
    9291
    93 Cílem syntaktické analýzy je získat informace o syntaktických závislostech mezi tokeny, případně identifikovat větší syntakticky závislé celky - fráze.
     92Cílem syntaktické analýzy je získat informace o syntaktických závislostech mezi tokeny, případně identifikovat větší syntakticky závislé celky fráze.
    9493
    9594V CZPJ jsme vyvinuli dva různé syntaktické analyzátory: `synt` a `SET`.
     
    116115}}}
    117116
     117{{{
     118#!comment
     119
     120
    118121Spuštění analyzátoru `synt` na strojích CZPJ:
    119122
    120123TODO
     124}}}
    121125
    122126=== Stránky projektů ===
     
    127131== Český stoplist ==
    128132
    129 Pro některé aplikace se hodí zpracovávat texty jako (multi)množiny slov (bag of words). V takových případech je vhodné počítat jen s plnovýznamovými slovy, možná se bude hodit seznam stop-slov neboli stoplist.
     133Pro některé aplikace se hodí zpracovávat texty jako (multi)množiny slov (bag of words). V takových případech je vhodné počítat jen s plnovýznamovými slovy, možná se bude hodit seznam stop-slov neboli stoplist.
    130134
    131135Pro češtinu máme dva takové seznamy:
     
    151155 * rozpoznávání anafor `aara`: http://nlp.fi.muni.cz/projekty/watsonson/aara
    152156 * vyhledávání klíčových frází (témat): http://nlp.fi.muni.cz/projekty/topicks
    153  * aktuální členění větné: TODO
    154 
     157 {{{
     158#!comment
     159* aktuální členění větné: TODO
     160}}}
    155161== Korpusy ==
    156162
    157 Pro zpracování češtiny je v nástroji SketchEngine dostupných několik korpusů: czes2, desam, czTenTen, korpus české Wikipedie, Czechparl, paralelní korpus OPUS2.
     163Pro zpracování češtiny je v nástroji !SketchEngine dostupných několik korpusů: czes2, desam, czTenTen, korpus české Wikipedie, Czechparl, paralelní korpus OPUS2.
    158164
    159165=== Stránka projektu ===