Changes between Version 3 and Version 4 of cs/Cestina


Ignore:
Timestamp:
May 22, 2015, 2:37:34 PM (7 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/Cestina

    v3 v4  
    55== Doplnění diakritiky ==
    66
    7 Poměrně hodně českých textů je napsáno bez diakritiky. Pro doplnění diakritiky můžete použít program `czaccent`:
     7Poměrně hodně českých textů je napsáno bez diakritiky. Pro doplnění diakritiky můžete použít program `czaccent` Pavla Rychlého:
    88
    9 http://nlp.fi.muni.cz/cz_accent/
     9=== Stránka projektu ===
     10 * http://nlp.fi.muni.cz/cz_accent/
    1011
    1112== Segmentace na věty ==
    1213
    1314Rozdělit text na věty se zdá jednoduché: kde je tečka, tam je konec věty. Ve skutečnosti věta končí tečkou jen někdy (protipříkladem budiž nadpisy nebo odrážky), někdy končí tečkou zkratka a za čísly jsou tečky vůbec záhada.
    14 Segmentátory vět:
    1515
    16 http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi
     16=== Stránky projektů ===
    1717
    18 http://corpus.tools/
    19 
    20 
     18 * Rozdělovač Petra Machovce: http://nlp.fi.muni.cz/projekty/rozdelovac_vet/home.cgi
     19 * `unitok`: http://corpus.tools/
    2120
    2221== Tokenizace ==
     
    2524Tokenizace je částečně jazykově závislá, pro češtinu lze použít nástroj `unitok` s nastavením českého jazyka:
    2625
    27 http://corpus.tools/
     26Spuštění nástroje `unitok` na strojích CZPJ:
     27
     28{{{
     29echo "Neustále se ženu za lepšími výsledky." | /corpora/programy/unitok.py
     30}}}
     31
     32=== Stránka projektu ===
     33 * http://corpus.tools/
    2834
    2935== Morfologická analýza ==
    3036
    31 ajka, majka, odkaz na vysvětlení morfologických značek
     37Cílem morfologické analýzy je určit základní tvar (lemma) a gramatické kategorie tokenu. Typicky jeden token může mít více gramatických kategorií (např. slovo ''zdraví'' může být podstatné jméno v jednotném čísle, v množném čísle, přídavné jméno i sloveso). Morfologický analyzátor vypíše všechny možnosti.
    3238
    33 == Morfologická desambiguace ==
     39Gramatické kategorie jsou kódovány pomocí morfologických značek.
    3440
    35 desamb
     41Morfologické analyzátory vyvinuté v CZPJ jsou `ajka` Radka Sedláčka a novější `majka` Pavla Šmerka.
     42
     43Spuštění na strojích CZPJ:
     44
     45{{{
     46echo "ženu" | /nlp/projekty/ajka/bin/majka
     47}}}
     48
     49Ukázka výpisu pro slovo ''ženu'':
     50{{{
     51žena:k1gFnSc4
     52hnát:k5eAaImIp1nS
     53}}}
     54
     55Základní tvar je před dvojtečkou, pro vysvětlení gramatických značek nahlédněte do http://nlp.fi.muni.cz/projekty/ajka/tags.pdf, novější značky (oproti původním značkám analyzátoru `ajka` jsou změny hlavně v kategoriích zájmen) najdete v článku:
     56
     57JAKUBÍČEK, Miloš, Vojtěch KOVÁŘ a Pavel ŠMERK. Czech Morphological Tagset Revisited. In Horák, Rychlý. Proceedings of Recent Advances in Slavonic Natural Language Processing 2011. Brno: Tribun EU, 2011. s. 29-42, 14 s. ISBN 978-80-263-0077-9. https://is.muni.cz/auth/publication/959110 (dostupný po přihlášení do IS MU).
     58
     59Stránka projektu:
     60
     61`ajka`: http://nlp.fi.muni.cz/projekty/ajka/
     62
     63`majka`: http://nlp.fi.muni.cz/czech-morphology-analyser/
     64
     65== Morfologická desambiguace (tagging) ==
     66
     67Morfologická desambiguace redukuje výstup morfologické analýzy na jeden základní tvar a jednu značku, které jsou platné pro token v konkrétním kontextu. Z věty ''Neustále se ženu za lepšími výsledky.'' je jasné, že ''ženu'' je sloveso v první osobě jednotného čísla. Výstupem morfologické desambiguace je tedy seznam trojic (token, základní tvar, gramatická značka) pro každou větu.
     68
     69Pro morfologickou desambiguaci české věty je možné použít nástroj `desamb`.
     70
     71Spuštění na strojích CZPJ:
     72
     73{{{
     74echo "Neustále se ženu za lepšími výsledky." | /corpora/programy/unitok.py |  /corpora/programy/desamb.utf8.majka.sh
     75}}}
     76
     77Ukázka výstupu pro předchozí větu:
     78{{{
     79<s>
     80Neustále        neustále        k6eAd1
     81se      se      k3xPyFc4
     82ženu    hnát    k5eAaImIp1nS
     83za      za      k7c7
     84lepšími dobrý   k2eAgInPc7d2
     85výsledky        výsledek        k1gInPc7
     86<g/>
     87.       .       kIx.
     88</s>
     89}}}
    3690
    3791== Syntaktická analýza ==
    3892
    39 analyzátory synt a SET
     93Cílem syntaktické analýzy je získat informace o syntaktických závislostech mezi tokeny, případně identifikovat větší syntakticky závislé celky - fráze.
     94
     95V CZPJ jsme vyvinuli dva různé syntaktické analyzátory: `synt` a `SET`.
     96
     97Spuštění analyzátoru `SET` na strojích CZPJ:
     98
     99{{{
     100echo "Neustále se ženu za lepšími výsledky." | /corpora/programy/unitok.py |  /corpora/programy/desamb.utf8.majka.sh | /nlp/projekty/set/set/set.py
     101}}}
     102
     103Analyzátor je možné spustit s řadou parametrů podle toho, jaký výpis potřebujete.
     104
     105Ukázka výstupu pro předchozí větu:
     106{{{
     1070       Neustále        2       d       adverb
     1081       se      2       d       object
     1092       ženu    7       p
     1103       za      2       d       additional-prep
     1114       lepšími 5       d       modifier
     1125       výsledky        3       d       prep-object
     1136       .       7       p
     1147       <clause>        8       p
     1158       <sentence>      -1      p
     116}}}
     117
     118Spuštění analyzátoru `synt` na strojích CZPJ:
     119
     120TODO
     121
     122=== Stránky projektů ===
     123
     124 * `SET`: http://nlp.fi.muni.cz/trac/set
     125 * `synt`: http://nlp.fi.muni.cz/trac/synt
    40126
    41127== Český stoplist ==
     128
     129Pro některé aplikace se hodí zpracovávat texty jako (multi)množiny slov (bag of words). V takových případech je vhodné počítat jen s plnovýznamovými slovy, možná se bude hodit seznam stop-slov neboli stoplist.
     130
     131Pro češtinu máme dva takové seznamy:
    42132
    43133[[cs/StopList|stoplist slov]] a
     
    46136== Lexikální databáze ==
    47137
    48 český !WordNet, [[cs/VerbaLex|VerbaLex]], klasické české slovníky (SSČ, SSJČ, PSJČ)
     138Pro některé úlohy je vhodné využít lexikální databáze. V CZPJ máme český !WordNet, [[cs/VerbaLex|VerbaLex]], klasické české slovníky (SSČ, SSJČ, PSJČ). Slovníky jsou dostupné na platformě Dictionary Editing and Browsing (DEB).
     139
     140=== Stránky projektů ===
     141
     142 * [[cs/VerbaLex|VerbaLex]]
     143 * platforma `DEB`: http://deb.fi.muni.cz
    49144
    50145== Sémantická analýza ==
    51146
    52 rozpoznávání anafor, vyhledávání klíčových frází (témat), aktuální členění větné
     147Úkoly sémantické analýzy jsou velice různé, takže následuje jen stručný seznam projektů, které souvisejí se sémantickou analýzou českého textu:
     148
     149=== Stránky projektů ===
     150
     151 * rozpoznávání anafor `aara`: http://nlp.fi.muni.cz/projekty/watsonson/aara
     152 * vyhledávání klíčových frází (témat): http://nlp.fi.muni.cz/projekty/topicks
     153 * aktuální členění větné: TODO
     154
     155== Korpusy ==
     156
     157Pro zpracování češtiny je v nástroji SketchEngine dostupných několik korpusů: czes2, desam, czTenTen, korpus české Wikipedie, Czechparl, paralelní korpus OPUS2.
     158
     159=== Stránka projektu ===
     160
     161 * http://ske.fi.muni.cz/