35 | | desamb |
| 41 | Morfologické analyzátory vyvinuté v CZPJ jsou `ajka` Radka Sedláčka a novější `majka` Pavla Šmerka. |
| 42 | |
| 43 | Spuštění na strojích CZPJ: |
| 44 | |
| 45 | {{{ |
| 46 | echo "ženu" | /nlp/projekty/ajka/bin/majka |
| 47 | }}} |
| 48 | |
| 49 | Ukázka výpisu pro slovo ''ženu'': |
| 50 | {{{ |
| 51 | žena:k1gFnSc4 |
| 52 | hnát:k5eAaImIp1nS |
| 53 | }}} |
| 54 | |
| 55 | Základní tvar je před dvojtečkou, pro vysvětlení gramatických značek nahlédněte do http://nlp.fi.muni.cz/projekty/ajka/tags.pdf, novější značky (oproti původním značkám analyzátoru `ajka` jsou změny hlavně v kategoriích zájmen) najdete v článku: |
| 56 | |
| 57 | JAKUBÍČEK, Miloš, Vojtěch KOVÁŘ a Pavel ŠMERK. Czech Morphological Tagset Revisited. In Horák, Rychlý. Proceedings of Recent Advances in Slavonic Natural Language Processing 2011. Brno: Tribun EU, 2011. s. 29-42, 14 s. ISBN 978-80-263-0077-9. https://is.muni.cz/auth/publication/959110 (dostupný po přihlášení do IS MU). |
| 58 | |
| 59 | Stránka projektu: |
| 60 | |
| 61 | `ajka`: http://nlp.fi.muni.cz/projekty/ajka/ |
| 62 | |
| 63 | `majka`: http://nlp.fi.muni.cz/czech-morphology-analyser/ |
| 64 | |
| 65 | == Morfologická desambiguace (tagging) == |
| 66 | |
| 67 | Morfologická desambiguace redukuje výstup morfologické analýzy na jeden základní tvar a jednu značku, které jsou platné pro token v konkrétním kontextu. Z věty ''Neustále se ženu za lepšími výsledky.'' je jasné, že ''ženu'' je sloveso v první osobě jednotného čísla. Výstupem morfologické desambiguace je tedy seznam trojic (token, základní tvar, gramatická značka) pro každou větu. |
| 68 | |
| 69 | Pro morfologickou desambiguaci české věty je možné použít nástroj `desamb`. |
| 70 | |
| 71 | Spuštění na strojích CZPJ: |
| 72 | |
| 73 | {{{ |
| 74 | echo "Neustále se ženu za lepšími výsledky." | /corpora/programy/unitok.py | /corpora/programy/desamb.utf8.majka.sh |
| 75 | }}} |
| 76 | |
| 77 | Ukázka výstupu pro předchozí větu: |
| 78 | {{{ |
| 79 | <s> |
| 80 | Neustále neustále k6eAd1 |
| 81 | se se k3xPyFc4 |
| 82 | ženu hnát k5eAaImIp1nS |
| 83 | za za k7c7 |
| 84 | lepšími dobrý k2eAgInPc7d2 |
| 85 | výsledky výsledek k1gInPc7 |
| 86 | <g/> |
| 87 | . . kIx. |
| 88 | </s> |
| 89 | }}} |
39 | | analyzátory synt a SET |
| 93 | Cílem syntaktické analýzy je získat informace o syntaktických závislostech mezi tokeny, případně identifikovat větší syntakticky závislé celky - fráze. |
| 94 | |
| 95 | V CZPJ jsme vyvinuli dva různé syntaktické analyzátory: `synt` a `SET`. |
| 96 | |
| 97 | Spuštění analyzátoru `SET` na strojích CZPJ: |
| 98 | |
| 99 | {{{ |
| 100 | echo "Neustále se ženu za lepšími výsledky." | /corpora/programy/unitok.py | /corpora/programy/desamb.utf8.majka.sh | /nlp/projekty/set/set/set.py |
| 101 | }}} |
| 102 | |
| 103 | Analyzátor je možné spustit s řadou parametrů podle toho, jaký výpis potřebujete. |
| 104 | |
| 105 | Ukázka výstupu pro předchozí větu: |
| 106 | {{{ |
| 107 | 0 Neustále 2 d adverb |
| 108 | 1 se 2 d object |
| 109 | 2 ženu 7 p |
| 110 | 3 za 2 d additional-prep |
| 111 | 4 lepšími 5 d modifier |
| 112 | 5 výsledky 3 d prep-object |
| 113 | 6 . 7 p |
| 114 | 7 <clause> 8 p |
| 115 | 8 <sentence> -1 p |
| 116 | }}} |
| 117 | |
| 118 | Spuštění analyzátoru `synt` na strojích CZPJ: |
| 119 | |
| 120 | TODO |
| 121 | |
| 122 | === Stránky projektů === |
| 123 | |
| 124 | * `SET`: http://nlp.fi.muni.cz/trac/set |
| 125 | * `synt`: http://nlp.fi.muni.cz/trac/synt |
52 | | rozpoznávání anafor, vyhledávání klíčových frází (témat), aktuální členění větné |
| 147 | Úkoly sémantické analýzy jsou velice různé, takže následuje jen stručný seznam projektů, které souvisejí se sémantickou analýzou českého textu: |
| 148 | |
| 149 | === Stránky projektů === |
| 150 | |
| 151 | * rozpoznávání anafor `aara`: http://nlp.fi.muni.cz/projekty/watsonson/aara |
| 152 | * vyhledávání klíčových frází (témat): http://nlp.fi.muni.cz/projekty/topicks |
| 153 | * aktuální členění větné: TODO |
| 154 | |
| 155 | == Korpusy == |
| 156 | |
| 157 | Pro zpracování češtiny je v nástroji SketchEngine dostupných několik korpusů: czes2, desam, czTenTen, korpus české Wikipedie, Czechparl, paralelní korpus OPUS2. |
| 158 | |
| 159 | === Stránka projektu === |
| 160 | |
| 161 | * http://ske.fi.muni.cz/ |