Changes between Version 25 and Version 26 of cs/MainTopics
- Timestamp:
- Apr 8, 2014, 10:02:51 AM (10 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/MainTopics
v25 v26 1 = Na čem pracujeme v NLP Centru? = 1 2 Centrum zpracování přirozeného jazyka se zaměřuje na získávání výsledků v oblastech informačních technologií a jazykovědy. Výsledky projektů jsou hojně publikovány na konferencích, Centrum ZPJ také spolupracuje s tuzemskými i zahraničními pracovišti podobného zaměření a studentům nabízí výměnné pobyty na partnerských univerzitách mimo republiku. 2 3 3 Vyzkoušejte si některé naše jazykové nástroje: 4 Vyzkoušejte si některé naše jazykové nástroje: 5 4 6 * [http://prirucka.ujc.cas.cz/ Internetová jazyková příručka] 5 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent][[BR]] ''nástroj na doplňování diakritiky'' 6 * [http://nlp.fi.muni.cz/%7Expopelk/xplain/ X-Plain][[BR]] ''hra Activity s počítačem'' 7 * [http://nlp.fi.muni.cz/czech-morphology-analyser Majka] [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)] [[BR]] ''morfologický analyzátor'' 7 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent][[BR]] ''nástroj na doplňování diakritiky'' 8 * [http://nlp.fi.muni.cz/%7Expopelk/xplain/ X-Plain][[BR]] ''hra Activity s počítačem'' 9 * [http://nlp.fi.muni.cz/czech-morphology-analyser Majka] [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)] [[BR]] ''morfologický analyzátor'' 8 10 * [http://nlp.fi.muni.cz/projekty/wwwsynt/query.cgi Synt] a [http://nlp.fi.muni.cz/projekty/set/ SET] ''syntaktické analyzátory'' 9 * [https://the.sketchengine.co.uk/open/ Vyhledávání v textových korpusech] 11 * [https://the.sketchengine.co.uk/open/ Vyhledávání v textových korpusech] 10 12 11 13 ''Bližší informace následují níže, tematicky seskupené do následujících kapitol:'' … … 26 28 <img src="/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png" /> 27 29 }}} 28 29 30 Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. značkované, doménové, mluvené nebo chybové. 30 31 … … 39 40 <img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png"/> 40 41 }}} 41 42 42 ''Související projekty:'' 43 43 … … 58 58 * [http://radimrehurek.com/gensim/index.html Gensim] 59 59 60 61 60 ''Související články:'' 62 61 63 62 * [[UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]] 64 63 65 66 64 == Slovníky == #dict 67 68 65 {{{ 69 66 #!html 70 67 <img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/debII_slovniky.png?format=raw" /> 71 68 }}} 72 73 69 Slovníky jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat označovaných souhrnně jako lexikografická stanice. Jedná se o systém, který umožní odbornému uživateli pohodlný přístup k mnoha různým lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a editaci dat. 74 70 … … 89 85 * [http://nlp.fi.muni.cz/projekty/cpa/ CPA] 90 86 91 92 87 == Morfologie == #morph 93 94 88 {{{ 95 89 #!html 96 90 <img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/majka_nlpportal.png?format=raw" /> 97 91 }}} 98 99 92 Morfologická analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá se rozlišováním a generováním správných gramatických tvarů slovních výrazů, které vzniknou skloňováním a časováním. Výsledkem je sada značek, které popisují gramatické kategorie daného tvaru, zejména pak základní tvar (lemma) a slovní vzor. Automatické rozlišení tvaru slova ve volném textu lze využít při vývoji gramatického korektoru, jako pomůcka při značkování korpusů nebo při poloautomatickém vytváření slovníků. Největší problém v této oblasti je morfologická desambiguace (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit, zda slovo "jedu" označuje sloveso nebo podstatné jméno. 100 93 … … 109 102 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent] 110 103 111 112 104 == Syntaktická analýza == #syntan 113 105 {{{ … … 115 107 <img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/synt_tree.png?format=raw" /> 116 108 }}} 117 118 109 Úkolem syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy syntaktická struktura věty, například v podobě derivačního stromu. Cílem syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného jazyka. Toho lze využít např. při vývoji syntaktického korektoru na opravu interpunkce, dialogového systému pro komunikaci v přirozeném jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu. Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více pravidel gramatiky, než jiné jazyky. 119 110 … … 128 119 * [http://nlp.fi.muni.cz/projekty/zuzana/ Zuzana] 129 120 130 131 121 == Sémantika == #semant 132 122 {{{ … … 134 124 <img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/disct2_small.png?format=raw" /> 135 125 }}} 136 137 126 Sémantická a pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským kamenem je zde strojový překlad, který s uspokojivými výsledky pro češtinu neexistuje. 138 127 … … 155 144 * [cs/main_topics/VlDemoGif ve formátu GIF (zjednodušená)] 156 145 157 158 146 == Další informace == 159 147 * [[Specializace| Předměty specializace Zpracování přirozeného jazyka]]