Changes between Version 23 and Version 24 of cs/MainTopics
- Timestamp:
- Mar 26, 2014, 11:14:37 AM (11 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/MainTopics
v23 v24 26 26 <img src="/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png?format=raw" /> 27 27 }}} 28 28 29 Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. značkované, doménové, mluvené nebo chybové. 29 30 … … 34 35 V NLP Centru byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. Tyto korpusy mohou obsahovat i více než 100 miliard slovních pozic. 35 36 36 [[Image(metatrans.png, 350px, align=right)]] 37 {{{ 38 #!html 39 <img src="/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png?format=raw" /> 40 }}} 37 41 38 42 ''Související projekty:'' … … 61 65 62 66 == Slovníky == #dict 63 [[Image(debII_slovniky.png, 400px, align=right)]] 67 68 {{{ 69 #!html 70 <img src="/trac/research/raw-attachment/wiki/cs/MainTopics/debII_slovniky.png?format=raw" /> 71 }}} 72 64 73 Slovníky jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat označovaných souhrnně jako lexikografická stanice. Jedná se o systém, který umožní odbornému uživateli pohodlný přístup k mnoha různým lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a editaci dat. 65 74 … … 82 91 83 92 == Morfologie == #morph 84 [[Image(majka_nlpportal.png, 300px, align=left)]]85 93 94 {{{ 95 #!html 96 <img src="/trac/research/raw-attachment/wiki/cs/MainTopics/majka_nlpportal.png?format=raw" /> 97 }}} 86 98 87 99 Morfologická analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá se rozlišováním a generováním správných gramatických tvarů slovních výrazů, které vzniknou skloňováním a časováním. Výsledkem je sada značek, které popisují gramatické kategorie daného tvaru, zejména pak základní tvar (lemma) a slovní vzor. Automatické rozlišení tvaru slova ve volném textu lze využít při vývoji gramatického korektoru, jako pomůcka při značkování korpusů nebo při poloautomatickém vytváření slovníků. Největší problém v této oblasti je morfologická desambiguace (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit, zda slovo "jedu" označuje sloveso nebo podstatné jméno. … … 99 111 100 112 == Syntaktická analýza == #syntan 101 [[Image(synt_tree.png, 250px, align=right)]] 113 {{{ 114 #!html 115 <img src="/trac/research/raw-attachment/wiki/cs/MainTopics/synt_tree.png?format=raw" /> 116 }}} 117 102 118 Úkolem syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy syntaktická struktura věty, například v podobě derivačního stromu. Cílem syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného jazyka. Toho lze využít např. při vývoji syntaktického korektoru na opravu interpunkce, dialogového systému pro komunikaci v přirozeném jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu. Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více pravidel gramatiky, než jiné jazyky. 103 119 … … 114 130 115 131 == Sémantika == #semant 116 [[Image(dict2_small.png, 450px, align=right)]] 132 {{{ 133 #!html 134 <img src="/trac/research/raw-attachment/wiki/cs/MainTopics/disct2_small.png?format=raw" /> 135 }}} 136 117 137 Sémantická a pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským kamenem je zde strojový překlad, který s uspokojivými výsledky pro češtinu neexistuje. 118 138