Context Navigation

Changes between Version 23 and Version 24 of cs/MainTopics

Timestamp:: Mar 26, 2014, 11:14:37 AM (11 years ago)
Author:: xkocinc
Comment:: image links updated

Legend:

: Unmodified
: Added
: Removed
: Modified

cs/MainTopics

-                      v23
+                      v24
 <img src="/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png?format=raw" />
 }}}
 Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP.  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. značkované, doménové, mluvené nebo chybové.
 …
 V NLP Centru byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. Tyto korpusy mohou obsahovat i více než 100 miliard slovních pozic.
+[[Image(metatrans.png, 350px, align=right)]]
+{{{
+#!html
+<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png?format=raw" />
+}}}
 ''Související projekty:''
 …
 == Slovníky == #dict
+[[Image(debII_slovniky.png, 400px, align=right)]]
+{{{
+#!html
+<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/debII_slovniky.png?format=raw" />
+}}}
 Slovníky  jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v  papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních  projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a  vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat  označovaných souhrnně jako lexikografická stanice. Jedná se o systém,  který umožní odbornému uživateli pohodlný přístup k mnoha různým  lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a  editaci dat.
 …
 == Morfologie == #morph
-[[Image(majka_nlpportal.png, 300px, align=left)]]
+{{{
+#!html
+<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/majka_nlpportal.png?format=raw" />
+}}}
 Morfologická  analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá  se rozlišováním a generováním správných gramatických tvarů slovních  výrazů, které vzniknou skloňováním a časováním.  Výsledkem je sada  značek, které popisují gramatické kategorie daného tvaru, zejména pak  základní tvar (lemma) a slovní vzor.  Automatické rozlišení tvaru slova  ve volném textu lze využít při vývoji gramatického korektoru, jako  pomůcka při značkování korpusů nebo při poloautomatickém vytváření  slovníků.  Největší problém v této oblasti je morfologická desambiguace  (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit,  zda slovo "jedu" označuje sloveso nebo podstatné jméno.
 …
 == Syntaktická analýza == #syntan
+[[Image(synt_tree.png, 250px, align=right)]]
+{{{
+#!html
+<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/synt_tree.png?format=raw" />
+}}}
 Úkolem  syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v  daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy  syntaktická struktura věty, například v podobě derivačního stromu. Cílem  syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného  jazyka.  Toho lze využít např. při vývoji syntaktického korektoru na  opravu interpunkce, dialogového systému pro komunikaci v přirozeném  jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu.  Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k  nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více  pravidel gramatiky, než jiné jazyky.
 …
 == Sémantika == #semant
+[[Image(dict2_small.png, 450px, align=right)]]
+{{{
+#!html
+<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/disct2_small.png?format=raw" />
+}}}
 Sémantická a  pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného  jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským  kamenem je zde strojový překlad, který s uspokojivými výsledky pro  češtinu neexistuje.