Changes between Version 23 and Version 24 of cs/MainTopics


Ignore:
Timestamp:
Mar 26, 2014, 11:14:37 AM (10 years ago)
Author:
xkocinc
Comment:

image links updated

Legend:

Unmodified
Added
Removed
Modified
 • cs/MainTopics

  v23 v24  
  2626<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png?format=raw" />
  2727}}}
   28
  2829Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP.  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. značkované, doménové, mluvené nebo chybové.
  2930
   
  3435V NLP Centru byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. Tyto korpusy mohou obsahovat i více než 100 miliard slovních pozic.
  3536
  36 [[Image(metatrans.png​, 350px, align=right)]]
   37{{{
   38#!html
   39<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png​?format=raw" />
   40}}}
  3741
  3842''Související projekty:''
   
  6165
  6266== Slovníky == #dict
  63 [[Image(debII_slovniky.png​, 400px, align=right)]]
   67
   68{{{
   69#!html
   70<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/debII_slovniky.png?format=raw" />
   71}}}
   72
  6473Slovníky  jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v  papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních  projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a  vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat  označovaných souhrnně jako lexikografická stanice. Jedná se o systém,  který umožní odbornému uživateli pohodlný přístup k mnoha různým  lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a  editaci dat.
  6574
   
  8291
  8392== Morfologie == #morph
  84 [[Image(​majka_nlpportal.png​, 300px, align=left)]]
  8593
   94{{{
   95#!html
   96<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/majka_nlpportal.png​?format=raw" />
   97}}}
  8698
  8799Morfologická  analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá  se rozlišováním a generováním správných gramatických tvarů slovních  výrazů, které vzniknou skloňováním a časováním.  Výsledkem je sada  značek, které popisují gramatické kategorie daného tvaru, zejména pak  základní tvar (lemma) a slovní vzor.  Automatické rozlišení tvaru slova  ve volném textu lze využít při vývoji gramatického korektoru, jako  pomůcka při značkování korpusů nebo při poloautomatickém vytváření  slovníků.  Největší problém v této oblasti je morfologická desambiguace  (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit,  zda slovo "jedu" označuje sloveso nebo podstatné jméno.
   
  99111
  100112== Syntaktická analýza == #syntan
  101 [[Image(​synt_tree.png​, 250px, align=right)]]
   113{{{
   114#!html
   115<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/synt_tree.png​?format=raw" />
   116}}}
   117
  102118Úkolem  syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v  daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy  syntaktická struktura věty, například v podobě derivačního stromu. Cílem  syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného  jazyka.  Toho lze využít např. při vývoji syntaktického korektoru na  opravu interpunkce, dialogového systému pro komunikaci v přirozeném  jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu.  Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k  nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více  pravidel gramatiky, než jiné jazyky.
  103119
   
  114130
  115131== Sémantika == #semant
  116 [[Image(​dict2_small.png​, 450px, align=right)]]
   132{{{
   133#!html
   134<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/disct2_small.png​?format=raw" />
   135}}}
   136
  117137Sémantická a  pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného  jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským  kamenem je zde strojový překlad, který s uspokojivými výsledky pro  češtinu neexistuje.
  118138