Changes between Version 23 and Version 24 of cs/MainTopics


Ignore:
Timestamp:
Mar 26, 2014, 11:14:37 AM (10 years ago)
Author:
xkocinc
Comment:

image links updated

Legend:

Unmodified
Added
Removed
Modified
  • cs/MainTopics

    v23 v24  
    2626<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png?format=raw" />
    2727}}}
     28
    2829Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP.  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. značkované, doménové, mluvené nebo chybové.
    2930
     
    3435V NLP Centru byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. Tyto korpusy mohou obsahovat i více než 100 miliard slovních pozic.
    3536
    36 [[Image(metatrans.png​, 350px, align=right)]]
     37{{{
     38#!html
     39<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png​?format=raw" />
     40}}}
    3741
    3842''Související projekty:''
     
    6165
    6266== Slovníky == #dict
    63 [[Image(debII_slovniky.png​, 400px, align=right)]]
     67
     68{{{
     69#!html
     70<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/debII_slovniky.png?format=raw" />
     71}}}
     72
    6473Slovníky  jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v  papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních  projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a  vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat  označovaných souhrnně jako lexikografická stanice. Jedná se o systém,  který umožní odbornému uživateli pohodlný přístup k mnoha různým  lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a  editaci dat.
    6574
     
    8291
    8392== Morfologie == #morph
    84 [[Image(​majka_nlpportal.png​, 300px, align=left)]]
    8593
     94{{{
     95#!html
     96<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/majka_nlpportal.png​?format=raw" />
     97}}}
    8698
    8799Morfologická  analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá  se rozlišováním a generováním správných gramatických tvarů slovních  výrazů, které vzniknou skloňováním a časováním.  Výsledkem je sada  značek, které popisují gramatické kategorie daného tvaru, zejména pak  základní tvar (lemma) a slovní vzor.  Automatické rozlišení tvaru slova  ve volném textu lze využít při vývoji gramatického korektoru, jako  pomůcka při značkování korpusů nebo při poloautomatickém vytváření  slovníků.  Největší problém v této oblasti je morfologická desambiguace  (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit,  zda slovo "jedu" označuje sloveso nebo podstatné jméno.
     
    99111
    100112== Syntaktická analýza == #syntan
    101 [[Image(​synt_tree.png​, 250px, align=right)]]
     113{{{
     114#!html
     115<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/synt_tree.png​?format=raw" />
     116}}}
     117
    102118Úkolem  syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v  daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy  syntaktická struktura věty, například v podobě derivačního stromu. Cílem  syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného  jazyka.  Toho lze využít např. při vývoji syntaktického korektoru na  opravu interpunkce, dialogového systému pro komunikaci v přirozeném  jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu.  Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k  nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více  pravidel gramatiky, než jiné jazyky.
    103119
     
    114130
    115131== Sémantika == #semant
    116 [[Image(​dict2_small.png​, 450px, align=right)]]
     132{{{
     133#!html
     134<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/disct2_small.png​?format=raw" />
     135}}}
     136
    117137Sémantická a  pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného  jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským  kamenem je zde strojový překlad, který s uspokojivými výsledky pro  češtinu neexistuje.
    118138