Changes between Version 25 and Version 26 of cs/MainTopics


Ignore:
Timestamp:
Apr 8, 2014, 10:02:51 AM (7 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/MainTopics

    v25 v26  
     1= Na čem pracujeme v NLP Centru? =
    12Centrum zpracování přirozeného jazyka  se zaměřuje na získávání výsledků v oblastech informačních technologií a  jazykovědy. Výsledky projektů jsou hojně publikovány na konferencích,  Centrum ZPJ také spolupracuje s tuzemskými i zahraničními pracovišti  podobného zaměření a studentům nabízí výměnné pobyty na partnerských  univerzitách mimo republiku.
    23
    3 Vyzkoušejte si některé naše jazykové nástroje:   
     4Vyzkoušejte si některé naše jazykové nástroje:
     5
    46 * [http://prirucka.ujc.cas.cz/ Internetová jazyková příručka]
    5  * [http://nlp.fi.muni.cz/cz_accent/ CZ accent][[BR]] ''nástroj na doplňování diakritiky''   
    6  * [http://nlp.fi.muni.cz/%7Expopelk/xplain/ X-Plain][[BR]] ''hra Activity s počítačem''   
    7  * [http://nlp.fi.muni.cz/czech-morphology-analyser Majka] [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)] [[BR]] ''morfologický analyzátor''   
     7 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent][[BR]] ''nástroj na doplňování diakritiky''
     8 * [http://nlp.fi.muni.cz/%7Expopelk/xplain/ X-Plain][[BR]] ''hra Activity s počítačem''
     9 * [http://nlp.fi.muni.cz/czech-morphology-analyser Majka] [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)] [[BR]] ''morfologický analyzátor''
    810 * [http://nlp.fi.muni.cz/projekty/wwwsynt/query.cgi Synt] a [http://nlp.fi.muni.cz/projekty/set/ SET] ''syntaktické analyzátory''
    9  * [https://the.sketchengine.co.uk/open/ Vyhledávání v textových korpusech]   
     11 * [https://the.sketchengine.co.uk/open/ Vyhledávání v textových korpusech]
    1012
    1113''Bližší informace následují níže, tematicky seskupené do následujících kapitol:''
     
    2628<img src="/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png" />
    2729}}}
    28 
    2930Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP.  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. značkované, doménové, mluvené nebo chybové.
    3031
     
    3940<img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png​"/>
    4041}}}
    41 
    4242''Související projekty:''
    4343
     
    5858 * [http://radimrehurek.com/gensim/index.html Gensim]
    5959
    60 
    6160''Související články:''
    6261
    6362 * [[UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]]
    6463
    65 
    6664== Slovníky == #dict
    67 
    6865{{{
    6966#!html
    7067<img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/debII_slovniky.png?format=raw" />
    7168}}}
    72 
    7369Slovníky  jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v  papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních  projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a  vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat  označovaných souhrnně jako lexikografická stanice. Jedná se o systém,  který umožní odbornému uživateli pohodlný přístup k mnoha různým  lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a  editaci dat.
    7470
     
    8985 * [http://nlp.fi.muni.cz/projekty/cpa/ CPA]
    9086
    91 
    9287== Morfologie == #morph
    93 
    9488{{{
    9589#!html
    9690<img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/majka_nlpportal.png​?format=raw" />
    9791}}}
    98 
    9992Morfologická  analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá  se rozlišováním a generováním správných gramatických tvarů slovních  výrazů, které vzniknou skloňováním a časováním.  Výsledkem je sada  značek, které popisují gramatické kategorie daného tvaru, zejména pak  základní tvar (lemma) a slovní vzor.  Automatické rozlišení tvaru slova  ve volném textu lze využít při vývoji gramatického korektoru, jako  pomůcka při značkování korpusů nebo při poloautomatickém vytváření  slovníků.  Největší problém v této oblasti je morfologická desambiguace  (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit,  zda slovo "jedu" označuje sloveso nebo podstatné jméno.
    10093
     
    109102 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent]
    110103
    111 
    112104== Syntaktická analýza == #syntan
    113105{{{
     
    115107<img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/synt_tree.png​?format=raw" />
    116108}}}
    117 
    118109Úkolem  syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v  daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy  syntaktická struktura věty, například v podobě derivačního stromu. Cílem  syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného  jazyka.  Toho lze využít např. při vývoji syntaktického korektoru na  opravu interpunkce, dialogového systému pro komunikaci v přirozeném  jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu.  Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k  nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více  pravidel gramatiky, než jiné jazyky.
    119110
     
    128119 * [http://nlp.fi.muni.cz/projekty/zuzana/ Zuzana]
    129120
    130 
    131121== Sémantika == #semant
    132122{{{
     
    134124<img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/disct2_small.png​?format=raw" />
    135125}}}
    136 
    137126Sémantická a  pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného  jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským  kamenem je zde strojový překlad, který s uspokojivými výsledky pro  češtinu neexistuje.
    138127
     
    155144 * [cs/main_topics/VlDemoGif ve formátu GIF (zjednodušená)]
    156145
    157 
    158146== Další informace ==
    159147 * [[Specializace| Předměty specializace Zpracování přirozeného jazyka]]