Changes between Initial Version and Version 1 of cs/MainTopics


Ignore:
Timestamp:
Feb 26, 2014, 1:36:57 PM (10 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/MainTopics

    v1 v1  
     1[http://nlp.fi.muni.cz/cs/nlplab Centrum zpracování přirozeného jazyka]  se zaměřuje na získávání výsledků v oblastech informačních technologií a  jazykovědy. Výsledky projektů jsou hojně publikovány na konferencích,  Centrum ZPJ také spolupracuje s tuzemskými i zahraničními pracovišti  podobného zaměření a studentům nabízí výměnné pobyty na partnerských  univerzitách mimo republiku.
     2
     3Vyzkoušejte si některé naše jazykové nástroje:   
     4 * [http://prirucka.ujc.cas.cz/ Internetová jazyková příručka]   
     5 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent][[BR]] ''nástroj na doplňování diakritiky''   
     6 * [http://nlp.fi.muni.cz/%7Expopelk/xplain/ X-Plain][[BR]] ''hra Activity s počítačem''   
     7 * [http://nlp.fi.muni.cz/projekty/wwwajka/ Ajka][[BR]] ''morfologický analyzátor''   
     8 * [http://nlp.fi.muni.cz/projekty/wwwsynt/query.cgi Synt] a [http://nlp.fi.muni.cz/projekty/set/ SET][[BR]] ''syntaktické analyzátory''
     9
     10''[[BR]]Bližší informace následují níže, tematicky seskupené do následujících kapitol:''
     11
     12 * [http://nlp.fi.muni.cz/cs/main_topics#corp Korpusy]
     13
     14 * [http://nlp.fi.muni.cz/cs/main_topics#dict Slovníky]
     15
     16 * [http://nlp.fi.muni.cz/cs/main_topics#morph Morfologie]
     17
     18 * [http://nlp.fi.muni.cz/cs/main_topics#syntan Syntaktická analýza]
     19
     20 * [http://nlp.fi.muni.cz/cs/main_topics#semant Sémantika]
     21
     22== Korpusy == #Korpusy
     23Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP.  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. značkované, doménové, mluvené nebo chybové.
     24
     25Korpusy  se používají při zkoumání a konstrukci gramatik přirozených jazyků.  Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru  hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci  textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny  obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se  zejména v oblastech zjednoznačňování významů a strojového překladu.
     26
     27V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je velmi vhodné je předzpracovat: například programem '''jusText''' na odstranění netextových částí webových stránek, nástrojem '''onion''', který odstraňuje duplicitní části textu, nebo programem '''chared''' na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém '''gensim''', který umožňuje určit témata, o kterých se v píše v daném textu.
     28
     29V NLP Centru byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. Tyto korpusy mohou obsahovat i více než 100 miliard slovních pozic.
     30
     31''Související projekty:''
     32
     33 * [http://nlp.fi.muni.cz/projekty/bonito/ Bonito]
     34
     35 * [http://ske.fi.muni.cz/ Corpus Architect]
     36
     37 * [http://www.sketchengine.co.uk/ Word Sketch Engine]
     38
     39 * [http://nlp.fi.muni.cz/projekty/cpa/ CPA]
     40
     41 * [http://nlp.fi.muni.cz/projekty/justext/ jusText]
     42
     43 * [http://code.google.com/p/onion/ onion]
     44
     45 * [http://code.google.com/p/chared/ chared]
     46
     47 * [http://radimrehurek.com/gensim/index.html Gensim]
     48
     49''Související články:''
     50
     51 * [http://nlp.fi.muni.cz/cs/Uvod_do_korpusove_lingvistiky Úvod do korpusové lingvistiky]
     52
     53([http://nlp.fi.muni.cz/cs/main_topics#guidepost zpět na seznam kategorií]) [[BR]]
     54
     55== Slovníky == #Slovn.2BAO0-ky
     56Slovníky  jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v  papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních  projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a  vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat  označovaných souhrnně jako lexikografická stanice. Jedná se o systém,  který umožní odbornému uživateli pohodlný přístup k mnoha různým  lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a  editaci dat.
     57
     58Jedním z našich slovníkově zaměřených projektů je vývoj '''''platformy DEB''''',  která při použití architektury klient-server výše uvedené požadavky  splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''''DEBDict''''',  ve kterém je kromě digitalizovaných slovníků k dispozici také několik  encyklopedií, onomastický a frazeologický slovník. Aplikace pro DEB se  vyvíjejí v jazyku XUL a jsou dostupné jako rozšíření pro webový  prohlížeč Firefox. [[BR]]
     59
     60''Související projekty:''
     61
     62 * [http://nlp.fi.muni.cz/projekty/deb2/ DEB II]
     63
     64 * [http://nlp.fi.muni.cz/projekty/deb2/debdict/ DEBDict]
     65
     66 * [http://nlp.fi.muni.cz/projekty/deb2/#debvisdic DEBVisDic]
     67
     68 * [http://nlp.fi.muni.cz/cs/VerbaLex VerbaLex]
     69
     70 * [http://metatrans.fi.muni.cz/ MetaTrans]
     71
     72 * [http://nlp.fi.muni.cz/projekty/cpa/ CPA]
     73
     74([http://nlp.fi.muni.cz/cs/main_topics#guidepost zpět na seznam kategorií]) [[BR]]
     75
     76== Morfologie == #Morfologie
     77Morfologická  analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá  se rozlišováním a generováním správných gramatických tvarů slovních  výrazů, které vzniknou skloňováním a časováním.  Výsledkem je sada  značek, které popisují gramatické kategorie daného tvaru, zejména pak  základní tvar (lemma) a slovní vzor.  Automatické rozlišení tvaru slova  ve volném textu lze využít při vývoji gramatického korektoru, jako  pomůcka při značkování korpusů nebo při poloautomatickém vytváření  slovníků.  Největší problém v této oblasti je morfologická desambiguace  (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit,  zda slovo "jedu" označuje sloveso nebo podstatné jméno.
     78
     79V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''''"ajka"'''''  pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky  němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''''"fispell"''''', převodník ascii textu na text s diakritikou '''''"czaccent"''''' nebo interaktivní rozhraní pro IM protokol Jabber.
     80
     81''Související projekty:''
     82
     83 * [http://nlp.fi.muni.cz/projekty/ajka/ Ajka]
     84
     85 * [http://nlp.fi.muni.cz/ma/free.html Fajka (analyzátor s volnou versí dat)]
     86
     87 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent]
     88
     89([http://nlp.fi.muni.cz/cs/main_topics#guidepost zpět na seznam kategorií]) [[BR]]
     90
     91== Syntaktická analýza == #Syntaktick.2BAOE_anal.2BAP0-za
     92Úkolem  syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v  daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy  syntaktická struktura věty, například v podobě derivačního stromu. Cílem  syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného  jazyka.  Toho lze využít např. při vývoji syntaktického korektoru na  opravu interpunkce, dialogového systému pro komunikaci v přirozeném  jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu.  Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k  nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více  pravidel gramatiky, než jiné jazyky.
     93
     94NLP Centrum vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90%. Pro výukové účely existuje jednoduchý analyzátor '''''Zuzana'''''.
     95
     96''Související projekty:''
     97
     98 * [http://nlp.fi.muni.cz/projekty/wwwsynt/ Synt]
     99
     100 * [http://nlp.fi.muni.cz/projekty/set/ SET]
     101
     102 * [http://nlp.fi.muni.cz/projekty/zuzana/ Zuzana]
     103
     104([http://nlp.fi.muni.cz/cs/main_topics#guidepost zpět na seznam kategorií]) [[BR]]
     105
     106== Sémantika == #S.2BAOk-mantika
     107Sémantická a  pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného  jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským  kamenem je zde strojový překlad, který s uspokojivými výsledky pro  češtinu neexistuje.
     108
     109Jedním z dlouhodobých projektů CZPJ je využití '''''transparentní intenzionální logiky (TIL)'''''  jako jazyka pro sémantickou reprezentaci znalostí a transformačního  jazyka v procesu automatického překladu. V současné fázi je reálné  zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se  strojovým překladem nad určitou doménou, např. úředních dokumentů nebo  počasí, nebo s polomechanickým překladem mezi blízkými jazyky, což jsou  problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a  elektronické slovníky.
     110
     111V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''''EuroWordNet''''' a '''''Balkanet''''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''''WordNet'''''. [[BR]]
     112
     113''Související projekty:''
     114
     115 * [http://nlp.fi.muni.cz/projekty/deb2/#debvisdic DEBVisDic]
     116
     117 * [http://www.fi.muni.cz/%7Ehales/disert/ Logická analýza české věty v TIL]
     118
     119 * [http://nlp.fi.muni.cz/projekty/visualbrowser/ Visual Browser]
     120
     121 * [http://radimrehurek.com/gensim/index.html Gensim]
     122
     123''Animovaná ukázka Visual Browseru:''
     124
     125 * [cs/main_topics/VlDemoGif ve formátu GIF (zjednodušená)]
     126
     127([http://nlp.fi.muni.cz/cs/main_topics#guidepost zpět na seznam kategorií]) [[BR]]
     128
     129== Další informace == #Dal.2BAWEA7Q_informace
     130 * [http://nlp.fi.muni.cz/cs/specializace Předměty specializace Zpracování přirozeného jazyka]
     131
     132 * [http://nlp.fi.muni.cz/projekty/ Seznam vybraných projektů CZPJ]
     133
     134 * [https://nlp.fi.muni.cz/nlpis/baliky.php Aktuálně nabízená témata diplomových a bakalářských prací]
     135
     136 * [http://nlp.fi.muni.cz/cs/zajimave Zajímavé texty o zpracování přirozeného jazyka]
     137
     138 * [http://nlp.fi.muni.cz/cs/nlplab Domovská stránka laboratoře]