Changes between Version 70 and Version 71 of cs/MainTopics
- Timestamp:
- Jul 22, 2014, 11:25:36 AM (9 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/MainTopics
v70 v71 1 {{{#!html <input type="hidden" id="lang_version" value="en/MainTopics" /> <input type="hidden" id="title_name" value="Na čem pracujeme v Centru zpracování přirozeného jazyka?"/> }}} 1 {{{#!html <input type="hidden" id="lang_version" value="en/MainTopics" /> <input type="hidden" id="title_name" value="Na čem pracujeme v Centru zpracování přirozeného jazyka?"/> 2 }}} 2 3 3 4 = Na čem pracujeme v Centru? = … … 60 61 Slovníky jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat označovaných souhrnně jako lexikografická stanice. Jedná se o systém, který umožní odbornému uživateli pohodlný přístup k mnoha různým lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a editaci dat. 61 62 62 Jedním z našich slovníkově zaměřených projektů je vývoj '''platformy DEB''', která při použití architektury klient-server výše uvedené požadavky splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''DEBDict''', ve kterém je kromě digitalizovaných slovníků k dispozici také několik encyklopedií, onomastický a frazeologický slovník. Aplikace pro DEB se vyvíjejí v jazyku XUL a jsou dostupné jako rozšíření pro webový prohlížeč Firefox. [[BR]]63 Jedním z našich slovníkově zaměřených projektů je vývoj '''platformy DEB''', která při použití architektury klient-server výše uvedené požadavky splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''DEBDict''', ve kterém je kromě digitalizovaných slovníků k dispozici také několik encyklopedií, onomastický a frazeologický slovník. Klienty pro DEB jsou webové aplikace. 63 64 64 65 ''Související projekty:'' … … 79 80 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/majka_nlpportal.png, align=right)]] 80 81 81 Morfologická analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá se rozlišováním a generováním správných gramatických tvarů slovních výrazů, které vzniknou skloňováním a časováním. Výsledkem je sada značek, které popisují gramatické kategorie daného tvaru, zejména pak základní tvar (lemma) a slovní vzor. Automatické rozlišení tvaru slova ve volném textu lze využít při vývoji gramatického korektoru, jako pomůcka při značkování korpusů nebo při poloautomatickém vytváření slovníků. Největší problém v této oblasti je morfologická desambiguace (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit, zda slovo "jedu" označuje sloveso nebo podstatné jméno.82 Morfologická analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá se rozlišováním a generováním správných gramatických tvarů slovních výrazů, které vzniknou skloňováním a časováním. Výsledkem je sada značek, které popisují gramatické kategorie daného tvaru, zejména pak základní tvar (lemma) a slovní vzor. Automatické rozlišení tvaru slova ve volném textu lze využít při vývoji gramatického korektoru, jako pomůcka při značkování korpusů nebo při poloautomatickém vytváření slovníků. Morfologická analýza je také výchozím bodem zpracování textu pro analýzy náročnější: syntaktickou i sémantickou. Největší problém v této oblasti je morfologická desambiguace (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit, zda slovo ''jedu'' označuje sloveso (1. osoba od ''jet'') nebo podstatné jméno (2. nebo 3. pád od ''jed''). 82 83 83 V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''Majka''' pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor ''' "fispell"''', převodník ascii textu na text s diakritikou '''"czaccent"''' nebo interaktivní rozhraní pro IM protokol Jabber.84 V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''Majka''' pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''fispell''', převodník ascii textu na text s diakritikou '''czaccent''' nebo interaktivní rozhraní pro IM protokol Jabber. Analyzátor Majka byl později rozšířen pro slovenštinu, polštinu a angličtinu. 84 85 85 86 ''Související projekty:'' 86 87 87 * [http://nlp.fi.muni.cz/czech-morphology-analyser Majka][http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)]88 * Majka ([http://nlp.fi.muni.cz/czech-morphology-analyser česká],[http://nlp.fi.muni.cz/slovak-morphology-analyser slovenská],[http://nlp.fi.muni.cz/polish-morphology-analyser polská],[http://nlp.fi.muni.cz/english-morphology-analyser anglická] morfologie) [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)] 88 89 89 * [http://nlp.fi.muni.cz/ma/free.html Fajka (analyzátor s volnou ver sí dat)]90 * [http://nlp.fi.muni.cz/ma/free.html Fajka (analyzátor s volnou verzí dat)] 90 91 91 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent] 92 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent] oháčkovávač textů bez diakritiky 92 93 93 94 == Syntaktická analýza == #syntan 94 95 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/synt_tree.png, align=right)]] 95 96 96 Úkolem syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy syntaktická struktura věty, například v podobě derivačního stromu. Cílem syntaktické analýzy je, aby počítač "porozuměl"gramatice přirozeného jazyka. Toho lze využít např. při vývoji syntaktického korektoru na opravu interpunkce, dialogového systému pro komunikaci v přirozeném jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu. Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více pravidel gramatiky, než jiné jazyky.97 Úkolem syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy syntaktická struktura věty, například v podobě derivačního stromu. Cílem syntaktické analýzy je, aby počítač „porozuměl“ gramatice přirozeného jazyka. Toho lze využít např. při vývoji syntaktického korektoru na opravu interpunkce, dialogového systému pro komunikaci v přirozeném jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu. Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více pravidel gramatiky, než jiné jazyky. 97 98 98 NLP Centrum vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90%. Pro výukové účely existuje jednoduchý analyzátor '''Zuzana'''.99 CZPJ vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90 %. Pro výukové účely existuje jednoduchý analyzátor '''Zuzana'''. 99 100 100 101 ''Související projekty:'' … … 109 110 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/dict2_small.png, align=left)]] 110 111 111 Sémantická a pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským kamenem je zde strojový překlad, který s uspokojivými výsledky pro češtinu neexistuje.112 Sémantická a pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským kamenem je zde strojový překlad, který s uspokojivými výsledky pro češtinu zatím neexistuje. 112 113 113 Jedním z dlouhodobých projektů CZPJ je využití '''transparentní intenzionální logiky (TIL)''' jako jazyka pro sémantickou reprezentaci znalostí a transformačního jazyka v procesu automatického překladu. V současné fázi je reálné zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se strojovým překladem nad určitou doménou, např. úředních dokumentů nebo počasí, nebo s polo mechanickým překladem mezi blízkými jazyky, což jsou problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a elektronické slovníky.114 Jedním z dlouhodobých projektů CZPJ je využití '''transparentní intenzionální logiky (TIL)''' jako jazyka pro sémantickou reprezentaci znalostí a transformačního jazyka v procesu automatického překladu. V současné fázi je reálné zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se strojovým překladem nad určitou doménou, např. úředních dokumentů nebo počasí, nebo s poloautomatickým překladem mezi blízkými jazyky, což jsou problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a elektronické slovníky. 114 115 115 V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''!EuroWordNet''' a '''Balkanet''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''!WordNet'''. [[BR]] 116 V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''!EuroWordNet''' a '''Balkanet''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''!WordNet'''. 117 118 Do oblasti sémantické analýzy spadají úkoly jako rezoluce anafor (jejímž cílem je například zjistit, na jaký objekt v reálném světě určité zájmeno odkazuje), parafrázování a textové vyplývání. Jde o náročné úlohy, které se zatím nepodařilo uspokojivě vyřešit pro žádný jazyk. Experimentálními nástroji jsou programy pro rozpoznání anafor '''Saara''' a systém pro generování parafrází a textových vyplývání '''Watsonson'''. 116 119 117 120 ''Související projekty:'' 121 122 * [http://presemt.eu/ PreseMT] strojový překlad založený na vzorech 118 123 119 124 * [http://nlp.fi.muni.cz/projekty/deb2/#debvisdic DEBVisDic] … … 125 130 * [http://radimrehurek.com/gensim/index.html Gensim] 126 131 132 * [http://nlp.fi.muni.cz/projekty/saara Saara] 133 134 * [http://nlp.fi.muni.cz/projekty/watsonson Watsonson] 135 127 136 ''Animovaná ukázka Visual Browseru (zjednodušená):'' 128 137 … … 130 139 131 140 == Další informace == 141 * [[cs/LangToolsLinks| Vyzkoušejte si nástroje CZPJ]] 142 132 143 * [[cs/Specializace| Předměty specializace Zpracování přirozeného jazyka]] 133 144