Changes between Version 70 and Version 71 of cs/MainTopics


Ignore:
Timestamp:
Jul 22, 2014, 11:25:36 AM (10 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/MainTopics

    v70 v71  
    1 {{{#!html <input type="hidden" id="lang_version" value="en/MainTopics" /> <input type="hidden" id="title_name" value="Na čem pracujeme v Centru zpracování přirozeného jazyka?"/> }}}
     1{{{#!html <input type="hidden" id="lang_version" value="en/MainTopics" /> <input type="hidden" id="title_name" value="Na čem pracujeme v Centru zpracování přirozeného jazyka?"/>
     2}}}
    23
    34= Na čem pracujeme v Centru? =
     
    6061Slovníky  jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v  papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních  projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a  vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat  označovaných souhrnně jako lexikografická stanice. Jedná se o systém,  který umožní odbornému uživateli pohodlný přístup k mnoha různým  lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a  editaci dat.
    6162
    62 Jedním z našich slovníkově zaměřených projektů je vývoj '''platformy DEB''',  která při použití architektury klient-server výše uvedené požadavky  splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''DEBDict''',  ve kterém je kromě digitalizovaných slovníků k dispozici také několik  encyklopedií, onomastický a frazeologický slovník. Aplikace pro DEB se  vyvíjejí v jazyku XUL a jsou dostupné jako rozšíření pro webový  prohlížeč Firefox. [[BR]]
     63Jedním z našich slovníkově zaměřených projektů je vývoj '''platformy DEB''',  která při použití architektury klient-server výše uvedené požadavky  splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''DEBDict''',  ve kterém je kromě digitalizovaných slovníků k dispozici také několik  encyklopedií, onomastický a frazeologický slovník. Klienty pro DEB jsou webové aplikace.
    6364
    6465''Související projekty:''
     
    7980[[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/majka_nlpportal.png, align=right)]]
    8081
    81 Morfologická  analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá  se rozlišováním a generováním správných gramatických tvarů slovních  výrazů, které vzniknou skloňováním a časováním.  Výsledkem je sada  značek, které popisují gramatické kategorie daného tvaru, zejména pak  základní tvar (lemma) a slovní vzor.  Automatické rozlišení tvaru slova  ve volném textu lze využít při vývoji gramatického korektoru, jako  pomůcka při značkování korpusů nebo při poloautomatickém vytváření  slovníků.  Největší problém v této oblasti je morfologická desambiguace  (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit,  zda slovo "jedu" označuje sloveso nebo podstatné jméno.
     82Morfologická  analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá  se rozlišováním a generováním správných gramatických tvarů slovních  výrazů, které vzniknou skloňováním a časováním.  Výsledkem je sada  značek, které popisují gramatické kategorie daného tvaru, zejména pak  základní tvar (lemma) a slovní vzor.  Automatické rozlišení tvaru slova  ve volném textu lze využít při vývoji gramatického korektoru, jako  pomůcka při značkování korpusů nebo při poloautomatickém vytváření  slovníků. Morfologická analýza je také výchozím bodem zpracování textu pro analýzy náročnější: syntaktickou i sémantickou. Největší problém v této oblasti je morfologická desambiguace  (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit,  zda slovo ''jedu'' označuje sloveso (1. osoba od ''jet'') nebo podstatné jméno (2. nebo 3. pád od ''jed'').
    8283
    83 V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''Majka'''  pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky  němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''"fispell"''', převodník ascii textu na text s diakritikou '''"czaccent"''' nebo interaktivní rozhraní pro IM protokol Jabber.
     84V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''Majka'''  pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky  němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''fispell''', převodník ascii textu na text s diakritikou '''czaccent''' nebo interaktivní rozhraní pro IM protokol Jabber. Analyzátor Majka byl později rozšířen pro slovenštinu, polštinu a angličtinu.
    8485
    8586''Související projekty:''
    8687
    87  * [http://nlp.fi.muni.cz/czech-morphology-analyser Majka] [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)]
     88 * Majka ([http://nlp.fi.muni.cz/czech-morphology-analyser česká],[http://nlp.fi.muni.cz/slovak-morphology-analyser slovenská],[http://nlp.fi.muni.cz/polish-morphology-analyser polská],[http://nlp.fi.muni.cz/english-morphology-analyser anglická] morfologie) [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)]
    8889
    89  * [http://nlp.fi.muni.cz/ma/free.html Fajka (analyzátor s volnou versí dat)]
     90 * [http://nlp.fi.muni.cz/ma/free.html Fajka (analyzátor s volnou verzí dat)]
    9091
    91  * [http://nlp.fi.muni.cz/cz_accent/ CZ accent]
     92 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent] oháčkovávač textů bez diakritiky
    9293
    9394== Syntaktická analýza == #syntan
    9495[[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/synt_tree.png​, align=right)]]
    9596
    96 Úkolem  syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v  daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy  syntaktická struktura věty, například v podobě derivačního stromu. Cílem  syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného  jazyka.  Toho lze využít např. při vývoji syntaktického korektoru na  opravu interpunkce, dialogového systému pro komunikaci v přirozeném  jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu.  Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k  nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více  pravidel gramatiky, než jiné jazyky.
     97Úkolem  syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v  daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy  syntaktická struktura věty, například v podobě derivačního stromu. Cílem  syntaktické analýzy je, aby počítač „porozuměl“ gramatice přirozeného  jazyka.  Toho lze využít např. při vývoji syntaktického korektoru na  opravu interpunkce, dialogového systému pro komunikaci v přirozeném  jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu.  Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k  nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více  pravidel gramatiky, než jiné jazyky.
    9798
    98 NLP Centrum vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90%. Pro výukové účely existuje jednoduchý analyzátor '''Zuzana'''.
     99CZPJ vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90 %. Pro výukové účely existuje jednoduchý analyzátor '''Zuzana'''.
    99100
    100101''Související projekty:''
     
    109110[[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/dict2_small.png, align=left)]]
    110111
    111 Sémantická a  pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného  jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským  kamenem je zde strojový překlad, který s uspokojivými výsledky pro  češtinu neexistuje.
     112Sémantická a  pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného  jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským  kamenem je zde strojový překlad, který s uspokojivými výsledky pro  češtinu zatím neexistuje.
    112113
    113 Jedním z dlouhodobých projektů CZPJ je využití '''transparentní intenzionální logiky (TIL)'''  jako jazyka pro sémantickou reprezentaci znalostí a transformačního  jazyka v procesu automatického překladu. V současné fázi je reálné  zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se  strojovým překladem nad určitou doménou, např. úředních dokumentů nebo  počasí, nebo s polomechanickým překladem mezi blízkými jazyky, což jsou  problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a  elektronické slovníky.
     114Jedním z dlouhodobých projektů CZPJ je využití '''transparentní intenzionální logiky (TIL)'''  jako jazyka pro sémantickou reprezentaci znalostí a transformačního  jazyka v procesu automatického překladu. V současné fázi je reálné  zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se  strojovým překladem nad určitou doménou, např. úředních dokumentů nebo  počasí, nebo s poloautomatickým překladem mezi blízkými jazyky, což jsou  problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a  elektronické slovníky.
    114115
    115 V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''!EuroWordNet''' a '''Balkanet''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''!WordNet'''. [[BR]]
     116V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''!EuroWordNet''' a '''Balkanet''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''!WordNet'''.
     117
     118Do oblasti sémantické analýzy spadají úkoly jako rezoluce anafor (jejímž cílem je například zjistit, na jaký objekt v reálném světě určité zájmeno odkazuje), parafrázování a textové vyplývání. Jde o náročné úlohy, které se zatím nepodařilo uspokojivě vyřešit pro žádný jazyk. Experimentálními nástroji jsou programy pro rozpoznání anafor '''Saara''' a systém pro generování parafrází a textových vyplývání '''Watsonson'''.
    116119
    117120''Související projekty:''
     121
     122 * [http://presemt.eu/ PreseMT] strojový překlad založený na vzorech
    118123
    119124 * [http://nlp.fi.muni.cz/projekty/deb2/#debvisdic DEBVisDic]
     
    125130 * [http://radimrehurek.com/gensim/index.html Gensim]
    126131
     132 * [http://nlp.fi.muni.cz/projekty/saara Saara]
     133
     134 * [http://nlp.fi.muni.cz/projekty/watsonson Watsonson]
     135
    127136''Animovaná ukázka Visual Browseru (zjednodušená):''
    128137
     
    130139
    131140== Další informace ==
     141 * [[cs/LangToolsLinks| Vyzkoušejte si nástroje CZPJ]]
     142
    132143 * [[cs/Specializace| Předměty specializace Zpracování přirozeného jazyka]]
    133144