Context Navigation

Changes between Version 56 and Version 57 of cs/MainTopics

Timestamp:: Apr 28, 2014, 1:05:07 PM (11 years ago)
Author:: xkocinc
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

cs/MainTopics

-                      v56
+                      v57
 Slovníky  jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v  papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních  projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a  vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat  označovaných souhrnně jako lexikografická stanice. Jedná se o systém,  který umožní odbornému uživateli pohodlný přístup k mnoha různým  lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a  editaci dat.
 Jedním z našich slovníkově zaměřených projektů je vývoj '''''platformy DEB''''',  která při použití architektury klient-server výše uvedené požadavky  splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''''DEBDict''''',  ve kterém je kromě digitalizovaných slovníků k dispozici také několik  encyklopedií, onomastický a frazeologický slovník. Aplikace pro DEB se  vyvíjejí v jazyku XUL a jsou dostupné jako rozšíření pro webový  prohlížeč Firefox. [[BR]]
+Jedním z našich slovníkově zaměřených projektů je vývoj '''platformy DEB''',  která při použití architektury klient-server výše uvedené požadavky  splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''DEBDict''',  ve kterém je kromě digitalizovaných slovníků k dispozici také několik  encyklopedií, onomastický a frazeologický slovník. Aplikace pro DEB se  vyvíjejí v jazyku XUL a jsou dostupné jako rozšíření pro webový  prohlížeč Firefox. [[BR]]
 ''Související projekty:''
 …
 Morfologická  analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá  se rozlišováním a generováním správných gramatických tvarů slovních  výrazů, které vzniknou skloňováním a časováním.  Výsledkem je sada  značek, které popisují gramatické kategorie daného tvaru, zejména pak  základní tvar (lemma) a slovní vzor.  Automatické rozlišení tvaru slova  ve volném textu lze využít při vývoji gramatického korektoru, jako  pomůcka při značkování korpusů nebo při poloautomatickém vytváření  slovníků.  Největší problém v této oblasti je morfologická desambiguace  (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit,  zda slovo "jedu" označuje sloveso nebo podstatné jméno.
 V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''''"Majka"'''''  pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky  němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''''"fispell"''''', převodník ascii textu na text s diakritikou '''''"czaccent"''''' nebo interaktivní rozhraní pro IM protokol Jabber.
+V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''Majka'''  pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky  němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''"fispell"''', převodník ascii textu na text s diakritikou '''"czaccent"''' nebo interaktivní rozhraní pro IM protokol Jabber.
 ''Související projekty:''
 …
 Úkolem  syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v  daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy  syntaktická struktura věty, například v podobě derivačního stromu. Cílem  syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného  jazyka.  Toho lze využít např. při vývoji syntaktického korektoru na  opravu interpunkce, dialogového systému pro komunikaci v přirozeném  jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu.  Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k  nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více  pravidel gramatiky, než jiné jazyky.
 NLP Centrum vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90%. Pro výukové účely existuje jednoduchý analyzátor '''''Zuzana'''''.
+NLP Centrum vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90%. Pro výukové účely existuje jednoduchý analyzátor '''Zuzana'''.
 ''Související projekty:''
 …
 Sémantická a  pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného  jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským  kamenem je zde strojový překlad, který s uspokojivými výsledky pro  češtinu neexistuje.
 Jedním z dlouhodobých projektů CZPJ je využití '''''transparentní intenzionální logiky (TIL)'''''  jako jazyka pro sémantickou reprezentaci znalostí a transformačního  jazyka v procesu automatického překladu. V současné fázi je reálné  zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se  strojovým překladem nad určitou doménou, např. úředních dokumentů nebo  počasí, nebo s polomechanickým překladem mezi blízkými jazyky, což jsou  problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a  elektronické slovníky.
+Jedním z dlouhodobých projektů CZPJ je využití '''transparentní intenzionální logiky (TIL)'''  jako jazyka pro sémantickou reprezentaci znalostí a transformačního  jazyka v procesu automatického překladu. V současné fázi je reálné  zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se  strojovým překladem nad určitou doménou, např. úředních dokumentů nebo  počasí, nebo s polomechanickým překladem mezi blízkými jazyky, což jsou  problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a  elektronické slovníky.
 V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''''!EuroWordNet''''' a '''''Balkanet''''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''''!WordNet'''''. [[BR]]
+V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''!EuroWordNet''' a '''Balkanet''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''!WordNet'''. [[BR]]
 ''Související projekty:''