Changes between Version 56 and Version 57 of cs/MainTopics
- Timestamp:
- Apr 28, 2014, 1:05:07 PM (9 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/MainTopics
v56 v57 67 67 Slovníky jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat označovaných souhrnně jako lexikografická stanice. Jedná se o systém, který umožní odbornému uživateli pohodlný přístup k mnoha různým lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a editaci dat. 68 68 69 Jedním z našich slovníkově zaměřených projektů je vývoj ''' ''platformy DEB''''', která při použití architektury klient-server výše uvedené požadavky splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''''DEBDict''''', ve kterém je kromě digitalizovaných slovníků k dispozici také několik encyklopedií, onomastický a frazeologický slovník. Aplikace pro DEB se vyvíjejí v jazyku XUL a jsou dostupné jako rozšíření pro webový prohlížeč Firefox. [[BR]]69 Jedním z našich slovníkově zaměřených projektů je vývoj '''platformy DEB''', která při použití architektury klient-server výše uvedené požadavky splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''DEBDict''', ve kterém je kromě digitalizovaných slovníků k dispozici také několik encyklopedií, onomastický a frazeologický slovník. Aplikace pro DEB se vyvíjejí v jazyku XUL a jsou dostupné jako rozšíření pro webový prohlížeč Firefox. [[BR]] 70 70 71 71 ''Související projekty:'' … … 89 89 Morfologická analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá se rozlišováním a generováním správných gramatických tvarů slovních výrazů, které vzniknou skloňováním a časováním. Výsledkem je sada značek, které popisují gramatické kategorie daného tvaru, zejména pak základní tvar (lemma) a slovní vzor. Automatické rozlišení tvaru slova ve volném textu lze využít při vývoji gramatického korektoru, jako pomůcka při značkování korpusů nebo při poloautomatickém vytváření slovníků. Největší problém v této oblasti je morfologická desambiguace (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit, zda slovo "jedu" označuje sloveso nebo podstatné jméno. 90 90 91 V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu ''' ''"Majka"''''' pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''''"fispell"''''', převodník ascii textu na text s diakritikou '''''"czaccent"''''' nebo interaktivní rozhraní pro IM protokol Jabber.91 V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''Majka''' pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''"fispell"''', převodník ascii textu na text s diakritikou '''"czaccent"''' nebo interaktivní rozhraní pro IM protokol Jabber. 92 92 93 93 ''Související projekty:'' … … 105 105 Úkolem syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy syntaktická struktura věty, například v podobě derivačního stromu. Cílem syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného jazyka. Toho lze využít např. při vývoji syntaktického korektoru na opravu interpunkce, dialogového systému pro komunikaci v přirozeném jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu. Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více pravidel gramatiky, než jiné jazyky. 106 106 107 NLP Centrum vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90%. Pro výukové účely existuje jednoduchý analyzátor ''' ''Zuzana'''''.107 NLP Centrum vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90%. Pro výukové účely existuje jednoduchý analyzátor '''Zuzana'''. 108 108 109 109 ''Související projekty:'' … … 121 121 Sémantická a pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským kamenem je zde strojový překlad, který s uspokojivými výsledky pro češtinu neexistuje. 122 122 123 Jedním z dlouhodobých projektů CZPJ je využití ''' ''transparentní intenzionální logiky (TIL)''''' jako jazyka pro sémantickou reprezentaci znalostí a transformačního jazyka v procesu automatického překladu. V současné fázi je reálné zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se strojovým překladem nad určitou doménou, např. úředních dokumentů nebo počasí, nebo s polomechanickým překladem mezi blízkými jazyky, což jsou problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a elektronické slovníky.123 Jedním z dlouhodobých projektů CZPJ je využití '''transparentní intenzionální logiky (TIL)''' jako jazyka pro sémantickou reprezentaci znalostí a transformačního jazyka v procesu automatického překladu. V současné fázi je reálné zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se strojovým překladem nad určitou doménou, např. úředních dokumentů nebo počasí, nebo s polomechanickým překladem mezi blízkými jazyky, což jsou problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a elektronické slovníky. 124 124 125 V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech ''' ''!EuroWordNet''''' a '''''Balkanet''''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''''!WordNet'''''. [[BR]]125 V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''!EuroWordNet''' a '''Balkanet''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''!WordNet'''. [[BR]] 126 126 127 127 ''Související projekty:''