Changes between Version 56 and Version 57 of cs/MainTopics


Ignore:
Timestamp:
Apr 28, 2014, 1:05:07 PM (9 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
 • cs/MainTopics

  v56 v57  
  6767Slovníky  jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v  papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních  projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a  vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat  označovaných souhrnně jako lexikografická stanice. Jedná se o systém,  který umožní odbornému uživateli pohodlný přístup k mnoha různým  lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a  editaci dat.
  6868
  69 Jedním z našich slovníkově zaměřených projektů je vývoj '''''platformy DEB''''',  která při použití architektury klient-server výše uvedené požadavky  splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''''DEBDict''''',  ve kterém je kromě digitalizovaných slovníků k dispozici také několik  encyklopedií, onomastický a frazeologický slovník. Aplikace pro DEB se  vyvíjejí v jazyku XUL a jsou dostupné jako rozšíření pro webový  prohlížeč Firefox. [[BR]]
   69Jedním z našich slovníkově zaměřených projektů je vývoj '''platformy DEB''',  která při použití architektury klient-server výše uvedené požadavky  splňuje. Příkladem klientské aplikace je prohlížeč slovníků '''DEBDict''',  ve kterém je kromě digitalizovaných slovníků k dispozici také několik  encyklopedií, onomastický a frazeologický slovník. Aplikace pro DEB se  vyvíjejí v jazyku XUL a jsou dostupné jako rozšíření pro webový  prohlížeč Firefox. [[BR]]
  7070
  7171''Související projekty:''
   
  8989Morfologická  analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá  se rozlišováním a generováním správných gramatických tvarů slovních  výrazů, které vzniknou skloňováním a časováním.  Výsledkem je sada  značek, které popisují gramatické kategorie daného tvaru, zejména pak  základní tvar (lemma) a slovní vzor.  Automatické rozlišení tvaru slova  ve volném textu lze využít při vývoji gramatického korektoru, jako  pomůcka při značkování korpusů nebo při poloautomatickém vytváření  slovníků.  Největší problém v této oblasti je morfologická desambiguace  (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit,  zda slovo "jedu" označuje sloveso nebo podstatné jméno.
  9090
  91 V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''''"Majka"'''''  pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky  němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''''"fispell"''''', převodník ascii textu na text s diakritikou '''''"czaccent"''''' nebo interaktivní rozhraní pro IM protokol Jabber.
   91V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu '''Majka'''  pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky  němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor '''"fispell"''', převodník ascii textu na text s diakritikou '''"czaccent"''' nebo interaktivní rozhraní pro IM protokol Jabber.
  9292
  9393''Související projekty:''
   
  105105Úkolem  syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v  daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy  syntaktická struktura věty, například v podobě derivačního stromu. Cílem  syntaktické analýzy je, aby počítač "porozuměl" gramatice přirozeného  jazyka.  Toho lze využít např. při vývoji syntaktického korektoru na  opravu interpunkce, dialogového systému pro komunikaci v přirozeném  jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu.  Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k  nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více  pravidel gramatiky, než jiné jazyky.
  106106
  107 NLP Centrum vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90%. Pro výukové účely existuje jednoduchý analyzátor '''''Zuzana'''''.
   107NLP Centrum vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor '''synt''' je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. '''SET''' je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90%. Pro výukové účely existuje jednoduchý analyzátor '''Zuzana'''.
  108108
  109109''Související projekty:''
   
  121121Sémantická a  pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného  jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským  kamenem je zde strojový překlad, který s uspokojivými výsledky pro  češtinu neexistuje.
  122122
  123 Jedním z dlouhodobých projektů CZPJ je využití '''''transparentní intenzionální logiky (TIL)'''''  jako jazyka pro sémantickou reprezentaci znalostí a transformačního  jazyka v procesu automatického překladu. V současné fázi je reálné  zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se  strojovým překladem nad určitou doménou, např. úředních dokumentů nebo  počasí, nebo s polomechanickým překladem mezi blízkými jazyky, což jsou  problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a  elektronické slovníky.
   123Jedním z dlouhodobých projektů CZPJ je využití '''transparentní intenzionální logiky (TIL)'''  jako jazyka pro sémantickou reprezentaci znalostí a transformačního  jazyka v procesu automatického překladu. V současné fázi je reálné  zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se  strojovým překladem nad určitou doménou, např. úředních dokumentů nebo  počasí, nebo s polomechanickým překladem mezi blízkými jazyky, což jsou  problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a  elektronické slovníky.
  124124
  125 V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''''!EuroWordNet''''' a '''''Balkanet''''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''''!WordNet'''''. [[BR]]
   125V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech '''!EuroWordNet''' a '''Balkanet''', které byly zaměřeny na budování vícejazyčné sémantické sítě typu '''!WordNet'''. [[BR]]
  126126
  127127''Související projekty:''