Čeština
English
  • Vítejte na stránkách NLP Centra!
  • Zapojte se do vývoje softwarových nástrojů!
  • Analýza přirozeného jazyka
  • Vyzkoušejte si korpusy o velikosti knihoven online!
  • Studujte jednu ze specializací!
  • Členové laboratoře

Grantové projekty

Členové Centra zpracování přirozeného jazyka jsou spoluřešiteli následujících grantových projektů:

  • Analýza přirozeného jazyka v prostředí internetu  isVaV
    • MV ČR VF20102014003
    • 1.10.2010–31.12.2014
    • Předmětem veřejné zakázky je vyvinout a implementovat techniky zpracování přirozeného jazyka umožňující analyzovat jazykové projevy na Internetu, které spadají do působnosti českých bezpečnostních orgánů (neonacismu, anarchismu, rasismu, terorismu) s důrazem na určování pravděpodobnosti autorství textů. Předmětem zájmu bude veškerý webový obsah produkovaný domácími i mezinárodními zájmovými skupinami nebo jednotlivci, tj. webové adresy, fóra, chaty, blogy, sociální sítě a další zdroje.

  • LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat  isVaV
    • MŠMT LM2010013
    • 1.1.2010–31.12.2015
    • Projekt LINDAT-CLARIN je koncipován jako český uzel mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure, FP7-RI-2122230) a projektu META-NET (Technologies for the Multilingual European Information Society, NoE, 2011-2014, FP7-ICT-4-249119) pro volné sdílení jazykových dat a pokročilých technologií mezi institucemi a jednotlivci ve vědě a výzkumu. Tyto evropské projekty mají za cíl překážky volného přístupu k jazykovým datům postupně odstranit a umožnit národně distribuované, ale technologicky jednotné poskytování jazykových dat a souvisejících technologií všem zájemcům. V oblasti anotace dat je cílem projektu pořídit tato data v dostatečném rozsahu pro praktickou aplikaci statistického modelování jazyka jako nutnou podmínku pro aplikaci těchto modelů v praxi (korektory textu, automatický překlad, extrakce informací z textu, porozumění textu, dialogové systémy apod.). V oblasti distribuce dat je cílem poskytovat službu repozitáře pro úschovu, licencování a poskytování dat v rámci celoevropské sítě Clarin a META-SHARE (součást projektu META-NET). V oblasti technologické i v oblasti lidských zdrojů je cílem vybudování know-how v oblasti sběru, úschovy, tvorby a distribuce dat, které bude možno poskytovat i externím subjektům. Přitom je třeba vyškolit jazykové odborníky i odborníky z oblasti technologií (informatika, statistika, matematické modelování) tak, aby byli schopni v tomto výrazné mezioborovém projektu efektivně pracovat. Nezanedbatelným cílem projektu je vychovat další vědeckou generaci, která bude umět s jazykovými daty pracovat, správně je analyzovat a používat v národním i mezinárodním kontextu, a spolupracovat v rámci EU i mimo ni na budoucích projektech využívajících moderní jazykové technologie.

  • Temporální aspekty znalostí a informací  isVaV
    • GA ČR P401/10/0792
    • 1.1.2010–31.12.2012
  • Pattern REcognition-based Statistically Enhanced MT – PRESEMT  isVaV
    • MŠMT 7E10057
    • 1.1.2010–31.12.2012
    • This proposal describes PRESEMT, a flexible and adaptable MT system, based on a language-independent method, whose principles ensure easy portability to new language pairs. This method attempts to overcome well-known problems of other MT approaches, e.g. bilingual corpora compilation or creation of new rules per language pair. PRESEMT will address the issue of effectively managing multilingual content and is expected to suggest a language-independent machine-learning-based methodology. The key aspects of PRESEMT involve syntactic phrase-based modelling, pattern recognition approaches (such as extended clustering or neural networks) or game theory techniques towards the development of a language-independent analysis, evolutionary algorithms for system optimisation.

  • Právní e-slovník - PES  isVaV
    • GA ČR 407/07/0679
    • 1.1.2007–31.12.2011
    • E-právní slovník představuje kombinaci klasického lexikálního slovníku se slovníkem kontextovým, doplněným základními vztahy mezi právními termíny. Cílem projektu je poskytnout právní i laické veřejnosti představu o lexikálním významu základních právních termínů v konfrontaci s jejich aktuálním užitím v právním řádu ČR. Výběr základních českých právních termínů je plně kompatibilní s právem EU. Projekt navazuje na dosavadní práce v oboru právní informatiky a počítačové lingvistiky v ČR a na jeho řešení se podílí ÚSP AV ČR, ÚJČ AV ČR a Fakulta informatiky MU Brno.

  • Centrum komputační lingvistiky  isVaV
    • MŠMT LC536
    • 1.2.2005–31.12.2011
    • Předmětem činnosti Centra je společný teoretický výzkum v oboru počítačové (matematické) lingvistiky, a to zejména v oblasti kombinace zpracování psaného a mluveného jazyka, která bude podle našeho názoru této oblasti již v brzké době dominovat. Na tomto výzkumu budou těsně spolupracovat zakládající subjekty, které se v rámci svých Výzkumných záměrů a jiných výzkumných projektů zabývají různými aspekty zpracování přirozeného jazyka. Cílem Centra je prohloubit spolupráci zúčastněných subjektů a zefektivnit tak proces výzkumu v oblasti automatického zpracování přirozeného jazyka. Konkrétně se jedná o teoretické zpracování reprezentace promluv, propojení zpracování mluvené řeči a porozumění jazyku, strojový překlad, extrakce informací, generování jazyka a tvorba anotovaných korpusů a slovníků nezbytných pro řešení výše uvedených úloh. Výsledky Centra budou publikovány v oboru obvyklým způsobem; korpusy pak budou plně veřejně dostupné prostřednictvím světových distributorů lingvistických zdrojů.

  • Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce  isVaV
    • MŠMT 2C06009
    • 1.7.2006–31.12.2010
    • Vypracovat komplexní systém metodických a implementačních nástrojů na bázi inteligentních agentů pro vytváření uživatelsky přívětivých rozhraní k sémantickému webu umožňující, aby komunikace s uživatelem probíhala v přirozeném jazyce a též zpracovávaná data měla převážně charakter vět, resp. promluv, přirozeného jazyka. Dalším cílem pak je ověření funkčních vlastností navržených nástrojů na vhodně zvolené aplikaci.

  • Inteligentní metody pro zvýšení spolehlivosti elektrických sítí  isVaV
    • AV ČR T100300414
    • 1. 7. 2004–31. 12. 2008
    • Hlavním cílem výzkumného projektu je zvýšení bezpečnosti a spolehlivosti chodu elektroenergetické soustavy rozvojem nových inteligentních metod. Vlice aktuální je rovněž snížení rizika black - out v České republice. Problematika spolehlivosti elektrických rozvodných soustav je na fakultě elektrotechniky a informatiky úspěšně řešena několik let. Vzniklo zde celostátní výzkumné pracoviště pro tvorbu a kategorizaci databáze poruch rozvodných zařízení a výpadků dodávky elektrické energie. Z celé České republiky a ze Slovenska jsou zasílány informace z jednotlivých regionálních distribučních společností a vytváří se tak objektivně vypovídající prostředí pro výpočty spolehlivosti rozvodných systémů.

  • Jazyková poradna na internetu  isVaV
    • AV ČR T200610406
    • 1. 7. 2004–31. 12. 2008
    • Cílem projektu je vytvořit první internetovou příručku českého jazyka tak, aby dosavadní (tradiční, ceněné, ale dnes již příliš se rozrůstající, časově neúnosně náročné) služby jazykové poradny Ústavu pro jazyk český AV ČR mohly být poskytovány primárně elektronickou cestou. Příručka bude obsahovat všestranné, rozsáhlé, databázově uspořádané údaje a poučení o češtině, které umožní tazatelům vyhledávat odpovědi na jazykové otázky samostatně, co nejjednodušším a pohodlným způsobem, v širokých věcných souvislostech a bez časových prodlev. Jazykovědci shromáždí potřebná jazyková data, jazykoví inženýři zformulují a ověří optimální vyhledávací programy. Takto vytvořená příručka bude mít řadu předností. Bude k dispozici nejširší laické i odborné veřejnosti domácí i uživatelům češtiny v zahraničí, bude možno ji nepřetržitě doplňovat o nové informace v souladu s aktuálními zájmy a problémy tazatelů i s vývojem jazykových norem a přinese podstatné zefektivnění poradenské činnosti.
    • výsledek je  Internetová jazyková příručka
  • Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu  isVaV
    • AV ČR 1ET100300419
    • 1. 7. 2004–31. 12. 2008
    • Předkládaný projekt je projektem teoretického i praktického charakteru. Jeho cílem je zkoumat a rozvíjet teoretické základy sémantického webu, a následně aplikovat a experimentálně ověřit vybrané metody soft computingu v této oblasti. Výzkumné práce se soustředí hlavně na výpočetní modely a formální kalkuly reprezentace znalostí, její extrakci, manipulaci a učení, založené na fuzzy logice, neuronových sítích, genetických algoritmech, agentové technologii a pokročilé databázové teorii, s využitím speciálně v kontextu extrakce znalostí z dat. V souladu s celkovou orientaci projektu jeho očekávané výsledky budou následující:
    • teoretické práce publikované v mezinárodních časopisech a prezentované na mezinárodních konferencích
    • nové algoritmy pro extrakci znalostí z dat
    • prototypové implementace těchto algoritmů v rámci multiagentního systému.
      • Jádrem řešitelského kolektivu je 12 klíčových vědeckých pracovníků ze tří pracovišť a doplňuje ho 11 doktorandů.

  • Integrované centrum počítačového zpracování přirozeného jazyka
    • MŠMT LC536
    • 1. 1. 2005–31. 12. 2009
  • Překlad českých vět na konstrukce transparentní intenzionální logiky  isVaV
    • GAČR 201/05/2781
    • 1. 1. 2005–31. 12. 2007
    • Hlavním cílem navrhovaného projektu je získání automatického systému pro zpracování textů v přirozeném jazyce (češtině) a tvorbu logické reprezentace věty ve strojově čitelné formě. Získaný logický popis bude bezprostředně využit k reprezentaci znalostí v prostředí sémantického webu.
    • Realizace projektu spočívá v implementaci algoritmu normální translace (NTA) pro vymezenou část češtiny s cílem pokrýt většinu nejfrekventovanějších gramatických jevů. Algoritmus NTA se skládá ze dvou spolupracujících částí - efektivního syntaktického analyzátoru vět přirozeného jazyka a logické analýzy věty pomocí transparentní intenzionální logiky (TIL) jako systému temporální logiky vyššího řádu s hierarchií typů. Jako součást projektu bude vytvořen i nástroj pro testování nalezených konstrukcí TILu. Takto bude položen základ pro automatický odpovídací systém na bázi sémantického webu.

  • Velké jazykové korpusy a jejich automatická analýza  isVaV
    • GAČR 405/03/0913
    • 1. 1. 2003–31. 12. 2005
    • Jazykové korpusy jsou nezastupitelnou součástí lingvistického výzkumu. Používají se za různým účelem, od jednoduchého vyhledávání daných slov až po přímé využití pro tzv. trénování v metodách automatického strojového učení; tyto metody se používají např.pro pravděpodobnostní jazykové modelování či automatickou počítačovou analýzu vět přirozeného jazyka. Použitelnost a užitečnost jazykových textových a řečových korpusů (včetně vícejazyčných) je umocněna jejich lingvistickou analýzou (anotováním). Anotacemůže odrážet jak formu, strukturu i funkci jazykových jednotek obsažených v anotovaném textu.Základním cílem projektu je obohatit naše dosavadní znalosti o jazykovém systému obecně a češtině zvlášť, a to ve smyslu vyvinutí takových metod (zejména metodstatistického strojového učení a metod symbolických, a jejich kombinací), aby bylo možno s vysokou přesností analyzovat velké jazykové korpusy jak psaného, tak mluveného textu. Bude se přitom využívat výsledků dosažené v předchozích projektech a grantech.

Starší projekty

  • BalkaNet - Návrh a tvorba vícejazyčného balkánského WordNetu
    • Účastníci: Univerzita v Patrasu, Institut počítačových technologií, Univerzita Alexandru Ioan Cuza, Římská akademie, Bulharská akademie věd, Univerzita Sabanci, Masarykova univerzita, Memodata, Univerzita v Plovdiv, Athenská univerzita
    • Hlavní řešitel z FI:  doc. PhDr. Karel Pala Csc. ( pala@fi.muni.cz)
    • Poskytovatel: Komise evropského společenství
    • Doba trvání: 36 měsíců
    • Poznámka: shrnutí tohoto projektu je dostupné na adrese:  http://www.ceid.upatras.gr/Balkanet/
  • 405/96/K214 - Čeština ve věku počítačů  isVaV
    • Hlavní řešitel z FI:  doc. PhDr. Karel Pala, CSc. ( pala@fi.muni.cz)
    • Poskytovatel: Grantová agentura ČR
    • Datum zahájení: 1. ledna 1996
    • Doba trvání: 6 let
    • Dílčí zpráva o řešení za rok 2000:  doc,  rtf,  htm,  txt,
    • Poznámka: nositelem grantu je ÚFAL MFF UK, členové Centra zpracování přirozeného jazyka se podílejí na řešeních některých dílčích úkolů (viz zpráva)

  • LE4-8328 - EuroWordNet 2