Čeština
English
  • Vítejte na stránkách NLP Centra!
  • Zapojte se do vývoje softwarových nástrojů!
  • Analýza přirozeného jazyka
  • Vyzkoušejte si korpusy o velikosti knihoven online!
  • Studujte jednu ze specializací!
  • Členové laboratoře

Grantové projekty

Členové Centra zpracování přirozeného jazyka jsou spoluřešiteli následujících grantových projektů:

  • Historické prameny na dosah. Zpřístupnění středověkých písemných dokumentů formou kontextuální databáze. (AHISTO) MUNI
    • TA ČR TL03000365
    • 1.5.2020 - 31.4.2023
    • Základním cílem projektu je zpřístupnit písemné prameny k českým středověkým dějinám širokému okruhu uživatelů internetu: vědcům, pracovníkům paměťových institucí, učitelům, studentům i nejširší veřejnosti. Projekt využije digitalizovaných dat portálu Czech medieval sources online, která budou převedena do nově implementovaného systému AHISTO. Ten propojí dosavadní obrazová data se semiautomaticky vytvářenou textovou databází a umožní plnotextové sémantické prohledávání textů i metadat, tvorbu pokročilých anotací a extrakci strukturních dat. Vzhledem k rozsahu textového korpusu byl pro zpracování metadat zvolen testovací vzorek v podobě úředních písemností z husitské epochy (1419–1436).

  • LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (LINDAT/CLARIAH-CZ) MUNI
    • MŠMT LM2018101 (CEP: LM2018101)
    • 1.1.2019 - 31.12.2022
    • LINDAT/CLARIAH-CZ je Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy. Umožňuje archivaci, zpracování, správu a zpřístupnění dat, zdrojů a nástrojů z oblasti umění, humanitních a společenských věd. Cílem projektu je posílit a rozšířit výzkum obohacený o digitální zdroje a nástroje a podpořit výuku digitálních humanitních věd napříč tradičními humanitními obory filozofické fakulty. Cílem projektu je posílit a propagovat přístupy k výzkumu používající digitální zdroje a výpočetní kapacity umožňující řešit tradiční problémy humanitních oborů novými metodami a z nového úhlu pohledu. CLARIAH je panevropská síť propojující lidi s informacemi, znalostmi, obsahem, metodami, nástroji a technologiemi poskytovanými členskými státy. Projekt usiluje o zviditelnění digitálních a infrastrukturních produktů a systémů, stejně jako vědeckých článků, které vznikly s jejich využitím, na globální úrovni. Tomu napomůže vytvoření lokálního uzlu infrastruktury CLARIAH a zprostředkování metadat a odkazů na jedinečné digitální zdroje tvořené vědci na FF MU.

  • Modelling the future: Understanding the impact of technology on adolescent’s well-being (FUTURE) MUNI
    • GA ČR GX19-27828X
    • 1.1.2019 - 31.12.2023
    • This project aims to develop a complex evidence-based theory depicting impacts of technology usage on physical, psychological and social well-being of adolescents. We will integrate theories used by different fields, such as ecological systems theory (psychology), differential susceptibility to media effects theory (media studies), problem behavior theory (psychology) and behavioral change theory (health). Further, we plan to develop an innovative methodology integrating findings from short-term and long-term data collections. The first work package (WP) is based on the analyses of up-to-date data and aims to understand the associations of selected online risks and opportunities with well-being in the cross-culture perspective. We will use data from the project EU Kids Online, which collected representative data in 25 countries in the year 2010 and in 12 countries in the years 2017 to 2018. The second WP will assess the effects of the technology and various psycho-social factors on well-being of adolescents in longitudinal perspective. To capture the changes and to provide results in terms of causality, we will carry out the three-wave longitudinal research (with a one-year interval between each wave) on Czech adolescents aged 11-18 years. We aim for a sample of at least 1,000 adolescents and parents who attended the survey in all three waves. The third WP will comprise series of short-term studies focusing on examination of the cognitive processes related to impact of technology on well-being. We will present the stimuli on a computer/smartphone screen, and using eye-tracker, capture the pattern of eye movement. We will measure how different stimuli causes changes in well-being in relation to cognitive perceptions of the screens. The fourth WP will develop innovative research tools which will integrate short-term and long-term data collections. We will develop a software based on machine learning tools which will automatically access online behavior of adolescents. The data collection will combine intensive data collections based on real time behavior of adolescents (4x two weeks) with short surveys displayed on smart phones and two standard surveys.

  • Hyperintensionální usuzování nad texty přirozeného jazyka MUNI
    • GA ČR GA18-23891S
    • 1.1.2018 - 31.12.2020
    • Tento projekt je interdisciplinárně zaměřen, neboť zasahuje do tří příbuzných oborů, a to komputační lingvistiky, logiky a umělé inteligence. Soustředíme se na dva hlavní problémy, které dosud nejsou uspokojivě řešeny v současných systémech určených pro získávání znalostí z textů. Za prvé, dostatečně přesná lingvistická a logická analýza otázek a příslušných textů je nutnou podmínkou pro získávání adekvátních odpovědí. Za tím účelem aplikujeme procedurální sémantiku Transparentní intenisonální logiky (TIL), která umožňuje rozlišovat tři druhy kontextu, ve kterém se může daný výraz vyskytovat, a to extensionální, intensionální a hyperintensionální. Definice tří druhů kontextu nám umožnila navrhnout extensionální logiku hyperintensí, ve které jsou všechna extensionální pravidla usuzování platná ve všech kontextech. Za druhé, tuto teorii využijeme k získávání inferenčních znalostí z explicitních znalostí zakódovaných v rozsáhlých bázích textů v přirozeném jazyce tak, aby systém poskytoval inteligentní odpovědi na otázky.

  • Metodika a technologie pro tvorbu odborných tezaurů a slovníků pro potřeby rozvoje národní infrastruktury pro prostorové informace MUNI
    • TA ČR TITIMV702
    • 1.5.2018 - 31.4.2020
    • Vytvořit obecnou metodiku a podpůrné technologie pro tvorbu, správu a využívání propojitelných odborných tezaurů a slovníků z oblasti rozvoje národní infrastruktury pro prostorové informace, s vazbou na existující nadnárodní tématické tezaury, s možností využití v dalších oblastech činnosti veřejné správy a to včetně revize a zdokonalení existujících národních slovníků a tezaurů s návrhem jejich společné koordinované správy. Výstupy tohoto projektu budou přímo navazovat na výsledky předcházejícího projektu "Terminologický tezaurus pro obor zeměměřictví a katastru nemovitostí".

  • LINDAT/CLARIN - Výzkumná infrastruktura pro jazykové technologie MUNI
    • MŠMT CZ.02.1.01/0.0/0.0/16_013/0001781
    • 1.1.2017 - 31.12.2020
    • Projekt navazuje na běžící projekt LINDAT-Clarin, který koncipován jako český „uzel“ mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure). Centrum LINDAT-Clarin bude tedy v českém jazykovém prostředí zaměřeno na sběr jazykových dat a především jejich anotaci (tj. formální manuální, poloautomatickou a automatickou jazykovou analýzu). Sběr a anotace budou probíhat v takovém rozsahu, kvalitě a technologické přípravě (specifikace, schémata, formáty), která bude přímo využitelná jak v humanitní oblasti (jazykovědný a mezioborový výzkum, kde přirozený jazyk hraje podstatnou roli), tak i pro výzkum a vývoj v oblasti jazykových technologií za použití moderních statistických a hybridních metod. Náplň práce centra a jeho výsledky se dotýkají žady oborů – v humanitních vědách to jsou jazykověda obecná a jazykověda zabývající se konkrétními jazyky, zejména češtinou, dále překladatelství, lexikografie, sociolingvistika, částečně i obory příbuzné (psychologie, sociologie, knihovnictví, neurovědy, cognitive science) s významným přechodem do informatiky (computer science, computational linguistics), matematiky (statistika a pravděpodobnost) a elektrotechniky (zpracování akustického signálu).

  • Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum (LINDAT-Clarin) MUNI
    • MŠMT LM2015071
    • 1.1.2016 - 31.12.2019
    • Projekt LINDAT-Clarin je koncipován jako český „uzel“ mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure. Centrum LINDAT-Clarin bude tedy v českém jazykovém prostředí zaměřeno na sběr jazykových dat a především jejich anotaci (tj. formální manuální, poloautomatickou a automatickou jazykovou analýzu). Sběr a anotace budou probíhat v takovém rozsahu, kvalitě a technologické přípravě (specifikace, schémata, formáty), která bude přímo využitelná jak v humanitní oblasti (jazykovědný a mezioborový výzkum, kde přirozený jazyk hraje podstatnou roli), tak i pro výzkum a vývoj v oblasti jazykových technologií za použití moderních statistických a hybridních metod. Náplň práce centra a jeho výsledky se dotýkají řady oborů – v humanitních vědách to jsou jazykověda obecná a pro jazykověda zabývající se konkrétními jazyky, zejména češtinou, dále překladatelství, lexikografie, sociolingvistika, částečně i obory příbuzné (psychologie, sociologie, knihovnictví, neurovědy, cognitive science) s významným přesahem do informatiky (computer science, computational linguistics), matematiky (statistika a pravděpodobnost), a elektrotechniky (zpracování akustického signálu).

  • Hyperintensionální logika pro analýzu přirozeného jazyka MUNI
    • GA ČR GA15-13277S
    • 1.3.2015 - 31.12.2017
    • Projekt má jako hlavní cíl stanovenu počítačově podporovanou lingvisticko-logickou analýzu přirozeného jazyka, a to především češtiny a angličtiny. Navrhovaný projekt bude rozvíjet logický rámec Transparentní intensionální logiky (TIL), což je jeden z hlavních představitelů systémů procedurální sémantiky, a to zejména jeho aplikací v oblasti zpracování přirozeného jazyka, komunikace a usuzování. Dokončíme úspěšně nastartovaný projekt návrhu a vývoje inferenčního stroje pro TIL s využitím jeho komputační varianty, tj. funkcionálního programovacího jazyka TIL-Script. Projekt je interdisciplinární, neboť jsme přesvědčeni, že logická analýza jazyka musí navazovat na výsledky analýzy lingvistické. Proto bude do výzkumu zahrnuto využití nástrojů komputační lingvistiky, logiky, filosofie a informatiky.

  • Rozhraní pro Linked Data v systému pro editaci slovníků DEB (DEB LDI) MUNI
    • MŠMT LD15066
    • 1.10.2015 - 31.10.2017
    • V projektu budou navrženy a ověřovány nové postupy pro tvorbu celoevropského slovníkového portálu v souladu s metodikou Linked Open Data (otevřená propojená data), které umožní sdílení lexikografických vědeckých zdrojů mezi zapojenými výzkumnými institucemi a také veřejné zpřístupnění zdrojů pro další využití a výzkum. Součástí projektu bude také analýza a návrh inovativních technologií pro tvorbu lexikografických zdrojů s využitím údajů z rozsáhlých jazykových databází (korpusů) a analýza možností rozšíření vlastností elektronických slovníků pro zlepšení přístupnosti pro uživatele.

  • Harvesting big text data for under-resourced languages MUNI
    • MŠMT 7F14047
    • 1.6.2014 - 31.4.2017
    • Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem. Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

  • Vytvoření tezauru pro obor zeměměřictví a katastru nemovitostí MUNI
    • TA ČR TB02CUZK004
    • 1.2.2014 - 31.12.2015
    • Vývoj systému pro správu vícejazyčného tezauru, který umožní editaci a prohlížení tezauru, včetně importu dat z tématických databází (slovník VÚGTK, RUIAN a další) a exportu dat v konfigurovatelném formátu s možností nastavení kritérií pro předávání informací. Součástí systému bude také webová služba pro publikaci obsahu tezauru dalším aplikacím podle popsaného rozhraní (s využitím standardů WSDL a REST JSON).

  • Nový encyklopedický slovník češtiny online (Enc-Czech online) MUNI
    • GA ČR GAP406/11/0294
    • 1.1.2011 - 31.12.2015

  • Analýza přirozeného jazyka v prostředí internetu isVaV
    • MV ČR VF20102014003
    • 1.10.2010–31.12.2014
    • Předmětem veřejné zakázky je vyvinout a implementovat techniky zpracování přirozeného jazyka umožňující analyzovat jazykové projevy na Internetu, které spadají do působnosti českých bezpečnostních orgánů (neonacismu, anarchismu, rasismu, terorismu) s důrazem na určování pravděpodobnosti autorství textů. Předmětem zájmu bude veškerý webový obsah produkovaný domácími i mezinárodními zájmovými skupinami nebo jednotlivci, tj. webové adresy, fóra, chaty, blogy, sociální sítě a další zdroje.

  • The European Digital Mathematics Library (EuDML) MUNI
    • EU CIP 250503
    • 1.2.2013 - 31.1.2013
    • Cílem projektu EuDML The European Digital Mathematics Library je zpřístupnit převážnou část korpusu matematické odborné literatury publikované v Evropě on-line, ve formě autoritativního a udržitelného digitálního repozitáře, vytvořeného a spravovaného sítí institucí. Dosavadní národní aktivity vedly k digitalizaci velkých objemů matematické literatury, zejména partnery tohoto projektu. Vydavatelé produkují nový materiál, který je třeba bezpečně archivovat a v dlouhodobém výhledu učinit viditelným, použitelným, interoperabilním v setrvalém korpusu. V EuDML se partneři spojí dohromady s vúdčími poskytovateli technologií, v budování propojení svých kolekcí pro vytvoření sítě dokumentů integrovaných v Evropě v matematických disciplínách.

Zajistí budoucnost takto vytvořené virtuální knihovny vytvořením organizační a technické infrastruktury, která umožní spojit bohatá metadata a nové kolekce matematických dokumentů a budou vyvíjet úsilí cílené na open access' zpřístupnění této literatury celé evropské komunitě, zajišťujíce Evropě vedení v poskytování, dostupnosti a využití digitálního matematického obsahu. Konsorcium EuDML navrhne a vybuduje rozšiřitelnou elektronickou službu, která zintegruje matematický obsah poskytovatelů implementací jednoho místa přístupu k heterogenním a vícejazyčným zdrojům. Síť dokumentů bude vytvořena sloučením a rozšířením informací dostupných o dokumentech z jednotlivých kolekcí, a kombinací referencí celé sloučené knihovny. V zájmu této přidané hodnoty držitelé copyrightu souhlasí s politikou moving wall' pro budoucí otevřený přístup k plným textům.

  • LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat isVaV
    • MŠMT LM2010013
    • 1.1.2010–31.12.2015
    • Projekt LINDAT-CLARIN je koncipován jako český uzel mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure, FP7-RI-2122230) a projektu META-NET (Technologies for the Multilingual European Information Society, NoE, 2011-2014, FP7-ICT-4-249119) pro volné sdílení jazykových dat a pokročilých technologií mezi institucemi a jednotlivci ve vědě a výzkumu. Tyto evropské projekty mají za cíl překážky volného přístupu k jazykovým datům postupně odstranit a umožnit národně distribuované, ale technologicky jednotné poskytování jazykových dat a souvisejících technologií všem zájemcům. V oblasti anotace dat je cílem projektu pořídit tato data v dostatečném rozsahu pro praktickou aplikaci statistického modelování jazyka jako nutnou podmínku pro aplikaci těchto modelů v praxi (korektory textu, automatický překlad, extrakce informací z textu, porozumění textu, dialogové systémy apod.). V oblasti distribuce dat je cílem poskytovat službu repozitáře pro úschovu, licencování a poskytování dat v rámci celoevropské sítě Clarin a META-SHARE (součást projektu META-NET). V oblasti technologické i v oblasti lidských zdrojů je cílem vybudování know-how v oblasti sběru, úschovy, tvorby a distribuce dat, které bude možno poskytovat i externím subjektům. Přitom je třeba vyškolit jazykové odborníky i odborníky z oblasti technologií (informatika, statistika, matematické modelování) tak, aby byli schopni v tomto výrazné mezioborovém projektu efektivně pracovat. Nezanedbatelným cílem projektu je vychovat další vědeckou generaci, která bude umět s jazykovými daty pracovat, správně je analyzovat a používat v národním i mezinárodním kontextu, a spolupracovat v rámci EU i mimo ni na budoucích projektech využívajících moderní jazykové technologie.

  • Temporální aspekty znalostí a informací isVaV
    • GA ČR P401/10/0792
    • 1.1.2010–31.12.2012
  • Pattern REcognition-based Statistically Enhanced MT – PRESEMT isVaV
    • MŠMT 7E10057
    • 1.1.2010–31.12.2012
    • This proposal describes PRESEMT, a flexible and adaptable MT system, based on a language-independent method, whose principles ensure easy portability to new language pairs. This method attempts to overcome well-known problems of other MT approaches, e.g. bilingual corpora compilation or creation of new rules per language pair. PRESEMT will address the issue of effectively managing multilingual content and is expected to suggest a language-independent machine-learning-based methodology. The key aspects of PRESEMT involve syntactic phrase-based modelling, pattern recognition approaches (such as extended clustering or neural networks) or game theory techniques towards the development of a language-independent analysis, evolutionary algorithms for system optimisation.

  • Právní e-slovník - PES isVaV
    • GA ČR 407/07/0679
    • 1.1.2007–31.12.2011
    • E-právní slovník představuje kombinaci klasického lexikálního slovníku se slovníkem kontextovým, doplněným základními vztahy mezi právními termíny. Cílem projektu je poskytnout právní i laické veřejnosti představu o lexikálním významu základních právních termínů v konfrontaci s jejich aktuálním užitím v právním řádu ČR. Výběr základních českých právních termínů je plně kompatibilní s právem EU. Projekt navazuje na dosavadní práce v oboru právní informatiky a počítačové lingvistiky v ČR a na jeho řešení se podílí ÚSP AV ČR, ÚJČ AV ČR a Fakulta informatiky MU Brno.

  • Centrum komputační lingvistiky isVaV
    • MŠMT LC536
    • 1.2.2005–31.12.2011
    • Předmětem činnosti Centra je společný teoretický výzkum v oboru počítačové (matematické) lingvistiky, a to zejména v oblasti kombinace zpracování psaného a mluveného jazyka, která bude podle našeho názoru této oblasti již v brzké době dominovat. Na tomto výzkumu budou těsně spolupracovat zakládající subjekty, které se v rámci svých Výzkumných záměrů a jiných výzkumných projektů zabývají různými aspekty zpracování přirozeného jazyka. Cílem Centra je prohloubit spolupráci zúčastněných subjektů a zefektivnit tak proces výzkumu v oblasti automatického zpracování přirozeného jazyka. Konkrétně se jedná o teoretické zpracování reprezentace promluv, propojení zpracování mluvené řeči a porozumění jazyku, strojový překlad, extrakce informací, generování jazyka a tvorba anotovaných korpusů a slovníků nezbytných pro řešení výše uvedených úloh. Výsledky Centra budou publikovány v oboru obvyklým způsobem; korpusy pak budou plně veřejně dostupné prostřednictvím světových distributorů lingvistických zdrojů.

  • Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce isVaV
    • MŠMT 2C06009
    • 1.7.2006–31.12.2010
    • Vypracovat komplexní systém metodických a implementačních nástrojů na bázi inteligentních agentů pro vytváření uživatelsky přívětivých rozhraní k sémantickému webu umožňující, aby komunikace s uživatelem probíhala v přirozeném jazyce a též zpracovávaná data měla převážně charakter vět, resp. promluv, přirozeného jazyka. Dalším cílem pak je ověření funkčních vlastností navržených nástrojů na vhodně zvolené aplikaci.

  • Inteligentní metody pro zvýšení spolehlivosti elektrických sítí isVaV
    • AV ČR T100300414
    • 1. 7. 2004–31. 12. 2008
    • Hlavním cílem výzkumného projektu je zvýšení bezpečnosti a spolehlivosti chodu elektroenergetické soustavy rozvojem nových inteligentních metod. Vlice aktuální je rovněž snížení rizika black - out v České republice. Problematika spolehlivosti elektrických rozvodných soustav je na fakultě elektrotechniky a informatiky úspěšně řešena několik let. Vzniklo zde celostátní výzkumné pracoviště pro tvorbu a kategorizaci databáze poruch rozvodných zařízení a výpadků dodávky elektrické energie. Z celé České republiky a ze Slovenska jsou zasílány informace z jednotlivých regionálních distribučních společností a vytváří se tak objektivně vypovídající prostředí pro výpočty spolehlivosti rozvodných systémů.

  • Jazyková poradna na internetu isVaV
    • AV ČR T200610406
    • 1. 7. 2004–31. 12. 2008
    • Cílem projektu je vytvořit první internetovou příručku českého jazyka tak, aby dosavadní (tradiční, ceněné, ale dnes již příliš se rozrůstající, časově neúnosně náročné) služby jazykové poradny Ústavu pro jazyk český AV ČR mohly být poskytovány primárně elektronickou cestou. Příručka bude obsahovat všestranné, rozsáhlé, databázově uspořádané údaje a poučení o češtině, které umožní tazatelům vyhledávat odpovědi na jazykové otázky samostatně, co nejjednodušším a pohodlným způsobem, v širokých věcných souvislostech a bez časových prodlev. Jazykovědci shromáždí potřebná jazyková data, jazykoví inženýři zformulují a ověří optimální vyhledávací programy. Takto vytvořená příručka bude mít řadu předností. Bude k dispozici nejširší laické i odborné veřejnosti domácí i uživatelům češtiny v zahraničí, bude možno ji nepřetržitě doplňovat o nové informace v souladu s aktuálními zájmy a problémy tazatelů i s vývojem jazykových norem a přinese podstatné zefektivnění poradenské činnosti.
    • výsledek je Internetová jazyková příručka
  • Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu isVaV
    • AV ČR 1ET100300419
    • 1. 7. 2004–31. 12. 2008
    • Předkládaný projekt je projektem teoretického i praktického charakteru. Jeho cílem je zkoumat a rozvíjet teoretické základy sémantického webu, a následně aplikovat a experimentálně ověřit vybrané metody soft computingu v této oblasti. Výzkumné práce se soustředí hlavně na výpočetní modely a formální kalkuly reprezentace znalostí, její extrakci, manipulaci a učení, založené na fuzzy logice, neuronových sítích, genetických algoritmech, agentové technologii a pokročilé databázové teorii, s využitím speciálně v kontextu extrakce znalostí z dat. V souladu s celkovou orientaci projektu jeho očekávané výsledky budou následující:
    • teoretické práce publikované v mezinárodních časopisech a prezentované na mezinárodních konferencích
    • nové algoritmy pro extrakci znalostí z dat
    • prototypové implementace těchto algoritmů v rámci multiagentního systému.
      • Jádrem řešitelského kolektivu je 12 klíčových vědeckých pracovníků ze tří pracovišť a doplňuje ho 11 doktorandů.

  • Integrované centrum počítačového zpracování přirozeného jazyka
    • MŠMT LC536
    • 1. 1. 2005–31. 12. 2009
  • Překlad českých vět na konstrukce transparentní intenzionální logiky isVaV
    • GAČR 201/05/2781
    • 1. 1. 2005–31. 12. 2007
    • Hlavním cílem navrhovaného projektu je získání automatického systému pro zpracování textů v přirozeném jazyce (češtině) a tvorbu logické reprezentace věty ve strojově čitelné formě. Získaný logický popis bude bezprostředně využit k reprezentaci znalostí v prostředí sémantického webu.
    • Realizace projektu spočívá v implementaci algoritmu normální translace (NTA) pro vymezenou část češtiny s cílem pokrýt většinu nejfrekventovanějších gramatických jevů. Algoritmus NTA se skládá ze dvou spolupracujících částí - efektivního syntaktického analyzátoru vět přirozeného jazyka a logické analýzy věty pomocí transparentní intenzionální logiky (TIL) jako systému temporální logiky vyššího řádu s hierarchií typů. Jako součást projektu bude vytvořen i nástroj pro testování nalezených konstrukcí TILu. Takto bude položen základ pro automatický odpovídací systém na bázi sémantického webu.

  • Velké jazykové korpusy a jejich automatická analýza isVaV
    • GAČR 405/03/0913
    • 1. 1. 2003–31. 12. 2005
    • Jazykové korpusy jsou nezastupitelnou součástí lingvistického výzkumu. Používají se za různým účelem, od jednoduchého vyhledávání daných slov až po přímé využití pro tzv. trénování v metodách automatického strojového učení; tyto metody se používají např.pro pravděpodobnostní jazykové modelování či automatickou počítačovou analýzu vět přirozeného jazyka. Použitelnost a užitečnost jazykových textových a řečových korpusů (včetně vícejazyčných) je umocněna jejich lingvistickou analýzou (anotováním). Anotacemůže odrážet jak formu, strukturu i funkci jazykových jednotek obsažených v anotovaném textu.Základním cílem projektu je obohatit naše dosavadní znalosti o jazykovém systému obecně a češtině zvlášť, a to ve smyslu vyvinutí takových metod (zejména metodstatistického strojového učení a metod symbolických, a jejich kombinací), aby bylo možno s vysokou přesností analyzovat velké jazykové korpusy jak psaného, tak mluveného textu. Bude se přitom využívat výsledků dosažené v předchozích projektech a grantech.

Starší projekty

  • BalkaNet - Návrh a tvorba vícejazyčného balkánského WordNetu
    • Účastníci: Univerzita v Patrasu, Institut počítačových technologií, Univerzita Alexandru Ioan Cuza, Římská akademie, Bulharská akademie věd, Univerzita Sabanci, Masarykova univerzita, Memodata, Univerzita v Plovdiv, Athenská univerzita
    • Hlavní řešitel z FI: doc. PhDr. Karel Pala Csc. (pala@fi.muni.cz)
    • Poskytovatel: Komise evropského společenství
    • Doba trvání: 36 měsíců
    • Poznámka: shrnutí tohoto projektu je dostupné na adrese: http://www.ceid.upatras.gr/Balkanet/
  • 405/96/K214 - Čeština ve věku počítačů isVaV
    • Hlavní řešitel z FI: doc. PhDr. Karel Pala, CSc. (pala@fi.muni.cz)
    • Poskytovatel: Grantová agentura ČR
    • Datum zahájení: 1. ledna 1996
    • Doba trvání: 6 let
    • Dílčí zpráva o řešení za rok 2000: doc, rtf, htm, txt,
    • Poznámka: nositelem grantu je ÚFAL MFF UK, členové Centra zpracování přirozeného jazyka se podílejí na řešeních některých dílčích úkolů (viz zpráva)

  • LE4-8328 - EuroWordNet 2