wiki:cs/DODPhD

Pro zájemce o doktorské studium

Centrum zpracování přirozeného jazyka (CZPJ) je jedno z pracovišť na FI MU. Jsme také jedno z nejlepších pracovišť zabývajících se zpracováním přirozeného jazyka v ČR.

Lidé

Centrum ZPJ má dva školitele (doc. Aleš Horák, Ph.D., doc. Pavel Rychlý, Ph.D.), několik postdoků (Pavel Šmerk, Vojtěch Kovář, Vít Suchomel, Marek Medveď) a několik Ph.D. studentů. Studují u nás studenti programu Umělá inteligence a zpracování dat (FI) a Český jazyk a počítačová lingvistika (FF), kterým vedeme závěrečné kvalifikační práce.

Stroje

Současné vybavení:

  • 15 GPU karet
  • diskové pole IBM DS3512 o kapacitě 92 TB složené z 2TB disků („neRAIDovaná“ kapacita)
  • desktopy: 8 GB RAM, 2 TB disky a procesor core i7
  • 2 4socketové 12jádrové (AMD 6238) servery, každý s kapacitou 32 GB RAM
  • možnost využití výpočetní síly z CERIT-Scientific Cloud.

Prostředí

Máme 2 místnosti na FI pro studenty pracující na projektech v CZPJ (B203, B206).

Většina doktorandů se často a aktivně účastní prestižních mezinárodních konferencí, např.:

  • COLING - International Conference on Computational Linguistics
  • EACL - European Chapter of the ACL
  • Euralex - European Association for Lexicography
  • LREC - International Conference on Language Resources and Evaluation
  • PACLIC - Pacific Asia Conference on Language, Information and Computation
  • TSD - International Conference on Text, Speech and Dialogue

Lidé z CZPJ patří do programových rad některých konferencí či mezi recenzenty nebo pomocné recenzenty (subreviewers).

NLP lab pořádá každoročně workshop RASLAN - Recent Advances in Slavonic NLP.

Projekty

přehled grantových projektů

Témata

Pracujeme hlavně v oblastech:

  • využití a tvorba velkých jazykových modelů (LLM)
  • morfologická analýza (ajka, desamb, guesser, příručka)
  • syntaktická analýza (synt, SET, DIS)
  • sémantická analýza (anaphora resolution, sémantické sítě, common sense, opinion mining, kvantitativní analýza textu)
  • logická analýza (vyplývání, transparentní intenzionální logika)
  • lexikální zdroje (named entities, multi-word expressions, sémantické sítě)
  • strojový překlad (česko-slovenský, altrnativní přístupy ke Google Translate)
  • umělá inteligence (rozhodování, agentové systémy, umělí hráči)
  • zpracování velkých dat

Software, který se používá (i jinde než u nás):

  • jazykové inženýrství (czaccent, příručka)
  • korpusové nástroje (Sketch Engine, Corpus Builder)
  • lexikální nástroje (DEB, slovník současné češtiny)

software k vyzkoušení

Last modified 4 months ago Last modified on Jan 18, 2025, 4:06:57 PM