Čeština
English
  • Vítejte na stránkách NLP Centra!
  • Zapojte se do vývoje softwarových nástrojů!
  • Analýza přirozeného jazyka
  • Vyzkoušejte si korpusy o velikosti knihoven online!
  • Studujte jednu ze specializací!
  • Členové laboratoře

Zpracování přirozeného jazyka (nejen) na FI

Stránka je určena studentům FI se zájmem o oblast zpracování přirozeného jazyka (natural language processing). Poskytuje náměty ke studiu, a to jak přímo na FI, tak prostřednictvím MOOC (massive open online courses).

Zpracování přirozeného jazyka se typicky realizuje v několik rovinách: od signálu (text, řeč), přes zpracování na úrovni slov (morfologická rovina), vět (syntaktická rovina) až po reprezentaci významu (sémantická rovina) a rovinu užití v kontextu reálného světa (pragmatická rovina). Některé z uvedených kurzů jsou v tomto směru přehledové, jiné se týkají jen určité roviny zpracování.

Přednášky na MU

  • IB030 Úvod do NLP (Aleš Horák) - Základní kurz nabízející přehled jednotlivých aspektů počítačové lingvistiky (roviny zpracování přirozeného jazyka, automatická analýza a syntéza na těchto rovinách) se vztahem k umělé inteligenci (reprezentace významu, velké jazykové modely).
  • PA153 Počítačové zpracování přirozeného jazyka (Pavel Rychlý) - Pokročilý kurz se věnuje podrobněji všem rovinám zpracování přirozeného jazyka. Na jednotlivých přednáškách prezentují členové Centra zpracování přirozeného jazyka současné přístupy k morfologické analýze a desambiguaci, syntaktické analýze, reprezentaci významu.
  • IB047 Úvod do korpusové lingvistiky a počítačové lexikografie (Pavel Rychlý) - Základní kurz práce s textovými korpusy z pohledu uživatele (lingvisty či lexikografa) i informatika. Studenti se seznámí s metodami a algoritmy značkování, ukládání a prohledávání textových korpusů, se statistickými metodami zpracování přirozeného jazyka a s konkrétními korpusy a dalšími jazykovými zdroji.
  • IA161 NLP in Practice (Aleš Horák) - Kurz zaměřený na praktické algoritmy zpracování přirozeného jazyka.
  • PV277 Programming Social Robots (Aleš Horák) - seminář programování robota Karel Pepper.
  • PA154 Jazykové modelování (Pavel Rychlý) - Kurz se zaměřuje na využití statistických metod v různých oblastech zpracování přirozeného jazyka: značkování textových korpusů, syntaktická analýza, strojový překlad, shlukování a kategorizace textů.
  • PB095 Úvod do počítačového zpracování řeči (Luděk Bártek) - Základní kurz počítačového zpracování řeči, s důrazem na techniky rozpoznávání řeči, automatické syntézy řeči a dialogové systémy.
  • IV029 Logická analýza přirozeného jazyka (Marie Duží) - Kurz se zaměřuje na reprezentaci významu pomocí konstrukcí transparentní intenzionální logiky. Studenti se seznámí s teorií možných světů, vztahy mezi pojmy a výrazy a metodami analýzy různých typů vět v přirozeném jazyce.
  • PA156 Dialogové systémy (Luděk Bártek) - Pokročilý kurz nabízející přehled problematiky dialogových systémů: od historie přes typy dialogů po dialogové strategie.
  • CJBB105 Korpusová lingvistika - přednáška (Klára Osolsobě) - Kurz poskytuje základní orientaci v korpusové lingvistice: textové korpusy v ČR, značkování korpusů, mluvené korpusy, korpusové manažery.
  • PLIN019 Machine Translation (Vít Baisa) - Přehledový kurz poskytuje informace o pravidlových, statistických a hybridních metodách strojového překladu.
  • PLIN021 Sémantická analýza v praxi (Zuzana Nevěřilová) - Přehledový kurz se zaměřuje na problematiku reprezentace významu, od čistě statistických metod po metody založené na znalostech.
  • PLIN037 Sémantika a počítače (Zuzana Nevěřilová) - Navazující kurz, který se zabývá minulými i současnými metodami zpracování textů s důrazem na uchopení jejich významu. Důležitou součastí předmětu jsou prezentace současného výzkumu, jejich přehled najdete na stránce OCemSeMluvi.
  • PLIN041 Vývoj počítačové lingvistiky (Dana Hlaváčková) - Kurz poskytuje přehled vývoje počítačové lingvistiky od 50. let do současnosti.
  • PLIN064 Úvod do Digital Humanities (Zuzana Nevěřilová) - kurz zabývající se zpracováním digitálních artefaktů z pohledu humanitního vědce. Náplní kurzu je problematika sběru dat, formátu dat, digitalizace, textové zpracování pomocí nástrojů NLP, práce se vzdálenými službami. Praktická část zahrnuje práci s připravenými Jupyter notebooky. Důležitou součástí předmětu jsou inspirativní projekty, jejichž přehled najdete na stránce DigitalHumanities.
  • Další relevantní kurzy: IV028 Základní pojmy obecné logiky, MV011 Statistika I a MA012 Statistika II, PB016 Umělá inteligence I a IV126 Umělá inteligence II, PV248 Kurz jazyka Python, PV004 Unix, kurzy z programu Umělá inteligence a zpracování dat.

Online kurzy a přednášky

Praktické zkušenosti

Na FI

Možnosti zapojení do projektů, seminářů, tvorby tématických závěrečných prací v Centru zpracování přirozeného jazyka (CZPJ):

Jinde

  • SENSEVAL, SemEval - soutěže v různých disciplínách zabývajících se významovou rovinou jazyka (původní soutěže SENSEVAL se zabývaly lexikální desambiguací)
  • PASCAL - soutěže v rozpoznání textového vyplývání (recognizing textual entailment)