Zpracování přirozeného jazyka (nejen) na FI
Stránka je určena studentům FI se zájmem o oblast zpracování přirozeného jazyka (natural language processing). Poskytuje náměty ke studiu, a to jak přímo na FI, tak prostřednictvím MOOC (massive open online courses).
Zpracování přirozeného jazyka se typicky realizuje v několik rovinách: od signálu (text, řeč), přes zpracování na úrovni slov (morfologická rovina), vět (syntaktická rovina) až po reprezentaci významu (sémantická rovina) a rovinu užití v kontextu reálného světa (pragmatická rovina). Některé z uvedených kurzů jsou v tomto směru přehledové, jiné se týkají jen určité roviny zpracování.
Přednášky na MU
- IB030 Úvod do počítačové lingvistiky (Aleš Horák) - Základní kurz nabízející přehled jednotlivých aspektů počítačové lingvistiky (roviny zpracování přirozeného jazyka, automatická analýza a syntéza na těchto rovinách) se vztahem k umělé inteligenci (reprezentace významu).
- IB047 Úvod do korpusové lingvistiky a počítačové lexikografie (Pavel Rychlý) - Základní kurz práce s textovými korpusy z pohledu uživatele (lingvisty či lexikografa) i informatika. Studenti se seznámí s metodami a algoritmy značkování, ukládání a prohledávání textových korpusů, se statistickými metodami zpracování přirozeného jazyka a s konkrétními korpusy a dalšími jazykovými zdroji.
- PB095 Úvod do počítačového zpracování řeči (Luděk Bártek) - Základní kurz počítačového zpracování řeči, s důrazem na techniky rozpoznávání řeči, automatické syntézy řeči a dialogové systémy.
- PA153 Počítačové zpracování přirozeného jazyka (Pavel Rychlý) - Pokročilý kurz se věnuje podrobněji všem rovinám zpracování přirozeného jazyka. Na jednotlivých přednáškách prezentují členové Centra zpracování přirozeného jazyka současné přístupy k morfologické analýze a desambiguaci, syntaktické analýze, reprezentaci významu.
- IV029 Logická analýza přirozeného jazyka I a IA157 Logická analýza přirozeného jazyka II (Pavel Materna) - Kurzy se zaměřují na reprezentaci významu pomocí konstrukcí transparentní intenzionální logiky. Studenti se seznámí s teorií možných světů, vztahy mezi pojmy a výrazy a metodami analýzy různých typů vět v přirozeném jazyce.
- PA154 Jazykové modelování (Pavel Rychlý) - Kurz se zaměřuje na využití statistických metod v různých oblastech zpracování přirozeného jazyka: značkování textových korpusů, syntaktická analýza, strojový překlad, shlukování a kategorizace textů.
- PA156 Dialogové systémy (Luděk Bártek) - Pokročilý kurz nabízející přehled problematiky dialogových systémů: od historie přes typy dialogů po dialogové strategie.
- IA161 Syntaktické formalismy a jejich aplikace na analýzu přirozeného jazyka (Aleš Horák) - Pokročilý kurz zaměřený na algoritmy syntaktické analýzy přirozeného jazyka.
- CJBB105 Korpusová lingvistika - přednáška (Klára Osolsobě) - Kurz poskytuje základní orientaci v korpusové lingvistice: textové korpusy v ČR, značkování korpusů, mluvené korpusy, korpusové manažery.
- PLIN019 Machine Translation (Vít Baisa) - Přehledový kurz poskytuje informace o pravidlových, statistických a hybridních metodách strojového překladu.
- PLIN021 Sémantická analýza v praxi (Zuzana Nevěřilová) - Přehledový kurz se zaměřuje na problematiku reprezentace významu, od čistě statistických metod po metody založené na znalostech.
- PLIN037 Sémantika a počítače (Zuzana Nevěřilová) - Navazující kurz, který se zabývá minulými i současnými metodami zpracování textů s důrazem na uchopení jejich významu. Důležitou součastí předmětu jsou prezentace současného výzkumu, jejich přehled najdete na stránce OCemSeMluvi.
- PLIN041 Vývoj počítačové lingvistiky (Dana Hlaváčková) - Kurz poskytuje přehled vývoje počítačové lingvistiky od 50. let do současnosti.
- PLIN064 Úvod do Digital Humanities (Zuzana Nevěřilová) - kurz zabývající se zpracováním digitálních artefaktů z pohledu humanitního vědce. Náplní kurzu je problematika sběru dat, formátu dat, digitalizace, textové zpracování pomocí nástrojů NLP, práce se vzdálenými službami. Praktická část zahrnuje práci s připravenými Jupyter notebooky. Důležitou součástí předmětu jsou inspirativní projekty, jejichž přehled najdete na stránce DigitalHumanities.
- Další relevantní kurzy: IV028 Základní pojmy obecné logiky, MV011 Statistika I a MA012 Statistika II, PB016 Umělá inteligence I a IV126 Umělá inteligence II, PV248 Kurz jazyka Python, PV004 Unix, kurzy z programu Umělá inteligence a zpracování dat.
Online kurzy a přednášky
- Machine Learning (Andrew Ng, Coursera) - základní kurz strojového učení.
- Natural Language Processing (Coursera) - základní, výživný, a poměrně časově náročný kurz od předních odborníků na statistické zpracování přirozeného jazyka.
- Corpus Linguistics: Method, Analysis, Interpretation
Praktické zkušenosti
Na FI
Možnosti zapojení do projektů, seminářů, tvorby tématických závěrečných prací v Centru zpracování přirozeného jazyka (CZPJ):
- PB106 Projekt z korpusové lingvistiky určeno i pro začátečníky
- PA107 Projekt z korpusových nástrojů studium pokročilých partií
- PV173 Seminář zpracování přirozeného jazyka méně formální seminář, kde členové CZPJ a hosté prezentují své současné projekty a myšlenky
Jinde
- SENSEVAL, SemEval - soutěže v různých disciplínách zabývajících se významovou rovinou jazyka (původní soutěže SENSEVAL se zabývaly lexikální desambiguací)
- PASCAL - soutěže v rozpoznání textového vyplývání (recognizing textual entailment)