Na čem pracujeme v Centru?

Jazykové modelování

Jazykové modelování je převládajícím přístupem k zpracování přirozeného jazyka (natural language processing, NLP). Díky obrovskému množství textových dat jazykové modely přesně reprezentují přirozené jazyky a mohou:

klasifikovat tokeny nebo sekvence tokenů,
předpovídat nové tokeny na základě posloupnosti předchozích slov.

Jazykové modely se používají při generování přirozeného jazyka (NLG), sumarizaci textu, analýze sentimentu, rozpoznávání pojmenovaných entit a mnoha dalších úlohách NLP.

BenCzechMark

NLPC se podílí na projektu BenCzechMark, jehož cílem je poskytnout univerzální velký benchmark jazykových modelů pro češtinu. Projekt je společným dílem Vysokého učení technického v Brně, Fakulty informatiky, Mendelovy univerzity a dalších institucí.

Naším příspěvkem bylo zajištění benchmarkových úloh pro:

Propaganda anotaci textů.
SQAD - datová sada pro zodpovídání otázek
Umime.to testy
natural language inference.

Žebříček BenCzechMark je k dispozici na adrese https://huggingface.co/spaces/CZLC/BenCzechMark.

Slama

Je možné natrénovat jazykový model od nuly? Ano. Podívejte se na Slama - Velký slovanský jazykový model: článek z RASLAN 2024.

Korpusy

Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou neodmyslitelným nástrojem NLP. Korpusy jsou základem jazykového modelování - současného přístupu k počítačovému zpracování textu. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.

Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím korpusových manažerů, což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer The sketch engine.

Korpusy se používají při zkoumání a konstrukci gramatik přirozených jazyků. Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se zejména ve strojovém překladu.

V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je třeba je předzpracovat: například programem jusText na odstranění netextových částí webových stránek, nástrojem onion, který odstraňuje duplicitní části textu, nebo programem chared na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém gensim, který umožňuje určit témata, o kterých se v píše v daném textu.

V CZPJ jsme vytvořili kompletní sadu nástrojů pro tvorbu a správu korpusů Corpus Architect.

Související projekty:

Lokální instalace Sketch Engine pro Masarykovu univerzitu (přístupná po registraci všem lidem z MU)

Sketch Engine

NoSketch Engine

jusText

onion

chared

Gensim

Související články:

Tři věci, které jste nevěděli o jazykových korpusech, o korpusech populárně

Úvod do korpusové lingvistiky

Slovníky

Slovníky jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat označovaných souhrnně jako lexikografická stanice. Jedná se o systém, který umožní odbornému uživateli pohodlný přístup k mnoha různým lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a editaci dat.

Jedním z našich slovníkově zaměřených projektů je vývoj platformy DEB, která při použití architektury klient-server výše uvedené požadavky splňuje. Příkladem klientské aplikace je prohlížeč slovníků DEBDict, ve kterém je kromě digitalizovaných slovníků k dispozici také několik encyklopedií, onomastický a frazeologický slovník. Klienty pro DEB jsou webové aplikace.

Související projekty:

DEB II

DEBDict

DEBVisDic

VerbaLex

MetaTrans

Morfologie

Morfologická analýza je základním prostředkem zkoumání přirozeného jazyka a zabývá se rozlišováním a generováním správných gramatických tvarů slovních výrazů, které vzniknou skloňováním a časováním. Výsledkem je sada značek, které popisují gramatické kategorie daného tvaru, zejména pak základní tvar (lemma) a slovní vzor. Automatické rozlišení tvaru slova ve volném textu lze využít při vývoji gramatického korektoru, jako pomůcka při značkování korpusů nebo při poloautomatickém vytváření slovníků. Morfologická analýza je také výchozím bodem zpracování textu pro analýzy náročnější: syntaktickou i sémantickou. Největší problém v této oblasti je morfologická desambiguace (zjednoznačňování gramatické značky) - tedy jak automaticky rozlišit, zda slovo jedu označuje sloveso (1. osoba od jet) nebo podstatné jméno (2. nebo 3. pád od jed).

V CZPJ byl vytvořen obecný morfologický analyzátor pro češtinu Majka pokrývající slovní zásobu s více než 6 milióny slovních tvarů. Díky němu vznikly podobný analyzátor pro slovenštinu, gramatický korektor fispell, převodník ascii textu na text s diakritikou czaccent nebo interaktivní rozhraní pro IM protokol Jabber. Analyzátor Majka byl později rozšířen pro slovenštinu, polštinu a angličtinu.

Související projekty:

Majka (česká,slovenská,polská,anglická morfologie) (webové rozhraní)

Fajka (analyzátor s volnou verzí dat)

CZ accent oháčkovávač textů bez diakritiky

Syntaktická analýza

Úkolem syntaktické analýzy je rozpoznat, zda vstupní textový řetězec je větou v daném (přirozeném) jazyce. V kladném případě je výsledkem analýzy syntaktická struktura věty, například v podobě derivačního stromu. Cílem syntaktické analýzy je, aby počítač „porozuměl“ gramatice přirozeného jazyka. Toho lze využít např. při vývoji syntaktického korektoru na opravu interpunkce, dialogového systému pro komunikaci v přirozeném jazyce nebo jako jeden z nástrojů pro realizaci strojového překladu. Čeština se svou bohatou ohebností (flexí) a volným slovosledem patří k nejobtížněji analyzovatelným jazykům, jelikož vyžaduje mnohem více pravidel gramatiky, než jiné jazyky.

CZPJ vyvíjí několik syntaktických analyzátorů. Syntaktický analyzátor synt je založen na české metagramatice doplněné o sémantické akce a kontextová omezení. SET je oblíbený syntaktický analyzátor založený na rozpoznávání vzorů. Oba tyto systémy dosahují přesnost až 90 %. Pro výukové účely existuje jednoduchý analyzátor Zuzana.

Související projekty:

Synt

Zuzana

Související články:

Čtyři věci, které jste nevěděli o větném rozboru, o syntaktické analýze populárně

Sémantika

Sémantická a pragmatická analýza jsou nejkomplexnější úrovně zpracování přirozeného jazyka, protože využívají všechny výše zmíněné disciplíny. Prubířským kamenem je zde strojový překlad, který s uspokojivými výsledky pro češtinu zatím neexistuje.

Jedním z dlouhodobých projektů CZPJ je využití transparentní intenzionální logiky (TIL) jako jazyka pro sémantickou reprezentaci znalostí a transformačního jazyka v procesu automatického překladu. V současné fázi je reálné zpracovávat omezené znalosti v jednodušší podobě - experimentuje se se strojovým překladem nad určitou doménou, např. úředních dokumentů nebo počasí, nebo s poloautomatickým překladem mezi blízkými jazyky, což jsou problémy řádově snažší. Při tom se využívají korpusy, sémantické sítě a elektronické slovníky.

V oblasti reprezentace významů a znalostí můžeme zmínit významnou spoluúčast členů centra v evropských projektech EuroWordNet a Balkanet, které byly zaměřeny na budování vícejazyčné sémantické sítě typu WordNet.

Do oblasti sémantické analýzy spadají úkoly jako rezoluce anafor (jejímž cílem je například zjistit, na jaký objekt v reálném světě určité zájmeno odkazuje), parafrázování a textové vyplývání. Jde o náročné úlohy, které se zatím nepodařilo uspokojivě vyřešit pro žádný jazyk. Experimentálními nástroji jsou programy pro rozpoznání anafor Saara a systém pro generování parafrází a textových vyplývání Watsonson.

Související projekty: