Context Navigation

Korpusy

Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.

Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím korpusových manažerů, což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer The sketch engine.

Korpusy se používají při zkoumání a konstrukci gramatik přirozených jazyků. Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se zejména ve strojovém překladu.

V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je třeba je předzpracovat: například programem jusText na odstranění netextových částí webových stránek, nástrojem onion, který odstraňuje duplicitní části textu, nebo programem chared na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém gensim, který umožňuje určit témata, o kterých se v píše v daném textu.

V CZPJ jsme vytvořili kompletní sadu nástrojů pro tvorbu a správu korpusů Corpus Architect.