= Korpusy = #Korpusy [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png)]] Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti [[cs/ZpracovaniPrirozenehoJazyka|NLP]]. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové. Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím '''korpusových manažerů''', což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer '''The sketch engine'''. Korpusy se používají při zkoumání a konstrukci gramatik přirozených jazyků. Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se zejména ve strojovém překladu. V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je třeba je předzpracovat: například programem '''jusText''' na odstranění netextových částí webových stránek, nástrojem '''onion''', který odstraňuje duplicitní části textu, nebo programem '''chared''' na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém '''gensim''', který umožňuje určit témata, o kterých se v píše v daném textu. V CZPJ jsme vytvořili kompletní sadu nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png)]] == Související projekty == * [http://ske.fi.muni.cz/ Lokální instalace Sketch Engine pro Masarykovu univerzitu (přístupná po registraci všem lidem z MU)] * [http://www.sketchengine.co.uk/ Sketch Engine] * [http://nlp.fi.muni.cz/trac/noske NoSketch Engine] * [http://nlp.fi.muni.cz/projekty/cpa/ CPA] * [http://nlp.fi.muni.cz/projekty/justext/ jusText] * [http://code.google.com/p/onion/ onion] * [http://code.google.com/p/chared/ chared] * [http://radimrehurek.com/gensim/index.html Gensim] == Související články == * [[cs/JazykovyKorpus|Tři věci, které jste nevěděli o jazykových korpusech]], o korpusech populárně * [[cs/UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]] == Další informace == * [[cs/LangToolsLinks| Vyzkoušejte si nástroje CZPJ]] * [[cs/Specializace| Předměty specializace Zpracování přirozeného jazyka]] * [http://nlp.fi.muni.cz/projekty/ Seznam vybraných projektů CZPJ] * [https://nlp.fi.muni.cz/nlpis/baliky.php Aktuálně nabízená témata diplomových a bakalářských prací] * [[cs/Zajimave| Zajímavé texty o zpracování přirozeného jazyka]]