Changes between Initial Version and Version 1 of cs/Korpusy


Ignore:
Timestamp:
Mar 23, 2015, 1:07:08 PM (9 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/Korpusy

    v1 v1  
     1= Korpusy = #Korpusy
     2[[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png)]]
     3
     4Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti [[cs/ZpracovaniPrirozenehoJazyka|NLP]].  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.
     5
     6Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím '''korpusových manažerů''', což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer '''The sketch engine'''.
     7
     8Korpusy  se používají při zkoumání a konstrukci gramatik přirozených jazyků.  Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru  hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci  textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny  obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se  zejména ve strojovém překladu.
     9
     10V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je třeba je předzpracovat: například programem '''jusText''' na odstranění netextových částí webových stránek, nástrojem '''onion''', který odstraňuje duplicitní části textu, nebo programem '''chared''' na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém '''gensim''', který umožňuje určit témata, o kterých se v píše v daném textu.
     11
     12V CZPJ jsme vytvořili kompletní sadu nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''.
     13
     14[[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png)]]
     15
     16''Související projekty:''
     17
     18 * [http://ske.fi.muni.cz/ Lokální instalace Sketch Engine pro Masarykovu univerzitu (přístupná po registraci všem lidem z MU)]
     19
     20 * [http://www.sketchengine.co.uk/ Sketch Engine]
     21
     22 * [http://nlp.fi.muni.cz/trac/noske NoSketch Engine]
     23
     24 * [http://nlp.fi.muni.cz/projekty/cpa/ CPA]
     25
     26 * [http://nlp.fi.muni.cz/projekty/justext/ jusText]
     27
     28 * [http://code.google.com/p/onion/ onion]
     29
     30 * [http://code.google.com/p/chared/ chared]
     31
     32 * [http://radimrehurek.com/gensim/index.html Gensim]
     33
     34''Související články:''
     35
     36 * [[cs/JazykovyKorpus|Tři věci, které jste nevěděli o jazykových korpusech]], o korpusech populárně
     37
     38 * [[cs/UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]]