Changes between Version 69 and Version 70 of cs/MainTopics
- Timestamp:
- Jul 22, 2014, 10:39:29 AM (9 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/MainTopics
v69 v70 2 2 3 3 = Na čem pracujeme v Centru? = 4 Centrum zpracování přirozeného jazyka (CZPJ) se zaměřuje na oblast [[NLP | zpracování přirozeného jazyka]]. Výsledky projektů hojně publikujeme na konferencích, CZPJ také spolupracuje s tuzemskými i zahraničními pracovišti podobného zaměření a studentům nabízí výměnné pobyty na partnerských univerzitách mimo republiku.4 Centrum zpracování přirozeného jazyka (CZPJ) se zaměřuje na výzkum a aplikace v oblasti [[cs/ZpracovaniPrirozenehoJazyka|zpracování přirozeného jazyka]]. Spolupracujeme s tuzemskými i zahraničními pracovišti podobného zaměření a studentům nabízíme výměnné pobyty na partnerských univerzitách mimo republiku. Výsledky hojně publikujeme na konferencích, výsledky v podobě softwaru nebo datových zdrojů si můžete [[cs/LangToolsLinks|vyzkoušet]]. 5 5 6 Vyzkoušejte si některé naše jazykové nástroje: 7 8 * [http://prirucka.ujc.cas.cz/ Internetová jazyková příručka] 9 * [http://nlp.fi.muni.cz/cz_accent/ CZ accent][[BR]] ''nástroj na doplňování diakritiky'' 10 * [http://nlp.fi.muni.cz/projekty/x-plain_enhanced/ X-Plain][[BR]] ''hra Activity s počítačem'' 11 * Majka ([http://nlp.fi.muni.cz/czech-morphology-analyser Czech],[http://nlp.fi.muni.cz/slovak-morphology-analyser Slovak],[http://nlp.fi.muni.cz/polish-morphology-analyser Polish],[http://nlp.fi.muni.cz/english-morphology-analyser English]) [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)] [[BR]] ''morfologický analyzátor'' 12 * [http://nlp.fi.muni.cz/projekty/wwwsynt/query.cgi Synt] a [http://nlp.fi.muni.cz/projekty/set/ SET] ''syntaktické analyzátory'' 13 * [https://nlp.fi.muni.cz/projekty/ner/v2/ Rozpoznávání pojmenovaných entit][[BR]] ''jména osob, míst, institucí, jednotky, zkratky, umělecká díla...'' 14 * [https://nlp.fi.muni.cz/projekty/topicks Detekce témat] [[BR]] ''klíčová slova v textu'' 15 * [https://the.sketchengine.co.uk/open/ Vyhledávání v textových korpusech] 16 * [http://nlp.fi.muni.cz/projekty/qgame/ hra 20 questions (Myslím si zvíře)][[BR]] ''počítač uhádne, na co myslíte'' 17 * [http://nlp.fi.muni.cz/projekty/watsonson/paraphrasing Parafrázování a vyplývání] a [http://nlp.fi.muni.cz/projekty/watsonson anotační hra Shenlock Holmer a Dr. Watsonson pátrají společně] [[BR]] ''jednu informace můžeme sdělit tisíci způsoby...'' 18 19 ''Bližší informace následují níže, tematicky seskupené do následujících kapitol:'' 6 Protože oblastí zájmu je více, rozdělili jsme je do následujících sekcí. V každé z nich jsou odkazy na konkrétní aplikace nebo datové zdroje. 20 7 21 8 * [[cs/MainTopics#Korpusy| Korpusy]] … … 32 19 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png)]] 33 20 34 Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. značkované, doménové, mluvené nebo chybové.21 Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti [[cs/ZpracovaniPrirozenehoJazyka|NLP]]. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové. 35 22 36 Korpusy se používají při zkoumání a konstrukci gramatik přirozených jazyků. Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se zejména v oblastech zjednoznačňování významů a strojového překladu.23 Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím '''korpusových manažerů''', což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer '''The sketch engine'''. 37 24 38 V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je velmi vhodné je předzpracovat: například programem '''jusText''' na odstranění netextových částí webových stránek, nástrojem '''onion''', který odstraňuje duplicitní části textu, nebo programem '''chared''' na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém '''gensim''', který umožňuje určit témata, o kterých se v píše v daném textu.25 Korpusy se používají při zkoumání a konstrukci gramatik přirozených jazyků. Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se zejména ve strojovém překladu. 39 26 40 V NLP Centru byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. Tyto korpusy mohou obsahovat i více než 100 miliard slovních pozic. 27 V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je třeba je předzpracovat: například programem '''jusText''' na odstranění netextových částí webových stránek, nástrojem '''onion''', který odstraňuje duplicitní části textu, nebo programem '''chared''' na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém '''gensim''', který umožňuje určit témata, o kterých se v píše v daném textu. 28 29 V CZPJ jsme vytvořili kompletní sadu nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. 41 30 42 31 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png)]] … … 44 33 ''Související projekty:'' 45 34 46 * [http://nlp.fi.muni.cz/trac/noske NoSketch Engine] 47 48 * [http://ske.fi.muni.cz/ Lokální instalace Sketch Engine pro Masarykovu univerzitu] 35 * [http://ske.fi.muni.cz/ Lokální instalace Sketch Engine pro Masarykovu univerzitu (přístupná po registraci všem lidem z MU)] 49 36 50 37 * [http://www.sketchengine.co.uk/ Sketch Engine] 38 39 * [http://nlp.fi.muni.cz/trac/noske NoSketch Engine] 51 40 52 41 * [http://nlp.fi.muni.cz/projekty/cpa/ CPA] … … 62 51 ''Související články:'' 63 52 64 * [[UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]] 53 * [[cs/JazykovyKorpus|Tři věci, které jste nevěděli o jazykových korpusech]], o korpusech populárně 54 55 * [[cs/UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]] 65 56 66 57 == Slovníky == #dict