Context Navigation

Changes between Version 69 and Version 70 of cs/MainTopics

Timestamp:: Jul 22, 2014, 10:39:29 AM (10 years ago)
Author:: Zuzana Nevěřilová
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

cs/MainTopics

-                      v69
+                      v70
 = Na čem pracujeme v Centru? =
 Centrum zpracování přirozeného jazyka (CZPJ) se zaměřuje na oblast [[NLP | zpracování přirozeného jazyka]]. Výsledky projektů hojně publikujeme na konferencích,  CZPJ také spolupracuje s tuzemskými i zahraničními pracovišti  podobného zaměření a studentům nabízí výměnné pobyty na partnerských  univerzitách mimo republiku.
+Centrum zpracování přirozeného jazyka (CZPJ) se zaměřuje na výzkum a aplikace v oblasti [[cs/ZpracovaniPrirozenehoJazyka|zpracování přirozeného jazyka]]. Spolupracujeme s tuzemskými i zahraničními pracovišti  podobného zaměření a studentům nabízíme výměnné pobyty na partnerských  univerzitách mimo republiku. Výsledky hojně publikujeme na konferencích, výsledky v podobě softwaru nebo datových zdrojů si můžete [[cs/LangToolsLinks|vyzkoušet]].
+Vyzkoušejte si některé naše jazykové nástroje:
+ * [http://prirucka.ujc.cas.cz/ Internetová jazyková příručka]
+ * [http://nlp.fi.muni.cz/cz_accent/ CZ accent][[BR]] ''nástroj na doplňování diakritiky''
+ * [http://nlp.fi.muni.cz/projekty/x-plain_enhanced/ X-Plain][[BR]] ''hra Activity s počítačem''
+ * Majka ([http://nlp.fi.muni.cz/czech-morphology-analyser Czech],[http://nlp.fi.muni.cz/slovak-morphology-analyser Slovak],[http://nlp.fi.muni.cz/polish-morphology-analyser Polish],[http://nlp.fi.muni.cz/english-morphology-analyser English]) [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)] [[BR]] ''morfologický analyzátor''
+ * [http://nlp.fi.muni.cz/projekty/wwwsynt/query.cgi Synt] a [http://nlp.fi.muni.cz/projekty/set/ SET] ''syntaktické analyzátory''
+ * [https://nlp.fi.muni.cz/projekty/ner/v2/ Rozpoznávání pojmenovaných entit][[BR]] ''jména osob, míst, institucí, jednotky, zkratky, umělecká díla...''
+ * [https://nlp.fi.muni.cz/projekty/topicks Detekce témat] [[BR]] ''klíčová slova v textu''
+ * [https://the.sketchengine.co.uk/open/ Vyhledávání v textových korpusech]
+ * [http://nlp.fi.muni.cz/projekty/qgame/ hra 20 questions (Myslím si zvíře)][[BR]] ''počítač uhádne, na co myslíte''
+ * [http://nlp.fi.muni.cz/projekty/watsonson/paraphrasing Parafrázování a vyplývání] a [http://nlp.fi.muni.cz/projekty/watsonson anotační hra Shenlock Holmer a Dr. Watsonson pátrají společně] [[BR]] ''jednu informace můžeme sdělit tisíci způsoby...''
+''Bližší informace následují níže, tematicky seskupené do následujících kapitol:''
+Protože oblastí zájmu je více, rozdělili jsme je do následujících sekcí. V každé z nich jsou odkazy na konkrétní aplikace nebo datové zdroje.
  * [[cs/MainTopics#Korpusy| Korpusy]]
 …
 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png)]]
 Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP.  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. značkované, doménové, mluvené nebo chybové.
+Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti [[cs/ZpracovaniPrirozenehoJazyka|NLP]].  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.
 Korpusy  se používají při zkoumání a konstrukci gramatik přirozených jazyků.  Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru  hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci  textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny  obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se  zejména v oblastech zjednoznačňování významů a strojového překladu.
+Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím '''korpusových manažerů''', což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer '''The sketch engine'''.
 V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je velmi vhodné je předzpracovat: například programem '''jusText''' na odstranění netextových částí webových stránek, nástrojem '''onion''', který odstraňuje duplicitní části textu, nebo programem '''chared''' na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém '''gensim''', který umožňuje určit témata, o kterých se v píše v daném textu.
+Korpusy  se používají při zkoumání a konstrukci gramatik přirozených jazyků.  Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru  hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci  textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny  obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se  zejména ve strojovém překladu.
+V NLP Centru byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. Tyto korpusy mohou obsahovat i více než 100 miliard slovních pozic.
+V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je třeba je předzpracovat: například programem '''jusText''' na odstranění netextových částí webových stránek, nástrojem '''onion''', který odstraňuje duplicitní části textu, nebo programem '''chared''' na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém '''gensim''', který umožňuje určit témata, o kterých se v píše v daném textu.
+V CZPJ jsme vytvořili kompletní sadu nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''.
 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png)]]
 …
 ''Související projekty:''
+ * [http://nlp.fi.muni.cz/trac/noske NoSketch Engine]
+ * [http://ske.fi.muni.cz/ Lokální instalace Sketch Engine pro Masarykovu univerzitu]
+ * [http://ske.fi.muni.cz/ Lokální instalace Sketch Engine pro Masarykovu univerzitu (přístupná po registraci všem lidem z MU)]
  * [http://www.sketchengine.co.uk/ Sketch Engine]
+ * [http://nlp.fi.muni.cz/trac/noske NoSketch Engine]
  * [http://nlp.fi.muni.cz/projekty/cpa/ CPA]
 …
 ''Související články:''
+ * [[UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]]
+ * [[cs/JazykovyKorpus|Tři věci, které jste nevěděli o jazykových korpusech]], o korpusech populárně
+ * [[cs/UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]]
 == Slovníky == #dict