Changes between Version 69 and Version 70 of cs/MainTopics


Ignore:
Timestamp:
Jul 22, 2014, 10:39:29 AM (6 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/MainTopics

    v69 v70  
    22
    33= Na čem pracujeme v Centru? =
    4 Centrum zpracování přirozeného jazyka (CZPJ) se zaměřuje na oblast [[NLP | zpracování přirozeného jazyka]]. Výsledky projektů hojně publikujeme na konferencích,  CZPJ také spolupracuje s tuzemskými i zahraničními pracovišti  podobného zaměření a studentům nabízí výměnné pobyty na partnerských  univerzitách mimo republiku.
     4Centrum zpracování přirozeného jazyka (CZPJ) se zaměřuje na výzkum a aplikace v oblasti [[cs/ZpracovaniPrirozenehoJazyka|zpracování přirozeného jazyka]]. Spolupracujeme s tuzemskými i zahraničními pracovišti  podobného zaměření a studentům nabízíme výměnné pobyty na partnerských  univerzitách mimo republiku. Výsledky hojně publikujeme na konferencích, výsledky v podobě softwaru nebo datových zdrojů si můžete [[cs/LangToolsLinks|vyzkoušet]].
    55
    6 Vyzkoušejte si některé naše jazykové nástroje:
    7 
    8  * [http://prirucka.ujc.cas.cz/ Internetová jazyková příručka]
    9  * [http://nlp.fi.muni.cz/cz_accent/ CZ accent][[BR]] ''nástroj na doplňování diakritiky''
    10  * [http://nlp.fi.muni.cz/projekty/x-plain_enhanced/ X-Plain][[BR]] ''hra Activity s počítačem''
    11  * Majka ([http://nlp.fi.muni.cz/czech-morphology-analyser Czech],[http://nlp.fi.muni.cz/slovak-morphology-analyser Slovak],[http://nlp.fi.muni.cz/polish-morphology-analyser Polish],[http://nlp.fi.muni.cz/english-morphology-analyser English]) [http://nlp.fi.muni.cz/projekty/wwwajka (webové rozhraní)] [[BR]] ''morfologický analyzátor''
    12  * [http://nlp.fi.muni.cz/projekty/wwwsynt/query.cgi Synt] a [http://nlp.fi.muni.cz/projekty/set/ SET] ''syntaktické analyzátory''
    13  * [https://nlp.fi.muni.cz/projekty/ner/v2/ Rozpoznávání pojmenovaných entit][[BR]] ''jména osob, míst, institucí, jednotky, zkratky, umělecká díla...''
    14  * [https://nlp.fi.muni.cz/projekty/topicks Detekce témat] [[BR]] ''klíčová slova v textu''
    15  * [https://the.sketchengine.co.uk/open/ Vyhledávání v textových korpusech]
    16  * [http://nlp.fi.muni.cz/projekty/qgame/ hra 20 questions (Myslím si zvíře)][[BR]] ''počítač uhádne, na co myslíte''
    17  * [http://nlp.fi.muni.cz/projekty/watsonson/paraphrasing Parafrázování a vyplývání] a [http://nlp.fi.muni.cz/projekty/watsonson anotační hra Shenlock Holmer a Dr. Watsonson pátrají společně] [[BR]] ''jednu informace můžeme sdělit tisíci způsoby...''
    18 
    19 ''Bližší informace následují níže, tematicky seskupené do následujících kapitol:''
     6Protože oblastí zájmu je více, rozdělili jsme je do následujících sekcí. V každé z nich jsou odkazy na konkrétní aplikace nebo datové zdroje.
    207
    218 * [[cs/MainTopics#Korpusy| Korpusy]]
     
    3219[[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png)]]
    3320
    34 Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP.  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. značkované, doménové, mluvené nebo chybové.
     21Korpus je  kolekce textových dat v elektronické podobě. Jako významný zdroj  lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů  jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti [[cs/ZpracovaniPrirozenehoJazyka|NLP]].  Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro  zvláštní účely, např. paralelní (vícejazyčné), doménové, mluvené nebo chybové.
    3522
    36 Korpusy  se používají při zkoumání a konstrukci gramatik přirozených jazyků.  Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru  hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci  textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny  obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se  zejména v oblastech zjednoznačňování významů a strojového překladu.
     23Čím větší je korpus, tím lépe může ilustrovat způsob, jakým lidé jazyk používají. Některé korpusy mohou obsahovat i více než 100 miliard slovních pozic. Korpusy jsou zpravidla přístupné prostřednictvím '''korpusových manažerů''', což jsou programy schopné tak velké množství dat ukládat, indexovat a rychle prohledávat. V CZPJ jsme vytvořili korpusový manažer '''The sketch engine'''.
    3724
    38 V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je velmi vhodné je předzpracovat: například programem '''jusText''' na odstranění netextových částí webových stránek, nástrojem '''onion''', který odstraňuje duplicitní části textu, nebo programem '''chared''' na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém '''gensim''', který umožňuje určit témata, o kterých se v píše v daném textu.
     25Korpusy  se používají při zkoumání a konstrukci gramatik přirozených jazyků.  Dále mohou být užitečné při tvorbě gramatického korektoru, při výběru  hesel do slovníků, nebo jako zdroj dat pro automatickou kategorizaci  textů s použitím metod strojového učení. Paralelní korpusy jsou tvořeny  obsahově totožnými a zarovnanými texty v různých jazycích. Uplatňují se  zejména ve strojovém překladu.
    3926
    40 V NLP Centru byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. Tyto korpusy mohou obsahovat i více než 100 miliard slovních pozic.
     27V dnešní době je nejdůležitějším zdrojem korpusových dat Internet. Aby bylo možné data získaná z webu použít pro jazykové účely, je třeba je předzpracovat: například programem '''jusText''' na odstranění netextových částí webových stránek, nástrojem '''onion''', který odstraňuje duplicitní části textu, nebo programem '''chared''' na rozpoznávání kódování textů. Velmi užitečným je také oblíbený systém '''gensim''', který umožňuje určit témata, o kterých se v píše v daném textu.
     28
     29V CZPJ jsme vytvořili kompletní sadu nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''.
    4130
    4231[[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png)]]
     
    4433''Související projekty:''
    4534
    46  * [http://nlp.fi.muni.cz/trac/noske NoSketch Engine]
    47 
    48  * [http://ske.fi.muni.cz/ Lokální instalace Sketch Engine pro Masarykovu univerzitu]
     35 * [http://ske.fi.muni.cz/ Lokální instalace Sketch Engine pro Masarykovu univerzitu (přístupná po registraci všem lidem z MU)]
    4936
    5037 * [http://www.sketchengine.co.uk/ Sketch Engine]
     38
     39 * [http://nlp.fi.muni.cz/trac/noske NoSketch Engine]
    5140
    5241 * [http://nlp.fi.muni.cz/projekty/cpa/ CPA]
     
    6251''Související články:''
    6352
    64  * [[UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]]
     53 * [[cs/JazykovyKorpus|Tři věci, které jste nevěděli o jazykových korpusech]], o korpusech populárně
     54
     55 * [[cs/UvodDoKorpusoveLingvistiky| Úvod do korpusové lingvistiky]]
    6556
    6657== Slovníky == #dict