wiki:cs/Korpusy2017

2017: Nové korpusy dostupné přes Sketch Engine

Nový korpus akademické angličtiny

Na podzim 2017 byl zveřejněn nový korpus akademické angličtiny, který obsahuje více než 2,6 miliard slov. Byl vytvořen z anglicky psaných časopisů, které jsou volně dostupné přes v The Directory of Open Access Journals (DOAJ) - tento projekt vznikl na Lundské univerzitě v roce 2003 ve Švédsku. Korpus obsahuje podrobné informace o časopisech zabývajících se o techniku, medicínu, historii, sociální vědy aj. Přes Sketch Engine jsou nyní dostupné pouze anglicky psané texty, do budoucna jsou naplánovány i další jazyky, protože DOAJ obsahuje články v desítkách jazyků, například i v ukrajinštině či turečtině.

Korpus Brexit

Korpus Brexit je sbírkou textů zabývajících se vystoupením Velké Británie z Evropské unie. Tento stomilionový korpus je skládá z tweetů, krátkých zpráv, komentářů a blogů. V korpusu lze vyhledávat podle autorů, zdroje nebo konkrétních témat. Automatickou analýzou jsou články rozděleny na pozitivní, negativní a neutrální. Všechny texty jsou napsané před referendem konaným v červnu 2016.

Korpus tibetštiny

Nový korpus pro jazyk s přibližně 6 miliony mluvčích byl spuštěn na jaře letošního roku. Obsahuje 80 milionů slov, vytvoření korpusu je součást anglického univerzitního projektu Tibetan in Digital Communication. Texty klasické tibetštiny jsou z Buddhist Digital Resource Center. Korpus je označkován, lemmatizován a je možné si zobrazit slovní profily jednotlivých slov.

EUR-Lex Judgements korpus

Další novinkou roku 2017 je EUR-Lex Judgement korpus obsahující rozsudky Soudního dvora Evropské unie. Skládá se z více než 600 milionů slov všech úředních jazyků členských zemí EU (23 jazyků) vyjma irštiny, proto je vhodný pro překladatele právnických textů. EUR-Lex Judgements Corpus je subkorpusem EUR-Lex corpus, který obsahuje právní předpisy EU a další dokumenty. Subkorpus tedy obsahuje obdobné informace ke každému dokumentu (celexové číslo, rok vydání a název dokumentu atd.)

EcoLexicon korpus

Výzkumný tým LexiCon z granadské univerzity připravil nový korpus (23 milionů slov) obsahující texty o životním prostředí. Korpus je volně dostupný, morfologicky značkovaný a lemmatizovaný, k dispozici je i nástroj WordSketch? a Tezaurus.

Korpus amharštiny

Nový webový korpus dostupný přes Sketch Engine má nyní i semitský jazyk amharština, kterým hovoří přibližně 25 milionů mluvčích převážně ze severní Etiopie. Korpus obsahuje dvacet šest milionů slov. Při jeho budování byly třikrát staženy soubory z internetu pomocí nástroje SpiderLing?, konkrétně v srpnu 2013, říjnu 2015 a v lednu 2016. Korpus je označkovaný a texty jsou z etiopského písma převedeny SERA systémem do latinky.

Novinky v českých korpusech dostupných přes Český národní korpus

Korpus SYN verze 5 a 6

Akademický projekt Český národní korpus zveřejnil v dubnu novou verzi korpusu SYN, obsahuje všechny předešlé korpusy z této řady korpus z této řady (z reprezentativních SYN2000, SYN2005, SYN2010, SYN2015, z publicistických SYN2006PUB, SYN2009PUB, SYN2013PUB a předchozí verzi 4). Novinkou tohoto korpusu je 200 milionů slov publicistických textů z roku 2015. Korpus SYN verze 6 byl vydán ještě téhož roku, byl rozšířen o publicistiku z roku 2016. Přestože přesáhl velikost 4 miliardy slov, není největším českým korpusem. Prvenství stále patří internetovému korpusu czTenTen, který má o více miliardu slov více (5, 4 miliard tokenů). Korpus v obou verzích není reprezentativní, obsahuje převážně publicistiku. Obě verze jsou lemmatizované a obsahují morfologické značkování.

ORTOFON, DIALEKT, ORAL

Dalšími korpusy, které byly letos zveřejněny, jsou ORTOFON, DIALEKT a ORAL. Tato trojice mluvených korpusů je lemmatizovaná a morfologicky označkovaná, tag odpovídá psaným korpusům, nemá ale pozici pro označení vidu, ale navíc obsahuje značení pro nedořečená slova, neverbální zvuky a komentáře.

ORTOFON se skládá z více jak 100 hodin nahrávek spontánního neformálního jazyka mezi 624 znajícími se mluvčími. Obsahuje víceúrovňový přepis, ortografický a fonetický, dále jsou v něm zaznamenány metajazykové informace (odkašlání, smích, zvuky z okolí). K textu je připojena zvuková stopa, je možné si vyhledanou část poslechnout. Nahrávky jsou pořízeny během pěti let (2012–2017) a celý korpus obsahuje přes milion slov. ORTOFON je prvním korpusem, který je vyvážený z hlediska základních sociolingvistických kategorií mluvčích zahrnující pohlaví, věkovou skupinu, dosažené vzdělání a oblast pobytu v dětství.

Nářeční korpus DIALEKT tvoří 324 nahrávek ze všech nářečních oblastí České republiky. Většina nahrávek vznikla formou řízeného rozhovoru. Stejně jako ORTOFON tento mluvený korpus obsahuje zvukovou nahrávku a ortografický a fonetický přepis. DIALEKT je ale rozsahově menší, obsahuje pouze sto tisíc slov, a není vyvážený. Data jsou rozdělena na dvě části z hlediska období sběru dat, starší nahrávky jsou z konce 50. let do 80. let dvacátého stolení, novější byly pořízeny od devadesátých let po současnost. Tvůrci korpusu plánují korpus rozšiřovat o další data, interaktivní mapy s nářečními rysy a další užitečná doplnění.

Poslední z jmenovaných korpusů vznikl spojením všech korpusů řady ORAL (ORAL2006, ORAL2008, ORAL2013 a část ORAL-Z). V korpusech převažují neformální rozhovory, ORAL-Z obsahuje i formální komunikaci. Nahrávky pochází z let 2002–2011. Část korpusu není propojena se zvukem a transkripce je pouze jednoúrovňová. Mluvený korpus ORAL obsahuje 5,3 milionů slov, 1 546 nahrávek a 1 297 mluvčích.

Zdroje:

Last modified 19 months ago Last modified on Jan 22, 2018 7:29:07 PM