Changes between Initial Version and Version 1 of cs/Korpusy2017


Ignore:
Timestamp:
Jan 22, 2018, 7:29:07 PM (4 years ago)
Author:
Zuzana Nevěřilová
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/Korpusy2017

    v1 v1  
     1= 2017: Nové korpusy dostupné přes Sketch Engine =
     2
     3== Nový korpus akademické angličtiny ==
     4
     5Na podzim 2017 byl zveřejněn nový korpus akademické angličtiny, který obsahuje více než 2,6 miliard slov. Byl vytvořen z anglicky psaných časopisů, které jsou volně dostupné přes v The Directory of Open Access Journals (DOAJ) - tento projekt vznikl na Lundské univerzitě v roce 2003 ve Švédsku. Korpus obsahuje podrobné informace o časopisech zabývajících se o techniku, medicínu, historii, sociální vědy aj. Přes Sketch Engine jsou nyní dostupné pouze anglicky psané texty, do budoucna jsou naplánovány i další jazyky, protože DOAJ obsahuje
     6články v desítkách jazyků, například i v ukrajinštině či turečtině.
     7
     8== Korpus Brexit ==
     9
     10Korpus Brexit je sbírkou textů zabývajících se vystoupením Velké Británie z Evropské unie. Tento stomilionový korpus je skládá z tweetů, krátkých zpráv, komentářů a blogů. V korpusu lze vyhledávat podle autorů, zdroje nebo konkrétních témat. Automatickou analýzou jsou články rozděleny na pozitivní, negativní a neutrální. Všechny texty jsou napsané před referendem konaným v červnu 2016.
     11
     12== Korpus tibetštiny ==
     13
     14Nový korpus pro jazyk s přibližně 6 miliony mluvčích byl spuštěn na jaře letošního roku. Obsahuje 80 milionů slov, vytvoření korpusu je součást anglického univerzitního projektu Tibetan in Digital Communication. Texty klasické tibetštiny jsou z Buddhist Digital Resource Center. Korpus je označkován, lemmatizován a je možné si zobrazit slovní profily jednotlivých slov.
     15
     16== EUR-Lex Judgements korpus ==
     17
     18Další novinkou roku 2017 je EUR-Lex Judgement korpus obsahující rozsudky Soudního dvora Evropské unie. Skládá se z více než 600 milionů slov všech úředních jazyků členských zemí EU (23 jazyků) vyjma irštiny, proto je vhodný pro překladatele právnických textů. EUR-Lex Judgements Corpus je subkorpusem EUR-Lex corpus, který obsahuje právní předpisy EU a další dokumenty. Subkorpus tedy obsahuje obdobné informace ke každému dokumentu (celexové číslo, rok vydání a název dokumentu atd.)
     19
     20== !EcoLexicon korpus ==
     21
     22Výzkumný tým !LexiCon z granadské univerzity připravil nový korpus (23 milionů slov) obsahující texty o životním prostředí. Korpus je volně dostupný, morfologicky značkovaný a lemmatizovaný, k dispozici je i nástroj WordSketch a Tezaurus.
     23
     24== Korpus amharštiny ==
     25
     26Nový webový korpus dostupný přes Sketch Engine má nyní i semitský jazyk amharština, kterým hovoří přibližně 25 milionů mluvčích převážně ze severní Etiopie. Korpus obsahuje dvacet šest milionů slov. Při jeho budování byly třikrát staženy soubory z internetu pomocí nástroje SpiderLing, konkrétně v srpnu 2013, říjnu 2015 a v lednu 2016. Korpus je označkovaný a texty jsou z etiopského písma převedeny SERA systémem do latinky.
     27
     28= Novinky v českých korpusech dostupných přes Český národní korpus =
     29
     30== Korpus SYN verze 5 a 6 ==
     31
     32Akademický projekt Český národní korpus zveřejnil v dubnu novou verzi korpusu SYN, obsahuje všechny předešlé korpusy z této řady korpus z této řady (z reprezentativních SYN2000, SYN2005, SYN2010, SYN2015, z publicistických SYN2006PUB, SYN2009PUB, SYN2013PUB a předchozí verzi 4). Novinkou tohoto korpusu je 200 milionů slov publicistických textů z roku 2015. Korpus SYN verze 6 byl vydán ještě téhož roku, byl rozšířen o publicistiku z roku 2016. Přestože přesáhl velikost 4 miliardy slov, není největším českým korpusem. Prvenství stále patří internetovému korpusu czTenTen, který má o více miliardu slov více (5, 4 miliard tokenů). Korpus v obou verzích není reprezentativní, obsahuje převážně publicistiku. Obě verze jsou lemmatizované a obsahují morfologické
     33značkování.
     34
     35== ORTOFON, DIALEKT, ORAL ==
     36
     37Dalšími korpusy, které byly letos zveřejněny, jsou ORTOFON, DIALEKT a ORAL. Tato
     38trojice mluvených korpusů je lemmatizovaná a morfologicky označkovaná, tag odpovídá psaným korpusům, nemá ale pozici pro označení vidu, ale navíc obsahuje značení pro nedořečená slova, neverbální zvuky a komentáře.
     39
     40ORTOFON se skládá z více jak 100 hodin nahrávek spontánního neformálního jazyka mezi 624 znajícími se mluvčími. Obsahuje víceúrovňový přepis, ortografický a fonetický, dále jsou v něm zaznamenány metajazykové informace (odkašlání, smích, zvuky z okolí). K textu je připojena zvuková stopa, je možné si vyhledanou část poslechnout. Nahrávky jsou pořízeny během pěti let (2012–2017) a celý korpus obsahuje přes milion slov. ORTOFON je prvním korpusem, který je vyvážený z hlediska základních sociolingvistických kategorií mluvčích zahrnující pohlaví, věkovou skupinu, dosažené vzdělání a oblast pobytu v dětství.
     41
     42Nářeční korpus DIALEKT tvoří 324 nahrávek ze všech nářečních oblastí České republiky. Většina nahrávek vznikla formou řízeného rozhovoru. Stejně jako ORTOFON tento mluvený korpus obsahuje zvukovou nahrávku a ortografický a fonetický přepis. DIALEKT je ale rozsahově menší, obsahuje pouze sto tisíc slov, a není vyvážený. Data jsou rozdělena na dvě části z hlediska období sběru dat, starší nahrávky jsou z konce 50. let do 80. let dvacátého stolení, novější byly pořízeny od devadesátých let po současnost. Tvůrci korpusu plánují korpus rozšiřovat o další data, interaktivní mapy s nářečními rysy a další užitečná doplnění.
     43
     44Poslední z jmenovaných korpusů vznikl spojením všech korpusů řady ORAL (ORAL2006, ORAL2008, ORAL2013 a část ORAL-Z). V korpusech převažují neformální rozhovory, ORAL-Z obsahuje i formální komunikaci. Nahrávky pochází z let 2002–2011. Část korpusu není propojena se zvukem a transkripce je pouze jednoúrovňová. Mluvený korpus ORAL obsahuje 5,3 milionů slov, 1 546 nahrávek a 1 297 mluvčích.
     45
     46Zdroje:
     47
     48 * https://www.sketchengine.co.uk/category/news/
     49 * http://wiki.korpus.cz/doku.php/cnk:syn:verze6
     50 * https://wiki.korpus.cz/doku.php/cnk:ortofon
     51 * https://wiki.korpus.cz/doku.php/cnk:dialekt
     52 * https://wiki.korpus.cz/doku.php/cnk:oral