| 1 | = 2017: Nové korpusy dostupné přes Sketch Engine = |
| 2 | |
| 3 | == Nový korpus akademické angličtiny == |
| 4 | |
| 5 | Na podzim 2017 byl zveřejněn nový korpus akademické angličtiny, který obsahuje více než 2,6 miliard slov. Byl vytvořen z anglicky psaných časopisů, které jsou volně dostupné přes v The Directory of Open Access Journals (DOAJ) - tento projekt vznikl na Lundské univerzitě v roce 2003 ve Švédsku. Korpus obsahuje podrobné informace o časopisech zabývajících se o techniku, medicínu, historii, sociální vědy aj. Přes Sketch Engine jsou nyní dostupné pouze anglicky psané texty, do budoucna jsou naplánovány i další jazyky, protože DOAJ obsahuje |
| 6 | články v desítkách jazyků, například i v ukrajinštině či turečtině. |
| 7 | |
| 8 | == Korpus Brexit == |
| 9 | |
| 10 | Korpus Brexit je sbírkou textů zabývajících se vystoupením Velké Británie z Evropské unie. Tento stomilionový korpus je skládá z tweetů, krátkých zpráv, komentářů a blogů. V korpusu lze vyhledávat podle autorů, zdroje nebo konkrétních témat. Automatickou analýzou jsou články rozděleny na pozitivní, negativní a neutrální. Všechny texty jsou napsané před referendem konaným v červnu 2016. |
| 11 | |
| 12 | == Korpus tibetštiny == |
| 13 | |
| 14 | Nový korpus pro jazyk s přibližně 6 miliony mluvčích byl spuštěn na jaře letošního roku. Obsahuje 80 milionů slov, vytvoření korpusu je součást anglického univerzitního projektu Tibetan in Digital Communication. Texty klasické tibetštiny jsou z Buddhist Digital Resource Center. Korpus je označkován, lemmatizován a je možné si zobrazit slovní profily jednotlivých slov. |
| 15 | |
| 16 | == EUR-Lex Judgements korpus == |
| 17 | |
| 18 | Další novinkou roku 2017 je EUR-Lex Judgement korpus obsahující rozsudky Soudního dvora Evropské unie. Skládá se z více než 600 milionů slov všech úředních jazyků členských zemí EU (23 jazyků) vyjma irštiny, proto je vhodný pro překladatele právnických textů. EUR-Lex Judgements Corpus je subkorpusem EUR-Lex corpus, který obsahuje právní předpisy EU a další dokumenty. Subkorpus tedy obsahuje obdobné informace ke každému dokumentu (celexové číslo, rok vydání a název dokumentu atd.) |
| 19 | |
| 20 | == !EcoLexicon korpus == |
| 21 | |
| 22 | Výzkumný tým !LexiCon z granadské univerzity připravil nový korpus (23 milionů slov) obsahující texty o životním prostředí. Korpus je volně dostupný, morfologicky značkovaný a lemmatizovaný, k dispozici je i nástroj WordSketch a Tezaurus. |
| 23 | |
| 24 | == Korpus amharštiny == |
| 25 | |
| 26 | Nový webový korpus dostupný přes Sketch Engine má nyní i semitský jazyk amharština, kterým hovoří přibližně 25 milionů mluvčích převážně ze severní Etiopie. Korpus obsahuje dvacet šest milionů slov. Při jeho budování byly třikrát staženy soubory z internetu pomocí nástroje SpiderLing, konkrétně v srpnu 2013, říjnu 2015 a v lednu 2016. Korpus je označkovaný a texty jsou z etiopského písma převedeny SERA systémem do latinky. |
| 27 | |
| 28 | = Novinky v českých korpusech dostupných přes Český národní korpus = |
| 29 | |
| 30 | == Korpus SYN verze 5 a 6 == |
| 31 | |
| 32 | Akademický projekt Český národní korpus zveřejnil v dubnu novou verzi korpusu SYN, obsahuje všechny předešlé korpusy z této řady korpus z této řady (z reprezentativních SYN2000, SYN2005, SYN2010, SYN2015, z publicistických SYN2006PUB, SYN2009PUB, SYN2013PUB a předchozí verzi 4). Novinkou tohoto korpusu je 200 milionů slov publicistických textů z roku 2015. Korpus SYN verze 6 byl vydán ještě téhož roku, byl rozšířen o publicistiku z roku 2016. Přestože přesáhl velikost 4 miliardy slov, není největším českým korpusem. Prvenství stále patří internetovému korpusu czTenTen, který má o více miliardu slov více (5, 4 miliard tokenů). Korpus v obou verzích není reprezentativní, obsahuje převážně publicistiku. Obě verze jsou lemmatizované a obsahují morfologické |
| 33 | značkování. |
| 34 | |
| 35 | == ORTOFON, DIALEKT, ORAL == |
| 36 | |
| 37 | Dalšími korpusy, které byly letos zveřejněny, jsou ORTOFON, DIALEKT a ORAL. Tato |
| 38 | trojice mluvených korpusů je lemmatizovaná a morfologicky označkovaná, tag odpovídá psaným korpusům, nemá ale pozici pro označení vidu, ale navíc obsahuje značení pro nedořečená slova, neverbální zvuky a komentáře. |
| 39 | |
| 40 | ORTOFON se skládá z více jak 100 hodin nahrávek spontánního neformálního jazyka mezi 624 znajícími se mluvčími. Obsahuje víceúrovňový přepis, ortografický a fonetický, dále jsou v něm zaznamenány metajazykové informace (odkašlání, smích, zvuky z okolí). K textu je připojena zvuková stopa, je možné si vyhledanou část poslechnout. Nahrávky jsou pořízeny během pěti let (2012–2017) a celý korpus obsahuje přes milion slov. ORTOFON je prvním korpusem, který je vyvážený z hlediska základních sociolingvistických kategorií mluvčích zahrnující pohlaví, věkovou skupinu, dosažené vzdělání a oblast pobytu v dětství. |
| 41 | |
| 42 | Nářeční korpus DIALEKT tvoří 324 nahrávek ze všech nářečních oblastí České republiky. Většina nahrávek vznikla formou řízeného rozhovoru. Stejně jako ORTOFON tento mluvený korpus obsahuje zvukovou nahrávku a ortografický a fonetický přepis. DIALEKT je ale rozsahově menší, obsahuje pouze sto tisíc slov, a není vyvážený. Data jsou rozdělena na dvě části z hlediska období sběru dat, starší nahrávky jsou z konce 50. let do 80. let dvacátého stolení, novější byly pořízeny od devadesátých let po současnost. Tvůrci korpusu plánují korpus rozšiřovat o další data, interaktivní mapy s nářečními rysy a další užitečná doplnění. |
| 43 | |
| 44 | Poslední z jmenovaných korpusů vznikl spojením všech korpusů řady ORAL (ORAL2006, ORAL2008, ORAL2013 a část ORAL-Z). V korpusech převažují neformální rozhovory, ORAL-Z obsahuje i formální komunikaci. Nahrávky pochází z let 2002–2011. Část korpusu není propojena se zvukem a transkripce je pouze jednoúrovňová. Mluvený korpus ORAL obsahuje 5,3 milionů slov, 1 546 nahrávek a 1 297 mluvčích. |
| 45 | |
| 46 | Zdroje: |
| 47 | |
| 48 | * https://www.sketchengine.co.uk/category/news/ |
| 49 | * http://wiki.korpus.cz/doku.php/cnk:syn:verze6 |
| 50 | * https://wiki.korpus.cz/doku.php/cnk:ortofon |
| 51 | * https://wiki.korpus.cz/doku.php/cnk:dialekt |
| 52 | * https://wiki.korpus.cz/doku.php/cnk:oral |