Korpus z projektov Wikimedia

(Korpus z projektů Wikimedia)

Práca sa zaoberala tvorbou korpusov z rôznych projektov Wikimedia okrem Wikipédie (Wiktionary, Wikiquote, Wikibooks, Wikisource, Wikinews, Wikiversity a Wikivoyage). Pre získanie dát boli použité skripty, ktoré sme získali úpravou pôvodného skriptu na sťahovanie dát z Wikipédie.

Práca sa zameriavala hlavne na tvorbu korpusov z anglickej, českej a slovenskej verzie projektov. Skripty boli prispôsobené pre jednotlivé projekty, získané dáta boli očistené od nadbytočného kódu a uložené v prevertikálnej forme, následne boli tokenizáciou a priradením základných tvarov a gramatických kategórií vo forme morfologických značiek prevedené do vertikálnej formy.

Nakoniec boli použité ako vstupné dáta pre tvorbu textových korpusov pre korpusový manažér Sketch Engine. Výsledné korpusy boli uložené a sprístupnené na stránkach Sketch Engine Masarykovej univerzity.

Skripty

Skripty sú napísané v jazyku Python, pre použitie:

python wik*.py [-h] [-s STOPLIST] langcode

positional arguments:
 langcode              Wikimedia project language prefix, e.g. en

optional arguments:
 -h, --help             show this help message and exit
 -s STOPLIST, --stoplist STOPLIST  stoplist name/name of language (default None), e.g. English
	 
kde wik*.py je jeden zo skriptov (wikisource.py, wikinews.py,...), langcode je jazykový prefix projektov a STOPLIST je názov zoznamu stopslov daného jazyka (voliteľný argument).

Príklad použitia:

python wikisource.py en -s English
stiahne dáta z anglických Wikisource (en) za použitia slov z anglického stoplistu (English).

Skripty na stiahnutie: wikibooks.py, wikinews.py, wikiquote.py, wikisource.py, wikiversity.py, wikivoyage.py, wiktionary.py.

Odkazy na korpusy:

Archív práce:

https://is.muni.cz/th/cs2o9/