wiki:cs/Lingware

Version 7 (modified by xmedved1, 10 years ago) (diff)

--

Lingvistické nástroje na počítačích CZPJ

Práce s textovými korpusy

Korpusová lingvistika je jedním z hlavních pilířů práce CZPJ. I když vaše současné úkoly nemusí s textovými korpusy přímo souviset, není nezajímavé se alespoň seznámit s nástroji používanými pro přístup ke korpusům. Takovým nástrojem je v CZPJ korpusový manažer Manatee a jeho grafické rozhraní Bonito. Více informací a možnost registrace naleznete na http://corpora.fi.muni.cz/ske. Pro dotazování je používán Corpus Query Language (CQL).

Pro zjištění základních statistických údajů z našich korpusů můžete využít program lsclex.

Velmi moderním korpusovým nástrojem je Word Sketch Engine, který umožňuje velmi rychlé a přehledné zobrazení konkordancí, ale také například zajímavých statistik týkajících se syntaktických vztahů ve větách. Zájemci si mohou přečíst bližší informace o tomto nástroji, případně si jej vyzkoušet na Britském národním korpusu, k čemuž je zapotřebí se zaregistrovat na http://corpora.fi.muni.cz/bnc/.

Morfologický analyzátor ajka

V CZPJ je k dispozici morfologický analyzátor ajka. Jde o program, který k danému slovnímu tvaru přiřadí základní tvar, tzv. lemma (např. ke tvaru "domovem" dává "domov"), a určí slovní druh a další gramatické informace (zde např. pád, číslo atd.). Funkce morfologického analyzátoru si můžete vyzkoušet spuštěním programu ajka z příkazové řádky, interaktivní verze se ukončuje zadáním #, ajka -h poskytne stručnou nápovědu. Popis kódování gramatických kategorií lze nalézt na http://nlp.fi.muni.cz/projekty/ajka/tags.pdf. Ajka používá kódování ISO Latin 2.

Novější implementace majka je spustitelná z příkazové řádky takto:

/nlp/projekty/ajka/bin/majka -f <datový soubor>

Datový soubor je např.

/nlp/projekty/ajka/bin/majka.w-lt

který vrací pro slovo (w) lemma (l) a značku (tag).

Značkování češtiny

Značkovač je v /nlp/projekty/rule_ind/stat/desamb.sh (module add sicstus), lemmatizátor je v /home/xpomikal/bin/lemmatize.pl

Značkování slovenštiny

RFTagger pro slovenštinu /nlp/projekty/syntax_sk/RFTagger (https://nlp.fi.muni.cz/trac/majka/wiki/sk) -> obsahuje aj lemmatizátor vytvořený z korpusu skTenTen

Slovníky

Velmi praktickým nástrojem je webový metaslovník Metatrans, který představuje jednotné rozhraní k celé řadě veřejně přístupných slovníků na internetu. Uživatel má mimo jiné na výběr, z kterého jazyka do kterého chce překládat, které z podporovaných slovníků se mají použít, může také blíže nastavit způsob hledání zadaného slova. Dále je na počítačích CZPJ nainstalováno několik jednoduchých anglicko-českých (slovenských) slovníků. Přístup k nim získáte pomocí module add dict (viz module help dict). V současné době usilovně pracujeme na vytvoření lepšího slovníku.

WC Cleaner

Nástroj na odstranění boilerplate (často se opakující obsah) z HTML stránek. Ke stažení zde nlp/projekty/segmentace_html2/wccleaner. K dispozici je i nástroj BTE, testovací data (z Cleanevalu a v rámci DP ručně připravená data) k otestování, porovnání.

VerbaLex

Nejedná se v tomto případě o nástroj, ale o slovník, či lexikon. VerbaLex obsahuje valence českých sloves ve formě tzv. komplexních valenčních rámců. Podrobněji viz stránka projektu.