= Lingvistické nástroje na počítačích NLPlab = === Práce s textovými korpusy === Korpusová lingvistika je jedním z hlavních pilířů práce NLPlab. I když vaše současné úkoly nemusí s textovými korpusy přímo souviset, není nezajímavé se alespoň seznámit s nástroji používanými pro přístup ke korpusům. Takovým nástrojem je v NLPlab korpusový manažer [[cs/Manatee| Manatee]] a jeho grafické rozhraní [[cs/Bonito| Bonito]]. Více informací a možnost registrace naleznete na http://corpora.fi.muni.cz/ske. Pro dotazování je používán [http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying Corpus Query Language (CQL)]. Pro zjištění základních statistických údajů z našich korpusů můžete využít program `lsclex`. Velmi moderním korpusovým nástrojem je ''Word Sketch Engine'', který umožňuje velmi rychlé a přehledné zobrazení konkordancí, ale také například zajímavých statistik týkajících se syntaktických vztahů ve větách. Zájemci si mohou přečíst [http://www.sketchengine.co.uk/ bližší informace o tomto nástroji], případně si jej vyzkoušet na Britském národním korpusu, k čemuž je zapotřebí se zaregistrovat na [http://corpora.fi.muni.cz/bnc/]. === Morfologický analyzátor ajka === V NLPlab je k dispozici morfologický analyzátor `ajka`. Jde o program, který k danému slovnímu tvaru přiřadí základní tvar, tzv. lemma (např. ke tvaru "domovem" dává "domov"), a určí slovní druh a další gramatické informace (zde např. pád, číslo atd.). Funkce morfologického analyzátoru si můžete vyzkoušet spuštěním programu `ajka` z příkazové řádky, interaktivní verze se ukončuje zadáním #, `ajka -h` poskytne stručnou nápovědu. Popis kódování gramatických kategorií lze nalézt na http://nlp.fi.muni.cz/projekty/ajka/tags.pdf. Ajka používá kódování ISO Latin 2. Novější implementace `majka` je spustitelná z příkazové řádky takto: {{{ /nlp/projekty/ajka/bin/majka -f  }}} Datový soubor je např. {{{ /nlp/projekty/ajka/bin/majka.w-lt }}} který vrací pro slovo (`w`) lemma (`l`) a značku (`t`ag). === Značkování češtiny === Značkovač je v {{{/nlp/projekty/rule_ind/stat/desamb.sh}}} (module add sicstus), lemmatizátor je v {{{/home/xpomikal/bin/lemmatize.pl}}} === Slovníky === Velmi praktickým nástrojem je webový [http://metatrans.fi.muni.cz/ metaslovník Metatrans], který představuje jednotné rozhraní k celé řadě veřejně přístupných slovníků na internetu. Uživatel má mimo jiné na výběr, z kterého jazyka do kterého chce překládat, které z podporovaných slovníků se mají použít, může také blíže nastavit způsob hledání zadaného slova. Dále je na počítačích NLPlab nainstalováno několik jednoduchých anglicko-českých (slovenských) slovníků. Přístup k nim získáte pomocí `module add dict` (viz `module help dict`). V současné době usilovně pracujeme na vytvoření lepšího slovníku. === WC Cleaner === Nástroj na odstranění boilerplate (často se opakující obsah) z HTML stránek. Ke stažení zde nlp/projekty/segmentace_html2/wccleaner. K dispozici je i nástroj BTE, testovací data (z Cleanevalu a v rámci DP ručně připravená data) k otestování, porovnání. === !VerbaLex === Nejedná se v tomto případě o ''nástroj'', ale o slovník, či '''''lexikon'''''. !VerbaLex obsahuje valence českých sloves ve formě tzv. ''komplexních valenčních rámců''. Podrobněji viz [[cs/VerbaLex| stránka projektu]].