Changes between Version 3 and Version 4 of cs/Lingware
- Timestamp:
- Jul 31, 2014, 1:21:19 PM (10 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/Lingware
v3 v4 1 = Lingvistické nástroje na počítačích NLPlab=1 = Lingvistické nástroje na počítačích CZPJ = 2 2 === Práce s textovými korpusy === 3 Korpusová lingvistika je jedním z hlavních pilířů práce NLPlab. I když vaše současné úkoly nemusí s textovými korpusy přímo souviset, není nezajímavé se alespoň seznámit s nástroji používanými pro přístup ke korpusům. Takovým nástrojem je v NLPlabkorpusový manažer [[cs/Manatee| Manatee]] a jeho grafické rozhraní Bonito. Více informací a možnost registrace naleznete na [http://corpora.fi.muni.cz/ske]. Pro dotazování je používán [http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying Corpus Query Language (CQL)].3 Korpusová lingvistika je jedním z hlavních pilířů práce CZPJ. I když vaše současné úkoly nemusí s textovými korpusy přímo souviset, není nezajímavé se alespoň seznámit s nástroji používanými pro přístup ke korpusům. Takovým nástrojem je v CZPJ korpusový manažer [[cs/Manatee| Manatee]] a jeho grafické rozhraní Bonito. Více informací a možnost registrace naleznete na [http://corpora.fi.muni.cz/ske]. Pro dotazování je používán [http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying Corpus Query Language (CQL)]. 4 4 5 5 Pro zjištění základních statistických údajů z našich korpusů můžete využít program `lsclex`. … … 8 8 9 9 === Morfologický analyzátor ajka === 10 V NLPlabje k dispozici morfologický analyzátor `ajka`. Jde o program, který k danému slovnímu tvaru přiřadí základní tvar, tzv. lemma (např. ke tvaru "domovem" dává "domov"), a určí slovní druh a další gramatické informace (zde např. pád, číslo atd.). Funkce morfologického analyzátoru si můžete vyzkoušet spuštěním programu `ajka` z příkazové řádky, interaktivní verze se ukončuje zadáním #, `ajka -h` poskytne stručnou nápovědu. Popis kódování gramatických kategorií lze nalézt na http://nlp.fi.muni.cz/projekty/ajka/tags.pdf. Ajka používá kódování ISO Latin 2.10 V CZPJ je k dispozici morfologický analyzátor `ajka`. Jde o program, který k danému slovnímu tvaru přiřadí základní tvar, tzv. lemma (např. ke tvaru "domovem" dává "domov"), a určí slovní druh a další gramatické informace (zde např. pád, číslo atd.). Funkce morfologického analyzátoru si můžete vyzkoušet spuštěním programu `ajka` z příkazové řádky, interaktivní verze se ukončuje zadáním #, `ajka -h` poskytne stručnou nápovědu. Popis kódování gramatických kategorií lze nalézt na http://nlp.fi.muni.cz/projekty/ajka/tags.pdf. Ajka používá kódování ISO Latin 2. 11 11 12 12 Novější implementace `majka` je spustitelná z příkazové řádky takto: … … 26 26 27 27 === Slovníky === 28 Velmi praktickým nástrojem je webový [http://metatrans.fi.muni.cz/ metaslovník Metatrans], který představuje jednotné rozhraní k celé řadě veřejně přístupných slovníků na internetu. Uživatel má mimo jiné na výběr, z kterého jazyka do kterého chce překládat, které z podporovaných slovníků se mají použít, může také blíže nastavit způsob hledání zadaného slova. Dále je na počítačích NLPlabnainstalováno několik jednoduchých anglicko-českých (slovenských) slovníků. Přístup k nim získáte pomocí `module add dict` (viz `module help dict`). V současné době usilovně pracujeme na vytvoření lepšího slovníku.28 Velmi praktickým nástrojem je webový [http://metatrans.fi.muni.cz/ metaslovník Metatrans], který představuje jednotné rozhraní k celé řadě veřejně přístupných slovníků na internetu. Uživatel má mimo jiné na výběr, z kterého jazyka do kterého chce překládat, které z podporovaných slovníků se mají použít, může také blíže nastavit způsob hledání zadaného slova. Dále je na počítačích CZPJ nainstalováno několik jednoduchých anglicko-českých (slovenských) slovníků. Přístup k nim získáte pomocí `module add dict` (viz `module help dict`). V současné době usilovně pracujeme na vytvoření lepšího slovníku. 29 29 30 30 === WC Cleaner ===