Changes between Version 1 and Version 2 of cs/Lingware


Ignore:
Timestamp:
Jun 18, 2014, 4:05:56 PM (10 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/Lingware

    v1 v2  
    1 = Lingvistické nástroje na počítačích NLPlab = #Lingvistick.2BAOk_n.2BAOE-stroje_na_po.2BAQ0A7Q-ta.2BAQ0A7Q-ch_NLPlab
    2 === Práce s textovými korpusy === #Pr.2BAOE-ce_s_textov.2BAP0-mi_korpusy
    3 Korpusová  lingvistika je jedním z hlavních pilířů práce NLPlab.  I když vaše  současné úkoly nemusí s textovými korpusy přímo souviset, není  nezajímavé se alespoň seznámit s nástroji používanými pro přístup ke  korpusům. Takovým nástrojem je v NLPlab korpusový manažer [http://nlp.fi.muni.cz/cs/Manatee Manatee] a jeho grafické rozhraní [http://nlp.fi.muni.cz/cs/Bonito Bonito]. Více informací a možnost registrace naleznete na http://corpora.fi.muni.cz/ske. Pro dotazování je používán [http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying Corpus Query Language (CQL)].
     1= Lingvistické nástroje na počítačích NLPlab =
     2=== Práce s textovými korpusy ===
     3Korpusová  lingvistika je jedním z hlavních pilířů práce NLPlab.  I když vaše  současné úkoly nemusí s textovými korpusy přímo souviset, není  nezajímavé se alespoň seznámit s nástroji používanými pro přístup ke  korpusům. Takovým nástrojem je v NLPlab korpusový manažer [[cs/Manatee| Manatee]] a jeho grafické rozhraní [[cs/Bonito| Bonito]]. Více informací a možnost registrace naleznete na http://corpora.fi.muni.cz/ske. Pro dotazování je používán [http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying Corpus Query Language (CQL)].
    44
    55Pro zjištění základních statistických údajů z našich korpusů můžete využít program `lsclex`.   
    66
    7 Velmi moderním korpusovým nástrojem je ''Word Sketch Engine'',  který umožňuje velmi rychlé a přehledné zobrazení konkordancí, ale také  například zajímavých statistik týkajících se syntaktických vztahů ve  větách. Zájemci si mohou přečíst [http://www.sketchengine.co.uk/ bližší informace o tomto nástroji], případně si jej vyzkoušet na Britském národním korpusu, k čemuž je zapotřebí se zaregistrovat na http://corpora.fi.muni.cz/bnc/.   .
     7Velmi moderním korpusovým nástrojem je ''Word Sketch Engine'',  který umožňuje velmi rychlé a přehledné zobrazení konkordancí, ale také  například zajímavých statistik týkajících se syntaktických vztahů ve  větách. Zájemci si mohou přečíst [http://www.sketchengine.co.uk/ bližší informace o tomto nástroji], případně si jej vyzkoušet na Britském národním korpusu, k čemuž je zapotřebí se zaregistrovat na [http://corpora.fi.muni.cz/bnc/].   
    88
    9 === Morfologický analyzátor ajka === #Morfologick.2BAP0_analyz.2BAOE-tor_ajka
     9=== Morfologický analyzátor ajka ===
    1010V NLPlab je k dispozici morfologický analyzátor `ajka`.  Jde o program, který k danému slovnímu tvaru přiřadí základní tvar,  tzv. lemma (např. ke tvaru "domovem" dává "domov"), a určí slovní druh a  další gramatické informace (zde např. pád, číslo atd.). Funkce  morfologického analyzátoru si  můžete vyzkoušet spuštěním programu `ajka` z příkazové řádky, interaktivní verze se ukončuje zadáním #, `ajka -h` poskytne stručnou nápovědu. Popis kódování gramatických kategorií lze nalézt na http://nlp.fi.muni.cz/projekty/ajka/tags.pdf. Ajka používá kódování ISO Latin 2. 
    1111
    1212Novější implementace `majka` je spustitelná z příkazové řádky takto: 
    1313
    14 `/nlp/projekty/ajka/bin/majka -f <datový soubor>`
     14{{{
     15/nlp/projekty/ajka/bin/majka -f <datový soubor>
     16}}}
    1517
    16 Datový soubor je např. `/nlp/projekty/ajka/bin/majka.w-lt`, který vrací pro slovo (`w`) lemma (`l`) a značku (`t`ag).
     18Datový soubor je např.
     19{{{
     20/nlp/projekty/ajka/bin/majka.w-lt
     21}}}
     22který vrací pro slovo (`w`) lemma (`l`) a značku (`t`ag).
    1723
    18 === Značkování češtiny === #Zna.2BAQ0-kov.2BAOE-n.2BAO0_.2BAQ0-e.2BAWE-tiny
    19 Značkovač je v /nlp/projekty/rule_ind/stat/desamb.sh (module add sicstus), lemmatizátor je v /home/xpomikal/bin/lemmatize.pl   
     24=== Značkování češtiny ===
     25Značkovač je v {{{/nlp/projekty/rule_ind/stat/desamb.sh}}} (module add sicstus), lemmatizátor je v {{{/home/xpomikal/bin/lemmatize.pl}}}
    2026
    21 === Slovníky === #Slovn.2BAO0-ky
     27=== Slovníky ===
    2228Velmi praktickým nástrojem je webový [http://metatrans.fi.muni.cz/ metaslovník Metatrans],  který představuje jednotné rozhraní k celé řadě veřejně přístupných  slovníků na internetu. Uživatel má mimo jiné na výběr, z kterého jazyka  do kterého chce překládat, které z podporovaných slovníků se mají  použít, může také blíže nastavit způsob hledání zadaného slova.  Dále je  na počítačích NLPlab nainstalováno několik jednoduchých   anglicko-českých (slovenských) slovníků. Přístup k nim získáte pomocí `module add dict` (viz `module help dict`). V současné době usilovně pracujeme na vytvoření lepšího slovníku.
    2329
    24 === WC Cleaner === #WC_Cleaner
     30=== WC Cleaner ===
    2531Nástroj  na odstranění boilerplate (často se opakující obsah) z HTML stránek. Ke  stažení zde nlp/projekty/segmentace_html2/wccleaner. K dispozici je i  nástroj BTE, testovací data (z Cleanevalu a v rámci DP ručně připravená  data) k otestování, porovnání.
    2632
    27 === !VerbaLex === #VerbaLex
    28 Nejedná se v tomto případě o ''nástroj'', ale o slovník, či '''''lexikon'''''. !VerbaLex obsahuje valence českých sloves ve formě tzv. ''komplexních valenčních rámců''. Podrobněji viz [http://nlp.fi.muni.cz/cs/VerbaLex stránka projektu].
     33=== !VerbaLex ===
     34Nejedná se v tomto případě o ''nástroj'', ale o slovník, či '''''lexikon'''''. !VerbaLex obsahuje valence českých sloves ve formě tzv. ''komplexních valenčních rámců''. Podrobněji viz [[cs/VerbaLex| stránka projektu]].