wiki:cs/Manatee

Version 2 (modified by xkocinc, 6 years ago) (diff)

--

Manatee

Příklady použití

Pokud z nějakého důvodu nepoužíváte grafické rozhraní přes web na http://ske.fi.muni.cz, můžete použít Manatee přímo ze stroje apollo.

Prvních 100 konkordancí (0-100) v korpusu czes pro výskyty lemmatu "pes". Vypíše se okolí jednoho slova (-1 1) a výpis okolí i nalezených objektů bude formou slov (word word).

echo -e "set q czes [lemma=\"pes\"] \n get q 0 100 -1 1 word word s #" | manateesrv 

Prvních 500 konkordancí v korpusu czes pro výskyty psa ve 4. pádu. Pes se vypíše jako lemma, okolí (+- 5 slov) jako slova.

echo -e "set q czes [lemma=\"pes\" & tag=\"k1.*c4\"] \n get q 0 100 -5 5 word lemma s #" | manateesrv 

Počet výskytů lemmatu "pes" v korpusu czes:

echo -e "count czes [lemma=\"pes\"] "  | manateesrv 

Konfigurace pro Manatee

Každý, kdo si vytvoří korpus a chtěl by, aby byl korpus dosažitelný pro Manatee, musí napsat konfigurační soubor. Konfigurační soubory pro jednotlivé korpusy jsou /corpora/registry/<jméno korpusu>. Soubor začíná takto:

PATH   "/corpora/manatee/czes"
VERTICAL "/corpora/vert/czes/czes.vert"
LANGUAGE "Czech"
ENCODING "utf-8"

PATH popisuje cestu ke korpusu, VERTICAL je cesta k vertikálu, LANGUAGE obsahuje označení jazyka, ENCODING je druh kódování.

Kofigurační soubor pokračuje popisem gramatických relací pro SketchEngine:

WSDEF "/home/xnemcik/public_html/pub/ws-syn2k-ajka_v6.txt"

Následují atributy:

ATTRIBUTE   word {
    LOCALE  "cs_CZ"
    TYPE "FD_FGD"
}

ATTRIBUTE   lemma {
    LOCALE  "cs_CZ"
    TYPE "FD_FGD"
}

ATTRIBUTE   tag {
    TYPE "FD_FGD"
}

A struktury:

STRUCTURE g {
    DISPLAYTAG 0
    DISPLAYBEGIN "_EMPTY_"
}
STRUCTURE   head

Vysvětlení k jednotlivým položkám konfiguračního souboru na http://trac.sketchengine.co.uk/wiki/SkE/Config/FullDoc.