Opened 10 years ago
Closed 10 years ago
#33 closed task (done)
Zpracování překladové paměti DGT
Reported by: | Vít Baisa | Owned by: | xmedved1 |
---|---|---|---|
Priority: | major | Milestone: | |
Component: | NLPlab | Keywords: | tm |
Cc: | Due Date: |
Description
Přidal jsem Marka M. do skupiny a aliasu skrivanek(nda). Níže píšu informace pro Marka.
Složka projektu:
alba:/nlp/projekty/skrivanek_nda/
Ukázka konfigurace paralelního korpusu:
alba:/corpora/registry/academia_en
Umístění skriptů a dat DGT (dále DGT_HOME):
alba:/nlp/tm/DGT/
Jednotlivé kroky:
- založit v DGT_HOME git, ignorovat veškerá data pomocí .gitignore
- vytvořit makefile s pravidly
download
: stáhne pomocí wget všechny .zip soubory s TMX datytmx
: sloučí všechny TMX soubory do jednoho souboru se zachováním informace odkud překladové páry/n-tice pochází (release dat, jméno původního souboru)vert
: vytvoří pro všechny jazyky vertikály, tokenizované, označkované (pokud máme tagger); vertikály dej do /corpora/vert/dgt/dgt_en.vert atd.compile
: zkompiluje vertikály (předpřipravíš si registry soubory pro všechny korpusy)
S dotazy se Marku obracej na mne.
V další fázi (bude na to ticket) pak přidáme další pravidlo tbx
, které vytvoří kandidátské návrhy pro termíny ze všech korpusů (podle jazyků) a kandidátské návrhy překladů pro termíny a všechna tato data uloží do TBX souboru.
Note: See
TracTickets for help on using
tickets.
Korpusy sú dostupné na beta.sketchengine.co.uk.