Opened 7 years ago

Closed 7 years ago

#33 closed task (done)

Zpracování překladové paměti DGT

Reported by: Vít Baisa Owned by: xmedved1
Priority: major Milestone:
Component: NLPlab Keywords: tm
Cc: Due Date:

Description

Přidal jsem Marka M. do skupiny a aliasu skrivanek(nda). Níže píšu informace pro Marka.

Složka projektu:

alba:/nlp/projekty/skrivanek_nda/

Domovské stránky DGT

Ukázka konfigurace paralelního korpusu:

alba:/corpora/registry/academia_en

Umístění skriptů a dat DGT (dále DGT_HOME):

alba:/nlp/tm/DGT/

Jednotlivé kroky:

  • založit v DGT_HOME git, ignorovat veškerá data pomocí .gitignore
  • vytvořit makefile s pravidly
    • download: stáhne pomocí wget všechny .zip soubory s TMX daty
    • tmx: sloučí všechny TMX soubory do jednoho souboru se zachováním informace odkud překladové páry/n-tice pochází (release dat, jméno původního souboru)
    • vert: vytvoří pro všechny jazyky vertikály, tokenizované, označkované (pokud máme tagger); vertikály dej do /corpora/vert/dgt/dgt_en.vert atd.
    • compile: zkompiluje vertikály (předpřipravíš si registry soubory pro všechny korpusy)

S dotazy se Marku obracej na mne.

V další fázi (bude na to ticket) pak přidáme další pravidlo tbx, které vytvoří kandidátské návrhy pro termíny ze všech korpusů (podle jazyků) a kandidátské návrhy překladů pro termíny a všechna tato data uloží do TBX souboru.

Change History (1)

comment:1 Changed 7 years ago by xmedved1

Resolution: done
Status: newclosed

Korpusy sú dostupné na beta.sketchengine.co.uk.

Note: See TracTickets for help on using tickets.