Context Navigation

← Previous Ticket
Next Ticket →

#33 closed task (done)

Zpracování překladové paměti DGT

Reported by:	Vít Baisa	Owned by:	xmedved1
Priority:	major	Milestone:
Component:	NLPlab	Keywords:	tm
Cc:		Due Date:

Description

Přidal jsem Marka M. do skupiny a aliasu skrivanek(nda). Níže píšu informace pro Marka.

Složka projektu:

alba:/nlp/projekty/skrivanek_nda/

Domovské stránky DGT

Ukázka konfigurace paralelního korpusu:

alba:/corpora/registry/academia_en

Umístění skriptů a dat DGT (dále DGT_HOME):

alba:/nlp/tm/DGT/

Jednotlivé kroky:

založit v DGT_HOME git, ignorovat veškerá data pomocí .gitignore
vytvořit makefile s pravidly
- download: stáhne pomocí wget všechny .zip soubory s TMX daty
- tmx: sloučí všechny TMX soubory do jednoho souboru se zachováním informace odkud překladové páry/n-tice pochází (release dat, jméno původního souboru)
- vert: vytvoří pro všechny jazyky vertikály, tokenizované, označkované (pokud máme tagger); vertikály dej do /corpora/vert/dgt/dgt_en.vert atd.
- compile: zkompiluje vertikály (předpřipravíš si registry soubory pro všechny korpusy)

S dotazy se Marku obracej na mne.

V další fázi (bude na to ticket) pak přidáme další pravidlo tbx, které vytvoří kandidátské návrhy pro termíny ze všech korpusů (podle jazyků) a kandidátské návrhy překladů pro termíny a všechna tato data uloží do TBX souboru.

Change History (1)

comment:1 Changed 10 years ago by xmedved1

Resolution:	→ done
Status:	new → closed

Korpusy sú dostupné na beta.sketchengine.co.uk.

Note: See TracTickets for help on using tickets.

Download in other formats: