Context Navigation

MachineTranslation

Timestamp:: Oct 4, 2015, 7:54:59 PM (10 years ago)
Author:: Vít Baisa
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

private/NlpInPracticeCourse/MachineTranslation

-                      v3
+                      v4
 . Denkowski, Michael, and Alon Lavie. "Meteor 1.3: Automatic metric for reliable optimization and evaluation of machine translation systems." Proceedings of the Sixth Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2011.
 == Practical Session ==
+== Practical Session: generování překladového slovníku z paralelních dat ==
+=== Building bilingual dictionary from parallel data ===
+=== Instrukce ===
+* stáhněte si archív se skripty a trénovacími daty
+* rozbalte ho do domovského adresáře, vytvoří se podadresář it161_mt
+{{{tar xzf ia161_mt.tar.gz}}}
+=== Soubory v archívu ===
+||czech.words||100 tisíc vět z české části DGT korpusu||
+||czech.lemmas||100 tisíc vět (lemmat) z české části DGT korpusu||
+||english.words||100 tisic vet z anglickeho DGT korpusu||
+||english.lemmas||100 tisic vet (lemmat) z anglickeho DGT korpusu||
+||eval.py||skript na vyhodnoceni pokryti a presnosti vygenerovaneho slovniku vuci malemu anglicko-ceskemu slovniku||
+||gnudfl.txt||maly anglicko-cesky slovnik, filtrovany na jednoslovne vyrazy a na slova obsazena v trenovacich datech||
+||make_dict.py||skript pro vygenerovani slovniku na zaklade kookurenci a frenvencnich seznamu||
+||Makefile||soubor s pravidly pro sestaveni slovniku na zaklade trenovacich dat||
+||par2items.py||soubor pro vygenerovani paru slov (lemmat) z paralelnich dat||
+=== Popis make ===
+{{{make dict}}}
+* samotny prikaz pouzije 1000 radku trenovacich dat a vygeneruje slovnik na zakladne slovnich tvaru (soubory czech.words a english.words)
+* je mozne zadat alternativni soubory s lemmaty pomoci parametru L1DATA a L2DATA
+* je take mozne zmenit pocet radku, ktere se pouziji pro vygenerovani slovniku
+  {{{make dict [L1DATA=<soubor>] [L2DATA=<soubor>] [LIMIT=<pocet radku>]}}}
+Například: {{{make dict L1DATA=english.lemmas L2DATA=czech.lemmas}}}
+Po každé změně vstupních souborů a parametrů, při změně skriptů, vyčistěte dočasné soubory a starý slovník příkazem
+{{{make clean}}}