Context Navigation

MachineTranslation

Timestamp:: Oct 14, 2015, 12:56:39 PM (10 years ago)
Author:: Vít Baisa
Comment:: překlad do angličtiny

Legend:

: Unmodified
: Added
: Removed
: Modified

private/NlpInPracticeCourse/MachineTranslation

-                      v11
+                      v12
 . Denkowski, Michael, and Alon Lavie. "Meteor 1.3: Automatic metric for reliable optimization and evaluation of machine translation systems." Proceedings of the Sixth Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2011.
 == Praktická část: generování překladového slovníku z paralelních dat ==
+== Workshop: generating translation dictionary from parallel data ==
 === Základní instrukce ===
+=== Basic instructions ===
 * stáhněte si [raw-attachment:ia161_mt.tar.gz:wiki:en/AdvancedNlpCourse ia161_mt.tar.gz] se skripty a trénovacími daty
 * rozbalte ho do domovského adresáře příkazem {{{tar xzf ia161_mt.tar.gz}}}
 * vytvoří se podadresář it161_mt
+* download [raw-attachment:ia161_mt.tar.gz:wiki:en/AdvancedNlpCourse ia161_mt.tar.gz] with scripts and train data
+* unzip into home directory with {{{tar xzf ia161_mt.tar.gz}}}
+* a new subdir will be created: {{{it161_mt}}}
 === Soubory v archívu ===
+=== Files in the archive ===
 ||czech.words||100 tisíc vět z české části DGT korpusu||
 ||czech.lemmas||100 tisíc vět (lemmat) z české části DGT korpusu||
 ||english.words||100 tisic vet z anglickeho DGT korpusu||
 ||english.lemmas||100 tisic vet (lemmat) z anglickeho DGT korpusu||
 ||eval.py||skript na vyhodnoceni pokryti a presnosti vygenerovaneho slovniku vuci malemu anglicko-ceskemu slovniku||
 ||gnudfl.txt||maly anglicko-cesky slovnik, filtrovany na jednoslovne vyrazy a na slova obsazena v trenovacich datech||
 ||make_dict.py||skript pro vygenerovani slovniku na zaklade kookurenci a frenvencnich seznamu||
 ||Makefile||soubor s pravidly pro sestaveni slovniku na zaklade trenovacich dat||
 ||par2items.py||soubor pro vygenerovani paru slov (lemmat) z paralelnich dat||
+||czech.words||100,000 sentences from Czech part of DGT-TM||
+||czech.lemmas||100,000 sentences (lemmas) from Czech part of DGT||
+||english.words||100,000 sentences from English DGT||
+||english.lemmas||100,000 sentences (lemmas) from EN DGT||
+||eval.py||a script for evaluation of coverage and precision of a generated dictionary in comparison with a small English-Czech dictionary||
+||gnudfl.txt||a small English-Czech dictionary containing only one-word items and words from the train data||
+||make_dict.py||a script for generating dictionary based on co-occurrences and frequency lists||
+||Makefile||a file with rules for building the dictionary based on the train data||
+||par2items.py||a file for generating pairs of words (lemmas) from the parallel data||
 === Popis make ===
+=== Description of make ===
 {{{make dict}}}
 * samotný příkaz použije 1000 řádků trénovacích dat a vygeneruje slovnik na zakladne slovnich tvaru (soubory czech.words a english.words)
 * je možné zadat alternativní soubory s lemmaty pomocí parametru L1DATA a L2DATA
 * je také možné změnit počet řádků, které se použijí pro vygenerovaní slovníku
 * obecně: {{{make dict [L1DATA=<soubor>] [L2DATA=<soubor>] [LIMIT=<pocet radku>]}}}
 * konkrétně: {{{make dict L1DATA=english.lemmas L2DATA=czech.lemmas LIMIT=10000}}}
+* the command uses 1,000 lines from train data and generates a dictionary based on wordforms (files czech.words and english.words)
+* it is possible to use alternative files with lemmas using parameter L1DATA and L2DATA
+* it is also possible to change the number of lines used for the computation (parameter LIMIT)
+* in general: {{{make dict [L1DATA=<file>] [L2DATA=<file>] [LIMIT=<number of lines>]}}}
+* e.g.: {{{make dict L1DATA=english.lemmas L2DATA=czech.lemmas LIMIT=10000}}}
 {{{make eval}}}
+Po vygenerování slovníku můžete změřit jeho přesnost a pokrytí pomocí skriptu eval.py. Stačí zavolat {{{make eval}}}. Pokud jste pro vytvoření slovníku používali parametry {{{L1DATA}}} a {{{L2DATA}}}, musíte je pro správné vyhodnocení zadat i při příkazu {{{make eval}}}
 Například: {{{make dict L1DATA=english.lemmas L2DATA=czech.lemmas}}}
+* when a dictionary is generated, you can measure its precision and coverage using script eval.py: {{{make eval}}}.
+* if you use parameters {{{L1DATA}}} and {{{L2DATA}}}, you must repeat them {{{make eval}}}
+* e.g.: {{{make dict L1DATA=english.lemmas L2DATA=czech.lemmas}}}
 {{{make clean}}}
+Po každé změně vstupních souborů a parametrů, při změně skriptů, vyčistěte dočasné soubory a starý slovník příkazem {{{make clean}}}.
+* after each change to the input files or the scripts or parameters, clean temporary files: {{{make clean}}}
 == Detailní pohled na skripty a generovaná data ==
+== Detailed description of the scripts and generated data ==
 * Cvičně si spusťte implicitní {{{make dict}}} a podívejte se na vytvořené soubory:
+* Try to run default {{{make dict}}} and look at the results:
   * czech.words.freq
   * english.words.freq
   * english.words-czech.words.cofreq
+  * english.words-czech.words.dict (výsledný slovník)
+* Podívejte se, jak jsou výsledné soubory veliké (kolik obsahují řádků) a jaké data obsahují.
+* Podívejte se na skript make_dict.py, který generuje slovník, na klíčových místech obsahuje řetězec TODO, v těchto místech můžete skript upravovat a měnit podmínky tak, aby se výsledné f-score vygenerovaného slovníku co nejíce zvýšilo.
+  * english.words-czech.words.dict (the resulting dictionary)
+* Look at sizes of the output files (how many lines they contain) and its contents.
+* Look at the script {{{make_dict.py}}}, which generates the dictionary: at key places it contains {{{TODO}}}
+* there you can change the script, add heuristics, change conditions etc. so the final f-score is the highest possible
 == Zadání ==
+== Assignment ==
+Změňte klíčová místa ve skriptech par2items.py, make_dict.py tak, abyste dosáhli co nejvyššího f-score (viz {{{make eval}}}). Do odevzdávárny nahrajte všechny skripty, které změníte (Makefile, *.py) v jednom archívu. Ten vytvoříte příkazem
+{{{tar czf ia161_mt_<uco_nebo_login>.tar.gz Makefile *.py}}}
+. Change the key places of scripts {{{par2items.py}}}, {{{make_dict.py}}} so to achieve the highest possible f-score (see {{{make eval}}}).
+. Upload all the scripts into the vault in one archive file.
+. You can create it like this: {{{tar czf ia161_mt_<uco_or_login>.tar.gz Makefile *.py}}}