Changes between Version 3 and Version 4 of private/AdvancedNlpCourse/MachineTranslation


Ignore:
Timestamp:
Oct 4, 2015, 7:54:59 PM (5 years ago)
Author:
Vít Baisa
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
 • private/AdvancedNlpCourse/MachineTranslation

  v3 v4  
  1717 1. Denkowski, Michael, and Alon Lavie. "Meteor 1.3: Automatic metric for reliable optimization and evaluation of machine translation systems." Proceedings of the Sixth Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2011.
  1818
  19 == Practical Session ==
   19== Practical Session: generování překladového slovníku z paralelních dat ==
  2020
  21 === Building bilingual dictionary from parallel data ===
   21=== Instrukce ===
   22
   23* stáhněte si archív se skripty a trénovacími daty
   24* rozbalte ho do domovského adresáře, vytvoří se podadresář it161_mt
   25{{{tar xzf ia161_mt.tar.gz}}}
   26
   27=== Soubory v archívu ===
   28
   29||czech.words||100 tisíc vět z české části DGT korpusu||
   30||czech.lemmas||100 tisíc vět (lemmat) z české části DGT korpusu||
   31||english.words||100 tisic vet z anglickeho DGT korpusu||
   32||english.lemmas||100 tisic vet (lemmat) z anglickeho DGT korpusu||
   33||eval.py||skript na vyhodnoceni pokryti a presnosti vygenerovaneho slovniku vuci malemu anglicko-ceskemu slovniku||
   34||gnudfl.txt||maly anglicko-cesky slovnik, filtrovany na jednoslovne vyrazy a na slova obsazena v trenovacich datech||
   35||make_dict.py||skript pro vygenerovani slovniku na zaklade kookurenci a frenvencnich seznamu||
   36||Makefile||soubor s pravidly pro sestaveni slovniku na zaklade trenovacich dat||
   37||par2items.py||soubor pro vygenerovani paru slov (lemmat) z paralelnich dat||
   38
   39=== Popis make ===
   40
   41{{{make dict}}}
   42
   43* samotny prikaz pouzije 1000 radku trenovacich dat a vygeneruje slovnik na zakladne slovnich tvaru (soubory czech.words a english.words)
   44* je mozne zadat alternativni soubory s lemmaty pomoci parametru L1DATA a L2DATA
   45* je take mozne zmenit pocet radku, ktere se pouziji pro vygenerovani slovniku
   46  {{{make dict [L1DATA=<soubor>] [L2DATA=<soubor>] [LIMIT=<pocet radku>]}}}
   47
   48Například: {{{make dict L1DATA=english.lemmas L2DATA=czech.lemmas}}}
   49
   50Po každé změně vstupních souborů a parametrů, při změně skriptů, vyčistěte dočasné soubory a starý slovník příkazem
   51{{{make clean}}}
   52