Changes between Version 3 and Version 4 of private/AdvancedNlpCourse/MachineTranslation


Ignore:
Timestamp:
Oct 4, 2015, 7:54:59 PM (5 years ago)
Author:
Vít Baisa
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • private/AdvancedNlpCourse/MachineTranslation

    v3 v4  
    1717 1. Denkowski, Michael, and Alon Lavie. "Meteor 1.3: Automatic metric for reliable optimization and evaluation of machine translation systems." Proceedings of the Sixth Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2011.
    1818
    19 == Practical Session ==
     19== Practical Session: generování překladového slovníku z paralelních dat ==
    2020
    21 === Building bilingual dictionary from parallel data ===
     21=== Instrukce ===
     22
     23* stáhněte si archív se skripty a trénovacími daty
     24* rozbalte ho do domovského adresáře, vytvoří se podadresář it161_mt
     25{{{tar xzf ia161_mt.tar.gz}}}
     26
     27=== Soubory v archívu ===
     28
     29||czech.words||100 tisíc vět z české části DGT korpusu||
     30||czech.lemmas||100 tisíc vět (lemmat) z české části DGT korpusu||
     31||english.words||100 tisic vet z anglickeho DGT korpusu||
     32||english.lemmas||100 tisic vet (lemmat) z anglickeho DGT korpusu||
     33||eval.py||skript na vyhodnoceni pokryti a presnosti vygenerovaneho slovniku vuci malemu anglicko-ceskemu slovniku||
     34||gnudfl.txt||maly anglicko-cesky slovnik, filtrovany na jednoslovne vyrazy a na slova obsazena v trenovacich datech||
     35||make_dict.py||skript pro vygenerovani slovniku na zaklade kookurenci a frenvencnich seznamu||
     36||Makefile||soubor s pravidly pro sestaveni slovniku na zaklade trenovacich dat||
     37||par2items.py||soubor pro vygenerovani paru slov (lemmat) z paralelnich dat||
     38
     39=== Popis make ===
     40
     41{{{make dict}}}
     42
     43* samotny prikaz pouzije 1000 radku trenovacich dat a vygeneruje slovnik na zakladne slovnich tvaru (soubory czech.words a english.words)
     44* je mozne zadat alternativni soubory s lemmaty pomoci parametru L1DATA a L2DATA
     45* je take mozne zmenit pocet radku, ktere se pouziji pro vygenerovani slovniku
     46  {{{make dict [L1DATA=<soubor>] [L2DATA=<soubor>] [LIMIT=<pocet radku>]}}}
     47
     48Například: {{{make dict L1DATA=english.lemmas L2DATA=czech.lemmas}}}
     49
     50Po každé změně vstupních souborů a parametrů, při změně skriptů, vyčistěte dočasné soubory a starý slovník příkazem
     51{{{make clean}}}
     52