21 | | === Building bilingual dictionary from parallel data === |
| 21 | === Instrukce === |
| 22 | |
| 23 | * stáhněte si archív se skripty a trénovacími daty |
| 24 | * rozbalte ho do domovského adresáře, vytvoří se podadresář it161_mt |
| 25 | {{{tar xzf ia161_mt.tar.gz}}} |
| 26 | |
| 27 | === Soubory v archívu === |
| 28 | |
| 29 | ||czech.words||100 tisíc vět z české části DGT korpusu|| |
| 30 | ||czech.lemmas||100 tisíc vět (lemmat) z české části DGT korpusu|| |
| 31 | ||english.words||100 tisic vet z anglickeho DGT korpusu|| |
| 32 | ||english.lemmas||100 tisic vet (lemmat) z anglickeho DGT korpusu|| |
| 33 | ||eval.py||skript na vyhodnoceni pokryti a presnosti vygenerovaneho slovniku vuci malemu anglicko-ceskemu slovniku|| |
| 34 | ||gnudfl.txt||maly anglicko-cesky slovnik, filtrovany na jednoslovne vyrazy a na slova obsazena v trenovacich datech|| |
| 35 | ||make_dict.py||skript pro vygenerovani slovniku na zaklade kookurenci a frenvencnich seznamu|| |
| 36 | ||Makefile||soubor s pravidly pro sestaveni slovniku na zaklade trenovacich dat|| |
| 37 | ||par2items.py||soubor pro vygenerovani paru slov (lemmat) z paralelnich dat|| |
| 38 | |
| 39 | === Popis make === |
| 40 | |
| 41 | {{{make dict}}} |
| 42 | |
| 43 | * samotny prikaz pouzije 1000 radku trenovacich dat a vygeneruje slovnik na zakladne slovnich tvaru (soubory czech.words a english.words) |
| 44 | * je mozne zadat alternativni soubory s lemmaty pomoci parametru L1DATA a L2DATA |
| 45 | * je take mozne zmenit pocet radku, ktere se pouziji pro vygenerovani slovniku |
| 46 | {{{make dict [L1DATA=<soubor>] [L2DATA=<soubor>] [LIMIT=<pocet radku>]}}} |
| 47 | |
| 48 | Například: {{{make dict L1DATA=english.lemmas L2DATA=czech.lemmas}}} |
| 49 | |
| 50 | Po každé změně vstupních souborů a parametrů, při změně skriptů, vyčistěte dočasné soubory a starý slovník příkazem |
| 51 | {{{make clean}}} |
| 52 | |