Opened 7 years ago

Closed 7 years ago

#34 closed defect (done)

Zarovnání dokumentu a referenčního překladu

Reported by: xbusta1 Owned by: xmedved1
Priority: major Milestone:
Component: NLPlab Keywords: tm
Cc: Vít Baisa, pary, Ales Horak, Miloš Jakubíček Due Date:

Description

Zarovnání segmentů z referenčního dokumentu:
"/nlp/projekty/skrivanek_nda/Prekladova\ pamet\ a\ Testovaci\ soubory/CS-EN/Soubory_CS-EN/02_vyhotoveni/1301-02414_ori_03492_DH_LokalizaceReporty_UzivDOC2.docx"

k segmentům z následujícího dokumentu (segmenty jsou v druhém sloupci):
"/nlp/projekty/skrivanek_nda/Prekladova\ pamet\ a\ Testovaci\ soubory/CS-EN/Fragmenty_MemoQ/Porovnani_prekladu_pro_ucely_MT_vyzkumu.xlsx"

Change History (1)

comment:1 Changed 7 years ago by xmedved1

Resolution: done
Status: newclosed

Vytvorený script v zložke: /nlp/projekty/skrivanek_nda/git/tools/segment_docx/xml2txt.py
Script berie na vstup súbor docx a z jeho xml súboru extrahuje plain text. Na výstup sa potom aplikuje segmenter.py (vytvorený Vojtěchom Kovářom), ktorý rozdelí text na segmety podobne ako memoQ.

Vytvorím ešte parameter, ktorý bude na zadaný riadok dopĺňať prázdny riadok aby sa zarovnal text s memoQ (problém s niektorými časťami, ktoré generuje memoQ -> maximálne pár riadkov).

Note: See TracTickets for help on using tickets.