Opened 10 years ago
Closed 10 years ago
#34 closed defect (done)
Zarovnání dokumentu a referenčního překladu
Reported by: | xbusta1 | Owned by: | xmedved1 |
---|---|---|---|
Priority: | major | Milestone: | |
Component: | NLPlab | Keywords: | tm |
Cc: | Vít Baisa, pary, Ales Horak, Miloš Jakubíček | Due Date: |
Description
Zarovnání segmentů z referenčního dokumentu:
"/nlp/projekty/skrivanek_nda/Prekladova\ pamet\ a\ Testovaci\ soubory/CS-EN/Soubory_CS-EN/02_vyhotoveni/1301-02414_ori_03492_DH_LokalizaceReporty_UzivDOC2.docx"
k segmentům z následujícího dokumentu (segmenty jsou v druhém sloupci):
"/nlp/projekty/skrivanek_nda/Prekladova\ pamet\ a\ Testovaci\ soubory/CS-EN/Fragmenty_MemoQ/Porovnani_prekladu_pro_ucely_MT_vyzkumu.xlsx"
Note: See
TracTickets for help on using
tickets.
Vytvorený script v zložke: /nlp/projekty/skrivanek_nda/git/tools/segment_docx/xml2txt.py
Script berie na vstup súbor docx a z jeho xml súboru extrahuje plain text. Na výstup sa potom aplikuje segmenter.py (vytvorený Vojtěchom Kovářom), ktorý rozdelí text na segmety podobne ako memoQ.
Vytvorím ešte parameter, ktorý bude na zadaný riadok dopĺňať prázdny riadok aby sa zarovnal text s memoQ (problém s niektorými časťami, ktoré generuje memoQ -> maximálne pár riadkov).