Context Navigation

← Previous Ticket
Next Ticket →

#34 closed defect (done)

Zarovnání dokumentu a referenčního překladu

Reported by:	xbusta1	Owned by:	xmedved1
Priority:	major	Milestone:
Component:	NLPlab	Keywords:	tm
Cc:	Vít Baisa, pary, Ales Horak, Miloš Jakubíček	Due Date:

Description

Zarovnání segmentů z referenčního dokumentu:
"/nlp/projekty/skrivanek_nda/Prekladova\ pamet\ a\ Testovaci\ soubory/CS-EN/Soubory_CS-EN/02_vyhotoveni/1301-02414_ori_03492_DH_LokalizaceReporty_UzivDOC2.docx"

k segmentům z následujícího dokumentu (segmenty jsou v druhém sloupci):
"/nlp/projekty/skrivanek_nda/Prekladova\ pamet\ a\ Testovaci\ soubory/CS-EN/Fragmenty_MemoQ/Porovnani_prekladu_pro_ucely_MT_vyzkumu.xlsx"

Change History (1)

comment:1 Changed 10 years ago by xmedved1

Resolution:	→ done
Status:	new → closed

Vytvorený script v zložke: /nlp/projekty/skrivanek_nda/git/tools/segment_docx/xml2txt.py
Script berie na vstup súbor docx a z jeho xml súboru extrahuje plain text. Na výstup sa potom aplikuje segmenter.py (vytvorený Vojtěchom Kovářom), ktorý rozdelí text na segmety podobne ako memoQ.

Vytvorím ešte parameter, ktorý bude na zadaný riadok dopĺňať prázdny riadok aby sa zarovnal text s memoQ (problém s niektorými časťami, ktoré generuje memoQ -> maximálne pár riadkov).

Note: See TracTickets for help on using tickets.

Download in other formats: