Opened 8 years ago

Last modified 8 years ago

#43 new project

Dělení titulků

Reported by: xkovar3 Owned by: xkovar3
Priority: minor Milestone:
Component: SET Keywords:
Cc: Due Date:

Description

vyzkoušet na datech z Liberce

===

tak jsem se konečně dokopal k těm titulkům... dost oprav spočívalo ve změně textu, překlepů, nebo změně délky titulků (dělených v čárkách), což nás nezajímá. To co zbylo je v příloze...

V podstatě zbyly jen větné útvary, které se automat dělil nevhodně a člověk to pak napravoval... což nás právě zajímá.

K datům... je to utf-8, co oprava to řádek. Struktura je BEG * aaa ===>>> bbb * END

BEG je společný začátek té věty , aaa je automatem rozdělený titulek, bbb je člověkem opravená verze, END je společný konec.

Svislítka značí, kde byl ten titulek rozdělen pro zobrazení... čili v aaa je to "špatný dělicí bod", v bbb "dobrý"...

Pokud bys dokázal SETem označit dobré/špatné body bylo by to zajímavé...

Na úvod jsem přemýšlel, jestli by nepomohly vazby typu přídavné jméno - podstatné jméno atd.

Attachments (1)

SubTitleBreaks.txt (281.5 KB) - added by xkovar3 8 years ago.

Download all attachments as: .zip

Change History (2)

Changed 8 years ago by xkovar3

Attachment: SubTitleBreaks.txt added

comment:1 Changed 8 years ago by xkovar3

Priority: criticalminor

no response on this from Liberec

Note: See TracTickets for help on using tickets.