     1= Popis prevertikálů =
     2Finální textová podoba korpusu je tzv. [wiki:cs/PopisVertikalu vertikální tvar], který obsahuje text rozdělený do pozic (tokenů). Toto rozdělení je závislé na jazyku a musí být optimalizovánu pro použití konkrétních taggerů (které ke každému slovu v textu přidávají další informace jako slovní druh či základní tvar). Proto rozdělení do pozic necháváme na standardních programech, resp. skupinách programů (pipelines). Vstupem těchto programů je prevertikální text.
     4Prevertikální text je běžný textový soubor (plain text) s následujícími vlastnostmi:
     6 * kódování UTF-8
     7 * text každého odstavce je na jednom řádku
     8 * případné strukturní elementy jsou zaznamenány pomocí XML značek (<p>, <head>, <doc>, ...)
     9 * každá XML značka je na samostatném řádku
     10 * metainformace k dokumentům (autor, datum vydání, ...) jsou zaznamenány jako atributy značky <doc> a celá počáteční značka včetně všech atributů je na jednom řádku (není rozdělena na více řádků)
     12=== Příklad prevertikálu ===
     14<doc genre="fiction" title="1984" author="G. Orwell">
     15<chapter no="1.1">
     17It was a bright cold day in April, and the clocks were striking thirteen. Winston Smith, his chin nuzzled into his breast in an effort to escape the vile wind, slipped quickly through the glass doors of Victory Mansions, though not quickly enough to prevent a swirl of gritty dust from entering along with him.
     20The hallway smelt of boiled cabbage and old rag mats. At one end of it a coloured poster, too large for indoor display, had been tacked to the wall. It depicted simply an enormous face, more than a metre wide: the face of a man of about forty-five, with a heavy black moustache and ruggedly handsome features. Winston made for the stairs. It was no use trying the lift. Even at the best of times it was seldom working, and at present the electric current was cut off during daylight hours. It was part of the economy drive in preparation for Hate Week. The flat was seven flights up, and Winston, who was thirty-nine and had a varicose ulcer above his right ankle, went slowly, resting several times on the way. On each landing, opposite the lift-shaft, the poster with the enormous face gazed from the wall. It was one of those pictures which are so contrived that the eyes follow you about when you move. BIG BROTHER IS WATCHING YOU, the caption beneath it ran.
     26=== Převod do vertikálu ===
     27Pro převod z prevertikálu do vertikálu používáme pipelines, např.:
     29 * čeština: `/opt/majka_pipe/`
     30 * angličtina: `/opt/treetagger_pipe/`
     32Aktuální verzi skriptu je možné získat pomocí příkazu `ca_getpipeline JAZYK`.
     34Zpracování je výhodné dělat pomocí `Makefile`, např. použitím násl. pravidla:
     39%.vert: %.prevert
     40     cat $< | $(PIPELINE) >$@
     42Výsledkem je potom např.:
     45<doc genre="fiction" title="1984" author="G. Orwell">
     46<chapter no="1.1">
     49It       PP   it-d
     50was      VBD  be-v
     51a        DT   a-x
     52bright   JJ   bright-j
     53cold     JJ   cold-j
     54day      NN   day-n
     55in       IN   in-i
     56April    NP   April-n
     58,        ,    ,-x
     59and      CC   and-c
     60the      DT   the-x
     61clocks   NNS  clock-n
     62were     VBD  be-v
     63striking JJ   striking-j
     64thirteen CD   thirteen-m
     66.       SENT    .-x