| 1 | = Popis metainformací = #Popis_metainformac.2BAO0- |
| 2 | [[BR]] Korpusová data jsou uložena v textové podobě jako tzv. vertikální texty (zkráceně "vertikály") (*.vert) a metainformace (*.meta). Tento dokument popisuje strukturu těch druhých - metainformací, označovaných zde jako "meta-vertikály". Každý meta-vertikál obsahuje formátované informace vztahující se k příslušnému vertikálu. |
| 3 | |
| 4 | == Struktura meta-vertikálu == #Struktura_meta-vertik.2BAOE-lu |
| 5 | === Obecné informace === #Obecn.2BAOk_informace |
| 6 | Každý meta-vertikál může mít dvě části: |
| 7 | |
| 8 | První, volitelná, se nazývá "sekce common". Je ohraničena párovými značkami <common> a atributy zde uvedené jsou společné pro všechny dokumenty ve vertikálu. Sekce common je nepovinná, a pokud je použita, musí být na začátku souboru. Používá se tehdy, obsahuje-li soubor více dokumentů, které mají některé atributy stejné - například Source, D_Publ. |
| 9 | |
| 10 | * V druhé části jsou uvedeny atributy k jednotlivým dokumentům.[[BR]] Každý dokument začíná atributem "Doc : ", následují další atributy a na konci je vždy jeden prázdný řádek. Většina atributů může mít násobnou hodnotu, každý středník je považován za oddělovač násobných hodnot. |
| 11 | |
| 12 | === Dva příklady meta-vertikálu === #Dva_p.2BAVkA7Q-klady_meta-vertik.2BAOE-lu |
| 13 | Varianta se společnými atributy: |
| 14 | |
| 15 | {{{ |
| 16 | ============ Začátek =================================== |
| 17 | <common> |
| 18 | Source: http://www.trafika.cz/mf/1999/990517/all.html |
| 19 | Medium: net |
| 20 | Lang : cs |
| 21 | D_Publ: 1999-05-17 |
| 22 | M_Auth: html;cstocs 1250 il2;apk_prevod |
| 23 | M_Date: 1999-05-18 |
| 24 | M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta |
| 25 | </common> |
| 26 | |
| 27 | Doc : mf/1999/05/17/1 |
| 28 | Title : Sněmovna zasedala |
| 29 | T_Orig: Titulní strana |
| 30 | T_Main: ALT |
| 31 | T_Sub : ALT |
| 32 | Auth_N: Karol Wolf |
| 33 | |
| 34 | Doc : mf/1999/05/17/121 |
| 35 | Title : Sparta prohrála |
| 36 | T_Orig: Příloha Sport |
| 37 | T_Main: sport |
| 38 | T_Sub : spo |
| 39 | Auth_N: MARTIN HAŠEK |
| 40 | |
| 41 | ============== Na konci je prázdný řádek ============== |
| 42 | }}} |
| 43 | Nebo varianta bez společných atributů: |
| 44 | |
| 45 | {{{ |
| 46 | ============= Začátek =================================== |
| 47 | Doc : mf/1999/05/17/1 |
| 48 | Title : Sněmovna zasedala |
| 49 | Source: http://www.trafika.cz/mf/1999/990517/all.html |
| 50 | Medium: net |
| 51 | Lang : cs |
| 52 | D_Publ: 1999-05-17 |
| 53 | M_Auth: html;cstocs 1250 il2;apk_prevod |
| 54 | M_Date: 1999-05-18 |
| 55 | M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta |
| 56 | T_Orig: Titulní strana |
| 57 | T_Main: ALT |
| 58 | T_Sub : ALT |
| 59 | Auth_N: Karol Wolf |
| 60 | |
| 61 | ============== Na konci je prázdný řádek ============== |
| 62 | }}} |
| 63 | === Gramatika popisující meta-vertikál === #Gramatika_popisuj.2BAO0-c.2BAO0_meta-vertik.2BAOE-l |
| 64 | === Konvence pro gramatiku === #Konvence_pro_gramatiku |
| 65 | {{{ |
| 66 | Neteminály jsou ohraničeny znaky <> např: <DOC> |
| 67 | Terminály jsou ohraničeny znaky "" např: "\n", "" |
| 68 | ? 0 nebo 1 výskyt |
| 69 | + 1 nebo více výskytů |
| 70 | * 0 nebo více výskytů |
| 71 | }}} |
| 72 | === Kód gramatiky === #K.2BAPM-d_gramatiky |
| 73 | {{{ |
| 74 | <META-VERTIKAL> --> <SEKCE COMMON> ? <DOKUMENT> + |
| 75 | |
| 76 | <SEKCE COMMON> --> "<common>" "\n" |
| 77 | <ATRIBUT> + |
| 78 | "<common>" "\n" |
| 79 | "\n" |
| 80 | |
| 81 | <DOKUMENT> --> <ATRIBUT> + |
| 82 | "\n" |
| 83 | |
| 84 | <ATRIBUT> --> <JMENO> ": " <SEZNAM_HODNOT> "\n" |
| 85 | |
| 86 | <SEZNAM_HODNOT> --> <HODNOTA> ( ";" <HODNOTA> ) * |
| 87 | |
| 88 | <JMENO> --> viz Atributy a jejich hodnoty |
| 89 | <HODNOTA> --> viz Atributy a jejich hodnoty |
| 90 | }}} |
| 91 | === Další podmínky === #Dal.2BAWEA7Q_podm.2BAO0-nky |
| 92 | * Každé jméno atributu je doplněno mezerami na 6 znaků (pak následuje ': ') |
| 93 | * První atribut v každém dokumentu je "Doc" |
| 94 | * Atribut "Doc" se neobjevuje v sekci common |
| 95 | * Atributy se nesmí předefinovat, to znamená, že ty, co byly uvedeny buď v sekci common, nebo již dříve v tom samém dokumentu, se nesmí objevit znovu. Výjimkou jsou atributy M_Auth, M_Date a M_Desc, které se mohou předefinovat, navíc se uvádějí vždy spolu ve trojici. |
| 96 | * Následující atributy nepřipouštějí násobné hodnoty:[[BR]] Doc, Size, Date, F_Publ, D_Publ, M_Date |
| 97 | |
| 98 | === Které atributy se mají používat? === #Kter.2BAOk_atributy_se_maj.2BAO0_pou.2BAX4A7Q-vat.3F |
| 99 | * Všechny, které jsou označeny jako povinné (pokud nejsou zjistitelné, použijte jako hodnotu Y - viz níže) [[BR]] Povinné jsou: Doc, Title, Source, T_Main, T_Sub, D_Publ, Auth_N, Lang. |
| 100 | |
| 101 | * Všechny, které je možné ze zdroje zjistit (i když jsou nepovinné) |
| 102 | |
| 103 | == Atributy a jejich hodnoty == #Atributy_a_jejich_hodnoty |
| 104 | === Seznam atributů === #Seznam_atribut.2BAW8- |
| 105 | {{{ |
| 106 | Doc, |
| 107 | Title, |
| 108 | Avail, |
| 109 | Source, |
| 110 | T_Orig, T_Main, T_Sub, |
| 111 | Form, |
| 112 | Medium, |
| 113 | Auth_N, Auth_S, |
| 114 | Tran_N, Tran_S, |
| 115 | Lang, S_Lang, |
| 116 | Date, |
| 117 | F_Publ, D_Publ, |
| 118 | M_Auth, |
| 119 | M_Date, |
| 120 | M_Desc, |
| 121 | Signat, |
| 122 | Size, |
| 123 | Lemmat, |
| 124 | Offset |
| 125 | |
| 126 | }}} |
| 127 | === Univerzální hodnoty === #Univerz.2BAOE-ln.2BAO0_hodnoty |
| 128 | Tyto hodnoty mají speciální význam, lze je použít všude kromě atributu Doc a Size |
| 129 | |
| 130 | * X hodnota nezjištěna |
| 131 | * Y hodnota nezjistitelná |
| 132 | * NA neaplikovatelný |
| 133 | * MIX směs ze specifikovaných atributů |
| 134 | * ALT jiný než specifikovaný atribut |
| 135 | |
| 136 | === Popis atributů === #Popis_atribut.2BAW8- |
| 137 | 1. Doc |
| 138 | * identifikátor |
| 139 | * povinný |
| 140 | * první atribut |
| 141 | * musí být jedinečný v rámci všech dokumentů |
| 142 | * skládá se ze složek oddělených ‘/', u novin : kód/rok/měsíc/den/pořadové_číslo |
| 143 | * např. "Doc : mf/1998/11/16/121" |
| 144 | * hodnota má být stručná a výstižná |
| 145 | 1. Title |
| 146 | * název dokumentu |
| 147 | * povinný |
| 148 | * např. "Title : Volič chce senátora hájícího silný stát" |
| 149 | 1. Avail |
| 150 | * šiřitelnost |
| 151 | * nepovinný |
| 152 | * možné hodnoty : free, restrict={zde bude text omezení} |
| 153 | * např. "Avail : restrict={uvést vždy autora}" |
| 154 | 1. Source |
| 155 | * popis zdroje |
| 156 | * povinný |
| 157 | * např. "Source: http://www.trafika.cz/mf/1998/980608/all.html" |
| 158 | 1. T_Orig |
| 159 | * typ dokumentu, jak byl uveden ve zdroji |
| 160 | * nepovinný |
| 161 | * např. "T_Orig: Burzovní zprávy" |
| 162 | 1. T_Main |
| 163 | * typ dle obsahu dokumentu |
| 164 | * povinný |
| 165 | * hodnoty sci1, sci2, sport, sct, lit, eco |
| 166 | * sci1 - přírodní vědy (inf, phy, geo, ggr, mat, che, bio, med, agr) |
| 167 | * sci2 - humanitní vědy (eth, lin, lit, pol, art, soc, psy, edu, phi, mil, jur, his, rel) |
| 168 | * sport - sport (spo) |
| 169 | * sct - dění ve společnosti (sct, amu, hou, tvf, the, mus, dra) |
| 170 | * lit - literární díla (son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum, jun, ess, chr, exc) |
| 171 | * eco - ekonomie, státní správa (eco, ind, adm) |
| 172 | 1. T_Sub |
| 173 | * subtyp dle obsahu dokumentu |
| 174 | * povinný |
| 175 | * hodnoty: inf, phy, geo, ggr, mat, che, bio, med, agr, eth, lin, lit, pol, art, soc, psy, edu, phi, mil, jur, his, rel, spo, sct, amu, hou, tvf, the, mus, dra, son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum, jun, ess, chr, exc, eco, ind, adm |
| 176 | * son - písňové texty |
| 177 | * ver - poezie |
| 178 | * nov - romány a povídky |
| 179 | * crm - detektivní příběhy |
| 180 | * sci - vědecko-fantastická literatura |
| 181 | * adv - dobrodružná literatura |
| 182 | * ero - erotická a pornografická literatura |
| 183 | * bio - (auto)biografie, vzpomínky, dopisy, deníky |
| 184 | * tra - cestopisy (od neodborníků) |
| 185 | * tab - bulvární, pokleslá literatura |
| 186 | * fab - báje, pověsti, legendy, pohádky, bajky |
| 187 | * hum - humor, satira, parodie, anekdoty |
| 188 | * jun - literatura pro děti a mládež |
| 189 | * ess - eseje, fejetony, sloupky |
| 190 | * chr - kroniky, letopisy, ročenky |
| 191 | * exc - excentrická literatura |
| 192 | * dra - dramata, inscenace, televizní seriály, rozhlasové pořady |
| 193 | * mus - hudba |
| 194 | * tvf - televize a film |
| 195 | * jur - právo, kriminalistika |
| 196 | * his - dějiny, odborné biografie |
| 197 | * psy - psychologie |
| 198 | * edu - výchova, vzdělání, vyučování, osvěta |
| 199 | * soc - sociologie |
| 200 | * mil - vojenství |
| 201 | * phi - filozofie |
| 202 | * art - výtvarné umění, architektura, užité umění |
| 203 | * the - divadlo, balet |
| 204 | * pol - politologie |
| 205 | * lit - literatura, literární věda |
| 206 | * lin - lingvistika |
| 207 | * eth - etnografie, antropologie |
| 208 | * agr - zemědělství, lesnictví, chov, pěstování |
| 209 | * med - medicína |
| 210 | * bio - biologie, botanika, zoologie |
| 211 | * che - chemie |
| 212 | * mat - matematika, logika |
| 213 | * ggr - geografie, cestopisy (od odborníků) |
| 214 | * phy - fyzika, astronomie |
| 215 | * geo - geologie, meteorologie, hydrologie |
| 216 | * ind - průmysl, technika, stavebnictví, energetika, doprava, řemesla |
| 217 | * inf - informace, informatika, počítače |
| 218 | * eco - ekonomie, obchod, bankovnictví |
| 219 | * adm - administrativa, veřejná správa, řízení, parlament |
| 220 | * rel - náboženství, teologie |
| 221 | * hou - domácí hospodářství (stravování, byt, odívání) |
| 222 | * spo - sport |
| 223 | * sct - společenský život (společenské chování, drby) |
| 224 | * amu - zábava, hry |
| 225 | 1. Form |
| 226 | * stylistická forma |
| 227 | * nepovinný |
| 228 | * hodnoty: |
| 229 | * txb - textbook |
| 230 | * enc - dictionary, encyclopedia |
| 231 | * pop - popular style |
| 232 | * cri - critique |
| 233 | * adv - advertisment |
| 234 | * sho - short texts (krátké zprávy navzájem oddělené <p>) |
| 235 | 1. Medium |
| 236 | * médium zdroje |
| 237 | * nepovinný |
| 238 | * hodnoty: |
| 239 | * b - book |
| 240 | * nws - newspaper |
| 241 | * j - journal (periodic) |
| 242 | * scr - screenplay |
| 243 | * net - Internet |
| 244 | * oc - occassional |
| 245 | * cdrom - eletronic medium |
| 246 | 1. Auth_N |
| 247 | * Author name |
| 248 | * povinný |
| 249 | 1. Auth_S |
| 250 | * Author sex |
| 251 | * nepovinný |
| 252 | * hodnoty: |
| 253 | * m - muž |
| 254 | * f - žena |
| 255 | 1. Tran_N |
| 256 | * Translator name |
| 257 | * nepovinný |
| 258 | 1. Tran_S |
| 259 | * Translator sex |
| 260 | * nepovinný |
| 261 | * hodnoty: |
| 262 | * m - muž |
| 263 | * f - žena |
| 264 | 1. Lang |
| 265 | * jazyk |
| 266 | * povinný |
| 267 | * hodnoty: jazyky se kódují dle normy ISO 639:1988 |
| 268 | * několik běžných hodnot: |
| 269 | * cs - Czech |
| 270 | * de - German |
| 271 | * en - English |
| 272 | * sk - Slovak |
| 273 | * ru - Russian |
| 274 | 1. S_Lang |
| 275 | * jazyk, z kterého bylo překládáno |
| 276 | * nepovinný |
| 277 | * hodnoty: jazyky se kódují dle normy ISO 639:1988 |
| 278 | 1. Date |
| 279 | * datum zařazení do korpusu |
| 280 | * nepovinný |
| 281 | * hodnoty jsou podmnožinou normy ISO 8601, jsou tři možnosti: |
| 282 | * yyyy-mm-dd např. 1998-07-14 |
| 283 | * yyyy-mm např. 1998-07 |
| 284 | * yyyy např. 1998 |
| 285 | 1. F_Publ |
| 286 | * datum 1. publikování dokumentu |
| 287 | * nepovinný |
| 288 | * hodnoty: viz "Date" |
| 289 | 1. D_Publ |
| 290 | * datum publikování zdrojového dokumentu |
| 291 | * povinný |
| 292 | * hodnoty: viz Date |
| 293 | 1. M_Auth |
| 294 | * jméno autora nebo programu, který provedl nějaké transformace, které se podílely na výsledném tvaru odpovídajícího vertikálu |
| 295 | * povinný, pokud byla provedena nějaká transformace |
| 296 | 1. M_Date |
| 297 | * datum transformace |
| 298 | * uvést za každým M_Auth |
| 299 | 1. M_Desc |
| 300 | * popis transformace |
| 301 | * uvést za každým M_Date |
| 302 | 1. Signat |
| 303 | * signatura dokumentu - 8 znaků |
| 304 | * nepoužívat - přidá samostatný program! |
| 305 | * slouží ke kontrole duplicit |
| 306 | * např. "Signat: [http://nlp.fi.muni.cz/cs/A1B72E55 A1B72E55]" |
| 307 | 1. Size |
| 308 | * rozsah dokumentu |
| 309 | * nepoužívat - přidá samostatný program! |
| 310 | * udává počet pozic |
| 311 | * např. "Size : 172" |
| 312 | 1. Lemmat |
| 313 | * kvalita dokumentu |
| 314 | * nepoužívat - přidá samostatný program! |
| 315 | * udává poměr korektních českých pozic k pozicím, která jsou slovy, a k celkovému počtu pozic, s využitím morfologického analyzátoru |
| 316 | * např. "Lemmat : 88%;78%" |
| 317 | 1. Offset |
| 318 | * umístění dokumentu - vertikálu v souboru *.vert |
| 319 | * nepoužívat - přidá samostatný program! |
| 320 | * udává začátek dokumentu a jeho délku |
| 321 | * slouží jako parametry pro seek() a read() |
| 322 | * např. "Offset: 0,12345" |