= Popis metainformací = #Popis_metainformac.2BAO0- [[BR]] Korpusová data jsou uložena v textové podobě jako tzv. vertikální texty (zkráceně "vertikály") (*.vert) a metainformace (*.meta). Tento dokument popisuje strukturu těch druhých - metainformací, označovaných zde jako "meta-vertikály". Každý meta-vertikál obsahuje formátované informace vztahující se k příslušnému vertikálu. == Struktura meta-vertikálu == #Struktura_meta-vertik.2BAOE-lu === Obecné informace === #Obecn.2BAOk_informace Každý meta-vertikál může mít dvě části: První, volitelná, se nazývá "sekce common". Je ohraničena párovými značkami a atributy zde uvedené jsou společné pro všechny dokumenty ve vertikálu. Sekce common je nepovinná, a pokud je použita, musí být na začátku souboru. Používá se tehdy, obsahuje-li soubor více dokumentů, které mají některé atributy stejné - například Source, D_Publ. * V druhé části jsou uvedeny atributy k jednotlivým dokumentům.[[BR]] Každý dokument začíná atributem "Doc : ", následují další atributy a na konci je vždy jeden prázdný řádek. Většina atributů může mít násobnou hodnotu, každý středník je považován za oddělovač násobných hodnot. === Dva příklady meta-vertikálu === #Dva_p.2BAVkA7Q-klady_meta-vertik.2BAOE-lu Varianta se společnými atributy: {{{ ============ Začátek =================================== Source: http://www.trafika.cz/mf/1999/990517/all.html Medium: net Lang : cs D_Publ: 1999-05-17 M_Auth: html;cstocs 1250 il2;apk_prevod M_Date: 1999-05-18 M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta Doc : mf/1999/05/17/1 Title : Sněmovna zasedala T_Orig: Titulní strana T_Main: ALT T_Sub : ALT Auth_N: Karol Wolf Doc : mf/1999/05/17/121 Title : Sparta prohrála T_Orig: Příloha Sport T_Main: sport T_Sub : spo Auth_N: MARTIN HAŠEK ============== Na konci je prázdný řádek ============== }}} Nebo varianta bez společných atributů: {{{ ============= Začátek =================================== Doc : mf/1999/05/17/1 Title : Sněmovna zasedala Source: http://www.trafika.cz/mf/1999/990517/all.html Medium: net Lang : cs D_Publ: 1999-05-17 M_Auth: html;cstocs 1250 il2;apk_prevod M_Date: 1999-05-18 M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta T_Orig: Titulní strana T_Main: ALT T_Sub : ALT Auth_N: Karol Wolf ============== Na konci je prázdný řádek ============== }}} === Gramatika popisující meta-vertikál === #Gramatika_popisuj.2BAO0-c.2BAO0_meta-vertik.2BAOE-l === Konvence pro gramatiku === #Konvence_pro_gramatiku {{{ Neteminály jsou ohraničeny znaky <> např: Terminály jsou ohraničeny znaky "" např: "\n", "" ? 0 nebo 1 výskyt + 1 nebo více výskytů * 0 nebo více výskytů }}} === Kód gramatiky === #K.2BAPM-d_gramatiky {{{ --> ? + --> "" "\n" + "" "\n" "\n" --> + "\n" --> ": " "\n" --> ( ";" ) * --> viz Atributy a jejich hodnoty --> viz Atributy a jejich hodnoty }}} === Další podmínky === #Dal.2BAWEA7Q_podm.2BAO0-nky * Každé jméno atributu je doplněno mezerami na 6 znaků (pak následuje ': ') * První atribut v každém dokumentu je "Doc" * Atribut "Doc" se neobjevuje v sekci common * Atributy se nesmí předefinovat, to znamená, že ty, co byly uvedeny buď v sekci common, nebo již dříve v tom samém dokumentu, se nesmí objevit znovu. Výjimkou jsou atributy M_Auth, M_Date a M_Desc, které se mohou předefinovat, navíc se uvádějí vždy spolu ve trojici. * Následující atributy nepřipouštějí násobné hodnoty:[[BR]] Doc, Size, Date, F_Publ, D_Publ, M_Date === Které atributy se mají používat? === #Kter.2BAOk_atributy_se_maj.2BAO0_pou.2BAX4A7Q-vat.3F * Všechny, které jsou označeny jako povinné (pokud nejsou zjistitelné, použijte jako hodnotu Y - viz níže) [[BR]] Povinné jsou: Doc, Title, Source, T_Main, T_Sub, D_Publ, Auth_N, Lang. * Všechny, které je možné ze zdroje zjistit (i když jsou nepovinné) == Atributy a jejich hodnoty == #Atributy_a_jejich_hodnoty === Seznam atributů === #Seznam_atribut.2BAW8- {{{ Doc, Title, Avail, Source, T_Orig, T_Main, T_Sub, Form, Medium, Auth_N, Auth_S, Tran_N, Tran_S, Lang, S_Lang, Date, F_Publ, D_Publ, M_Auth, M_Date, M_Desc, Signat, Size, Lemmat, Offset }}} === Univerzální hodnoty === #Univerz.2BAOE-ln.2BAO0_hodnoty Tyto hodnoty mají speciální význam, lze je použít všude kromě atributu Doc a Size * X hodnota nezjištěna * Y hodnota nezjistitelná * NA neaplikovatelný * MIX směs ze specifikovaných atributů * ALT jiný než specifikovaný atribut === Popis atributů === #Popis_atribut.2BAW8- 1. Doc * identifikátor * povinný * první atribut * musí být jedinečný v rámci všech dokumentů * skládá se ze složek oddělených ‘/', u novin : kód/rok/měsíc/den/pořadové_číslo * např. "Doc : mf/1998/11/16/121" * hodnota má být stručná a výstižná 1. Title * název dokumentu * povinný * např. "Title : Volič chce senátora hájícího silný stát" 1. Avail * šiřitelnost * nepovinný * možné hodnoty : free, restrict={zde bude text omezení} * např. "Avail : restrict={uvést vždy autora}" 1. Source * popis zdroje * povinný * např. "Source: http://www.trafika.cz/mf/1998/980608/all.html" 1. T_Orig * typ dokumentu, jak byl uveden ve zdroji * nepovinný * např. "T_Orig: Burzovní zprávy" 1. T_Main * typ dle obsahu dokumentu * povinný * hodnoty sci1, sci2, sport, sct, lit, eco * sci1 - přírodní vědy (inf, phy, geo, ggr, mat, che, bio, med, agr) * sci2 - humanitní vědy (eth, lin, lit, pol, art, soc, psy, edu, phi, mil, jur, his, rel) * sport - sport (spo) * sct - dění ve společnosti (sct, amu, hou, tvf, the, mus, dra) * lit - literární díla (son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum, jun, ess, chr, exc) * eco - ekonomie, státní správa (eco, ind, adm) 1. T_Sub * subtyp dle obsahu dokumentu * povinný * hodnoty: inf, phy, geo, ggr, mat, che, bio, med, agr, eth, lin, lit, pol, art, soc, psy, edu, phi, mil, jur, his, rel, spo, sct, amu, hou, tvf, the, mus, dra, son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum, jun, ess, chr, exc, eco, ind, adm * son - písňové texty * ver - poezie * nov - romány a povídky * crm - detektivní příběhy * sci - vědecko-fantastická literatura * adv - dobrodružná literatura * ero - erotická a pornografická literatura * bio - (auto)biografie, vzpomínky, dopisy, deníky * tra - cestopisy (od neodborníků) * tab - bulvární, pokleslá literatura * fab - báje, pověsti, legendy, pohádky, bajky * hum - humor, satira, parodie, anekdoty * jun - literatura pro děti a mládež * ess - eseje, fejetony, sloupky * chr - kroniky, letopisy, ročenky * exc - excentrická literatura * dra - dramata, inscenace, televizní seriály, rozhlasové pořady * mus - hudba * tvf - televize a film * jur - právo, kriminalistika * his - dějiny, odborné biografie * psy - psychologie * edu - výchova, vzdělání, vyučování, osvěta * soc - sociologie * mil - vojenství * phi - filozofie * art - výtvarné umění, architektura, užité umění * the - divadlo, balet * pol - politologie * lit - literatura, literární věda * lin - lingvistika * eth - etnografie, antropologie * agr - zemědělství, lesnictví, chov, pěstování * med - medicína * bio - biologie, botanika, zoologie * che - chemie * mat - matematika, logika * ggr - geografie, cestopisy (od odborníků) * phy - fyzika, astronomie * geo - geologie, meteorologie, hydrologie * ind - průmysl, technika, stavebnictví, energetika, doprava, řemesla * inf - informace, informatika, počítače * eco - ekonomie, obchod, bankovnictví * adm - administrativa, veřejná správa, řízení, parlament * rel - náboženství, teologie * hou - domácí hospodářství (stravování, byt, odívání) * spo - sport * sct - společenský život (společenské chování, drby) * amu - zábava, hry 1. Form * stylistická forma * nepovinný * hodnoty: * txb - textbook * enc - dictionary, encyclopedia * pop - popular style * cri - critique * adv - advertisment * sho - short texts (krátké zprávy navzájem oddělené

) 1. Medium * médium zdroje * nepovinný * hodnoty: * b - book * nws - newspaper * j - journal (periodic) * scr - screenplay * net - Internet * oc - occassional * cdrom - eletronic medium 1. Auth_N * Author name * povinný 1. Auth_S * Author sex * nepovinný * hodnoty: * m - muž * f - žena 1. Tran_N * Translator name * nepovinný 1. Tran_S * Translator sex * nepovinný * hodnoty: * m - muž * f - žena 1. Lang * jazyk * povinný * hodnoty: jazyky se kódují dle normy ISO 639:1988 * několik běžných hodnot: * cs - Czech * de - German * en - English * sk - Slovak * ru - Russian 1. S_Lang * jazyk, z kterého bylo překládáno * nepovinný * hodnoty: jazyky se kódují dle normy ISO 639:1988 1. Date * datum zařazení do korpusu * nepovinný * hodnoty jsou podmnožinou normy ISO 8601, jsou tři možnosti: * yyyy-mm-dd např. 1998-07-14 * yyyy-mm např. 1998-07 * yyyy např. 1998 1. F_Publ * datum 1. publikování dokumentu * nepovinný * hodnoty: viz "Date" 1. D_Publ * datum publikování zdrojového dokumentu * povinný * hodnoty: viz Date 1. M_Auth * jméno autora nebo programu, který provedl nějaké transformace, které se podílely na výsledném tvaru odpovídajícího vertikálu * povinný, pokud byla provedena nějaká transformace 1. M_Date * datum transformace * uvést za každým M_Auth 1. M_Desc * popis transformace * uvést za každým M_Date 1. Signat * signatura dokumentu - 8 znaků * nepoužívat - přidá samostatný program! * slouží ke kontrole duplicit * např. "Signat: [http://nlp.fi.muni.cz/cs/A1B72E55 A1B72E55]" 1. Size * rozsah dokumentu * nepoužívat - přidá samostatný program! * udává počet pozic * např. "Size : 172" 1. Lemmat * kvalita dokumentu * nepoužívat - přidá samostatný program! * udává poměr korektních českých pozic k pozicím, která jsou slovy, a k celkovému počtu pozic, s využitím morfologického analyzátoru * např. "Lemmat : 88%;78%" 1. Offset * umístění dokumentu - vertikálu v souboru *.vert * nepoužívat - přidá samostatný program! * udává začátek dokumentu a jeho délku * slouží jako parametry pro seek() a read() * např. "Offset: 0,12345"