Changes between Initial Version and Version 1 of cs/PopisMetainformaci


Ignore:
Timestamp:
Feb 27, 2014, 2:45:01 PM (7 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/PopisMetainformaci

    v1 v1  
     1= Popis metainformací = #Popis_metainformac.2BAO0-
     2[[BR]]          Korpusová data jsou uložena v textové podobě jako tzv. vertikální texty  (zkráceně "vertikály") (*.vert) a metainformace (*.meta). Tento  dokument popisuje strukturu těch druhých - metainformací, označovaných  zde jako "meta-vertikály". Každý meta-vertikál obsahuje formátované  informace vztahující se k příslušnému  vertikálu.
     3
     4== Struktura meta-vertikálu == #Struktura_meta-vertik.2BAOE-lu
     5=== Obecné informace === #Obecn.2BAOk_informace
     6Každý meta-vertikál může mít dvě části:
     7
     8První,  volitelná, se nazývá "sekce common". Je ohraničena párovými značkami  <common> a atributy zde uvedené jsou společné pro všechny  dokumenty ve vertikálu. Sekce common je nepovinná, a pokud je použita,  musí být na začátku souboru. Používá se tehdy, obsahuje-li soubor více  dokumentů, které mají některé atributy stejné - například Source,  D_Publ.
     9
     10 * V druhé části jsou uvedeny atributy k jednotlivým dokumentům.[[BR]] Každý dokument začíná atributem "Doc    : ", následují další atributy a na konci je vždy jeden prázdný řádek.  Většina atributů může mít násobnou hodnotu, každý středník je považován za oddělovač násobných hodnot.
     11
     12=== Dva příklady meta-vertikálu === #Dva_p.2BAVkA7Q-klady_meta-vertik.2BAOE-lu
     13Varianta se společnými atributy:
     14
     15{{{
     16============ Začátek ===================================
     17<common>
     18Source: http://www.trafika.cz/mf/1999/990517/all.html
     19Medium: net
     20Lang  : cs
     21D_Publ: 1999-05-17
     22M_Auth: html;cstocs 1250 il2;apk_prevod
     23M_Date: 1999-05-18
     24M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta
     25</common>
     26
     27Doc    : mf/1999/05/17/1
     28Title : Sněmovna zasedala
     29T_Orig: Titulní strana
     30T_Main: ALT
     31T_Sub : ALT
     32Auth_N: Karol Wolf
     33
     34Doc    : mf/1999/05/17/121
     35Title : Sparta prohrála
     36T_Orig: Příloha Sport
     37T_Main: sport
     38T_Sub : spo
     39Auth_N: MARTIN HAŠEK
     40
     41==============  Na konci je prázdný řádek  ==============
     42}}}
     43Nebo varianta bez společných atributů:
     44
     45{{{
     46============= Začátek ===================================
     47Doc    : mf/1999/05/17/1
     48Title : Sněmovna zasedala
     49Source: http://www.trafika.cz/mf/1999/990517/all.html
     50Medium: net
     51Lang  : cs
     52D_Publ: 1999-05-17
     53M_Auth: html;cstocs 1250 il2;apk_prevod
     54M_Date: 1999-05-18
     55M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta
     56T_Orig: Titulní strana
     57T_Main: ALT
     58T_Sub : ALT
     59Auth_N: Karol Wolf
     60
     61==============  Na konci je prázdný řádek  ==============
     62}}}
     63=== Gramatika popisující meta-vertikál === #Gramatika_popisuj.2BAO0-c.2BAO0_meta-vertik.2BAOE-l
     64=== Konvence pro gramatiku === #Konvence_pro_gramatiku
     65{{{
     66Neteminály jsou ohraničeny znaky <>  např:  <DOC>
     67Terminály  jsou ohraničeny znaky ""  např:  "\n",  ""
     68? 0 nebo 1 výskyt
     69+ 1 nebo více výskytů
     70* 0 nebo více výskytů
     71}}}
     72=== Kód gramatiky === #K.2BAPM-d_gramatiky
     73{{{
     74<META-VERTIKAL> --> <SEKCE COMMON> ? <DOKUMENT> +
     75
     76<SEKCE COMMON>  --> "<common>" "\n" 
     77                          <ATRIBUT> +
     78                          "<common>" "\n"
     79                          "\n"
     80
     81<DOKUMENT>        --> <ATRIBUT> +
     82                         "\n"
     83
     84<ATRIBUT>         --> <JMENO> ": " <SEZNAM_HODNOT>  "\n"
     85
     86<SEZNAM_HODNOT> --> <HODNOTA> ( ";" <HODNOTA> ) *
     87
     88<JMENO>            --> viz Atributy a jejich hodnoty
     89<HODNOTA>         --> viz Atributy a jejich hodnoty
     90}}}
     91=== Další podmínky === #Dal.2BAWEA7Q_podm.2BAO0-nky
     92 * Každé jméno atributu je doplněno mezerami na 6 znaků (pak následuje ': ')
     93 * První atribut v každém dokumentu je "Doc"
     94 * Atribut "Doc" se neobjevuje v sekci common
     95 * Atributy  se nesmí předefinovat, to znamená, že ty, co byly uvedeny buď v sekci  common, nebo již dříve v tom samém dokumentu, se nesmí objevit znovu.  Výjimkou jsou atributy M_Auth, M_Date a M_Desc, které se mohou  předefinovat, navíc se uvádějí vždy spolu ve trojici.
     96 * Následující atributy nepřipouštějí násobné hodnoty:[[BR]]  Doc, Size, Date, F_Publ, D_Publ, M_Date
     97
     98=== Které atributy se mají používat? === #Kter.2BAOk_atributy_se_maj.2BAO0_pou.2BAX4A7Q-vat.3F
     99 * Všechny, které jsou označeny jako povinné (pokud nejsou zjistitelné, použijte jako hodnotu Y - viz níže) [[BR]]  Povinné jsou: Doc, Title, Source, T_Main, T_Sub, D_Publ, Auth_N, Lang.
     100
     101 * Všechny, které je možné ze zdroje zjistit (i když jsou nepovinné)
     102
     103== Atributy a jejich hodnoty == #Atributy_a_jejich_hodnoty
     104=== Seznam atributů === #Seznam_atribut.2BAW8-
     105{{{
     106Doc, 
     107Title,
     108Avail,
     109Source,
     110T_Orig, T_Main, T_Sub,
     111Form,
     112Medium,
     113Auth_N,  Auth_S,
     114Tran_N, Tran_S,
     115Lang, S_Lang,
     116Date,
     117F_Publ, D_Publ,
     118M_Auth, 
     119M_Date,
     120M_Desc,
     121Signat,
     122Size,
     123Lemmat,
     124Offset
     125
     126}}}
     127=== Univerzální hodnoty === #Univerz.2BAOE-ln.2BAO0_hodnoty
     128Tyto hodnoty mají speciální význam, lze je použít všude kromě atributu Doc a Size
     129
     130 * X        hodnota nezjištěna
     131 * Y        hodnota nezjistitelná
     132 * NA    neaplikovatelný
     133 * MIX    směs ze specifikovaných atributů
     134 * ALT    jiný než specifikovaný atribut
     135
     136=== Popis atributů === #Popis_atribut.2BAW8-
     137 1. Doc
     138   * identifikátor
     139   * povinný
     140   * první atribut
     141   * musí být jedinečný v rámci všech dokumentů
     142   * skládá se ze složek oddělených ‘/', u novin : kód/rok/měsíc/den/pořadové_číslo
     143   * např.  "Doc    : mf/1998/11/16/121"
     144   * hodnota má být stručná a výstižná
     145 1. Title
     146   * název dokumentu
     147   * povinný
     148   * např. "Title : Volič chce senátora hájícího silný stát"
     149 1. Avail
     150   * šiřitelnost
     151   * nepovinný
     152   * možné hodnoty : free, restrict={zde bude text omezení}
     153   * např. "Avail : restrict={uvést vždy autora}"
     154 1. Source
     155   * popis zdroje
     156   * povinný
     157   * např. "Source: http://www.trafika.cz/mf/1998/980608/all.html"
     158 1. T_Orig
     159   * typ dokumentu, jak byl uveden ve zdroji
     160   * nepovinný
     161   * např. "T_Orig: Burzovní zprávy"
     162 1. T_Main
     163   * typ dle obsahu dokumentu
     164   * povinný
     165   * hodnoty sci1, sci2, sport, sct, lit, eco
     166   * sci1 - přírodní vědy (inf, phy, geo, ggr, mat, che, bio, med, agr)
     167   * sci2 - humanitní vědy (eth, lin, lit, pol, art, soc, psy, edu, phi, mil, jur, his, rel)
     168   * sport - sport (spo)
     169   * sct - dění ve společnosti (sct, amu, hou, tvf, the, mus, dra)
     170   * lit - literární díla (son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum, jun, ess, chr, exc)
     171   * eco - ekonomie, státní správa (eco, ind, adm)
     172 1. T_Sub
     173   * subtyp dle obsahu dokumentu
     174   * povinný
     175   * hodnoty:  inf, phy, geo, ggr, mat, che, bio, med, agr, eth, lin, lit, pol, art,  soc, psy, edu, phi, mil, jur, his, rel, spo, sct, amu, hou, tvf, the,  mus, dra, son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum,  jun, ess, chr, exc, eco, ind, adm
     176   * son - písňové texty
     177   * ver - poezie
     178   * nov - romány a povídky
     179   * crm - detektivní příběhy
     180   * sci - vědecko-fantastická literatura
     181   * adv -  dobrodružná literatura
     182   * ero -  erotická a pornografická literatura
     183   * bio - (auto)biografie, vzpomínky, dopisy, deníky
     184   * tra -  cestopisy (od neodborníků)
     185   * tab -  bulvární, pokleslá literatura
     186   * fab -  báje, pověsti, legendy, pohádky, bajky
     187   * hum - humor, satira, parodie, anekdoty
     188   * jun -  literatura pro děti a mládež
     189   * ess -  eseje, fejetony, sloupky
     190   * chr -  kroniky, letopisy, ročenky
     191   * exc - excentrická literatura
     192   * dra - dramata, inscenace, televizní seriály, rozhlasové pořady
     193   * mus - hudba
     194   * tvf - televize a film
     195   * jur - právo, kriminalistika
     196   * his - dějiny, odborné biografie
     197   * psy - psychologie
     198   * edu - výchova, vzdělání, vyučování, osvěta
     199   * soc - sociologie
     200   * mil - vojenství
     201   * phi - filozofie
     202   * art - výtvarné umění, architektura, užité umění
     203   * the - divadlo, balet
     204   * pol - politologie
     205   * lit - literatura, literární věda
     206   * lin - lingvistika
     207   * eth - etnografie, antropologie
     208   * agr - zemědělství, lesnictví, chov, pěstování
     209   * med - medicína
     210   * bio - biologie, botanika, zoologie
     211   * che - chemie
     212   * mat - matematika, logika
     213   * ggr - geografie, cestopisy (od odborníků)
     214   * phy - fyzika, astronomie
     215   * geo - geologie, meteorologie, hydrologie
     216   * ind - průmysl, technika, stavebnictví, energetika, doprava, řemesla
     217   * inf - informace, informatika, počítače
     218   * eco - ekonomie, obchod, bankovnictví
     219   * adm - administrativa, veřejná správa, řízení, parlament
     220   * rel - náboženství, teologie
     221   * hou - domácí hospodářství (stravování, byt, odívání)
     222   * spo - sport
     223   * sct - společenský život (společenské chování, drby)
     224   * amu - zábava, hry
     225 1. Form
     226   * stylistická forma
     227   * nepovinný
     228   * hodnoty:
     229   * txb - textbook
     230   * enc - dictionary, encyclopedia
     231   * pop - popular style
     232   * cri - critique
     233   * adv - advertisment
     234   * sho -  short texts (krátké zprávy navzájem oddělené <p>)
     235 1. Medium
     236   * médium zdroje
     237   * nepovinný
     238   * hodnoty:
     239   * b - book
     240   * nws - newspaper
     241   * j - journal (periodic)
     242   * scr - screenplay
     243   * net - Internet
     244   * oc - occassional
     245   * cdrom - eletronic medium
     246 1. Auth_N
     247   * Author name
     248   * povinný
     249 1. Auth_S
     250   * Author sex
     251   * nepovinný
     252   * hodnoty:
     253   * m - muž
     254   * f - žena
     255 1. Tran_N
     256   * Translator name
     257   * nepovinný
     258 1. Tran_S
     259   * Translator sex
     260   * nepovinný
     261   * hodnoty:
     262   * m - muž
     263   * f - žena
     264 1. Lang
     265   * jazyk
     266   * povinný
     267   * hodnoty: jazyky se kódují dle normy ISO 639:1988
     268   * několik běžných hodnot:
     269   * cs - Czech
     270   * de - German
     271   * en - English
     272   * sk - Slovak
     273   * ru - Russian
     274 1. S_Lang
     275   * jazyk, z kterého bylo překládáno
     276   * nepovinný
     277   * hodnoty: jazyky se kódují dle normy ISO 639:1988
     278 1. Date
     279   * datum zařazení do korpusu
     280   * nepovinný
     281   * hodnoty jsou podmnožinou normy ISO 8601, jsou tři možnosti:
     282   * yyyy-mm-dd  např. 1998-07-14
     283   * yyyy-mm      např. 1998-07
     284   * yyyy          např. 1998
     285 1. F_Publ
     286   * datum 1. publikování dokumentu
     287   * nepovinný
     288   * hodnoty: viz "Date"
     289 1. D_Publ
     290   * datum publikování zdrojového dokumentu
     291   * povinný
     292   * hodnoty: viz Date
     293 1. M_Auth
     294   * jméno autora nebo programu, který provedl nějaké transformace, které   se podílely na výsledném tvaru odpovídajícího vertikálu
     295   * povinný, pokud byla provedena nějaká transformace
     296 1. M_Date
     297   * datum transformace
     298   * uvést za každým M_Auth
     299 1. M_Desc
     300   * popis transformace
     301   * uvést za každým M_Date
     302 1. Signat
     303   * signatura dokumentu - 8 znaků
     304   * nepoužívat - přidá samostatný program!
     305   * slouží ke kontrole duplicit
     306   * např. "Signat: [http://nlp.fi.muni.cz/cs/A1B72E55 A1B72E55]"
     307 1. Size
     308   * rozsah dokumentu
     309   * nepoužívat - přidá samostatný program!
     310   * udává počet pozic
     311   * např. "Size  : 172"
     312 1. Lemmat
     313   * kvalita dokumentu
     314   * nepoužívat - přidá samostatný program!
     315   * udává  poměr korektních českých pozic k pozicím,   která jsou slovy, a k  celkovému počtu pozic, s využitím morfologického analyzátoru
     316   * např. "Lemmat : 88%;78%"
     317 1. Offset
     318   * umístění dokumentu - vertikálu  v souboru *.vert
     319   * nepoužívat - přidá samostatný program!
     320   * udává začátek dokumentu a jeho délku
     321   * slouží jako parametry pro seek() a read()
     322   * např. "Offset: 0,12345"