wiki:cs/PopisMetainformaci

Version 1 (modified by xkocinc, 10 years ago) (diff)

--

Popis metainformací


Korpusová data jsou uložena v textové podobě jako tzv. vertikální texty (zkráceně "vertikály") (*.vert) a metainformace (*.meta). Tento dokument popisuje strukturu těch druhých - metainformací, označovaných zde jako "meta-vertikály". Každý meta-vertikál obsahuje formátované informace vztahující se k příslušnému vertikálu.

Struktura meta-vertikálu

Obecné informace

Každý meta-vertikál může mít dvě části:

První, volitelná, se nazývá "sekce common". Je ohraničena párovými značkami <common> a atributy zde uvedené jsou společné pro všechny dokumenty ve vertikálu. Sekce common je nepovinná, a pokud je použita, musí být na začátku souboru. Používá se tehdy, obsahuje-li soubor více dokumentů, které mají některé atributy stejné - například Source, D_Publ.

  • V druhé části jsou uvedeny atributy k jednotlivým dokumentům.
    Každý dokument začíná atributem "Doc : ", následují další atributy a na konci je vždy jeden prázdný řádek. Většina atributů může mít násobnou hodnotu, každý středník je považován za oddělovač násobných hodnot.

Dva příklady meta-vertikálu

Varianta se společnými atributy:

============ Začátek ===================================
<common>
Source: http://www.trafika.cz/mf/1999/990517/all.html
Medium: net
Lang  : cs
D_Publ: 1999-05-17
M_Auth: html;cstocs 1250 il2;apk_prevod
M_Date: 1999-05-18
M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta
</common>

Doc    : mf/1999/05/17/1
Title : Sněmovna zasedala
T_Orig: Titulní strana
T_Main: ALT
T_Sub : ALT
Auth_N: Karol Wolf

Doc    : mf/1999/05/17/121
Title : Sparta prohrála
T_Orig: Příloha Sport
T_Main: sport
T_Sub : spo
Auth_N: MARTIN HAŠEK

==============  Na konci je prázdný řádek  ==============

Nebo varianta bez společných atributů:

============= Začátek ===================================
Doc    : mf/1999/05/17/1
Title : Sněmovna zasedala
Source: http://www.trafika.cz/mf/1999/990517/all.html
Medium: net
Lang  : cs
D_Publ: 1999-05-17
M_Auth: html;cstocs 1250 il2;apk_prevod
M_Date: 1999-05-18
M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta
T_Orig: Titulní strana
T_Main: ALT
T_Sub : ALT
Auth_N: Karol Wolf

==============  Na konci je prázdný řádek  ==============

Gramatika popisující meta-vertikál

Konvence pro gramatiku

Neteminály jsou ohraničeny znaky <>  např:  <DOC>
Terminály  jsou ohraničeny znaky ""  např:  "\n",  ""
? 0 nebo 1 výskyt
+ 1 nebo více výskytů
* 0 nebo více výskytů

Kód gramatiky

<META-VERTIKAL> --> <SEKCE COMMON> ? <DOKUMENT> +

<SEKCE COMMON>  --> "<common>" "\n"  
                          <ATRIBUT> + 
                          "<common>" "\n" 
                          "\n"

<DOKUMENT>        --> <ATRIBUT> + 
                         "\n"

<ATRIBUT>         --> <JMENO> ": " <SEZNAM_HODNOT>  "\n"

<SEZNAM_HODNOT> --> <HODNOTA> ( ";" <HODNOTA> ) * 

<JMENO>            --> viz Atributy a jejich hodnoty
<HODNOTA>         --> viz Atributy a jejich hodnoty

Další podmínky

  • Každé jméno atributu je doplněno mezerami na 6 znaků (pak následuje ': ')
  • První atribut v každém dokumentu je "Doc"
  • Atribut "Doc" se neobjevuje v sekci common
  • Atributy se nesmí předefinovat, to znamená, že ty, co byly uvedeny buď v sekci common, nebo již dříve v tom samém dokumentu, se nesmí objevit znovu. Výjimkou jsou atributy M_Auth, M_Date a M_Desc, které se mohou předefinovat, navíc se uvádějí vždy spolu ve trojici.
  • Následující atributy nepřipouštějí násobné hodnoty:
    Doc, Size, Date, F_Publ, D_Publ, M_Date

Které atributy se mají používat?

  • Všechny, které jsou označeny jako povinné (pokud nejsou zjistitelné, použijte jako hodnotu Y - viz níže)
    Povinné jsou: Doc, Title, Source, T_Main, T_Sub, D_Publ, Auth_N, Lang.
  • Všechny, které je možné ze zdroje zjistit (i když jsou nepovinné)

Atributy a jejich hodnoty

Seznam atributů

Doc,  
Title, 
Avail, 
Source, 
T_Orig, T_Main, T_Sub, 
Form, 
Medium, 
Auth_N,  Auth_S, 
Tran_N, Tran_S, 
Lang, S_Lang, 
Date, 
F_Publ, D_Publ, 
M_Auth,  
M_Date, 
M_Desc, 
Signat, 
Size, 
Lemmat, 
Offset 

Univerzální hodnoty

Tyto hodnoty mají speciální význam, lze je použít všude kromě atributu Doc a Size

  • X hodnota nezjištěna
  • Y hodnota nezjistitelná
  • NA neaplikovatelný
  • MIX směs ze specifikovaných atributů
  • ALT jiný než specifikovaný atribut

Popis atributů

  1. Doc
    • identifikátor
    • povinný
    • první atribut
    • musí být jedinečný v rámci všech dokumentů
    • skládá se ze složek oddělených ‘/', u novin : kód/rok/měsíc/den/pořadové_číslo
    • např. "Doc : mf/1998/11/16/121"
    • hodnota má být stručná a výstižná
  2. Title
    • název dokumentu
    • povinný
    • např. "Title : Volič chce senátora hájícího silný stát"
  3. Avail
    • šiřitelnost
    • nepovinný
    • možné hodnoty : free, restrict={zde bude text omezení}
    • např. "Avail : restrict={uvést vždy autora}"
  4. Source
  5. T_Orig
    • typ dokumentu, jak byl uveden ve zdroji
    • nepovinný
    • např. "T_Orig: Burzovní zprávy"
  6. T_Main
    • typ dle obsahu dokumentu
    • povinný
    • hodnoty sci1, sci2, sport, sct, lit, eco
    • sci1 - přírodní vědy (inf, phy, geo, ggr, mat, che, bio, med, agr)
    • sci2 - humanitní vědy (eth, lin, lit, pol, art, soc, psy, edu, phi, mil, jur, his, rel)
    • sport - sport (spo)
    • sct - dění ve společnosti (sct, amu, hou, tvf, the, mus, dra)
    • lit - literární díla (son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum, jun, ess, chr, exc)
    • eco - ekonomie, státní správa (eco, ind, adm)
  7. T_Sub
    • subtyp dle obsahu dokumentu
    • povinný
    • hodnoty: inf, phy, geo, ggr, mat, che, bio, med, agr, eth, lin, lit, pol, art, soc, psy, edu, phi, mil, jur, his, rel, spo, sct, amu, hou, tvf, the, mus, dra, son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum, jun, ess, chr, exc, eco, ind, adm
    • son - písňové texty
    • ver - poezie
    • nov - romány a povídky
    • crm - detektivní příběhy
    • sci - vědecko-fantastická literatura
    • adv - dobrodružná literatura
    • ero - erotická a pornografická literatura
    • bio - (auto)biografie, vzpomínky, dopisy, deníky
    • tra - cestopisy (od neodborníků)
    • tab - bulvární, pokleslá literatura
    • fab - báje, pověsti, legendy, pohádky, bajky
    • hum - humor, satira, parodie, anekdoty
    • jun - literatura pro děti a mládež
    • ess - eseje, fejetony, sloupky
    • chr - kroniky, letopisy, ročenky
    • exc - excentrická literatura
    • dra - dramata, inscenace, televizní seriály, rozhlasové pořady
    • mus - hudba
    • tvf - televize a film
    • jur - právo, kriminalistika
    • his - dějiny, odborné biografie
    • psy - psychologie
    • edu - výchova, vzdělání, vyučování, osvěta
    • soc - sociologie
    • mil - vojenství
    • phi - filozofie
    • art - výtvarné umění, architektura, užité umění
    • the - divadlo, balet
    • pol - politologie
    • lit - literatura, literární věda
    • lin - lingvistika
    • eth - etnografie, antropologie
    • agr - zemědělství, lesnictví, chov, pěstování
    • med - medicína
    • bio - biologie, botanika, zoologie
    • che - chemie
    • mat - matematika, logika
    • ggr - geografie, cestopisy (od odborníků)
    • phy - fyzika, astronomie
    • geo - geologie, meteorologie, hydrologie
    • ind - průmysl, technika, stavebnictví, energetika, doprava, řemesla
    • inf - informace, informatika, počítače
    • eco - ekonomie, obchod, bankovnictví
    • adm - administrativa, veřejná správa, řízení, parlament
    • rel - náboženství, teologie
    • hou - domácí hospodářství (stravování, byt, odívání)
    • spo - sport
    • sct - společenský život (společenské chování, drby)
    • amu - zábava, hry
  8. Form
    • stylistická forma
    • nepovinný
    • hodnoty:
    • txb - textbook
    • enc - dictionary, encyclopedia
    • pop - popular style
    • cri - critique
    • adv - advertisment
    • sho - short texts (krátké zprávy navzájem oddělené <p>)
  9. Medium
    • médium zdroje
    • nepovinný
    • hodnoty:
    • b - book
    • nws - newspaper
    • j - journal (periodic)
    • scr - screenplay
    • net - Internet
    • oc - occassional
    • cdrom - eletronic medium
  10. Auth_N
    • Author name
    • povinný
  11. Auth_S
    • Author sex
    • nepovinný
    • hodnoty:
    • m - muž
    • f - žena
  12. Tran_N
    • Translator name
    • nepovinný
  13. Tran_S
    • Translator sex
    • nepovinný
    • hodnoty:
    • m - muž
    • f - žena
  14. Lang
    • jazyk
    • povinný
    • hodnoty: jazyky se kódují dle normy ISO 639:1988
    • několik běžných hodnot:
    • cs - Czech
    • de - German
    • en - English
    • sk - Slovak
    • ru - Russian
  15. S_Lang
    • jazyk, z kterého bylo překládáno
    • nepovinný
    • hodnoty: jazyky se kódují dle normy ISO 639:1988
  16. Date
    • datum zařazení do korpusu
    • nepovinný
    • hodnoty jsou podmnožinou normy ISO 8601, jsou tři možnosti:
    • yyyy-mm-dd např. 1998-07-14
    • yyyy-mm např. 1998-07
    • yyyy např. 1998
  17. F_Publ
    • datum 1. publikování dokumentu
    • nepovinný
    • hodnoty: viz "Date"
  18. D_Publ
    • datum publikování zdrojového dokumentu
    • povinný
    • hodnoty: viz Date
  19. M_Auth
    • jméno autora nebo programu, který provedl nějaké transformace, které se podílely na výsledném tvaru odpovídajícího vertikálu
    • povinný, pokud byla provedena nějaká transformace
  20. M_Date
    • datum transformace
    • uvést za každým M_Auth
  21. M_Desc
    • popis transformace
    • uvést za každým M_Date
  22. Signat
    • signatura dokumentu - 8 znaků
    • nepoužívat - přidá samostatný program!
    • slouží ke kontrole duplicit
    • např. "Signat: A1B72E55"
  23. Size
    • rozsah dokumentu
    • nepoužívat - přidá samostatný program!
    • udává počet pozic
    • např. "Size : 172"
  24. Lemmat
    • kvalita dokumentu
    • nepoužívat - přidá samostatný program!
    • udává poměr korektních českých pozic k pozicím, která jsou slovy, a k celkovému počtu pozic, s využitím morfologického analyzátoru
    • např. "Lemmat : 88%;78%"
  25. Offset
    • umístění dokumentu - vertikálu v souboru *.vert
    • nepoužívat - přidá samostatný program!
    • udává začátek dokumentu a jeho délku
    • slouží jako parametry pro seek() a read()
    • např. "Offset: 0,12345"