Version 1 (modified by 10 years ago) (diff) | ,
---|
Popis metainformací
Korpusová data jsou uložena v textové podobě jako tzv. vertikální texty (zkráceně "vertikály") (*.vert) a metainformace (*.meta). Tento dokument popisuje strukturu těch druhých - metainformací, označovaných zde jako "meta-vertikály". Každý meta-vertikál obsahuje formátované informace vztahující se k příslušnému vertikálu.
Struktura meta-vertikálu
Obecné informace
Každý meta-vertikál může mít dvě části:
První, volitelná, se nazývá "sekce common". Je ohraničena párovými značkami <common> a atributy zde uvedené jsou společné pro všechny dokumenty ve vertikálu. Sekce common je nepovinná, a pokud je použita, musí být na začátku souboru. Používá se tehdy, obsahuje-li soubor více dokumentů, které mají některé atributy stejné - například Source, D_Publ.
- V druhé části jsou uvedeny atributy k jednotlivým dokumentům.
Každý dokument začíná atributem "Doc : ", následují další atributy a na konci je vždy jeden prázdný řádek. Většina atributů může mít násobnou hodnotu, každý středník je považován za oddělovač násobných hodnot.
Dva příklady meta-vertikálu
Varianta se společnými atributy:
============ Začátek =================================== <common> Source: http://www.trafika.cz/mf/1999/990517/all.html Medium: net Lang : cs D_Publ: 1999-05-17 M_Auth: html;cstocs 1250 il2;apk_prevod M_Date: 1999-05-18 M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta </common> Doc : mf/1999/05/17/1 Title : Sněmovna zasedala T_Orig: Titulní strana T_Main: ALT T_Sub : ALT Auth_N: Karol Wolf Doc : mf/1999/05/17/121 Title : Sparta prohrála T_Orig: Příloha Sport T_Main: sport T_Sub : spo Auth_N: MARTIN HAŠEK ============== Na konci je prázdný řádek ==============
Nebo varianta bez společných atributů:
============= Začátek =================================== Doc : mf/1999/05/17/1 Title : Sněmovna zasedala Source: http://www.trafika.cz/mf/1999/990517/all.html Medium: net Lang : cs D_Publ: 1999-05-17 M_Auth: html;cstocs 1250 il2;apk_prevod M_Date: 1999-05-18 M_Desc: odstranění &-sekvencí;změna kódování;konverze html-->vert,meta T_Orig: Titulní strana T_Main: ALT T_Sub : ALT Auth_N: Karol Wolf ============== Na konci je prázdný řádek ==============
Gramatika popisující meta-vertikál
Konvence pro gramatiku
Neteminály jsou ohraničeny znaky <> např: <DOC> Terminály jsou ohraničeny znaky "" např: "\n", "" ? 0 nebo 1 výskyt + 1 nebo více výskytů * 0 nebo více výskytů
Kód gramatiky
<META-VERTIKAL> --> <SEKCE COMMON> ? <DOKUMENT> + <SEKCE COMMON> --> "<common>" "\n" <ATRIBUT> + "<common>" "\n" "\n" <DOKUMENT> --> <ATRIBUT> + "\n" <ATRIBUT> --> <JMENO> ": " <SEZNAM_HODNOT> "\n" <SEZNAM_HODNOT> --> <HODNOTA> ( ";" <HODNOTA> ) * <JMENO> --> viz Atributy a jejich hodnoty <HODNOTA> --> viz Atributy a jejich hodnoty
Další podmínky
- Každé jméno atributu je doplněno mezerami na 6 znaků (pak následuje ': ')
- První atribut v každém dokumentu je "Doc"
- Atribut "Doc" se neobjevuje v sekci common
- Atributy se nesmí předefinovat, to znamená, že ty, co byly uvedeny buď v sekci common, nebo již dříve v tom samém dokumentu, se nesmí objevit znovu. Výjimkou jsou atributy M_Auth, M_Date a M_Desc, které se mohou předefinovat, navíc se uvádějí vždy spolu ve trojici.
- Následující atributy nepřipouštějí násobné hodnoty:
Doc, Size, Date, F_Publ, D_Publ, M_Date
Které atributy se mají používat?
- Všechny, které jsou označeny jako povinné (pokud nejsou zjistitelné, použijte jako hodnotu Y - viz níže)
Povinné jsou: Doc, Title, Source, T_Main, T_Sub, D_Publ, Auth_N, Lang.
- Všechny, které je možné ze zdroje zjistit (i když jsou nepovinné)
Atributy a jejich hodnoty
Seznam atributů
Doc, Title, Avail, Source, T_Orig, T_Main, T_Sub, Form, Medium, Auth_N, Auth_S, Tran_N, Tran_S, Lang, S_Lang, Date, F_Publ, D_Publ, M_Auth, M_Date, M_Desc, Signat, Size, Lemmat, Offset
Univerzální hodnoty
Tyto hodnoty mají speciální význam, lze je použít všude kromě atributu Doc a Size
- X hodnota nezjištěna
- Y hodnota nezjistitelná
- NA neaplikovatelný
- MIX směs ze specifikovaných atributů
- ALT jiný než specifikovaný atribut
Popis atributů
- Doc
- identifikátor
- povinný
- první atribut
- musí být jedinečný v rámci všech dokumentů
- skládá se ze složek oddělených ‘/', u novin : kód/rok/měsíc/den/pořadové_číslo
- např. "Doc : mf/1998/11/16/121"
- hodnota má být stručná a výstižná
- Title
- název dokumentu
- povinný
- např. "Title : Volič chce senátora hájícího silný stát"
- Avail
- šiřitelnost
- nepovinný
- možné hodnoty : free, restrict={zde bude text omezení}
- např. "Avail : restrict={uvést vždy autora}"
- Source
- popis zdroje
- povinný
- např. "Source: http://www.trafika.cz/mf/1998/980608/all.html"
- T_Orig
- typ dokumentu, jak byl uveden ve zdroji
- nepovinný
- např. "T_Orig: Burzovní zprávy"
- T_Main
- typ dle obsahu dokumentu
- povinný
- hodnoty sci1, sci2, sport, sct, lit, eco
- sci1 - přírodní vědy (inf, phy, geo, ggr, mat, che, bio, med, agr)
- sci2 - humanitní vědy (eth, lin, lit, pol, art, soc, psy, edu, phi, mil, jur, his, rel)
- sport - sport (spo)
- sct - dění ve společnosti (sct, amu, hou, tvf, the, mus, dra)
- lit - literární díla (son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum, jun, ess, chr, exc)
- eco - ekonomie, státní správa (eco, ind, adm)
- T_Sub
- subtyp dle obsahu dokumentu
- povinný
- hodnoty: inf, phy, geo, ggr, mat, che, bio, med, agr, eth, lin, lit, pol, art, soc, psy, edu, phi, mil, jur, his, rel, spo, sct, amu, hou, tvf, the, mus, dra, son, ver, nov, crm, sci, adv, ero, bio, tra, tab, fab, hum, jun, ess, chr, exc, eco, ind, adm
- son - písňové texty
- ver - poezie
- nov - romány a povídky
- crm - detektivní příběhy
- sci - vědecko-fantastická literatura
- adv - dobrodružná literatura
- ero - erotická a pornografická literatura
- bio - (auto)biografie, vzpomínky, dopisy, deníky
- tra - cestopisy (od neodborníků)
- tab - bulvární, pokleslá literatura
- fab - báje, pověsti, legendy, pohádky, bajky
- hum - humor, satira, parodie, anekdoty
- jun - literatura pro děti a mládež
- ess - eseje, fejetony, sloupky
- chr - kroniky, letopisy, ročenky
- exc - excentrická literatura
- dra - dramata, inscenace, televizní seriály, rozhlasové pořady
- mus - hudba
- tvf - televize a film
- jur - právo, kriminalistika
- his - dějiny, odborné biografie
- psy - psychologie
- edu - výchova, vzdělání, vyučování, osvěta
- soc - sociologie
- mil - vojenství
- phi - filozofie
- art - výtvarné umění, architektura, užité umění
- the - divadlo, balet
- pol - politologie
- lit - literatura, literární věda
- lin - lingvistika
- eth - etnografie, antropologie
- agr - zemědělství, lesnictví, chov, pěstování
- med - medicína
- bio - biologie, botanika, zoologie
- che - chemie
- mat - matematika, logika
- ggr - geografie, cestopisy (od odborníků)
- phy - fyzika, astronomie
- geo - geologie, meteorologie, hydrologie
- ind - průmysl, technika, stavebnictví, energetika, doprava, řemesla
- inf - informace, informatika, počítače
- eco - ekonomie, obchod, bankovnictví
- adm - administrativa, veřejná správa, řízení, parlament
- rel - náboženství, teologie
- hou - domácí hospodářství (stravování, byt, odívání)
- spo - sport
- sct - společenský život (společenské chování, drby)
- amu - zábava, hry
- Form
- stylistická forma
- nepovinný
- hodnoty:
- txb - textbook
- enc - dictionary, encyclopedia
- pop - popular style
- cri - critique
- adv - advertisment
- sho - short texts (krátké zprávy navzájem oddělené <p>)
- Medium
- médium zdroje
- nepovinný
- hodnoty:
- b - book
- nws - newspaper
- j - journal (periodic)
- scr - screenplay
- net - Internet
- oc - occassional
- cdrom - eletronic medium
- Auth_N
- Author name
- povinný
- Auth_S
- Author sex
- nepovinný
- hodnoty:
- m - muž
- f - žena
- Tran_N
- Translator name
- nepovinný
- Tran_S
- Translator sex
- nepovinný
- hodnoty:
- m - muž
- f - žena
- Lang
- jazyk
- povinný
- hodnoty: jazyky se kódují dle normy ISO 639:1988
- několik běžných hodnot:
- cs - Czech
- de - German
- en - English
- sk - Slovak
- ru - Russian
- S_Lang
- jazyk, z kterého bylo překládáno
- nepovinný
- hodnoty: jazyky se kódují dle normy ISO 639:1988
- Date
- datum zařazení do korpusu
- nepovinný
- hodnoty jsou podmnožinou normy ISO 8601, jsou tři možnosti:
- yyyy-mm-dd např. 1998-07-14
- yyyy-mm např. 1998-07
- yyyy např. 1998
- F_Publ
- datum 1. publikování dokumentu
- nepovinný
- hodnoty: viz "Date"
- D_Publ
- datum publikování zdrojového dokumentu
- povinný
- hodnoty: viz Date
- M_Auth
- jméno autora nebo programu, který provedl nějaké transformace, které se podílely na výsledném tvaru odpovídajícího vertikálu
- povinný, pokud byla provedena nějaká transformace
- M_Date
- datum transformace
- uvést za každým M_Auth
- M_Desc
- popis transformace
- uvést za každým M_Date
- Signat
- signatura dokumentu - 8 znaků
- nepoužívat - přidá samostatný program!
- slouží ke kontrole duplicit
- např. "Signat: A1B72E55"
- Size
- rozsah dokumentu
- nepoužívat - přidá samostatný program!
- udává počet pozic
- např. "Size : 172"
- Lemmat
- kvalita dokumentu
- nepoužívat - přidá samostatný program!
- udává poměr korektních českých pozic k pozicím, která jsou slovy, a k celkovému počtu pozic, s využitím morfologického analyzátoru
- např. "Lemmat : 88%;78%"
- Offset
- umístění dokumentu - vertikálu v souboru *.vert
- nepoužívat - přidá samostatný program!
- udává začátek dokumentu a jeho délku
- slouží jako parametry pro seek() a read()
- např. "Offset: 0,12345"