wiki:cs/ElektronickeKnihovnyNaInternetu

Version 1 (modified by xkocinc, 10 years ago) (diff)

--

Elektronické knihovny na internetu

Obsah

Historie vzniku elektronických knihoven a jejich filosofie

Již v počátcích výpočetní techniky se uvažovalo o jejím použití při archivaci textových dokumentu. To se však dělo pouze lokálně, typicky při úlohách hromadného zpracování dat.

S rozvojem počítačových sítí, zejména poté, co přešla ARPA z vojenských do akademických kruhu, se však situace radikálně zlepšila. Víte, že se říká, že škola je tak dobrá, jak rozsáhlá a kvalitní je její knihovna. Spotřebovalo se mnoho tisíc hodin strojového času při převádění tištěného textu do elektronické podoby, ať již ručním opisováním, či skenováním a následným OCR.

A tak se pomalu začala uskutečňovat vize celosvětové elektronické knihovny, která by obsahovala velký podíl všech knih, časopisů i jiných tiskovin, jež byly kdy vydány, a tyto by pak byly celosvětově dostupné - zdarma či za mírný poplatek - prostřednictvím Internetu.

Nejpalčivější problémy elektronických knihoven

Vize tak rozsáhlé knihovny, jak byla popsána výše, je stále ještě velmi idealistická. Pomineme-li nedostatek zapálených nadšenců, resp. grantů, z nichž by se další rozšiřování knihoven financovalo, vyvstává nám jeden zásadní problém - totiž neexistence standardu, podle kterého by se texty zpracovávaly. V současné době je nejpoužívanějším systém značkovacích (mark-up) jazyků založených na SGML. Ten se nejvíce přibližuje požadavkům na universální formát pro e-text processing. Těmi jsou

  1. čitelnost pro člověka i čitelnost pro většinu počítačových systému
  2. schopnost obsáhnout všechny aspekty (žánry, styly atd.) textu
  3. možnost snadné údržby textu (orientace, vyhledávání, statistiky, ...)
  4. predikce budoucích požadavků, nutnost persistence

Již několik let působí iniciativa, která si vytkla takovýto standard vytvořit. Jmenuje se Text Encoding Initiative ve zkratce TEI.

Krátce se též zmiňme o legislativních potížích. Největší překážkou pro rozvoj elektronických knihoven je bezesporu autorský zákon. Legislativa je v jednotlivých zemích roztříštěná, a navíc většinou velmi striktní. Mnoho elektronických knihoven se snaží poskytnout public domain e-texty v co nejkratší době poté, co do této kategorie spadnou. Nicméně vzhledem k tomu, že například ve Spojených státech se prodloužila tato doba ze 14 na 28 a později dokonce na 50 let po autorově smrti, je zřejmé, že se čtenář nových knih v elektronické podobě během svého života nedočká, alespoň tedy ne legálně. Proto vetšina elektronických knihoven obsahuje přepisy starších děl nebo nové elektronické knihy prodává.

Význam elektronických knihoven v korpusové lingvistice

Primární význam elektronických knihoven jako zdroj vědomostí, myšlenek a kultury lidstva je zřejmý a nezpochybnitelný, avšak tyto zdroje lze s výhodou použít i pro mnoho jiných účelů, včetně korpusové lingvistiky. Uveďme některé z nich

  • zdroj textů pro korpusy
    Shánět zdroje pro korpusy je vždy obtížné, zejména pak v oblastech, které nikdy nebyly primárně elektronicky tvořené. Problémem samozřejmě může být, že standardní korpusy požadují relativně nová díla. Tato díla jsou také dostupná, ale komerčně. Další nepříjemností pro nás je, že většina textů je v angličtině, němčině či jiných světových jazycích. Ovšem je pravda, že i v českých vodách najdeme první vlaštovky.
  • zdroj textů pro paralelní korpusy
    Tento aspekt vidím jako stěžejní. Na Internetu můžeme nalézt na různých počítačích stejná díla v jiném jazyce. Bezesporu záleží i na roce vydání, nakladatelství a mnoha dalších aspektech, ale přesto se domnívám, že elektronické knihovny jsou pro tvorbu paralelních korpusu skvělým ulehčením.
  • zdroj pro tvorbu lexikonů
    Vzhledem ke skutečnosti, že ve formě volně dostupných elektronických textů se často nacházejí starší beletristická díla, naskýtá se nám možnost využít elektronické texty jako zdroj archaismů pro různé specializované slovníky, např. etymologické nebo slovníky archaismů, ale i pro mapování použití různých slov pro klasické výkladové slovníky.

Projekt Gutenberg na dlani

Jako typickou ukázku elektronické knihovny uveďme nejstarší a velmi ambiciozní zdroj elektronických textů - Project Gutenberg

  • Pár slov k jeho počátkům
    Projekt vzniká v roce 1971 na universitě v Illinois. Původně se na něm podílí nadšenec Michael Hart, operátor mainframu Xerox Sigma V, se svými přáteli, který chtěl, podle svých slov, rozumně využít počítačový čas, a tak si půjčil v universitní knihovně Deklaraci nezávislosti, jejímž opsáním vznikl první elektronický text se záměrem být součástí budoucí celosvětové rozsáhlé elektronické knihovny.
  • Primární cíl
    Primarním cílem Projektu Gutenberg je zpřístupnit informace, knihy i jiný tiskový materiál široké veřejnosti ve formě, kterou bude moci drtivá většina počítačových platforem i lidí číst, citovat a prohledávat.
  • Výstupní formát
    Formátem, ve kterém jsou knihy tohoto projektu dostupné, je plain vanilla ASCII, a to z důvodů co největší kompatibility se stávajícím i budoucím vybavením. Tento textový soubor je vhodným výchozím formátem pro další derivace. Například, pokud chceme označkovat knihu přesně tak jak je napsaná, pak za předpokladu, že existuje soubor v archivu Projektu Gutenberg, stačí vzít tu knihu spolu s textem z archivu a pouze příslušně označkovat ten text, aniž by se musel i převádět.
  • Typy knih vybíraných ke zpracování
    Fond Projectu Gutenberg má 3 části:
    1. lehká literatura, beletrie: např. Alenka v říši divů, Aesopovy bajky, Peter Pan atd.
    2. náročná literatura: např. Bible či jiné náboženské dokumenty, Shakespeare, Moby Dick, Paradise Lost, ...
    3. reference a příručky: třeba Roget's Thesaurus, almanachy, řada encyklopedií apod.
  • Plány do budoucna
    • založení The Public Domain Registru, přičemž zakladatelé zvou všechnu instituce i jednotlivce, aby se připojili.

University of Virginia E-text library

Jako instituci, která si zvolila v mnoha případech odlišný přístup, bych rád představil svoji nejoblíbenější studnici elektronických textu University of Virginia E-text Library.

  • Co zde najdeme
    UV-ETL vznikla v roce 1992. Nacházejí se v ní sbírky středověkých anglických textů, moderních anglických textů, dále pak i texty v jiných jazycích (němčině, francouzštině, latině, japonštině, čínštině, cyrilici a mnoha dalších). Některé texty jsou opatřeny komentáři a, což je nejlepší, občas jsou neanglické texty uváděny i s anglickým překladem, a to formou řádku na řádek, což přímo vybízí k vytvoření paralelního korpusu, viz odkazy na konci této sekce.
  • Cíle UV-ETL
    Cílem je poskytnout široký rozsah přesných elektronických textů. Velká pozornost je věnována přesnosti a komplexnosti těchto materiálu a jejich přesnému bibliografickému popisu. Ilustrace knih a jiné podpůrné vizuální materiály (např. manuscripty) jsou vloženy, kdykoliv je to možné. Taková praxe je podle pracovníků UV-ETL nezbytná při vytváření dlouhodobých textových zdrojů.
  • Realizace
    Texty, které jsou určeny ke zpracování, se označí SGML a stávají se součástí on-line archivu, přičemž kdykoliv je to právně možné, mají k nim zájemci volný přístup přes WWW pro nekomerční použití. Tyto webově přístupné texty jdou přes TEI-to-HTML konvertor v okamžiku, kdy si je uživatel vyžádá, tedy konverze probíhá on-the-fly.
  • SGML? - SGML!!
    Ve svazcích v UV on-line kolekci elektronických textu jsou použity tagy SGML, systému pro popis strukturního dělení textu (titul, kapitola, scéna, stanza, ...), typografických elementů (změny typu písma, speciální znaky, ...), a jiných textových prvků (gramatická struktura, umístění ilustrací, variantní formy, ...). SGML tagy se skládají pouze z ASCII kódu, nejsou závislé na určitém počítačovém programu. Popisují třídu informace, ke které fráze patří. Zaznamenání struktury texty umožňuje snadné vyhledávání různých momentů (podle tagů). Jako příklad si uveďme kapitolu, jejíž titul by se měl objevit v kursivě:
        < div type="Kapitol" n=1 >
        < head rend="kursiva"> Jméno kapitoly </head > 
        < p > [Text kapitoly se objeví zde] </p > </div >
  • Tagy používané v Elecronic Text Centru jsou částí výše zmíněného TEI, implementace SGML pro texty humanitárních věd. Používána je sofistikovaná, dobře vybraná podmnožina nazvaná TEI-LITE.
  • Používaný software
    SGML dokumenty nejsou designované ke čtení v surové podobě. Ideální je používat softwarové nástroje, které interpretují tagy jako databázovou položku při vyhledávání nebo jako sadu instrukcí typografickému layoutu při zobrazení výsledků. Pro indexaci a vyhledávání v databázích je Open Text vyhledávací engine původně vytvořený pro použití s Oxford English Dictionary. Tento software je přístupný i pro prohledávání přes Web interface v UV Library, kde se používá též výše zmíněný TEI-to-HTML konvertor napsaný přímo v Electronic Text Centru, což umožňuje mít na serveru pouze kopie v TEI.
  • A nyní již pár slíbených odkazů:
    • Vstupní bodpro prohlížení elektronických publikací
    • Na tomto ruském textu si demonstrujeme, jak vhodně upravené jsou některé texty na to, aby se z nich vytvořily paralelní korpusy. Všimněme si také, že ke každé stránce je k dispozici její manuskript.
    • Tady, ve francouzské sekci této elektronické knihovny, se můžeme přesvědčit, že se tady vyskytují i vědečtější díla, např. La Machine arithmétique od Blaise Pascala.
    • V anglické sekci, jež je bezesporu nejrozsáhlejší, můžeme najít i takové zajímavosti jako The Old English Corpus. Bohužel je přístupný pouze pro vědecké pracovníky Virginské university.

Telegraficky další zdroje

Mimo mnoha odkazů, které lze najít například v UV ETL, o níž pojednával předchozí úsek této práce, vás seznámím s některými dalšími internetovskými zdroji, přičemž tyto se asi budou doplňovat, kdykoliv se objeví nějaká nová zajímavá knihovna. Čtenáře proto prosím, aby mě případně informovali e-mailem, pokud budou mít zajímavý tip.

  • Odkazy na sbírky středověké literatury.

Co najdeme v České republice

V České republice jsou volně přístupné zdroje elektronických textů stále ještě vzácností. Relativně rozsáhlá je síť knihoven, které o sobě dávají vědět přes Internet, stále častější jsou také elektronická knihkupectví. Z volně dostupných textů jde většinou pouze o časopisy a deníky. Uveďme si některé odkazy:

Závěr

Věřím, že vás tento malý exkurs do světa virtuálních knihoven přesvědčil, že na Internetu je již značné množství zdrojů, ze kterých lze často jak čerpat poučení, tak je lze využívat i pro vědecké účely, například korpusovou lingvistiku. Samozřejmě je ještě velmi daleko doba, kdy se za použití jednotného formátu, za pomoci nějakým způsobem hierarchicky řešených vzájemných odkazů vytvoří skutečná celosvětová knihovna, která by obsahovala drtivou většinu písemností lidstva, kde by byly mezi sebou propojeny stejné knihy v různých jazycích a kde by ke každému elektronickému textu byly odkazy na vyčerpávající informace o něm (autoři, doba, nakladatelství a mnoho dalších relevantních odkazů). Zatím se však ještě hledají metody, jak efektivněji získávat a organizovat tyto elektronické texty. Do této práce by se měla výrazněji zapojit i Česká republika, protože jakmile nebude česká literatura (a kultura obecně) na Internetu, tak prostě nemá šanci přežít. Na tomto úsilí se již nyní velmi výrazně podílí lingvistická sekce Fakulty informatiky Masarykovy university svojí snahou ve formě korpusu uchovat podobu české řeči psané i mluvené a tím pádem i české kultury obecně.