Changes between Initial Version and Version 1 of cs/ElektronickeKnihovnyNaInternetu


Ignore:
Timestamp:
Mar 3, 2014, 3:53:08 PM (8 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
 • cs/ElektronickeKnihovnyNaInternetu

  v1 v1  
   1= Elektronické knihovny na internetu = #Elektronick.2BAOk_knihovny_na_internetu
   2= Obsah = #Obsah
   3 * [[ElektronickeKnihovnyNaInternetu#history| Historie vzniku elektronických knihoven a jejich filosofie]]
   4
   5 * [[ElektronickeKnihovnyNaInternetu#problems| Nejpalčivější problémy elektronických knihoven]]
   6
   7 * [[ElektronickeKnihovnyNaInternetu#meaning| Význam elektronických knihoven v korpusové lingvistice]]
   8
   9 * [[ElektronickeKnihovnyNaInternetu#gutenberg| Projekt Gutenberg na dlani]]
   10
   11 * [[ElektronickeKnihovnyNaInternetu#virginia| University of Virinia E-text library]]
   12
   13 * [[ElektronickeKnihovnyNaInternetu#links| Telegraficky další zdroje]]
   14
   15 * [[ElektronickeKnihovnyNaInternetu#czech| Co najdeme v České republice]]
   16
   17 * [[ElektronickeKnihovnyNaInternetu#conclusion| Závěr]]
   18
   19= Historie vzniku elektronických knihoven a jejich filosofie = #history
   20Již  v počátcích výpočetní techniky se uvažovalo o jejím použití při archivaci textových dokumentu. To se však dělo pouze lokálně, typicky při úlohách hromadného zpracování dat.
   21
   22S  rozvojem počítačových sítí, zejména poté, co přešla ARPA z vojenských    do akademických kruhu, se však situace radikálně zlepšila. Víte, že se    říká, že ''škola je tak dobrá, jak rozsáhlá a kvalitní je její knihovna''.      Spotřebovalo se mnoho tisíc hodin strojového času při převádění  tištěného   textu do elektronické podoby, ať již ručním opisováním, či  skenováním a následným   OCR.
   23
   24A  tak se pomalu začala uskutečňovat vize celosvětové elektronické  knihovny,   která by obsahovala velký podíl všech knih, časopisů i  jiných tiskovin, jež   byly kdy vydány, a tyto by pak byly celosvětově  dostupné - zdarma či za mírný    poplatek - prostřednictvím Internetu.
   25
   26
   27= Nejpalčivější problémy elektronických knihoven = #problems
   28Vize  tak rozsáhlé knihovny, jak byla popsána výše, je stále ještě velmi   idealistická. Pomineme-li nedostatek zapálených nadšenců, resp. grantů,   z nichž by se další rozšiřování knihoven financovalo, vyvstává nám  jeden  zásadní problém - totiž neexistence standardu, podle kterého by  se texty  zpracovávaly. V současné době je nejpoužívanějším systém  značkovacích  (mark-up) jazyků založených na SGML. Ten se nejvíce  přibližuje požadavkům  na universální formát pro e-text processing. Těmi  jsou
   29
   30 1. čitelnost pro člověka i čitelnost pro většinu počítačových systému
   31 1. schopnost obsáhnout všechny aspekty (žánry, styly atd.) textu
   32 1. možnost snadné údržby textu (orientace, vyhledávání, statistiky, ...)
   33 1. predikce budoucích požadavků, nutnost persistence
   34
   35Již několik let působí iniciativa, která si vytkla takovýto standard vytvořit. Jmenuje se ''Text Encoding Initiative'' ve zkratce ''TEI''.
   36
   37Krátce se též zmiňme o legislativních potížích. Největší překážkou pro rozvoj  elektronických knihoven je bezesporu '''autorský zákon'''.  Legislativa je  v jednotlivých zemích roztříštěná, a navíc většinou  velmi striktní. Mnoho  elektronických knihoven se snaží poskytnout ''public domain e-texty''  v co nejkratší době poté, co do této kategorie spadnou. Nicméně  vzhledem  k tomu, že například ve Spojených státech se prodloužila tato  doba ze  14 na 28 a později dokonce na 50 let po autorově smrti, je   zřejmé, že se čtenář nových knih v elektronické podobě během svého  života  nedočká, alespoň tedy ne legálně. Proto vetšina elektronických  knihoven  obsahuje přepisy starších děl nebo nové elektronické knihy  prodává.
   38
   39= Význam elektronických knihoven v korpusové lingvistice = #meaning
   40Primární  význam elektronických knihoven jako zdroj vědomostí, myšlenek   a  kultury lidstva je zřejmý a nezpochybnitelný, avšak tyto zdroje lze  s  výhodou použít i pro mnoho jiných účelů, včetně korpusové lingvistiky.   Uveďme některé z nich
   41
   42 * '''zdroj textů pro korpusy'''[[BR]]
   43 Shánět zdroje pro korpusy je vždy obtížné, zejména pak v  oblastech, které nikdy nebyly primárně elektronicky tvořené.  Problémem samozřejmě  může být, že standardní korpusy požadují  relativně nová díla. Tato díla jsou také dostupná, ale komerčně.  Další nepříjemností pro nás      je, že většina textů je v angličtině,  němčině či jiných světových jazycích. Ovšem je pravda, že i v  českých vodách najdeme první vlaštovky.
   44
   45 * '''zdroj textů pro paralelní korpusy'''[[BR]]
   46 Tento aspekt vidím jako stěžejní. Na Internetu můžeme nalézt na  různých      počítačích stejná díla v jiném jazyce. Bezesporu záleží i  na roce vydání,      nakladatelství a mnoha dalších aspektech, ale  přesto se domnívám, že       elektronické knihovny jsou pro tvorbu  paralelních korpusu skvělým ulehčením.
   47
   48 * '''zdroj pro tvorbu lexikonů'''[[BR]]       
   49 Vzhledem ke skutečnosti, že ve formě volně dostupných  elektronických      textů se často nacházejí starší beletristická díla,  naskýtá se nám      možnost využít elektronické texty jako zdroj  archaismů pro různé specializované      slovníky, např. etymologické  nebo slovníky archaismů,  ale i pro mapování      použití různých slov  pro klasické výkladové slovníky.
   50
   51= Projekt Gutenberg na dlani = #gutenberg
   52Jako typickou ukázku elektronické knihovny uveďme nejstarší a velmi ambiciozní  zdroj elektronických textů - '''Project Gutenberg'''
   53
   54 * Pár slov k jeho počátkům [[BR]]               
   55 Projekt vzniká v roce 1971 na universitě v Illinois.  Původně se       na něm podílí nadšenec Michael Hart, operátor mainframu  Xerox Sigma V,       se svými přáteli, který chtěl, podle svých slov,  rozumně využít počítačový      čas, a tak si půjčil v universitní  knihovně Deklaraci nezávislosti,       jejímž opsáním vznikl první  elektronický text se záměrem být součástí      budoucí celosvětové  rozsáhlé elektronické knihovny.
   56
   57 * Primární cíl  [[BR]]         
   58 Primarním cílem Projektu Gutenberg je zpřístupnit informace,        knihy i jiný tiskový materiál široké veřejnosti ve formě, kterou        bude moci drtivá většina počítačových platforem i lidí        číst,  citovat a prohledávat.
   59
   60 * Výstupní formát [[BR]]         
   61 Formátem, ve kterém jsou knihy tohoto projektu dostupné, je        ''plain vanilla ASCII'',  a to z důvodů co největší kompatibility       se stávajícím i budoucím  vybavením. Tento textový soubor je vhodným       výchozím formátem pro  další derivace. Například, pokud chceme označkovat       knihu přesně  tak jak je napsaná, pak za předpokladu, že existuje soubor       v  archivu Projektu Gutenberg, stačí vzít tu knihu spolu s textem z archivu         a pouze příslušně označkovat ten text, aniž by se musel i  převádět.
   62
   63 * Typy knih vybíraných ke zpracování[[BR]]         
   64 Fond Projectu Gutenberg má 3 části:
   65    1. lehká literatura, beletrie: např. Alenka v říši divů, Aesopovy           bajky, Peter Pan atd.
   66    1. náročná literatura: např. Bible či jiné náboženské dokumenty,                Shakespeare, Moby Dick, Paradise Lost, ...
   67    1. reference a příručky: třeba Roget's Thesaurus, almanachy, řada               encyklopedií apod.
   68
   69 * Plány do budoucna
   70   * založení ''The Public Domain Registru'', přičemž zakladatelé           zvou všechnu instituce i jednotlivce, aby se připojili.
   71
   72 * do konce roku 2001 vydat mnoho edic Shakespeara a jiných klasik           pro porovnávací studii na vědecké úrovni.
   73 * doplnit  do některých knih ilustrace, ale zatím se čeká na             pokročilejší technologie a jednotný standard začleňující          i  multimedia.
   74 * na  konci současné fáze Projektu Gutenberg přejít na 3D            replikátorovou technologii děláním CAT, MRI a XRAY fluoroscopových           scankopií.
   75 * Zdroje
   76   * [http://www.gutenberg.net/ homepage][[BR]]
   77   * [http://www.gutenberg.net/newest.txt aktuální seznam knih zpracovaných Projektem Gutenberg][[BR]]
   78   * [http://nlp.fi.muni.cz/cs/Elektronicke_knihovny_na_internetu?action=AttachFile&do=upload_form&ticket=0053149383.74f71aaf0ecfe70bf262b75c9442ec4ecf97b0f9&target=childs.txt příklad knihy zpracované Gutenbergem]
   79
   80= University of Virginia E-text library = #virginia
   81Jako  instituci, která si zvolila v mnoha případech odlišný přístup, bych rád  představil svoji nejoblíbenější studnici    elektronických textu    [http://etext.lib.virginia.edu/ University of Virginia E-text Library].
   82
   83 * Co zde najdeme[[BR]]       
   84 UV-ETL vznikla v roce 1992. Nacházejí se v ní sbírky středověkých  anglických textů, moderních       anglických textů, dále pak i texty v  jiných jazycích (němčině, francouzštině,      latině, japonštině,  čínštině, cyrilici a mnoha dalších).      Některé texty jsou opatřeny  komentáři a, což je nejlepší, občas jsou neanglické      texty uváděny i  s anglickým překladem, a to formou      řádku na řádek, což přímo  vybízí k vytvoření paralelního korpusu, viz      odkazy na konci této  sekce.
   85
   86 * Cíle UV-ETL[[BR]]             
   87 Cílem je poskytnout široký rozsah přesných elektronických  textů. Velká        pozornost je věnována přesnosti a komplexnosti  těchto materiálu a       jejich přesnému bibliografickému popisu.  Ilustrace knih a jiné podpůrné       vizuální materiály (např.  manuscripty) jsou vloženy, kdykoliv je to       možné. Taková praxe je  podle pracovníků UV-ETL nezbytná při vytváření        dlouhodobých  textových zdrojů.
   88
   89 * Realizace[[BR]]         
   90 Texty, které jsou určeny ke zpracování, se označí SGML a stávají  se       součástí on-line archivu, přičemž kdykoliv je to právně možné,  mají       k nim zájemci volný přístup přes WWW pro nekomerční použití.  Tyto       webově přístupné texty jdou přes '''TEI-to-HTML''' konvertor        v okamžiku, kdy si je uživatel vyžádá, tedy konverze probíhá       on-the-fly.
   91
   92 * SGML? - SGML!! [[BR]]         
   93 Ve svazcích v UV on-line kolekci elektronických textu jsou použity       tagy SGML, systému pro popis '''strukturního dělení textu''' (titul, kapitola, scéna, stanza, ...), '''typografických elementů'''  (změny typu písma, speciální znaky, ...), a jiných textových        prvků (gramatická struktura, umístění ilustrací, variantní formy, ...).        SGML tagy se skládají pouze z ASCII kódu, nejsou závislé na  určitém       počítačovém programu. Popisují třídu informace, ke které  fráze patří.       Zaznamenání struktury texty umožňuje snadné  vyhledávání různých momentů              (podle tagů). Jako příklad si  uveďme kapitolu, jejíž titul by se měl objevit       v kursivě:
   94
   95{{{
   96        < div type="Kapitol" n=1 >
   97}}}
   98
   99{{{
   100        < head rend="kursiva"> Jméno kapitoly </head >
   101}}}
   102
   103{{{
   104        < p > [Text kapitoly se objeví zde] </p > </div >
   105}}}
   106
   107 * Tagy  používané v Elecronic Text Centru jsou částí výše        zmíněného TEI,  implementace SGML pro texty humanitárních věd. Používána       je  sofistikovaná, dobře vybraná podmnožina nazvaná ''TEI-LITE''.
   108
   109 * Používaný software[[BR]]           
   110 SGML dokumenty nejsou designované ke čtení v surové podobě.  Ideální         je používat softwarové nástroje, které interpretují tagy  jako databázovou         položku při vyhledávání nebo jako sadu  instrukcí typografickému         layoutu při zobrazení výsledků. Pro  indexaci a vyhledávání v databázích         je ''Open Text'' vyhledávací engine původně vytvořený pro použití         s ''Oxford English Dictionary''.  Tento software je přístupný i pro         prohledávání přes Web  interface v UV Library, kde se používá též         výše zmíněný  TEI-to-HTML konvertor napsaný přímo v Electronic Text         Centru,  což umožňuje mít na serveru pouze kopie v TEI.
   111
   112 * A nyní již pár slíbených odkazů:[[BR]]
   113   * [http://etext.lib.virginia.edu/uvaonline.html Vstupní bod]pro                prohlížení elektronických publikací
   114   * Na [http://etext.lib.virginia.edu/cyrillic/mandelstam/ tomto]  ruském textu si demonstrujeme, jak vhodně upravené jsou některé texty      na to, aby se z nich vytvořily paralelní korpusy. Všimněme si také,      že ke každé stránce je k dispozici její manuskript.
   115   * [http://etext.lib.virginia.edu/fr-on.html Tady],  ve           francouzské sekci této elektronické knihovny, se můžeme  přesvědčit,          že se tady vyskytují i vědečtější díla, např. ''La Machine arithmétique'' od ''Blaise Pascala''.
   116   * V [http://etext.lib.virginia.edu/eng-on.html anglické] sekci, jež je bezesporu nejrozsáhlejší, můžeme najít i takové zajímavosti     jako ''The Old English Corpus''. Bohužel je přístupný pouze pro     vědecké pracovníky Virginské university.
   117
   118= Telegraficky další zdroje = #links
   119Mimo  mnoha odkazů, které lze najít například v UV ETL, o níž pojednával   předchozí úsek této práce, vás seznámím s některými dalšími  internetovskými  zdroji, přičemž tyto se asi budou doplňovat, kdykoliv  se objeví nějaká   nová zajímavá knihovna. Čtenáře proto prosím, aby mě  případně informovali  [mailto:xoplust@informatics.muni.cz e-mailem], pokud budou  mít zajímavý tip.
   120
   121 * [http://netserf.cua.edu/literature Odkazy] na sbírky středověké               literatury.
   122
   123 * Celosvětově nejvetší knihovna a její volně přístupná část, to je          [http://www.loc.gov/ knihovna Kongresu Spojených států].
   124
   125 * [http://www.lib.virginia.edu/wess/germtext.html Německá           literatura] na Internetu.
   126
   127 * Německá verze [http://gutenberg.aol.de/gutenb.htm Projektu       Gutenberg]
   128
   129 * Vstupní bod pro           [http://fllc.smu.edu/fllc/frlib/francophonelib.html francouzskou literaturu] na Internetu.
   130
   131 * [http://vaxxine.com/koren/books/booksite.html Něco o knihách na Internetu obecně]
   132
   133= Co najdeme v České republice = #czech
   134V  České republice jsou volně přístupné zdroje elektronických textů stále    ještě vzácností. Relativně rozsáhlá je síť knihoven, které o sobě  dávají   vědět přes Internet, stále častější jsou také elektronická  knihkupectví.   Z volně dostupných textů jde většinou pouze o časopisy a  deníky.    Uveďme si některé odkazy:[[BR]]
   135
   136 * [http://frenstat.phobos.cz/cesta/knihovny.htm Rozcestník       s odkazy na knihovny v České republice]
   137
   138 * [http://ikaros.ff.cuni.cz/asc/ikaros/rub/knih.htm Stránky      o elektronických knihovnách a elektronickém publikování v ČR]
   139
   140 * O nesmělý pokus vytvořit elektronickou knihovnu o své práci     se pokouší [http://www.psp.cz/eknih Parlament České republiky]
   141
   142 * On-line se také nachází [http://www.fee.vutbr.cz/%7Emichal/kr/ Bible    Kralická]
   143
   144= Závěr = #conclusion
   145Věřím,  že vás tento malý exkurs do světa virtuálních knihoven přesvědčil,   že  na Internetu je již značné množství zdrojů, ze kterých lze často   jak  čerpat poučení, tak je lze využívat i pro vědecké účely,    například  korpusovou lingvistiku. Samozřejmě je ještě velmi daleko doba,   kdy se  za použití jednotného formátu, za pomoci nějakým způsobem hierarchicky    řešených vzájemných odkazů vytvoří skutečná celosvětová knihovna, která    by obsahovala drtivou většinu písemností lidstva, kde by byly mezi  sebou   propojeny stejné knihy v různých jazycích a kde by ke každému   elektronickému   textu byly odkazy na vyčerpávající informace o něm  (autoři, doba, nakladatelství   a mnoho dalších relevantních odkazů).  Zatím se však ještě hledají   metody, jak efektivněji získávat a  organizovat tyto elektronické texty.   Do této práce by se měla  výrazněji zapojit i Česká republika, protože jakmile   nebude česká  literatura (a kultura obecně) na Internetu, tak prostě nemá šanci    přežít. Na tomto úsilí se již nyní velmi výrazně podílí lingvistická  sekce   Fakulty informatiky Masarykovy university svojí snahou ve formě  korpusu   uchovat podobu české řeči psané i mluvené a tím pádem i české  kultury obecně.