Changes between Initial Version and Version 1 of cs/UvodDoKorpusoveLingvistiky


Ignore:
Timestamp:
Feb 28, 2014, 2:26:08 PM (7 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/UvodDoKorpusoveLingvistiky

    v1 v1  
     1= Úvod do korpusové lingvistiky = #A.2BANo-vod_do_korpusov.2BAOk_lingvistiky
     2= Úvod = #A.2BANo-vod
     3Korpusová  lingvistika je nové odvětví lingvistiky, které se objevilo relativně  nedávno až díky počítačům a informačním technologiím. Existují  softwarové nástroje, které umožňují třídit a klasifiovat, analyzovat a  vyhodnocovat jazyková data v rozsahu, který by nebyl manuálně nikdy  možný. To má ovšem značné metodologické důsledky: bez počítačů a  informačních technologií bychom sotva mohli dospět k takovému typu  poznání jazyka, jaké je dnes možné. Nyní lze podrobně zkoumat v podstatě  libovolné jazykové jevy a pokoušet se o jejich opravdu přesné a  adekvátní generalizace, proti nimž byly dřívější popisy jazyka jen  intuitivními (to ale nemusí znamenat, že vždy chybnými) aproximacemi.  Hromadnost a velikost zpracovávaných dat vede ke kvalitativním změnám v  metodologii takové empirické vědy, jímž je současná lingvistika.   
     4
     5= Kdy vznikla korpusová lingvistika = #Kdy_vznikla_korpusov.2BAOE_lingvistika
     6Na teoretické rovině to bylo nejspíše v 50. letech, kdy někteří američtí lingvisté (Harris, Hill) dospěli k názoru, že ''korpus -- dostatečně velký soubor přirozeně se vyskytujících jazykových dat''  -- je nutným a dostačujícím empirickým základem pro vytvoření popisu  daného přirozeného jazyka (jeho gramatiky); přitom intuitivní evidence a  introspekce byla odsunuta až na druhé místo, ne-li vůbec na poslední.   
     7
     8Korpusová  lingvistika v novém pojetí začala vznikat nenápadně počátkem 60. let  (Quirk, 1960, Kučera a Francis, 1967). Quirk začal pracovat na [http://www.ucl.ac.uk/english-usage/ Survey of English Usage, SEU].  V rámci SEU se počítalo i se zpracováním mluvené angličtiny, nebyl však  orientován počítačově. O něco později začal pod vedením Čecha H. Kučery  a Američana N. Francise na Brown University v USA vznikat počítačový  korpus současné americké angličtiny -- ''Computation Analisis of Present-Day American English'', obsahující jen psané texty.   
     9
     10Dnes  je již korpusů v jednotlivých jazycích celá řada a jejich rozsah i  počet roste -- jen u angličtiny to začíná klasickým miliónovým ''Brown Corpusem'' až po nedávný [http://info.ox.ac.uk/bnc/%20 British National Corpus -- BNC] obsahující ''100 miliónů'' slov a v rámci [http://titania.cobuild.collins.co.uk/ COBUILDu] v Birminghamu vytvořený korpus [http://titania.cobuild.collins.co.uk/ Bank of English] (J. Sinclair) čítající nyní ''220 miliónů'' slovních forem a připravený k rozšíření na 500 miliónů.   
     11
     12Plný  rozkvět korpusové lingvistiky však nastává teprve v poslední době a to  díky prudkému vývoji v oblasti informatiky, informačních technologií a  hardwaru. Lze očekávat, že s rozvojem textových procesorů, strojově  čitelných textů, slovníků, multimediálních a počítačových sítí budou do  konce století k dispozici korpusy čítající ''miliardy'' slovních forem.   
     13
     14= Co je korpus = #Co_je_korpus
     15V současnosti se ''korpusem'' rozumí ''rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný.''  Texty jsou v korpusu strukturovány a organizovány se zřetelem k využití  pro určitý cíl, vůči němuž pak je korpus považován za reprezentativní.   
     16
     17Podle  účelu existují různé typy korpusů. Podle zdroje textů mohou být korpusy  psaného nebo mluveného jazyka, všeobecné nebo specializované na určitý  styl, publicistický nebo odborný. Většina korpusů s ohledem na svou  reprezentativnost obsahuje v různém poměru zástupce všech možných  kategorií textů. Podle uložených dat mohou korpusy obsahovat pouze holé  texty nebo texty různě označkované (anotované). Značkované korpusy  samozřejmě poskytují více informací o jazyku, a proto je snaha korpusy  značkovat. To lze provádět buď ručně, což je ale velice nákladné, nebo  automaticky (strojově), což může někdy znamenat zanesení jisté míry  nepřesností do značkování. Proto se také mnoho výzkumů v korpusové  lingvistice zabývá právě automatickým značkováním textů.   
     18
     19= Využití korpusů = #Vyu.2BAX4-it.2BAO0_korpus.2BAW8-
     20Korpusová data jsou použitelná pro odborníky v řadě oborů: 
     21
     22 * psychology     
     23 * sociology     
     24 * sociolingvisty     
     25 * odborníky v oblasti masové komunikace a médií     
     26 * lexikografy a lingvisty     
     27 * překladatele (strojový překlad)     
     28 * tvůrce učebnic a referenčích příruček (gramatiky, slovníky)     
     29 * v oblasti umělé inteligence (porozumění v přirozeném jazyce, reprezentace znalostí aj.)