Čeština
English
  • Vítejte na stránkách NLP Centra!
  • Zapojte se do vývoje softwarových nástrojů!
  • Analýza přirozeného jazyka
  • Vyzkoušejte si korpusy o velikosti knihoven online!
  • Studujte jednu ze specializací!
  • Členové laboratoře

Úvod do korpusové lingvistiky

Úvod

Korpusová lingvistika je nové odvětví lingvistiky, které se objevilo relativně nedávno až díky počítačům a informačním technologiím. Existují softwarové nástroje, které umožňují třídit a klasifiovat, analyzovat a vyhodnocovat jazyková data v rozsahu, který by nebyl manuálně nikdy možný. To má ovšem značné metodologické důsledky: bez počítačů a informačních technologií bychom sotva mohli dospět k takovému typu poznání jazyka, jaké je dnes možné. Nyní lze podrobně zkoumat v podstatě libovolné jazykové jevy a pokoušet se o jejich opravdu přesné a adekvátní generalizace, proti nimž byly dřívější popisy jazyka jen intuitivními (to ale nemusí znamenat, že vždy chybnými) aproximacemi. Hromadnost a velikost zpracovávaných dat vede ke kvalitativním změnám v metodologii takové empirické vědy, jímž je současná lingvistika.

Kdy vznikla korpusová lingvistika

Na teoretické rovině to bylo nejspíše v 50. letech, kdy někteří američtí lingvisté (Harris, Hill) dospěli k názoru, že korpus -- dostatečně velký soubor přirozeně se vyskytujících jazykových dat -- je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky); přitom intuitivní evidence a introspekce byla odsunuta až na druhé místo, ne-li vůbec na poslední.

Korpusová lingvistika v novém pojetí začala vznikat nenápadně počátkem 60. let (Quirk, 1960, Kučera a Francis, 1967). Quirk začal pracovat na Survey of English Usage, SEU. V rámci SEU se počítalo i se zpracováním mluvené angličtiny, nebyl však orientován počítačově. O něco později začal pod vedením Čecha H. Kučery a Američana N. Francise na Brown University v USA vznikat počítačový korpus současné americké angličtiny -- Computation Analisis of Present-Day American English, obsahující jen psané texty.

Dnes je již korpusů v jednotlivých jazycích celá řada a jejich rozsah i počet roste -- jen u angličtiny to začíná klasickým miliónovým Brown Corpusem až po nedávný British National Corpus -- BNC obsahující 100 miliónů slov a v rámci COBUILDu v Birminghamu vytvořený korpus Bank of English (J. Sinclair) čítající nyní 220 miliónů slovních forem a připravený k rozšíření na 500 miliónů.

Plný rozkvět korpusové lingvistiky však nastává teprve v poslední době a to díky prudkému vývoji v oblasti informatiky, informačních technologií a hardwaru. Lze očekávat, že s rozvojem textových procesorů, strojově čitelných textů, slovníků, multimediálních a počítačových sítí budou do konce století k dispozici korpusy čítající miliardy slovních forem.

Co je korpus

V současnosti se korpusem rozumí rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný. Texty jsou v korpusu strukturovány a organizovány se zřetelem k využití pro určitý cíl, vůči němuž pak je korpus považován za reprezentativní.

Podle účelu existují různé typy korpusů. Podle zdroje textů mohou být korpusy psaného nebo mluveného jazyka, všeobecné nebo specializované na určitý styl, publicistický nebo odborný. Většina korpusů s ohledem na svou reprezentativnost obsahuje v různém poměru zástupce všech možných kategorií textů. Podle uložených dat mohou korpusy obsahovat pouze holé texty nebo texty různě označkované (anotované). Značkované korpusy samozřejmě poskytují více informací o jazyku, a proto je snaha korpusy značkovat. To lze provádět buď ručně, což je ale velice nákladné, nebo automaticky (strojově), což může někdy znamenat zanesení jisté míry nepřesností do značkování. Proto se také mnoho výzkumů v korpusové lingvistice zabývá právě automatickým značkováním textů.

Využití korpusů

Korpusová data jsou použitelná pro odborníky v řadě oborů:

  • psychology
  • sociology
  • sociolingvisty
  • odborníky v oblasti masové komunikace a médií
  • lexikografy a lingvisty
  • překladatele (strojový překlad)
  • tvůrce učebnic a referenčích příruček (gramatiky, slovníky)
  • v oblasti umělé inteligence (porozumění v přirozeném jazyce, reprezentace znalostí aj.)