Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Initial Version and Version 1 of cs/UvodDoKorpusoveLingvistiky

Timestamp:: Feb 28, 2014, 2:26:08 PM (11 years ago)
Author:: xkocinc
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

cs/UvodDoKorpusoveLingvistiky

                       v1
+= Úvod do korpusové lingvistiky = #A.2BANo-vod_do_korpusov.2BAOk_lingvistiky
+= Úvod = #A.2BANo-vod
+Korpusová  lingvistika je nové odvětví lingvistiky, které se objevilo relativně  nedávno až díky počítačům a informačním technologiím. Existují  softwarové nástroje, které umožňují třídit a klasifiovat, analyzovat a  vyhodnocovat jazyková data v rozsahu, který by nebyl manuálně nikdy  možný. To má ovšem značné metodologické důsledky: bez počítačů a  informačních technologií bychom sotva mohli dospět k takovému typu  poznání jazyka, jaké je dnes možné. Nyní lze podrobně zkoumat v podstatě  libovolné jazykové jevy a pokoušet se o jejich opravdu přesné a  adekvátní generalizace, proti nimž byly dřívější popisy jazyka jen  intuitivními (to ale nemusí znamenat, že vždy chybnými) aproximacemi.  Hromadnost a velikost zpracovávaných dat vede ke kvalitativním změnám v  metodologii takové empirické vědy, jímž je současná lingvistika.
+= Kdy vznikla korpusová lingvistika = #Kdy_vznikla_korpusov.2BAOE_lingvistika
+Na teoretické rovině to bylo nejspíše v 50. letech, kdy někteří američtí lingvisté (Harris, Hill) dospěli k názoru, že ''korpus -- dostatečně velký soubor přirozeně se vyskytujících jazykových dat''  -- je nutným a dostačujícím empirickým základem pro vytvoření popisu  daného přirozeného jazyka (jeho gramatiky); přitom intuitivní evidence a  introspekce byla odsunuta až na druhé místo, ne-li vůbec na poslední.
+Korpusová  lingvistika v novém pojetí začala vznikat nenápadně počátkem 60. let  (Quirk, 1960, Kučera a Francis, 1967). Quirk začal pracovat na [http://www.ucl.ac.uk/english-usage/ Survey of English Usage, SEU].  V rámci SEU se počítalo i se zpracováním mluvené angličtiny, nebyl však  orientován počítačově. O něco později začal pod vedením Čecha H. Kučery  a Američana N. Francise na Brown University v USA vznikat počítačový  korpus současné americké angličtiny -- ''Computation Analisis of Present-Day American English'', obsahující jen psané texty.
+Dnes  je již korpusů v jednotlivých jazycích celá řada a jejich rozsah i  počet roste -- jen u angličtiny to začíná klasickým miliónovým ''Brown Corpusem'' až po nedávný [http://info.ox.ac.uk/bnc/%20 British National Corpus -- BNC] obsahující ''100 miliónů'' slov a v rámci [http://titania.cobuild.collins.co.uk/ COBUILDu] v Birminghamu vytvořený korpus [http://titania.cobuild.collins.co.uk/ Bank of English] (J. Sinclair) čítající nyní ''220 miliónů'' slovních forem a připravený k rozšíření na 500 miliónů.
+Plný  rozkvět korpusové lingvistiky však nastává teprve v poslední době a to  díky prudkému vývoji v oblasti informatiky, informačních technologií a  hardwaru. Lze očekávat, že s rozvojem textových procesorů, strojově  čitelných textů, slovníků, multimediálních a počítačových sítí budou do  konce století k dispozici korpusy čítající ''miliardy'' slovních forem.
+= Co je korpus = #Co_je_korpus
+V současnosti se ''korpusem'' rozumí ''rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný.''  Texty jsou v korpusu strukturovány a organizovány se zřetelem k využití  pro určitý cíl, vůči němuž pak je korpus považován za reprezentativní.
+Podle  účelu existují různé typy korpusů. Podle zdroje textů mohou být korpusy  psaného nebo mluveného jazyka, všeobecné nebo specializované na určitý  styl, publicistický nebo odborný. Většina korpusů s ohledem na svou  reprezentativnost obsahuje v různém poměru zástupce všech možných  kategorií textů. Podle uložených dat mohou korpusy obsahovat pouze holé  texty nebo texty různě označkované (anotované). Značkované korpusy  samozřejmě poskytují více informací o jazyku, a proto je snaha korpusy  značkovat. To lze provádět buď ručně, což je ale velice nákladné, nebo  automaticky (strojově), což může někdy znamenat zanesení jisté míry  nepřesností do značkování. Proto se také mnoho výzkumů v korpusové  lingvistice zabývá právě automatickým značkováním textů.
+= Využití korpusů = #Vyu.2BAX4-it.2BAO0_korpus.2BAW8-
+Korpusová data jsou použitelná pro odborníky v řadě oborů:
+ * psychology
+ * sociology
+ * sociolingvisty
+ * odborníky v oblasti masové komunikace a médií
+ * lexikografy a lingvisty
+ * překladatele (strojový překlad)
+ * tvůrce učebnic a referenčích příruček (gramatiky, slovníky)
+ * v oblasti umělé inteligence (porozumění v přirozeném jazyce, reprezentace znalostí aj.)