Frekvenční analýza vzorů českých substantiv na materiálu ČNK

Frekvence vzorů českých sloves
(na materiálu ČNK)

Klára Osolsobě, Karel Pala, Pavel Rychlý

1.Úvod

V tomto článku bychom rádi nabídli některé nové údaje o frekvencích českých slovesných vzorů na materiálu ČNK a porovnali je se staršími údaji, obsaženými ve Frekvenčním slovníku češtiny (FSČ, 1961). Naše výsledky jsou založeny na analýze materiálu částečně vybudovaného Českého národního korpusu, konkrétně z jeho připravené podčásti – značkovaného subkorpusu s názvem DESAM (obsahuje 1 026 733 slovních tvarů), který byl vytvořen v rámcové spolupráci pracovišť sdružených v grantovém projektu K214, konkrétně pak na FF MU a FI MU v Brně. I když jde o předběžné výsledky, rozsah korpusu DESAM je podle našeho názoru natolik reprezentativní, že může sloužit jako zdroj pro frekvenční analýzu českých sloves, a to jak z hlediska zastoupení jednotlivých konjugačních typů v textu ve srovnání s jejich výskytem ve slovníku, tak i pro srovnání frekvence jednotlivých sloves v jazykovém materiálu představeném ve FSČ a v uvedeném korpusu.

Úvodem několik slov o Českém národním korpusu (dále ČNK), z něhož materiálově vycházíme. Vzniká od roku 1992 a na jeho budování se podílí skupina odborníků z pracovišť na FF UK, MFF UK, FF MU, FI MU a ÚJČ ČAV. Od podzimu roku 1995 koordinuje práci na ČNK samostatný Ústav českého národního korpusu při FF UK v Praze pod vedením prof. F.Čermáka. V současné době zahrnuje ČNK synchronní subkorpus čítající asi 70 milionů slovních tvarů, který má být v průběhu r.1998 rozšířen na 100 milionů tvarů. ČNK je dostupný na Internetu (http://ucnk.ff.cuni.cz/cnc). Dále vzniká diachronní subkorpus ve formě vzorků čítajících asi 1 milion slovních tvarů a mluvený synchronní subkorpus mluvčích z Prahy zahrnující zhruba 500 tisíc slovních tvarů. Komplementárně k němu se na FF MU buduje podobný subkorpus mluvené češtiny (asi 400 tisíc slovních tvarů) zachycující promluvy mluvčích narozených v městě Brně. Tento korpus je nyní dostupný ve formě přepisu pořízených nahrávek, v němž jsou jednotlivým slovním formám přiřazeny příslušné gramatické značky, má tedy vedle své základní podoby i formu částečně značkovanou. Jeho podstatná část tvořená kvalitně nahranými úseky byla nedávno převedena do digitalizované podoby na CD a bude takto posléze přístupná pro výzkumné účely. Značkování přepsaného mluveného korpusu je popsáno v diplomové práci D. Hlaváčkové (Hlaváčková, 1998). Digitalizaci mluvených textů z uvedeného subkorpusu a jejich vypálení na CD provedli studenti FI MU Zrustek a Vydržal.

Jak jsme již řekli, spoluprací FF MU a FI MU vznikl (a dále se rozšiřuje) uvedený značkovaný synchronní subkorpus DESAM, který je rovněž přístupný na internetové adrese: http://www fi.muni.cz/~pary/korp (viz též Pala, Rychlý, Smrž, 1997), čítající něco přes milion gramaticky značkovaných slovních tvarů. Je sestaven z novinových textů (Lidové Noviny, MF DNES), populárněvědných (časopis Vesmír), ekonomicko-publicistických (Českomoravský profit) a také textů odborných (časopis Chip a uživatelský manuál k programu PowerPoint), které pocházejí z období 1992-96.

Při budování ČNK se zatím postupuje tak, že nejdříve se do korpusu začleňují nejsnáze dostupné soubory textů, což jsou z pochopitelných důvodů texty publicistické (jsou dnes k dispozici v podobě počítačových souborů pro sazbu, na CD-ROM nebo je lze získávat i z WWW-stránek) a texty odborné. ČNK již obsahuje i texty z krásné literatury a postupně se do něho začleňují též texty z dalších stylových oblastí tak, aby byla zajištěna co nejvyšší reprezentativnost ČNK.

Značkovaný korpus DESAM

Jestliže jazykový korpus chápeme jako vnitřně strukturovaný, jednotně zpracovaný a rozsáhlý soubor elektronicky uložených jazykových dat (textů) vytvořený obvykle pro určité cíle, pak ve značkovaném korpusu je navíc každému slovnímu tvaru přiřazena gramatická značka. Rozsah informace, kterou gramatická značka nese, může být v různých korpusech různý a je zjevně závislý na lingvistických teoriích, z nichž vycházejí ti, kdo značkování provádějí. Z dosavadních zkušeností korpusové lingvistiky ovšem vyplývá (Leech, 1993), že čím jsou lingvistické teorie, o něž se autoři značek opírají, transparentnější a neutrálnější ve vztahu k často soupeřícím lingvistickým školám, tím je korpus použitelnější pro co nejširší okruh zkoumání. Při budování značkovaného subkorpusu DESAM jsme se opírali o soubor značek, který je podle našeho názoru v dobré shodě se současným standardem gramatické teorie u nás (Havránek, Jedlička, 1981, Petr a kol., 1986). V tomto směru bychom rádi poznamenali, že tato díky této shodě je použitý soubor značek dostatečně blízký taxonomiím, které jsou obvyklé v oblasti tzv. tradiční gramatické teorie. Rozdíly mezi tradičními gramatikami a současnými formálně orientovanými popisy nespočívají podle našeho názoru tolik v použitých taxonomiích jako spíše v tom, jak se s nimi v rámci příslušné teorie pracuje, tj. v tom, je-li daná teorie budována jako dynamická a mající povahu autonomního formálního systému či jako statická a deskriptivní ve formě souboru vět (tvrzení) v nějakém přirozeném jazyce.

2.1 Tvorba značkovaného korpusu

Nejprve připomeňme, že prvním plně gramaticky značkovaným korpusem u nás byl korpus textů věcného stylu (dále VS) vytvořený pod vedením M.Těšitelové v oddělení matematické a kvantitativní lingvistiky v ÚJČ ČSAV na přelomu 70. a 80. let. Byl vytvořen manuálně, čítá 540 000 slovních tvarů a řadu výsledků z jeho zpracování najde čtenář v práci M.Těšitelové (1985). V tomto textu údaje z VS v porovnávacích tabulkách neuvádíme – hlavním důvodem je skutečnost, že jsme korpus VS neměli k dispozici, dále jeho rozsah je menší než rozsah Frekvenčního slovníku češtiny (dále FSČ, Jelínek, Bečka, Těšitelová, 1961), takže příslušná porovnání by nebyla dostatečně úplná.

Podstatou gramatického značkování je vložení jisté interpretující informace do existujícího korpusu psaného nebo mluveného jazyka formou zvoleného symbolického zápisu (Leech, 1993). Rozlišujeme tedy korpusový text samotný a interpretaci k němu přidanou. Cílem gramatického značkování pak je opatřit každý slovní tvar v aktuálním korpusu značkou (tagem, anotací), která symbolicky reprezentuje gramatické významy nesené daným tvarem. V korpusu DESAM pracujeme se značkami, které mají následující strukturu:

jsou definovány jako posloupnosti dvojic typu atribut:hodnota, kde atribut (značí se malým písmenem) reprezentuje některou z možných gramatických kategorií a symbol (velké písmeno nebo číslice) pro hodnotu vyjadřuje aktuální hodnotu, jíž daná kategorie u daného tvaru nabývá. Např. slovnímu tvaru myslím přiřadíme značku k5eAp1nStPmIaI a zachycujeme jí skutečnost, že tvar myslím patří slovnědruhově ke slovesům (k=5), nese kategorii negace, a to (e=A), nachází se v 1.osobě (p=1) singuláru (n=S) prézenta aktiva (t=P) oznamovacího způsobu (m=I) a jedná se o sloveso vidu nedokonavého (a=I). Naopak neurčité tvary slovesné mají odlišnou strukturu značky. Ke značce ještě patří i údaj o vzoru, podle něhož se daný tvar ohýbá. Pro nedostatek místa zde nebudeme uvádět výčet užívaných značek, poznamenejme jen, že celkem je těmito značkami (viz též Hajič, Hladká, 1996, 1997) pokryto obvyklých 10 slovních druhů a všech 14 gramatických kategorií, s nimiž se standardně setkáváme v českých gramatikách (Havránek, Jedlička, 1981, Petr a kol., 1986). Soubor značek pro slovesné tvary je budován takovým způsobem, aby bylo možné na něj navázat systémem pravidel částečné syntaktické analýzy. Složené určité tvary slovesné lze totiž v české větě automaticky rozpoznat až na základě syntaktických pravidel. Teprve máme-li k dispozici celý složený tvar, lze na základě jednotlivých tvarů pomocných a významových složek určit gramatické významy celku, tj. celého slovesného tvaru. Celkem v korpusu DESAM pracujeme s 1665 značkami. K tomuto poměrně vysokému číslu se dospívá možnými kombinacemi slovních druhů včetně subklasifikací (např. u zájmen jich je 8, u číslovek 4, u adverbií 6) s gramatickými kategoriemi, které se s jednotlivými slovními druhy standardně pojí.

Jestliže je naším cílem přiřadit značky tohoto typu každému slovnímu tvaru v korpusu čítajícím v našem případě něco přes milion slovních tvarů, je evidentní, že takovou práci nelze dost dobře zvládnout manuálně (v zásadě je to možné, ale pravděpodobnost takového konání je nepochybně dost nízká). Jediným rozumným a proveditelným řešením je použít počítačů. Pro značkování popsaného typu musíme pro češtinu nejprve použít programu: morfologického analyzátoru (alternativně lze mluvit o lemmatizátoru, jestliže takový program přiřazuje slovním tvarům v textu vedle slovního druhu a příslušných gramatických kategorií i jejich tvary základní (lemmata)) U češtiny výstup získaný z morfologického analyzátoru není ovšem jednoznačný a musí tedy projít další fází zpracování, v níž se provádí zjednoznačnění čili desambiguace.

Základní značkování subkorpusu DESAM bylo provedeno morfologickým analyzátorem LEMMA (Ševeček 1995-96, Osolsobě, 1996). Tento analyzátor (lemmatizátor) pracuje na základě strojového slovníku čítajícího asi 164 000 českých kmenů a dovede každému rozpoznanému slovnímu ve volném textu tvaru přiřadit odpovídající základní tvar, tj.jeho lemma, a jak jsme už řekli, i gramatickou značku nesoucí údaje o příslušných gramatických kategoriích. Program LEMMA dovede také každému českému verbálnímu tvaru přiřadit jeho konjugační vzor (obecně jakýkoli ohýbací), a to díky tomu, že je v něm zabudován algoritmický popis celé české flexe založený na detailní klasifikaci ohýbacích vzorů (Osolsobě, 1996). Slovesa jsou v něm zařazována k 220 vzorům, to ovšem z hlediska počítačového zpracování není mnoho a řeší se tím systematicky a elegantně potíže s tzv. výjimkami.

2.2 Desambiguace

Jak jsme již naznačili, při vytváření značkovaného korpusu se musíme vyrovnat s jednou podstatnou skutečností, která spočívá v tom, že lemmatizátor přiřazuje asi 70 procentům analyzovaných tvarů více než jednu značku. Naším cílem ovšem je, aby značkování bylo jednoznačné, musíme proto tvary s morfologickou homonymií (její míra zjištěná v korpusu DESAM činí 4,81 značky na tvar) desambiguovat. To lze udělat buď manuálně, nebo raději pokud možno automaticky s použitím vhodných programových nástrojů. Dnes se užívá nejčastěji speciálních desambiguačních programů založených na statistických a pravděpodobnostních přístupech (Hajič, Hladká,1996) nebo se pracuje s tzv.částečnými analyzátory (Abney, 1996), jejichž jádrem jsou nejčastěji formální (nekontextová) pravidla popisující strukturu příslušných větných složek.

Značkování korpusu DESAM probíhalo ve dvou fázích:

i) vybrané textové soubory (v rozsahu asi 250 tis.slovních tvarů) byly zpracovány programem LEMMA a pak desambiguovány manuálně pomocí speciálního prohlížecího programu DESAMB vytvořeného k tomuto účelu (Puža, 1997). Tím vznikla (v první polovině r.1997) první (trénovací) verze korpusu DESAM1, která byla po příslušných opravách použita k vyhledání a sestavení formálních (v zásadě nekontextových) pravidel popisujících strukturu českých jmenných skupin a gramatickou shodu uvnitř nich.

ii) Na těchto pravidlech je postaven částečný syntaktický analyzátor DES implementovaný v Prologu (Puža, 1997), který byl použit k odstranění přibližně 40 procent nejednoznačných tvarů uvnitř jmenných skupin. Zbytek (asi 30 procent) desambiguovali manuálně pomocí již zmíněného interaktivního prohlížeče DESAMB studenti (pomocné vědecké síly) FF MU a FI MU. Druhé kolo značkování proběhlo během druhé poloviny r.1997 podobným způsobem, ovšem podíl manuální desambiguace se již, jak jsme naznačili, podařilo výrazně redukovat.

Výsledkem je značkovaný korpus DESAM čítající 1 026 733 slovních tvarů, který v současnosti slouží mj. jako trénovací a testovací soubor dat pro vytvoření další verze desambiguátoru založeného na formálních nekontextových pravidlech (implementovaných jako pravidla vymezených klausulí – DC v PROLOGU). U něho již počítáme s tím, že míra jeho úspěšnosti se bude blížit 90 procentům, takže potřeba manuální desambiguace se omezí, jak předpokládáme, z největší části na opravu chyb a řešení sporných případů.

3. Zpracování konjugačních vzorů

Naznačili jsme, že výchozí značkování korpusu DESAM bylo provedeno automaticky programem LEMMA, v němž je zabudován formální a velmi detailní popis české flexe, a že s jeho pomocí jsme mohli přiřadit odpovídající vzor každému slovesnému tvaru v korpusu. Naše koncepce flexe sloves se dosti liší od tradiční, a proto pokládáme za vhodné se o ní stručně zmínit.

České mluvnice rozlišují při popisu konjugace pět slovesných tříd podle kmene přítomného. Na základě kmene minulého se pak v rámci každé slovesné třídy vyděluje větší nebo menší počet vzorů (celkem 14). Popis české konjugace pro potřeby automatické morfologické analýzy bylo třeba do značné míry rozšířit (srov. Osolsobě, 1996). Základní strategie, o niž se opírá systém vzorů, se kterými LEMMA pracuje, vychází z toho, že vedle skutečných výjimek, k nimž řadíme především tzv. atematická a modální slovesa, existují celé skupiny sloves, které tvoří formálně dobře definovatelné “podvzory”. Vzory jsou pak pro program LEMMA definovány jako možné kombinace slovesných kořenů s kmenotvornými příponami a koncovkami. Koncovky jsou definovány samostatně jako skupiny (množiny) koncovek, kdy každá koncovka nese navíc gramatické významy. Koncovky jsou rozděleny do koncovkových množin na základě těchto kritérií:

1) rozdělení koncovkových množin podle slovesných subparadigmat

2) v rámci každého subparadigmatu se dále uplatňují následující kritéria:

a) koncovky, které potenciálně způsobují alternaci kmene

b) koncovky, které potenciálně alternují

c) koncovky, které způsobují alternaci kmenové finály

Koncovky, jež nelze na základě uvedených kritérií vytřídit z morfologické charakteristiky (množiny koncovek tvořících paradigma), tvoří jádrové koncovkové množiny, koncovky, které lze na základě uvedených kritérií vydělit, se řadí do množin periferních. Posledním kritériem pro vydělení podmnožin koncovek českých sloves je potřeba mít samostatné koncovkové množiny pro definici flexe zcela nepravidelně ohýbaných sloves.

Každý z 220 slovesných vzorů, s nimiž program LEMMA pracuje, je jednak definován vzorovým slovem, které pomáhá autorovi (uživateli programu) v orientaci např. při přiřazování nových kmenů ke vzorům, jednak kódem, z nějž lze vyčíst, v jakém je nový vzor vztahu ke klasickému vzoru a na základě jakých kritérií je definován.

Vedle slovně uvedených klasických vzorů nese, bere,..., kupuje,..., dělá, tedy pracujeme s kódy tvořenými velkými písmeny nebo kombinacemi velkých a malých písmen. Aby si čtenář mohl udělat základní představu o kritériích, která byla použita k získání podrobné subklasifikace vedoucí ke zmíněným 220 slovesným vzorům, uvádíme níže aspoň hlavní z nich (podrobněji o tom viz Osolsobě, 1996):

R – alternace prefixu (pRefix)

S – alternace ve kmeni (Stem)

F – alternace ve finále (Final)

U – alternace v (kmenotvorné) příponě (sUffix)

E – alternace v koncovce (Ending)

X – nepravidelné (eXtra)

a,b,c – další různé varianty

Dodejme ještě, že program LEMMA obsahuje vedle pravidel deklinace morfologická a částečně i slovotvorná pravidla definující kombinovatelnost kmenů uložených ve slovníku s českými koncovkami vymezenými v rámci popisu českých koncovkových množin (Osolsobě 1996). Díky tomu lze automaticky rozpoznávat a odvozovat deverbativa, deadjektiva, deadverbia a posesivní adjektiva (od životných substantiv, viz též Dokulil, 1966). Celkově lze říci, že program LEMMA pokrývá odhadem nejméně 300 000 českých lemmat a je-li použit jako generátor českých tvarů, může jich vytvořit minimálně kolem 6 000 000. V interaktivním režimu umožňuje uživateli klást dotazy na jednotlivé analyzované slovní tvary, přiřadí jim základní tvar, slovní druh a gramatické významy podle příslušného slovního druhu. Při vytváření korpusu DESAM bylo použito dávkového zpracování. Nerozpoznaná slova (řetězy znaků) – nejčastěji zkratky, číselné výrazy, slova cizího původu a jména – ponechává LEMMA neoznačena: jejich počet se v současnosti pohybuje kolem 4%. Takové výrazy se pak dodatečně zpracovávají ručně.

4. Frekvenční analýza českých slovesných vzorů

Není asi třeba dvakrát zdůrazňovat, že bez značkovaného korpusu by se frekvence českých substantivních vzorů daly získat jen velmi těžko – díky němu lze příslušné substantivní tvary vyhledávat v korpusu a získávat číselné údaje o vzorech automaticky. Aby si čtenář mohl učinit představu, uveďme, že vytřídění potřebných údajů (viz níže) o frekvencích slovesných vzorů proběhlo v časovém horizontu hodin.

V této souvislosti pokládáme za vhodné porovnat klasické postupy založené na technice excerpce s technikami korpusové a počítačové lingvistiky. Konkrétně zkoumání frekvence vzorů v textu je příkladem toho, že korpusová a spolu s ní i lingvistika počítačová poskytují metodologické nástroje, bez nichž by se právě frekvence vzorů prakticky nedaly sledovat v rozumných časových mezích a také – v neposlední řadě – s přijatelnými finančními náklady. Manuální zpracování textů v rozsahu jednoho miliónu slovních tvarů a zjišťování četností vzorů technikou excerpce na kartičkách, tj.klasickým způsobem, by nepochybně zabralo několik člověkoroků (odhadem nejméně 2-3, pokud by se dnes ještě našel člověk, jakým byla např. dr. Marie Těšitelová, který by byl ochoten se do takové práce pustit). Přitom nejde o výzkum, jenž by byl teoreticky zvlášť komplikovaný, jen je především nesmírně pracný. Máme-li k dispozici dostatečně velký gramaticky označkovaný korpus vytvořený technikami korpusové lingvistiky a vhodné konkordanční a třídicí programy, můžeme výchozí statistiku frekvencí vzorů v textu o rozsahu asi jednoho milionu tvarů získat během dvou-tří hodin a celou práci na podkladové statistice vzorů tak provést během jednoho či dvou dnů. Statistiku slovních druhů, kterou uvádíme níže, lze pak ze značkovaného korpusu získat doslova během několika minut.

Výsledky získané korpusovými postupy v dohledné době ovlivní ovšem nejenom samu lingvistiku, ale i současné počítačové zpracování přirozeného jazyka – již teď na základě korpusových dat vznikají nové a přesnější elektronické slovníky a robustní počítačové gramatiky. Korpusy jsou dnes v jazykovědě východiskem pro realistický základní výzkum ve formě relativně blízké přírodním vědám. Tento výzkum nepochybně povede k postupným úpravám a doplňování existujících gramatik a jazykových příruček a v blízké budoucnosti též k novému velkému (akademickému) výkladovému slovníku současné češtiny.

5. Výchozí údaje pro FSČ a DESAM

Na tomto místě nejprve připomeňme, že FSČ vznikal, jak známo, od 40.let, pracně a zdlouhavě pomocí excerpce a rozsáhlých kartoték. Dokonce ani po svém dokončení v r.1953 se díky nepříznivému politickému klimatu nedočkal okamžitého vydání a byl vytištěn až v roce 1961. Materiál FS obsahuje celkem 1 623 527 dokladů (slovních tvarů) pocházejících z různých stylových okruhů, tj. z beletrie, poezie, dramatu, mluvených projevů, literatury pro mládež, publicistiky, vědecké a odborné literatury. Z tohoto hlediska je materiál FSČ reprezentativnější než DESAM, který obsahuje jen publicistické a odborné texty, ovšem z hlediska sourodosti pokládáme DESAM za přirozenější a spolehlivější, protože jde o textový korpus, tedy o text v jeho přirozené podobě, a nikoli o excerpta.

Tab.1 Výchozí údaje

	FSČ	DESAM
počet dokumentů	75	3056
všechny slovní tvary (tokens)	1 623 526	1 026 733
různé slovní tvary (types)	--	132 447
lemmata	54 486	34 606
type/token ratio	-	7,75
hapax legomena (lemmata)	20 467	11 759
hapax legomena (tvary)	-	67 059

Komentář k tab.1

Základní porovnání v tab.1 ukazuje, že některé údaje pro FSČ chybí, např.poměr type/token, jehož hodnota získaná z DESAM dobře odráží vysoce flektivní povahu češtiny. Abychom je získali, museli bychom mít k dispozici originální kartotéku FSČ, – takový pokus by ovšem vedl ke klasickým potížím s bariérou manuálního zpracování. Jistý rozdíl mezi FSČ a DESAM je též v chápání dokumentů, ve FSČ se jimi obvykle rozumí knihy, části knih nebo čísel novin, v DESAM se za dokumenty pokládají jednotlivé novinové nebo časopisecké články, případně kapitoly (u počítačových manuálů). Je třeba konstatovat, že DESAM je sice rozsahem menší a v tomto ohledu i do jisté míry předběžný, ovšem za jeho přednost je třeba pokládat to, že je značkován: díky tomu a počítačovému uložení je opakovaně přístupný a použitelný i pro řadu dalších sond.

Porovnání frekvence slovesných vzorů v počítačovém slovníku českých kmenů a

korpusu DESAM

V následující tabulce srovnáme percentuální zastoupení jednotlivých slovesných vzorů v počítačovém slovníku českých kmenů (Osolsobě, 1996) a frekvenci jednotlivých vzorů ve zkoumaném korpusu. Strojový slovník českých kmenů byl vybudován na základě hesláře SSJČ rozšířeného o slovní zásobu z jednoho ročníku LN a MF DNES. Obsahuje celkem 34 681 slovesných kmenů rozřazených do podskupin podle vzorů vytvořených pro potřeby algoritmického popisu sloužícího k automatické morfologické analýze. V korpusu DESAM se vyskytuje 141 269 slovesných tvarů. Rozdělili jsme obě skupiny sloves podle klasických vzorů a zjistili frekvenci vzorů ve slovníku a v textu.

tab. 2

vzor počet kmenů v textu % počet kmenů ve slovníku %

nepr.: 39619 28,045% 119 0,343%

modal: 13001 9,203% 5 0,014%

nese: 3171 2,244% 311 0,896%

bere: 1136 0,804% 522 1,505%

maže: 1848 1,308% 299 0,862%

peče: 335 0,237% 183 0,527%

umře: 597 0,422% 119 0,343%

tiskne: 5423 3,838% 2773 7,995%

mine: 561 0,397% 197 0,568%

začne: 3361 2,379% 112 0,322%

kryje: 256 1,816% 493 1,421%

kupuje: 15934 11,279% 10366 29,889%

prosí 27366 19,371% 6563 8,923%

trpí: 2252 1,594% 1453 4,189%

sází: 5030 4,204% 1356 3,909%

dělá: 19069 13,498% 9810 28,286%

--------------------------------------------------------------------------------------------------------------

celkem: 141269 100,00% 34681 100,00%

Na základě předloženého srovnání docházíme k některým zajímavým zjištěním. Nerovnost percentuálního poměru mezi textem a slovníkem jsme předpokládali u skupiny nepravidelných (atematických) a modálních sloves. Zajímavější je ovšem srovnání výsledků u skupiny produktivních vzorů kupuje a dělá, která mají ve slovníku výrazně vyšší frekvenci než v textu. Rovněž velmi podnětné je porovnání u vzoru prosí, který má nejvyšší frekvenci v textu po nepravidelných slovesech. Tato frekvence v textu je téměř shodná s frekvencí ve slovníku.Frekvenční srovnání vzorů ve slovníku a textu nás vede k prohloubení úvah o možnostech změn tradičního popisu českých vzorů (srov. Osolsobě, 1994).

Tradiční rozdělení českých vzorů, jak je nalézáme např. v MČ 2, se opírá o historický systém vzorů, který do dnešní doby v podstatě uchovává kmenový systém. Pro rodilého mluvčího, který by měl být schopen správně tvořit frekventované tvary (3. os. ind. préz. akt., infinitiv, pasivní participium, l-ové participium) je poměrně jednoduché sestavit pravidla pro vytvoření méně frekventovaných tvarů (přechodníků, slovesných substantiv, adjektivizovaných participií). Použití zmíněných pravidel pro výuku češtiny jako cizího jazyka, ať už se zaměříme na cizince bez předchozích znalostí, či na počítačové aplikace, je ovšem velmi obtížné. Srovnáme-li ovšem situaci v češtině se situací ve velkých západních jazycích (angličtině, němčině, francouzštině), dojdeme k zajímavým závěrům. Na jedné straně existují v češtině neproduktivní slovesné třídy a vzory, které mají vysoce nepravidelnou konjugaci (velký počet alternací kořenového vokálu a finály, alternující kmenotvorné přípony atp.). Řadí se sem slovesa I. třídy, II. třídy časovaná podle vzorů mine a začne, III. třídy – vzor kryje. Počet těchto sloves tvoří uzavřenou množinu. Pomineme-li jednotlivé prefigované varianty, které nemají vliv na flexi, zjistíme, že počet těchto sloves je zhruba stejný jako počet silných nebo nepravidelných sloves v západních jazycích (cca 200). Naopak údaje o frekvenci těchto sloves v textu dokazují, že jde mnohdy o frekventovaná slovesa. Srovnejme kupř. frekvenci sloves časovaných podle vzoru nese, umře, začne ve slovníku a v textu. Zjistíme, že poměr je 1:3. Poměr nejfrekventovanějšího slovníkového vzoru kupuje ve slovníku a v textu je obrácený – cca. 3:1. Tato zjištění nás vedou k závěru, že se lze pokusit o nový pohled na třídy českých sloves a navrhnout klasifikaci, která by pracovala nikoli s pěti slovesnými třídami, jak je tomu dosud, ale se dvěma či spíše se třemi. Návrh nového pojetí českých slovesných tříd je ovšem tématem pro samostatný článek.

Porovnání prvních 50 nejčetnějších sloves ve FS a DESAM

tab. 3

FSČ abs.četnost DESAM abs.četnost

=====================================================

býti 43148-8-75 být 33726

míti (se) 11426-8-75 mít (se) 6154

moci 6763-8-74 říci 4768

aby 6282-8-75 muset 1708

museti 3928-8-73 chtít 1313

věděti 3738-8-71 aby 1152

chtíti 3566-8-73 jít 1147

jíti 3336-8-74 stát (se) 856

říci 3205-8-71 dát (se) 705

10viděti 2848-8-71 vědět 697

dáti 2793-8-75 začít 663

přijíti 1793-8-70 uvést 660

mysliti (si) 1734-8-67 dostat 625

kdyby 1542-8-69 získat 609

státi 1491-8-72 platit 503

říkati 1444-8-69 znamenat 593

dělati (se) 1329-8-64 hrát (si) 493

mluviti 1273-8-71 přijít 488

dostati (se) 1223-8-71 říkat 487

20státi (se) 1219-8-72 vidět 478

vzíti (se) 1024-8-69 vést 468

dovésti 957-8-65 patřit 431

začíti (se, si) 955-8-63 existovat 402

slyšeti 950-8-63 najít 385

znáti (se) 929-8-73 pracovat 382

zdáti se 926-8-70 potřebovat 363

zůstati 885-8-68 považovat 359

žíti 854-8-69 zůstat 356

dívati se 812-8-59 rozhodnout 353

30vrátiti (se) 804-8-67 dojít 348

hráti (si) 789-8-69 dokázat 331

najíti (se) 780-8-69 změnit 318

vésti (se, si) 767-8-67 připravit 315

čekati 749-8-64 myslit (si) 307

choditi 731-8-60 stačit 296

seděti 704-8-59 dělat (se) 295

cítiti (se) 703-8-65 čekat 292

pracovati 677-8-61 tvrdit 291

dávati (se) 676-8-66 podařit se 290

40udělati (se) 663-8-56 jednat 289

prositi (se) 659-7-48 dosáhnout 288

ukázati (se) 652-8-65 dávat 281

věřiti 644-8-63 objevit 277

podívati se 638-8-52 vytvořit 276

směti 611-8-71 znát (se) 273

báti se 598-8-55 počítat 272

půjdu 595-8-44 tvořit 271

znamenati (se) 584-8-60 zdát se 263

nechati (si) 575-8-61 dodat 262

50rozuměti (si, se) 568-8-64 nabízet 261

Vzhledem k téměř čtyřicetiletému odstupu, který dělí jazyková data zahrnutá ve FSČ a v korpusu DESAM, bylo možno předpokládat jisté odlišnosti, jež se projevují v rozdílech frekvence slov v obou zdrojích. Na slovní zásobě se jistě projevily ekonomické a politické změny, které proběhly v naší společnosti. V následujícím odstavci se pokusíme interpretovat některé posuny, jež lze vysledovat v tab. 3.

Podívejme se nejdříve na některé společné rysy a rozdíly FSČ a DESAM. Mezi prvními padesáti nejfrekventovanějšími slovesy se v obou zdrojích setkáváme s očekávanými shodami. V první desítce nacházíme shodně slovesa být, aby, mít, říci, muset, chtít, jít. Zajímavé je srovnání sloves vnímání. Zatímco sloveso vidět nacházíme v obou zdrojích, slovesa slyšet a cítit se objevují v první padesátce pouze ve FSČ. Z tohoto zjištění bychom snad mohli usuzovat na celkovou dnešní převahu vizuálního vnímání. Slovesa myslit, znát, zdát se jsou zastoupena v obou vzorcích, slovesa rozumět, věřit jsou pouze ve FSČ. Tyto rozdíly lze přičíst na vrub větší stylové rozmanitosti zdrojů FSČ. Ve FSČ se mezi prvními 50 slovesy nesetkáme se slovesy rozhodnout, získat, existovat, nabízet, stačit, počítat. Tato slovesa se v současném jazyce reprezentovaném v korpusu DESAM dostala do popředí nepochybně díky celkové orientaci dneška na ekonomické otázky. Vysokou frekvenci slovesa existovat v DESAM klademe do souvislosti s nižší frekvencí slovesa být v DESAM ve srovnání s FSČ. V korpusu DESAM scházejí slovesa nechat, smět, kdyby, prosit, bát se, žít. Absence modálního smět, podmiňovacího kdyby a sloves nechat, prosit, bát se v DESAM by se snad dala vyložit tak, že jazyk médií a vědy se snaží o jednoznačnost vyjádření bez emocionálního zabarvení. V DESAM se naopak setkáme se slovesy dokázat, dosáhnout, podařit se, jednat svázanými s dneškem orientovaným primárně na úspěch za každou cenu. Poznamenejme ještě, že zatím nemůžeme nabídnout přesné údaje o výskytu se u jednotlivých sloves v případech, kdy nejde o reflexiva tantum, nicméně desambiguační program schopný zpracovávat složené slovesné tvary to v blízké budoucnosti umožní.

6. Korpusová data a poznámka k pravopisu

Korpusové údaje z DESAM poskytují také vhodné podklady ke krátké zmínce o situaci v současných textech (1992-96) ve vztahu k novým pravidlům českého pravopisu (Hlavsa et al, 1993). Podíváme-li se na často probírané a tedy nejproblematičtější případy dvojího způsobu psaní slov přejatých, dostáváme následující obraz (číslo v závorce udává absolutní četnost jednotlivých dubletních variant v korpusu DESAM):

kurs (104) : kurz (119)

president (3) : prezident (580)

impuls (12) : impulz (1)

diskuse (104) : diskuze (3)

milion (615) : milión (265)

filosofie (9) : filozofie (88)

universita (3) : univerzita (142)

Po 5 letech existence “nových” pravidel českého pravopisu (Hlavsa et al,1993) korpusové texty ukazují, že buď je poměr obou možných variant prakticky vyrovnaný, jak je tomu u dvojice kurs/z, nebo naopak celkem jednoznačně vychýlený na jednu či druhou stranu ( např. prez/sident). Nezdá se tedy, že bychom zatím mohli pozorovat souvislou a výraznější tendenci, která by naznačovala, kam by se snad mohl ubírat další vývoj. Současná situace spíše naznačuje, že v současných textech vzrostla míra “rozkolísanosti” nebo dokonce “zmatku” a “libovůle”.

Korpusové texty také naznačují, že tzv.”konservativní” psaní se celkem zřetelně preferuje a prosazuje v odborných textech (dokládají to texty z časopisu. Vesmír), dokonce se zdá, že se v nich nyní začíná uplatňovat i tam, kde tomu tak dříve nebylo (viz např. dvojice: filosofie : filozofie, ev. i další jako třeba milion : milión). Data z korpusových textů a zdravý rozum nás vedou k závěru, že současný stav rozkolísanosti není věci na prospěch a celkem zřetelně volá po nějakém racionálnějším řešení. Kloníme se k názoru, že rozumné a proveditelné řešení by se mělo osvobodit od současných inkonzistencí/inkonsistencí vyvolaných nedůslednými úvahami o potřebě další fonetizace i tak již dost fonetického českého pravopisu (viz např. dvojici kurz/s proti dub/p), a mělo by tedy vést ve směru spíše mírně konservativním

Porovnání frekvencí slovních druhů ve FSČ a DESAM

Závěrem nabízíme tabulku 4, která obsahuje údaje o četnostech slovních druhů ve FSČ a DESAM (v procentech).

Tab. 4

slovní druh	FSČ %	DESAM %
substantiva, k1	27,77	33,75
adjektiva, k2	11,16	13,25
zájmena, k3	10,91	8,34
číslovky, k4	1,61	1,75
slovesa, k5	18,15	15,22
adverbia, k6	10,29	5,7
předložky, k7	10,12	12,0
spojky, k8	9,78	5,93
partikule, k9	-	2,62
citoslovce, k0	0,21	.0,0008
zkratky, kX	-	1,44
celkem	100	100

Porovnání hodnot četností jednotlivých slovních druhů v tab.4 ukazuje, že u substantiv se zřetelně projevuje a potvrzuje očekávaný rozdíl vyplývající z širšího stylového záběru FSČ proti DESAM. Vyšší četnost substantiv v DESAM a podobně i v korpusu věcného stylu (dále VS, Těšitelová, 1985) jde jistě na vrub publicistických a odborných textů tvořících DESAM a VS. Rozdíl je patrný též u sloves, domníváme se, že jejich naopak vyšší četnost ve FSČ je důsledkem skutečnosti, že FSČ zahrnuje umělecké texty, vyznačující se vyšší dynamičností, jež má svůj formální odraz ve vyšší četnosti slovesných lemmat.

Celkově dobrou shodu mezi FSČ a DESAM lze pozorovat u adjektiv (11,16 - 13,25) a číslovek (1,61 - 1,75). Jistý rozdíl u předložek (10,12 - 12,0) si vysvětlujeme tím, že DESAM obsahuje stylově specializovanější texty než FSČ, proto nepřekvapuje, že v DESAM je frekvence předložek vyšší.

Nejpřekvapivější rozdíly mezi FSČ a DESAM nacházíme u částic a zkratek. FSČ neuvádí pro částice žádnou hodnotu, v korpusu VS pak najdeme nízkou hodnotu 0,37. Jistě nejde o náhodu ani o opomenutí a stejně tak lze sotva akceptovat případné vysvětlení, že by se v excerptech FSČ částice vůbec nevyskytovaly. Spíše tu jde, jak se domníváme, o důsledek jistého teoretického postoje, díky němuž byly částice ve FSP v zásadě ponechány stranou. Rovněž se ve FSČ a VS nepočítá se zkratkami – což plyne z faktu, že ve standardních gramatikách se buď o zkratkách nemluví vůbec, nebo jen zcela okrajově. Přitom je zřejmé, že představují stejně plnoprávnou skupinu jazykových výrazů, jako jsou třeba substantiva, přesněji řečeno, většina zkratek má jednoznačně substantivní povahu a zkratky syntakticky představují i docela složité nominální skupiny (a významově pak komplexní pojmenování), jejichž ignorování způsobuje, že realistická analýza textu potom nemůže být úplná. I zde korpusová data naznačují, kterým jevům je v blízké budoucnosti potřeba věnovat soustavnější pozornost. Při úplnější analýze bychom v této souvislosti museli vzít v úvahu i zkratky ČR a Kč, které se v DESAM vyskytují s absolutní četností 454 a 350. Podobně to platí o řadě dalších zkratek jako např. USA (454), ODS (172), SR (109), OSN (109), ČSSD (88), ODA (80) a dalších. Jejich samostatná frekvenční analýza opřená o korpusová data bude velmi potřebná i pro předpokládané standardní automatické zpracování volného textu.

7. Závěr

Na základě frekvenční analýzy slovesných vzorů v češtině a porovnání s jejich distribucí ve strojovém slovníku českých kmenů, který dobře reprezentuje slovní zásobu současné češtiny, jsme nabídli první údaje tohoto druhu pro češtinu. Navíc nám materiál získaný analýzou části ČNK otevírá cestu k celé řadě dalších úvah jak v oblasti slovotvorby, tak v oblasti formální morfologie a samozřejmě i významosloví. Výsledky uvedeného porovnání také ukazují, že je možno pokusit se o nový pohled na třídy českých sloves a v blízké budoucnosti nabídnout odlišný inventář slovesných tříd založený na protikladu pravidelných a nepravidelných sloves. Kromě analýzy vzorů jsme získali konfrontaci první padesátky sloves nejčastěji zastoupených ve FSČ a DESAM i výchozí pohled na základní tendence ve vývoji slovesné slovní zásoby, jak se projevují v současných textech publicistického a odborného stylu. Konečně jsme mohli nabídnout i stručné porovnání frekvencí slovních druhů a konkrétní data svědčící o značné rozkolísanosti pravopisné normy, které je jednoznačně způsobeno nedomyšlenými pravidly českého pravopisu z r.1993 (Hlavsa, Martincová a kol., 1993). Úplně na závěr bychom rádi konstatovali, že s růstem velikosti ČNK a jeho značkovaných subkorpusů bude možno v blízké budoucnosti dospět k řadě nových a zajímavých výsledků – obrazně řečeno, korpusová data z ČNK umožní otevřít doslova “továrnu” pro lingvisty.

Résumé

Frequencies of the Czech Verb Paradigms

The presented article offers the comparison of the quantitative characteristics of Czech verbs, particularly, the frequencies of Czech inflectional patterns, which form the skeleton of the Czech conjugation system.in contemporary Czech, with the older findings as presented in Frequency Dictionary of Czech (1961, 1 623 536 word forms). These results have been obtained from the new electronic source: Czech National Corpus, particularly, from its grammatically annotated subcorpus DESAM containing 1 026 733 word forms. All the presented results have been obtained by the techniques developed in the framework of corpus and computational linguistics (automatic lemmatization, partly automatic desambiguation, etc.).

The comparison shows that Czech conjugation system is very stable and that the span of 37 years has influenced the frequencies of Czech verb paradigms only in small and non-distinctive details. The second important result offers comparative data from FSČ and DESAM for first 50 most frequent Czech verbs – here one can observe the basic tendencies and changes in this part of Czech lexicon in the course last 37 years. The third group of results follows from table 4 which compares the relative frequencies of the parts of speech in FSČ and DESAM.

The presented results obtained from ČNK and its subcorpora are just the beginning: the corpus data and techniques are opening a door for a new research and new and more precise findings about Czech language.

Bibliografie

1. Dokulil, M.: Tvoření slov v češtině, Akademia, Praha

2. Havránek, B., Jedlička A.: Česká mluvnice, SPN, Praha 1981.

3. Hajič, J., Hladká B.: Probabilistic and rule based tagging of an inflective language – a comparison, Technical Report No.1, ÚFAL MFF UK, November 1996.

4. Hajič, J., Hladká, B.: Tagging Inflective Languages: Prediction of morphological categories

for a rich, structural tagset, Technical Report TR-1997-04, ÚFAL MFF UK, Praha

5. Hlaváčková, D.: Korpus mluvené češtiny, diplomová práce, Brno 1998.

6. Hlavsa, Z., Martincová, O. a kol.: Pravidla českého pravopisu, Praha 1993.

7. Jelínek, J., Bečka, J. V., Těšitelová, M.: Frekvence slov, slovních druhů a tvarů

v českém jazyce, SPN, Praha 1961.

8. Lamprecht A., Šlosar D., Bauer J., Historická mluvnice, češtiny, SPN, Praha 1986.

9. Lamprecht A., Šlosar D., Bauer J.: Vývoj mluvnického systému českého jazyka, SPN, Praha 1970.

10. Leech, G.: Corpus Annotation Schemes, in Literary and Linguistic Computing, Vol.8, No.4, 1993, 275-281.

11. Těšitelová, M., a kol.: Kvantitativní charakteristiky současné češtiny, řada Studie a práce lingvistické, Academia, Praha 1985.

12. Těšitelová , M. a kol.: O češtině v číslech, Malá jazyková knižnice, Academia, Praha,

1987.

13. Osolsobě, K.: Algoritmický popis české formální morfologie a strojový slovník češtiny, disertační práce, FF MU Brno 1996.

14. Pala, K., Rychlý, P., Smrž, P.: DESAM – Annotated Corpus for Czech, Proceedings of SOFSEM’97, Springer Verlag, New York, Hamburg 1997.

15. Petr, J. a kol.: Mluvnice češtiny II., Academia, Praha 1986.

16. PUŽA, V.: Syntaktická analýza přirozeného jazyka z hlediska značkování v korpusu, Diplomová práce, Fakulta informatiky MU, Brno 1997.

17. Ševeček, P.: Morfologický analyzátor (lemmatizátor) LEMMA, program v jazyce C,

Brno1995-96.

Autoři a jejich adresy:

Klára Osolsobě

Ústav českého jazyka

Filosofická fakulta Masarykovy university

Arna Nováka 1

602 00 Brno

klara@ernest.phil.muni.cz

Karel Pala

Katedra informačních technologií

Fakulta informatiky Masarykovy university

Botanická 68a

602 00 Brno

pala@fi.muni.cz

Pavel Rychlý

Katedra informačních technologií

Fakulta informatiky Masarykovy university

Botanická 68a

602 00 Brno

pary@fi.muni.cz