Statistiky gramatických značek


Nejfrekventovanější tagy (gramatické značky)

k7c6

  41465

  45.10 ‰

k7c2

  24495

  26.64 ‰

k1gInSc1

  18664

  20.30 ‰

k1gInSc4

  13657

  14.85 ‰

k8xC

  34199

  37.20 ‰

k1gFnSc2

  24267

  26.39 ‰

k1gMnSc1

  16928

  18.41 ‰

k9x1

  13310

  14.48 ‰

k5mItPp3nSaI

  33307

  36.23 ‰

k7c4

  23616

  25.69 ‰

k1gFnSc4

  16515

  17.96 ‰

k7c7

  13180

  14.34 ‰

k6d1

  27762

  30.20 ‰

k8xS

  20698

  22.51 ‰

k3xPc4yF

  15062

  16.38 ‰

k1gInSc6

  13063

  14.21 ‰

k1gFnSc1

  24606

  26.76 ‰

k1gInSc2

  19061

  20.73 ‰

k1gFnPc2

  13979

  15.20 ‰

k1gFnSc6

  12619

  13.73 ‰

Značkováno pomocí morfologického analyzátoru ajka, který má pro tento korpus pokrytí 95.19 %.

A k těmto značkám malé vysvětlení:

Slovní druhy

  k1 - substantiva

Rod

  gM - mužský životný

Osoba

  p1 - 1. os

  k2 - adjektiva

  gI - mužský neživotný

  p2 - 2. os

  k3 - zájmena

  gF - ženský

  p3 - 3. os

  k4 - číslovky

  gN - střední

Vid

  aP - perfektivum

  k5 - slovesa

  gX - libovolný

  aI - imperfektivum

  k6 - příslovce

Číslo

  nS - jednotné

  aB - obouvidé

  k7 - předložky

  nP - množné

Stupňování

  d1 - nominativ

  k8 - spojky

Pád

  c? - pád. č. ?

  d2 - comparativ

  k9 - částice

Negace

  eA - afirmace

  d3 - superlativ

  k0 - citoslovce

  eN - negace

A mnoho dalších značek.

Frekvence slovních druhů

substantiva, k1

  33.99 %

adverbia, k6

  5.75 %

adjektiva, k2

  13.45 %

předložky, k7

  11.92 %

zájmena, k3

  8.30 %

spojky, k8

  5.97 %

číslovky, k4

  1.58 %

partikule, k9

  2.67 %

slovesa, k5

  14.70 %

citoslovce, k0

  0.01 %

zkratky, kA

  1.10 %

Frekvence rodů

mužský životný, gM

  14.30 %

mužský neživotný, gI

  31.61 %

střední, gN

  15.38 %

ženský, gF

  38.71 %

Frekvence pádů

singulár

plurál

pád č. 1, c1

  22.58 %

  6.38 %

pád č. 2, c2

  19.07 %

  11.17 %

pád č. 3, c3

  2.55 %

  0.97 %

pád č. 4, c4

  12.88 %

  4.71 %

pád č. 5, c5

  0.07 %

  0.01 %

pád č. 6, c6

  9.88 %

  2.17 %

pád č. 7, c7

  5.85 %

  1.70 %

Frekvence slovesných osob

1. osoba, p1

  6.36 %

2. osoba, p2

  2.93 %

3. osoba, p3

  41.26 %

nezařazeno

  48.97 %

Frekvence slovesných rodů

mužský životný, gM

  13.08 %

mužský neživotný, gI

  6.34 %

střední, gN

  5.98 %

ženský, gF

  7.75 %

nezařazeno

  66.86 %

Frekvence slovesných vidů

perfektivum, aP

  31.56 %

imperfektivum, aI

  66.53 %

obouvidé, aB

  1.90 %

Jednoznačnost slov

Následující statistika zachycuje počet přípustných značek na slovo. Jedna přípustná značka znamená, že slovo je jednoznačné, dvě a více značek mají víceznačná slova.

Procento jednoznačných slov v textu:

  23.71 %

Procento jednoznačných slov ve slovníku (slova bez opakování):

  27.66 %

Průměrný počet značek u víceznačných slov (text):

  4.62

Průměrný počet značek u víceznačných slov (slovník):

  4.65

Graf znázorňuje počet přípustných značek na slovo v závislosti na precentuálním výskytu v textu (ve slovníku).

jednoznac.desam.cz.1.png

jednoznac.desam.cz.2.png

A ještě dva zajímavé grafy

První graf zachycuje závislost počtu značek v dané procentuální velikosti textu a je omezen jen na prvních 100 nejčastěji se vyskytujících slov. A druhý graf zachycuje stejnou závislost jako první s tím, že osa x má logaritmickou stupnici.

tag.desam.cz.1.png

tag.desam.cz.0.png


 

Statistiky_gramatickych_znacek (naposledy editoval localhost dne 2012-03-16 15:19:37 )