wiki:cs/StoplistZakladnichTvaru

Version 1 (modified by xkocinc, 10 years ago) (diff)

--

Stoplist základních tvarů

Následující stoplist základních tvarů je zpracován z korpusu DESAM a obsahuje několik desítek nejpoužívanějších českých slov spolu s počtem jejich výskytů a jejich slovními druhy. Počet výskytů je uveden v procentech vzhledem k celkovému počtu pozic korpusu DESAM. Slovní druhy jsou reprezentovány korpusovou značkou slovního druhu, jemuž náleží dané slovo v největším počtu případů. Zvýrazněna jsou slova patřící do otevřených kategorií.

Slovo Výskyty v procentech Slovní druh
být 2.25566 k5
v 2.18909 k7
a 2.09743 k8
sebe 1.50986 k3
na 1.33937 k7
ten 0.82155 k3
s 0.76301 k7
z 0.70188 k7
že 0.68434 k8
který 0.65219 k3
o 0.57173 k7
mít 0.49858 k5
i 0.49850 k8
do 0.47341 k7
on 0.47057 k3
k 0.41293 k7
pro 0.39945 k7
tento 0.37850 k3
za 0.32995 k7
by 0.32825 k5
moci 0.29699 k5
svůj 0.28708 k3
ale 0.28294 k8
po 0.24332 k7
rok 0.21385 k1
jako 0.20135 k6
však 0.19477 k9
od 0.18998 k7
všechen 0.18243 k3
dva 0.17756 k4
nebo 0.17683 k8
tak 0.17431 k6
u 0.17074 k7
při 0.16798 k7
jeden 0.16644 k4
podle 0.16230 k7
Praha 0.15832 k1
jen 0.15734 k9
další 0.15580 k2
jeho 0.15272 k3
aby 0.14784 k8
co 0.14671 k3
český 0.14606 k2
jak 0.14565 k8
veliký 0.14452 k2
nový 0.14119 k2
0.13989 k9
0.13778 k6
muset 0.13770 k5
než 0.13672 k8
nebýt 0.13623 k5
člověk 0.13315 k1
jenž 0.13218 k3
léto 0.12990 k1
firma 0.12828 k1
první 0.12316 k4
náš 0.12276 k3
také 0.11829 k9
my 0.11366 k3
jejich 0.11350 k3
když 0.11196 k8
před 0.11009 k7
doba 0.10790 k1
chtít 0.10603 k5
jiný 0.10555 k3
mezi 0.10084 k7
ještě 0.10035 k6
0.09637 k3
ani 0.09629 k8
cena 0.09369 k1
již 0.09345 k6
jít 0.09288 k5
strana 0.09207 k1
či 0.09126 k8
druhý 0.09053 k4