Stoplist základních tvarů
Následující stoplist základních tvarů je zpracován z korpusu DESAM a obsahuje několik desítek nejpoužívanějších českých slov spolu s počtem jejich výskytů a jejich slovními druhy. Počet výskytů je uveden v procentech vzhledem k celkovému počtu pozic korpusu DESAM. Slovní druhy jsou reprezentovány korpusovou značkou slovního druhu, jemuž náleží dané slovo v největším počtu případů. Zvýrazněna jsou slova patřící do otevřených kategorií.
Slovo | Výskyty v procentech | Slovní druh
|
být | 2.25566 | k5
|
v | 2.18909 | k7
|
a | 2.09743 | k8
|
sebe | 1.50986 | k3
|
na | 1.33937 | k7
|
ten | 0.82155 | k3
|
s | 0.76301 | k7
|
z | 0.70188 | k7
|
že | 0.68434 | k8
|
který | 0.65219 | k3
|
o | 0.57173 | k7
|
mít | 0.49858 | k5
|
i | 0.49850 | k8
|
do | 0.47341 | k7
|
on | 0.47057 | k3
|
k | 0.41293 | k7
|
pro | 0.39945 | k7
|
tento | 0.37850 | k3
|
za | 0.32995 | k7
|
by | 0.32825 | k5
|
moci | 0.29699 | k5
|
svůj | 0.28708 | k3
|
ale | 0.28294 | k8
|
po | 0.24332 | k7
|
rok | 0.21385 | k1
|
jako | 0.20135 | k6
|
však | 0.19477 | k9
|
od | 0.18998 | k7
|
všechen | 0.18243 | k3
|
dva | 0.17756 | k4
|
nebo | 0.17683 | k8
|
tak | 0.17431 | k6
|
u | 0.17074 | k7
|
při | 0.16798 | k7
|
jeden | 0.16644 | k4
|
podle | 0.16230 | k7
|
Praha | 0.15832 | k1
|
jen | 0.15734 | k9
|
další | 0.15580 | k2
|
jeho | 0.15272 | k3
|
aby | 0.14784 | k8
|
co | 0.14671 | k3
|
český | 0.14606 | k2
|
jak | 0.14565 | k8
|
veliký | 0.14452 | k2
|
nový | 0.14119 | k2
|
až | 0.13989 | k9
|
už | 0.13778 | k6
|
muset | 0.13770 | k5
|
než | 0.13672 | k8
|
nebýt | 0.13623 | k5
|
člověk | 0.13315 | k1
|
jenž | 0.13218 | k3
|
léto | 0.12990 | k1
|
firma | 0.12828 | k1
|
první | 0.12316 | k4
|
náš | 0.12276 | k3
|
také | 0.11829 | k9
|
my | 0.11366 | k3
|
jejich | 0.11350 | k3
|
když | 0.11196 | k8
|
před | 0.11009 | k7
|
doba | 0.10790 | k1
|
chtít | 0.10603 | k5
|
jiný | 0.10555 | k3
|
mezi | 0.10084 | k7
|
ještě | 0.10035 | k6
|
já | 0.09637 | k3
|
ani | 0.09629 | k8
|
cena | 0.09369 | k1
|
již | 0.09345 | k6
|
jít | 0.09288 | k5
|
strana | 0.09207 | k1
|
či | 0.09126 | k8
|
druhý | 0.09053 | k4
|