wiki:cs/FrekvencePismenBigramu

Version 2 (modified by xkocinc, 10 years ago) (diff)

--

Frekvence písmen, bigramů, trigramů, délka slov

Frekvence českých písmen

a 357907 66.98 ‰ i 244242 45.71 ‰ s 246867 46.20 ‰
á 113756 21.29 ‰ í 165786 31.03 ‰ š 43636 8.17 ‰
b 88974 16.65 ‰ j 105955 19.83 ‰ t 296779 55.54 ‰
c 85538 16.01 ‰ k 200479 37.52 ‰ ť 2057 0.38 ‰
č 54341 10.17 ‰ l 218906 40.97 ‰ u 167322 31.31 ‰
d 193038 36.13 ‰ m 174323 32.62 ‰ ú 7736 1.45 ‰
ď 1040 0.19 ‰ n 356743 66.76 ‰ ů 30430 5.69 ‰
e 418434 78.31 ‰ ň 3926 0.73 ‰ v 233960 43.78 ‰
é 62945 11.78 ‰ o 442617 82.83 ‰ w 3843 0.72 ‰
ě 79674 14.91 ‰ ó 1704 0.32 ‰ x 4942 0.92 ‰
f 21055 3.94 ‰ p 184548 34.54 ‰ y 93620 17.52 ‰
g 18319 3.43 ‰ q 308 0.06 ‰ ý 50312 9.42 ‰
h 69236 12.96 ‰ r 212533 39.77 ‰ z 113450 21.23 ‰
ch 53802 10.07 ‰ ř 63395 11.86 ‰ ž 54602 10.22 ‰

Nejfrekventovanějších 40 bigramů (dvojic písmen)

st 74285 en 50645 le 38926 to 36355 ho 31442 al 29682 27885 em 26818
60525 na 46737 ko 38688 ou 35191 do 30665 ed 29622 at 27603 in 26427
po 56239 je 42433 ne 38671 no 32612 os 30530 an 29326 ře 27181 sk 26085
ov 53818 pr 42099 od 38393 la 32336 se 30454 ce 28280 er 27168 lo 25981
ro 51961 te 40393 ra 37531 li 31952 ta 30177 va 27987 ti 26858 25739

Nejfrekventovanějších 40 trigramů (trojic písmen)

pro 21322 ení 11917 ého 9475 ick 8387 edn 7429 ání 7224 pol 6704 val 6256
ost 18722 ova 11822 sti 9121 ová 8139 ské 7349 ent 7114 spo 6686 dní 6251
sta 12746 pod 10168 řed 9103 při 7878 pří 7348 str 6903 vat 6489 sto 6189
pře 12057 kte 9603 kon 9017 sou 7541 odn 7251 ové 6810 ním 6439 tak 6175
ter 11936 pra 9521 nos 8557 ist 7505 tel 7231 nov 6783 jak 6330 lov 6139

Délka slov

Průměrná délka slov v textu: 5.54
Průměrná délka slov ve slovníku (slova bez opakovani): 8.11

První graf zachycuje percentuální závislost výskytu slov v textu podle délky. A druhý graf zachycuje percentuální závislost výskytu slov ve slovníku (tj. slova bez opakování) podle délky.

Attachments (2)

Download all attachments as: .zip