wiki:cs/FrekvenceSlovLemmat

Version 2 (modified by xkocinc, 10 years ago) (diff)

--

Frekvence písmen, bigramů, trigramů, délka slov

Frekvence českých písmen

a   357907   66.98 ‰ i   244242   45.71 ‰ s   246867   46.20 ‰
á   113756   21.29 ‰ í   165786   31.03 ‰ š   43636   8.17 ‰
b   88974   16.65 ‰ j   105955   19.83 ‰ t   296779   55.54 ‰
c   85538   16.01 ‰ k   200479   37.52 ‰ ť   2057   0.38 ‰
č   54341   10.17 ‰ l   218906   40.97 ‰ u   167322   31.31 ‰
d   193038   36.13 ‰ m   174323   32.62 ‰ ú   7736   1.45 ‰
ď   1040   0.19 ‰ n   356743   66.76 ‰ ů   30430   5.69 ‰
e   418434   78.31 ‰ ň   3926   0.73 ‰ v   233960   43.78 ‰
é   62945   11.78 ‰ o   442617   82.83 ‰ w   3843   0.72 ‰
ě   79674   14.91 ‰ ó   1704   0.32 ‰ x   4942   0.92 ‰
f   21055   3.94 ‰ p   184548   34.54 ‰ y   93620   17.52 ‰
g   18319   3.43 ‰ q   308   0.06 ‰ ý   50312   9.42 ‰
h   69236   12.96 ‰ r   212533   39.77 ‰ z   113450   21.23 ‰
ch   53802   10.07 ‰ ř   63395   11.86 ‰ ž   54602   10.22 ‰

Nejfrekventovanějších 40 bigramů (dvojic písmen)

st   74285 en   50645 le   38926 to   36355 ho   31442 al   29682   27885 em   26818
  60525 na   46737 ko   38688 ou   35191 do   30665 ed   29622 at   27603 in   26427
po   56239 je   42433 ne   38671 no   32612 os   30530 an   29326 ře   27181 sk   26085
ov   53818 pr   42099 od   38393 la   32336 se   30454 ce   28280 er   27168 lo   25981
ro   51961 te   40393 ra   37531 li   31952 ta   30177 va   27987 ti   26858   25739

Nejfrekventovanějších 40 trigramů (trojic písmen)

pro   21322 ení   11917 ého   9475 ick   8387 edn   7429 ání   7224 pol   6704 val   6256
ost   18722 ova   11822 sti   9121 ová   8139 ské   7349 ent   7114 spo   6686 dní   6251
sta   12746 pod   10168 řed   9103 při   7878 pří   7348 str   6903 vat   6489 sto   6189
pře   12057 kte   9603 kon   9017 sou   7541 odn   7251 ové   6810 ním   6439 tak   6175
ter   11936 pra   9521 nos   8557 ist   7505 tel   7231 nov   6783 jak   6330 lov   6139

Délka slov

Průměrná délka slov v textu:   5.54
Průměrná délka slov ve slovníku (slova bez opakovani):   8.11

První graf zachycuje percentuální závislost výskytu slov v textu podle délky. A druhý graf zachycuje percentuální závislost výskytu slov ve slovníku (tj. slova bez opakování) podle délky.

https://nlp.fi.muni.cz/trac/research/attachment/wiki/cs/FrekvenceSlovLemmat/delka.desam.cz.1.png

Attachments (4)

Download all attachments as: .zip