wiki:cs/StopList

Version 1 (modified by xkocinc, 6 years ago) (diff)

--

Český stoplist

Stoplist je seznam slov, které díky své vysoké frekvenci v textu ztrácejí význam pro sémantickou analýzu věty. Protože mají tato slova ve větě význam spíše gramatický, lze je tedy bez větší újmy na srozumitelnosti sdělení z věty vypustit. Jedná se především o spojky a předložky, tedy slova velmi krátká. Díky jejich frekvenci se totiž na nich výrazněji projevila asimilace a redukce. 
     Metoda výběru slov do stoplistu podle frekvence pochopitelně může produkovat různě zkreslené výsledky. Hlavní příčinou je to, že frekvenční hranice těchto slov není a také nikdy nemůže být přesně určena. Míra srozumitelnosti (a jednoznačnosti) sdělení bez daného slova je totiž do velké míry subjektivní. Navíc na frekvenci závisí pouze "statisticky". Existuje totiž celá řada slov, která se používají z globálního hlediska poměrně zřídka a přesto nemají pro analýzu věty žádný význam, například tzv. "rétorické berličky" (vlastně, prostě,.....) nebo také podmět či předmět, který stojí ve větě, přestože je jednoznačně znám z kontextu. Na druhé straně, některá slova relativně frekventovaná nelze z věty bez určitého posunu ve významu vypustit. Dalším, ale neméně podstatným zkreslujícím faktorem je často nereprezentativnost zdroje dat. Zdrojem pro statistiky a výzkumy podobného typu jsou pochopitelně zpravidla korpusy. Přestože jsou korpusy velmi obsáhlé a jejich tvůrci se snaží co nejvhodnějším výběrem textů o jejich různorodost, zdrojem většiny je především denní tisk (díky jeho kvantitě a dostupnosti v elektronickém formátu). Proto jsou některé vlastnosti korpusů podstatnou měrou ovlivněny publicistickým stylem a v některých statistikách je to také zřetelně znát. Vypovídá o tom např. četnost slov jako jsou "koruna", "strana" nebo dokonce "ODS"... Zřejmě také korpusy z pochopitelných důvodů neobsahují dostatek vzorků mluvené češtiny, která je ale v reálném životě mnohem častěji používaná než psaná, a proto je dle mého soudu pro tvorbu statistik velmi směrodatná. Pochopitelně existují i vyvážené korpusy (British National Corpus), které velmi věrně odrážejí soudobý jazyk. V současné době jich ale není mnoho, alespoň co se těch rozsáhlejších týče.
     Objektivnost následujícího stoplistu a s ním spojených statistik jsem se pokusil alespoň trochu zvýšit tím, že jsem čerpal ze dvou zdrojů (z Českého národního korpusu a korpusu ESO). Navíc jsem se snažil brát zřetel na výskyt slova na začátku a uprostřed věty. 
     Počet výskytů je průměr součtu absolutních výskytů v obou korpusech uvedený v procentech vůči součtu celkového počtu pozic obou korpusů. Díky tomu, že mnou používané korpusové manažery jsou case-sensitive, odlišil jsem od sebe výskyty slov uprostřed věty (všechny znaky malými písmeny) a výskyty na začátku věty (první písmeno velké, ostatní malá). Statisticky nevýznamný vzorek jsou výskyty slov psaných jen velkými písmeny, proto jsem je zanedbal. Zvýrazněna jsou významová slova.
     Na samostatnou stránku připojuji také Stoplist základních tvarů  

Frekvence slov v textu
SLOVO Výskyty uprostřed věty Výskyty na začátku věty Celkem výskytů Procento výskytů na začátku věty
a 2.11470 0.11143 2.22613 5,006
v 1.60243 0.23087 1.83330 12,593
se 1.50427 0.00423 1.50850 0,281
na 1.24863 0.10347 1.35210 7,653
je 0.74507 0.06108 0.80615 7,577
že 0.70938 0.00557 0.71495 0,779
o 0.58508 0.04603 0.63111 7,293
s 0.58867 0.03908 0.62775 6,225
z 0.53856 0.04787 0.58643 8,164
do 0.46202 0.02509 0.48711 5,151
i 0.43144 0.04308 0.47452 9,078
to 0.41652 0.05711 0.47363 12,057
k 0.33589 0.03961 0.37550 10,549
ve 0.33521 0.03669 0.37189 9,864
pro 0.32737 0.02930 0.35668 8,215
za 0.30863 0.03497 0.34360 10,177
by 0.29749 0.00007 0.29756 0,023
ale 0.24520 0.03685 0.28205 13,065
si 0.26640 0.00009 0.26649 0,033
po 0.21693 0.04373 0.26066 16,776
jako 0.22132 0.01371 0.23503 5,835
podle 0.13621 0.07053 0.20674 34,114
od 0.17746 0.02071 0.19816 10,45
jsem 0.18999 0.00807 0.19807 4,075
tak 0.17634 0.01557 0.19190 8,111
jsou 0.17991 0.00943 0.18934 4,981
které 0.18868 0.00051 0.18920 0,27
který 0.18101 0.00037 0.18138 0,205
jeho 0.15663 0.01796 0.17459 10,286
však 0.17229 0.00077 0.17306 0,445
bude 0.15408 0.00586 0.15993 3,663
nebo 0.15463 0.00352 0.15815 2,225
0.13977 0.01334 0.15311 8,714
jen 0.14124 0.01017 0.15141 6,716
byl 0.13960 0.01115 0.15075 7,394
jak 0.10976 0.03555 0.14531 24,466
u 0.12126 0.02060 0.14187 14,523
co 0.11623 0.02465 0.14088 17,495
při 0.11594 0.02333 0.13928 16,754
0.12503 0.00776 0.13279 5,845
aby 0.12803 0.00456 0.13259 3,437
0.12554 0.00616 0.13170 4,679
když 0.09577 0.03352 0.12929 25,926
než 0.12607 0.00197 0.12805 1,539
ze 0.11716 0.00805 0.12520 6,427
která 0.11892 0.00028 0.11920 0,237
před 0.10736 0.01112 0.11848 9,385
být 0.11615 0.00072 0.11686 0,614
také 0.10240 0.00990 0.11230 8,815
bylo 0.10162 0.00985 0.11147 8,835
jsme 0.10080 0.00405 0.10486 3,864
není 0.09052 0.01417 0.10469 13,531
jejich 0.09238 0.00924 0.10162 9,096
ještě 0.09210 0.00927 0.10137 9,143
ani 0.09082 0.01025 0.10107 10,141
mezi 0.08931 0.01073 0.10004 10,723
byla 0.09280 0.00622 0.09902 6,282
své 0.09326 0.00207 0.09533 2,167
roku 0.08704 0.00080 0.08784 0,912
již 0.07992 0.00567 0.08559 6,62
pak 0.07019 0.01114 0.08134 13,699
první 0.06355 0.01612 0.07967 20,228
roce 0.07672 0.00001 0.07673 0,013
kteří 0.07554 0.00007 0.07561 0,09
další 0.06214 0.01225 0.07440 16,47
proti 0.06897 0.00539 0.07436 7,248
let 0.07376 0.00032 0.07408 0,435
tím 0.06502 0.00740 0.07242 10,219
může 0.06887 0.00318 0.07205 4,42
korun 0.07184 0.00001 0.07185 0,018
řekl 0.06587 0.00470 0.07057 6,654
tom 0.06950 0.00106 0.07055 1,497
kde 0.06735 0.00317 0.07053 4,501
či 0.06787 0.00030 0.06817 0,447
tedy 0.05841 0.00243 0.06084 3,988
pouze 0.05529 0.00280 0.05809 4,823