wiki:cs/StopList

Context Navigation

Version 2 (modified by xkocinc, 11 years ago) (diff)
--

Český stoplist

Stoplist je seznam slov, které díky své vysoké frekvenci v textu ztrácejí význam pro sémantickou analýzu věty. Protože mají tato slova ve větě význam spíše gramatický, lze je tedy bez větší újmy na srozumitelnosti sdělení z věty vypustit. Jedná se především o spojky a předložky, tedy slova velmi krátká. Díky jejich frekvenci se totiž na nich výrazněji projevila asimilace a redukce.

Metoda výběru slov do stoplistu podle frekvence pochopitelně může produkovat různě zkreslené výsledky. Hlavní příčinou je to, že frekvenční hranice těchto slov není a také nikdy nemůže být přesně určena. Míra srozumitelnosti (a jednoznačnosti) sdělení bez daného slova je totiž do velké míry subjektivní. Navíc na frekvenci závisí pouze "statisticky". Existuje totiž celá řada slov, která se používají z globálního hlediska poměrně zřídka a přesto nemají pro analýzu věty žádný význam, například tzv. "rétorické berličky" (vlastně, prostě,.....) nebo také podmět či předmět, který stojí ve větě, přestože je jednoznačně znám z kontextu. Na druhé straně, některá slova relativně frekventovaná nelze z věty bez určitého posunu ve významu vypustit. Dalším, ale neméně podstatným zkreslujícím faktorem je často nereprezentativnost zdroje dat. Zdrojem pro statistiky a výzkumy podobného typu jsou pochopitelně zpravidla korpusy. Přestože jsou korpusy velmi obsáhlé a jejich tvůrci se snaží co nejvhodnějším výběrem textů o jejich různorodost, zdrojem většiny je především denní tisk (díky jeho kvantitě a dostupnosti v elektronickém formátu). Proto jsou některé vlastnosti korpusů podstatnou měrou ovlivněny publicistickým stylem a v některých statistikách je to také zřetelně znát. Vypovídá o tom např. četnost slov jako jsou "koruna", "strana" nebo dokonce "ODS"... Zřejmě také korpusy z pochopitelných důvodů neobsahují dostatek vzorků mluvené češtiny, která je ale v reálném životě mnohem častěji používaná než psaná, a proto je dle mého soudu pro tvorbu statistik velmi směrodatná. Pochopitelně existují i vyvážené korpusy (British National Corpus), které velmi věrně odrážejí soudobý jazyk. V současné době jich ale není mnoho, alespoň co se těch rozsáhlejších týče.

Objektivnost následujícího stoplistu a s ním spojených statistik jsem se pokusil alespoň trochu zvýšit tím, že jsem čerpal ze dvou zdrojů (z Českého národního korpusu a korpusu ESO). Navíc jsem se snažil brát zřetel na výskyt slova na začátku a uprostřed věty.

Počet výskytů je průměr součtu absolutních výskytů v obou korpusech uvedený v procentech vůči součtu celkového počtu pozic obou korpusů. Díky tomu, že mnou používané korpusové manažery jsou case-sensitive, odlišil jsem od sebe výskyty slov uprostřed věty (všechny znaky malými písmeny) a výskyty na začátku věty (první písmeno velké, ostatní malá). Statisticky nevýznamný vzorek jsou výskyty slov psaných jen velkými písmeny, proto jsem je zanedbal. Zvýrazněna jsou významová slova.

Na samostatnou stránku připojuji také Stoplist základních tvarů

Frekvence slov v textu

SLOVO	Výskyty uprostřed věty	Výskyty na začátku věty	Celkem výskytů	Procento výskytů na začátku věty
a	2.11470	0.11143	2.22613	5,006
v	1.60243	0.23087	1.83330	12,593
se	1.50427	0.00423	1.50850	0,281
na	1.24863	0.10347	1.35210	7,653
je	0.74507	0.06108	0.80615	7,577
že	0.70938	0.00557	0.71495	0,779
o	0.58508	0.04603	0.63111	7,293
s	0.58867	0.03908	0.62775	6,225
z	0.53856	0.04787	0.58643	8,164
do	0.46202	0.02509	0.48711	5,151
i	0.43144	0.04308	0.47452	9,078
to	0.41652	0.05711	0.47363	12,057
k	0.33589	0.03961	0.37550	10,549
ve	0.33521	0.03669	0.37189	9,864
pro	0.32737	0.02930	0.35668	8,215
za	0.30863	0.03497	0.34360	10,177
by	0.29749	0.00007	0.29756	0,023
ale	0.24520	0.03685	0.28205	13,065
si	0.26640	0.00009	0.26649	0,033
po	0.21693	0.04373	0.26066	16,776
jako	0.22132	0.01371	0.23503	5,835
podle	0.13621	0.07053	0.20674	34,114
od	0.17746	0.02071	0.19816	10,45
jsem	0.18999	0.00807	0.19807	4,075
tak	0.17634	0.01557	0.19190	8,111
jsou	0.17991	0.00943	0.18934	4,981
které	0.18868	0.00051	0.18920	0,27
který	0.18101	0.00037	0.18138	0,205
jeho	0.15663	0.01796	0.17459	10,286
však	0.17229	0.00077	0.17306	0,445
bude	0.15408	0.00586	0.15993	3,663
nebo	0.15463	0.00352	0.15815	2,225
už	0.13977	0.01334	0.15311	8,714
jen	0.14124	0.01017	0.15141	6,716
byl	0.13960	0.01115	0.15075	7,394
jak	0.10976	0.03555	0.14531	24,466
u	0.12126	0.02060	0.14187	14,523
co	0.11623	0.02465	0.14088	17,495
při	0.11594	0.02333	0.13928	16,754
až	0.12503	0.00776	0.13279	5,845
aby	0.12803	0.00456	0.13259	3,437
má	0.12554	0.00616	0.13170	4,679
když	0.09577	0.03352	0.12929	25,926
než	0.12607	0.00197	0.12805	1,539
ze	0.11716	0.00805	0.12520	6,427
která	0.11892	0.00028	0.11920	0,237
před	0.10736	0.01112	0.11848	9,385
být	0.11615	0.00072	0.11686	0,614
také	0.10240	0.00990	0.11230	8,815
bylo	0.10162	0.00985	0.11147	8,835
jsme	0.10080	0.00405	0.10486	3,864
není	0.09052	0.01417	0.10469	13,531
jejich	0.09238	0.00924	0.10162	9,096
ještě	0.09210	0.00927	0.10137	9,143
ani	0.09082	0.01025	0.10107	10,141
mezi	0.08931	0.01073	0.10004	10,723
byla	0.09280	0.00622	0.09902	6,282
své	0.09326	0.00207	0.09533	2,167
roku	0.08704	0.00080	0.08784	0,912
již	0.07992	0.00567	0.08559	6,62
pak	0.07019	0.01114	0.08134	13,699
první	0.06355	0.01612	0.07967	20,228
roce	0.07672	0.00001	0.07673	0,013
kteří	0.07554	0.00007	0.07561	0,09
další	0.06214	0.01225	0.07440	16,47
proti	0.06897	0.00539	0.07436	7,248
let	0.07376	0.00032	0.07408	0,435
tím	0.06502	0.00740	0.07242	10,219
může	0.06887	0.00318	0.07205	4,42
korun	0.07184	0.00001	0.07185	0,018
řekl	0.06587	0.00470	0.07057	6,654
tom	0.06950	0.00106	0.07055	1,497
kde	0.06735	0.00317	0.07053	4,501
či	0.06787	0.00030	0.06817	0,447
tedy	0.05841	0.00243	0.06084	3,988
pouze	0.05529	0.00280	0.05809	4,823

Download in other formats:

Plain Text