Changes between Version 1 and Version 2 of cs/JazykovyKorpus


Ignore:
Timestamp:
Mar 11, 2014 1:33:08 PM (6 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/JazykovyKorpus

    v1 v2  
    1 = Tři věci, které jste nevěděli o jazykových korpusech = #T.2BAVk-i_v.2BARs-ci.2C_kter.2BAOk_jste_nev.2BARs-d.2BARs-li_o_jazykov.2BAP0-ch_korpusech
     1= Tři věci, které jste nevěděli o jazykových korpusech =
    22== 1. Dortový nebo jazykový? == #A1._Dortov.2BAP0_nebo_jazykov.2BAP0.3F
    3 Jazykový  korpus je obrovský soubor textů. Texty někdo napsal (pak jde o korpus  textový), nebo někdo řekl, nahrál a přepsal (pak jde o korpus mluvené  řeči). Korpus může být jednojazyčný (např. korpus češtiny) nebo  vícejazyčný (např. korpus projevů z Evropského parlamentu, kdy se  všechny projevy překládají do jednacích jazyků EU). 
     3Jazykový  korpus je obrovský soubor textů. Texty někdo napsal (pak jde o korpus  textový), nebo někdo řekl, nahrál a přepsal (pak jde o korpus mluvené  řeči). Korpus může být jednojazyčný (např. korpus češtiny) nebo  vícejazyčný (např. korpus projevů z Evropského parlamentu, kdy se  všechny projevy překládají do jednacích jazyků EU).
    44
    5 Když  texty posbíráme (např. stažením z webu), musíme korpus vyčistit:  odstranit vše, co není text (např. navigaci na stránkách nebo tiráž),  odstranit duplicity (např. tiskové zprávy, které přetiskují všechny  noviny). Vyčištěný korpus se rozdělí na ''tokeny'' (česky pozice),  tj. slova, interpunkci a neslova (čísla, značky). Často se korpus  značkuje: např. ke každému slovu přiřadíme slovní druh (podstatné jméno,  přídavné jméno atd.). 
     5Když  texty posbíráme (např. stažením z webu), musíme korpus vyčistit:  odstranit vše, co není text (např. navigaci na stránkách nebo tiráž),  odstranit duplicity (např. tiskové zprávy, které přetiskují všechny  noviny). Vyčištěný korpus se rozdělí na ''tokeny'' (česky pozice),  tj. slova, interpunkci a neslova (čísla, značky). Často se korpus  značkuje: např. ke každému slovu přiřadíme slovní druh (podstatné jméno,  přídavné jméno atd.).
    66
    7 S  dortovým korpusem má jazykový korpus jednu společnou vlastnost: je  výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový  korpus natřeme krém z [https://nlp.fi.muni.cz/cs/VetnyRozbor větného rozboru]  a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat  hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť. 
     7S  dortovým korpusem má jazykový korpus jednu společnou vlastnost: je  výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový  korpus natřeme krém z [https://nlp.fi.muni.cz/cs/VetnyRozbor větného rozboru]  a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat  hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť.
    88
    9 == 2. Co by našel v korpusu Luděk Nekuda? == #A2._Co_by_na.2BAWE-el_v_korpusu_Lud.2BARs-k_Nekuda.3F
    10 V této [https://www.youtube.com/watch?v=8pxzRJ9x9D4 překrásné scénce]  si Luděk Nekuda výtečně pohrál s češtinou. Když psal písničku o  zrušených záporech, musel si dát pěknou práci. Zkusili jsme hledat  současná slova začínající na ne. Podívejte se, co jsme našli, a můžete  si zkusit podobnou hru jako Luděk Nekuda. Seznam slov pochází ze  současného největšího českého korpusu czTenTen12 (skoro 5,5 miliard  pozic). 
     9== 2. Co by našel v korpusu Luděk Nekuda? ==
     10V této [https://www.youtube.com/watch?v=8pxzRJ9x9D4 překrásné scénce]  si Luděk Nekuda výtečně pohrál s češtinou. Když psal písničku o  zrušených záporech, musel si dát pěknou práci. Zkusili jsme hledat  současná slova začínající na ne. Podívejte se, co jsme našli, a můžete  si zkusit podobnou hru jako Luděk Nekuda. Seznam slov pochází ze  současného největšího českého korpusu czTenTen12 (skoro 5,5 miliard  pozic).
    1111
    12 || || ||
     12[[Image(seznam_slov.png)]]
    1313
    14 == 3. Jak značkovat korpus? == #A3._Jak_zna.2BAQ0-kovat_korpus.3F
    15 Jazykové  korpusy bývají často značkované. To znamená, že u každého slova máme  další informace, např. o slovním druhu. Často se stává, že jedno slovo  může patřit k více slovním druhům. Například slovo ''stát'' - může  být sloveso (stojím, stojíš) nebo podstatné jméno (sousední stát). V  historii se se slovy dějí různé věci, například se z podstatných jmen  stávají příslovce. 
     14== 3. Jak značkovat korpus? ==
     15Jazykové  korpusy bývají často značkované. To znamená, že u každého slova máme  další informace, např. o slovním druhu. Často se stává, že jedno slovo  může patřit k více slovním druhům. Například slovo ''stát'' - může  být sloveso (stojím, stojíš) nebo podstatné jméno (sousední stát). V  historii se se slovy dějí různé věci, například se z podstatných jmen  stávají příslovce.
    1616
    17 === Co jsme se mimochodem dozvěděli z korpusu === #Co_jsme_se_mimochodem_dozv.2BARs-d.2BARs-li_z_korpusu
    18 ''Mimochodem''  je příklad slova, které slovními druhy cestuje poměrně nenuceně.  Většinou je to příslovce, mimochodem velmi často používané (tři  příslovce po sobě!). Máme ale i slovo mimochod, označující druh kroku u  psů, koní, velbloudů a dalších zvířat. Kdy je ''mimochodem'' příslovce a kdy podstatné jméno v sedmém pádu (kým? čím?)? Staňte se na chvíli korpusovým lingvistou a najděte výskyty slova ''mimochod'': 
     17=== Co jsme se mimochodem dozvěděli z korpusu ===
     18''Mimochodem''  je příklad slova, které slovními druhy cestuje poměrně nenuceně.  Většinou je to příslovce, mimochodem velmi často používané (tři  příslovce po sobě!). Máme ale i slovo mimochod, označující druh kroku u  psů, koní, velbloudů a dalších zvířat. Kdy je ''mimochodem'' příslovce a kdy podstatné jméno v sedmém pádu (kým? čím?)? Staňte se na chvíli korpusovým lingvistou a najděte výskyty slova ''mimochod'':
    1919
    2020|| Fríští  koně byli kříženi s dánskými klusáky a dostali nový název –  „harddraver“. Jejich nejobvyklejším chodem byl mimochod a na popud krále  Viléma I. se přibližně v roce 1820 běhaly dostihy těchto klusáků na  325m. ||
     
    2222|| Má zaúhlení končetin (copak to je?) vliv na pohyb psa? Jak se liší klus od mimochodu nebo-li kdy je pes v mimochodu a kdy kluše? ||
    2323|| Jezdci, zvlášť ti nezkušení, navíc velmi ocenili pohodlný mimochod tohoto koně. ||
    24 || Teď jsem se dívala, že asi proto, že už nemůže (jako, že ho bolí nožičky) koukám, koukám a on jde mimochod, jak velbloud! ||
     24|| Teď jsem se dívala, že asi proto, že už nemůže (jako, že ho bolí nožičky) koukám, koukám a on jde mimochod, jak velbloud!|| ||
    2525|| ad  mimochod - mimochod je něco mezi krokem a klusem - dokáže to úplně  každý pes, zejména pokud se jde v pomalejším tempu než je mu příjemné,  což na vodítku často bývá a rozhodně to není žádná anomálie ||
    2626|| Nejčastěji  uváděnými nečistotami chodu jsou mimochod v kroku (kůň vykračuje  stejnostrannýma nohama současně, nákrok v kroku a klusu (jedna noha dělá  delší krok), rozložený klus a cval (bývá většinou následek přílišného  nebo předčasného sebrání koně ||
    2727|| Jestliže  majitel vyjde nerozhodně a nejistě, pes obvykle vykročí mimochodem,  nikoliv klusem, nebo nástup zmešká úplně a takzvaně „zaspí“. ||
    2828
    29 OK, vypadá to, že mimochod najdeme tam, kde najdeme slova pes, kůň, klus, krok. Pojďme hledat dál. 
     29OK, vypadá to, že mimochod najdeme tam, kde najdeme slova pes, kůň, klus, krok. Pojďme hledat dál.
    3030
    3131|| Sedla  na koníka a pod dohledem „trenérky“ začala trénovat. Krok, klus, cval  (mimochodem, chudák kůň a ta trenérka - darmo mluvit...). ||
    3232
    33 Co teď? Hledáme dál a ... 
     33Co teď? Hledáme dál a ...
    3434
    3535|| Mám ráda svojí kytaru(Rozárku) a zpěváka Tomáše Kluse a ten má mimochodem taky kytaru Rozárku. ||