Changes between Version 2 and Version 3 of cs/JazykovyKorpus


Ignore:
Timestamp:
Mar 11, 2014, 1:35:49 PM (10 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/JazykovyKorpus

    v2 v3  
    55Když  texty posbíráme (např. stažením z webu), musíme korpus vyčistit:  odstranit vše, co není text (např. navigaci na stránkách nebo tiráž),  odstranit duplicity (např. tiskové zprávy, které přetiskují všechny  noviny). Vyčištěný korpus se rozdělí na ''tokeny'' (česky pozice),  tj. slova, interpunkci a neslova (čísla, značky). Často se korpus  značkuje: např. ke každému slovu přiřadíme slovní druh (podstatné jméno,  přídavné jméno atd.).
    66
    7 S  dortovým korpusem má jazykový korpus jednu společnou vlastnost: je  výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový  korpus natřeme krém z [https://nlp.fi.muni.cz/cs/VetnyRozbor větného rozboru]  a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat  hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť.
     7S  dortovým korpusem má jazykový korpus jednu společnou vlastnost: je  výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový  korpus natřeme krém z [[VetnyRozbor| větného rozboru]]  a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat  hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť.
    88
    99== 2. Co by našel v korpusu Luděk Nekuda? ==