Changes between Version 2 and Version 3 of cs/JazykovyKorpus
- Timestamp:
- Mar 11, 2014, 1:35:49 PM (11 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/JazykovyKorpus
v2 v3 5 5 Když texty posbíráme (např. stažením z webu), musíme korpus vyčistit: odstranit vše, co není text (např. navigaci na stránkách nebo tiráž), odstranit duplicity (např. tiskové zprávy, které přetiskují všechny noviny). Vyčištěný korpus se rozdělí na ''tokeny'' (česky pozice), tj. slova, interpunkci a neslova (čísla, značky). Často se korpus značkuje: např. ke každému slovu přiřadíme slovní druh (podstatné jméno, přídavné jméno atd.). 6 6 7 S dortovým korpusem má jazykový korpus jednu společnou vlastnost: je výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový korpus natřeme krém z [ https://nlp.fi.muni.cz/cs/VetnyRozbor větného rozboru] a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť.7 S dortovým korpusem má jazykový korpus jednu společnou vlastnost: je výchozím bodem pro další činnosti počítačových lingvistů. Na jazykový korpus natřeme krém z [[VetnyRozbor| větného rozboru]] a ozdobíme šlehačkou statistických metod. Nakonec můžeme nastrouhat hoblinky hybridních systémů pro rozpoznání významu a je to! Dobrou chuť. 8 8 9 9 == 2. Co by našel v korpusu Luděk Nekuda? ==