Changes between Version 81 and Version 82 of cs/PocitaceNerozumiNikomu
- Timestamp:
- Jul 31, 2015, 8:52:56 AM (8 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/PocitaceNerozumiNikomu
v81 v82 33 33 {{{#!html 34 34 <div class="box-qa"> 35 <strong>Otázka:</strong> Baron Prá šil nebo MilošZeman?35 <strong>Otázka:</strong> Baron Prášil nebo Miloš Zeman? 36 36 <br/> 37 37 <strong> Odpověď:</strong> Vyrovnáno. 38 38 }}} 39 39 40 Projekt Demagog.cz ji ž delší dobu mapuje výroky našich politiků. Přiřazení příznaku pravda/nepravda probíhá zatím manuálně.40 Projekt Demagog.cz již delší dobu mapuje výroky našich politiků. Přiřazení příznaku pravda/nepravda probíhá zatím manuálně. 41 41 42 42 {{{#!html … … 45 45 }}} 46 46 47 S vhodnou bází dat by bylo mož né na základě syntaktické a logické analýzy výroku o jeho pravdivosti rozhodnout automaticky.47 S vhodnou bází dat by bylo možné na základě syntaktické a logické analýzy výroku o jeho pravdivosti rozhodnout automaticky. 48 48 49 49 {{{#!html … … 59 59 }}} 60 60 61 Dolování názorů je téma, kterému se poslední dobou věnuje mnoho lidí. Software pro dolování názorů využ ívá jak jazykových technik, tak například strojového učení.61 Dolování názorů je téma, kterému se poslední dobou věnuje mnoho lidí. Software pro dolování názorů využívá jak jazykových technik, tak například strojového učení. 62 62 63 63 {{{#!html … … 80 80 }}} 81 81 82 Extrakce informací z textu je velmi ž ádaným tématem. V případě anglických textů se používají zpravidla jen statistické metody. Čeština, podobně jako jiné slovanské jazyky, má bohatou flexi (skloňování jmen a časování sloves), a proto je třeba před statistickým zpracováním určit základní tvary slov.82 Extrakce informací z textu je velmi žádaným tématem. V případě anglických textů se používají zpravidla jen statistické metody. Čeština, podobně jako jiné slovanské jazyky, má bohatou flexi (skloňování jmen a časování sloves), a proto je třeba před statistickým zpracováním určit základní tvary slov. 83 83 84 84 {{{ … … 87 87 KRYTON: To není kuře, pánové. 88 88 KOCOUR: A co to je? 89 KRYTON: Ten mu , co jsme ho nali.90 LISTER: Což e?89 KRYTON: Ten muž, co jsme ho našli. 90 LISTER: Cože? 91 91 KRYTON: Připadalo mi to, jako hrozné mrhání ho tam nechat, 92 kdy by se tak bezvadně griloval.92 když by se tak bezvadně griloval. 93 93 RIMMER se chichotá. 94 KRYTON: Udělal jsem něco š patně? Nedostal jsem žádné hlášení o chybě.95 Asi je to tím, ž e nemám čip svědomí a žádné morální imperativy,96 které by mě vedly. Ale při lo mi logické, že kdylidé jedí kuřata,94 KRYTON: Udělal jsem něco špatně? Nedostal jsem žádné hlášení o chybě. 95 Asi je to tím, že nemám čip svědomí a žádné morální imperativy, 96 které by mě vedly. Ale přišlo mi logické, že když lidé jedí kuřata, 97 97 tak budou pojídat i svůj druh. Přece by si nezasedli pouze na kuřata. 98 98 }}} … … 112 112 }}} 113 113 114 Generování textů v přirozeném jazyce je celý vědní podobor. Vědecké pr ace vygenerované programem !SciGen byly uněkolikrát přijaty na konference. Pro české a slovenské texty zatím software nemáme, a proto musí nebozí studenti za práce platit nebo je sami psát (zatím).114 Generování textů v přirozeném jazyce je celý vědní podobor. Vědecké práce vygenerované programem !SciGen byly už několikrát přijaty na konference. Pro české a slovenské texty zatím software nemáme, a proto musí nebozí studenti za práce platit nebo je sami psát (zatím). 115 115 116 116 {{{#!html … … 129 129 <strong>Otázka:</strong> Kdo ví víc? 130 130 <br/> 131 <strong> Odpověď:</strong> Bůh ví 4,2578537320x častěji než čert.132 }}} 133 134 Vytváříme obrovské soubory textů (jazykové korpusy), ze kterých se lingvisté o jazyku leccos dozvídají: která slova se použ ívají často, málo často, často spolu, která slova jsou nová a co znamenají. Vývoj software, který umožňuje indexovat miliardy slov a pomocí regulárních výrazů v nich rychle vyhledávat, je informatická výzva.131 <strong> Odpověď:</strong> Bůh ví 4,2578537320x častěji než čert. 132 }}} 133 134 Vytváříme obrovské soubory textů (jazykové korpusy), ze kterých se lingvisté o jazyku leccos dozvídají: která slova se používají často, málo často, často spolu, která slova jsou nová a co znamenají. Vývoj software, který umožňuje indexovat miliardy slov a pomocí regulárních výrazů v nich rychle vyhledávat, je informatická výzva. 135 135 136 136 {{{#!html … … 153 153 }}} 154 154 155 Prož ít pěkný život lze i s mnohem méně než pěti tisíci slovy. Pasivní slovní zásoba je asi 5x rozsáhlejší. Měřením slovní zásoby (aktivní i pasivní) cizího jazyka můžete zjistit, jak dobře jazyk znáte. Lidé mají svá oblíbená slova, která jsou pro jejich mluvený nebo psaný projev charakteristická. Díky tomu můžeme poznat autora textu, případně zjistit, že je vrcholový sportovec. Tak určitě.155 Prožít pěkný život lze i s mnohem méně než pěti tisíci slovy. Pasivní slovní zásoba je asi 5x rozsáhlejší. Měřením slovní zásoby (aktivní i pasivní) cizího jazyka můžete zjistit, jak dobře jazyk znáte. Lidé mají svá oblíbená slova, která jsou pro jejich mluvený nebo psaný projev charakteristická. Díky tomu můžeme poznat autora textu, případně zjistit, že je vrcholový sportovec. Tak určitě. 156 156 157 157 {{{#!html … … 167 167 {{{#!html 168 168 <div class="box-qa"> 169 <strong>Otázka:</strong> Mů žu si s počítačem povídat?169 <strong>Otázka:</strong> Můžu si s počítačem povídat? 170 170 <br/> 171 171 <strong> Odpověď:</strong> Ano, ale chce to pevné nervy. 172 172 }}} 173 173 174 Konverzační agenty ka doročně soutěí o 100,000 dolarů v soutěi Loebner prize. Snaí se uspět v Turingově testu~-- být v konverzaci partnerem nerozeznatelným od člověka. Český konverzační agent jetě svět nedobyl.174 Konverzační agenty každoročně soutěží o 100,000 dolarů v soutěži Loebner prize. Snaží se uspět v Turingově testu~-- být v konverzaci partnerem nerozeznatelným od člověka. Český konverzační agent ještě svět nedobyl. 175 175 176 176 {{{#!html … … 212 212 }}} 213 213 214 Pro nás lidi je jednoduché rozli it mezi kamenem, hodinkami a sedmikráskou. Mnohem těžší je ale vysvětlit rozdíly mezi jednotlivými věcmi a pojmy počítači. Jedním z přístupů je pomocí online hry učit neuronovou síť.214 Pro nás lidi je jednoduché rozlišit mezi kamenem, hodinkami a sedmikráskou. Mnohem těžší je ale vysvětlit rozdíly mezi jednotlivými věcmi a pojmy počítači. Jedním z přístupů je pomocí online hry učit neuronovou síť. 215 215 216 216 {{{#!html … … 250 250 {{{#!html 251 251 <div class="box-qa"> 252 <strong>Otázka:</strong> Doká že počítač detekovat jména?253 <br/> 254 <strong> Odpověď:</strong> Ne vž dy.252 <strong>Otázka:</strong> Dokáže počítač detekovat jména? 253 <br/> 254 <strong> Odpověď:</strong> Ne vždy. 255 255 }}} 256 256 257 257 Vezměme si větu '''''Opera Vladimíra Franze Válka s mloky vzbudila u diváků ohlas'''''. 258 258 259 Počítačové programy najdou víc významů, než by nás napadlo.259 Počítačové programy najdou víc významů, než by nás napadlo. 260 260 261 261 {{{#!html … … 285 285 }}} 286 286 287 Aby počítače rozuměly textu, potřebují vědět, co slova znamenají. Lidem stačí podívat se do slovníku, počítačovým programům ne. Potřebují pomoci s určením správného významu (hospodářské zvíře, pinavý člověk, přechodník od slovesa ''prasit''.287 Aby počítače rozuměly textu, potřebují vědět, co slova znamenají. Lidem stačí podívat se do slovníku, počítačovým programům ne. Potřebují pomoci s určením správného významu (hospodářské zvíře, špinavý člověk, přechodník od slovesa ''prasit''. 288 288 289 289 [[BR]] … … 304 304 }}} 305 305 306 Dávno minuly doby, kdy lexikografové krouž ili velkou místností plnou papírových kartiček a seřazovali, upravovali, odstraňovali nebo přidávali hesla do vznikajícího slovníku. Dnes pracují, aniby se museli vidět a řadu činností po počítačových programech jen překontrolují.306 Dávno minuly doby, kdy lexikografové kroužili velkou místností plnou papírových kartiček a seřazovali, upravovali, odstraňovali nebo přidávali hesla do vznikajícího slovníku. Dnes pracují, aniž by se museli vidět a řadu činností po počítačových programech jen překontrolují. 307 307 308 308 {{{#!html … … 324 324 }}} 325 325 326 Lidé často píš ou bez diakritiky. Pokud chceme takovým textům rozumět a třeba v nich vyhledávat, musíme si diakritiku domyslet. Někdy je to snadné, protoe slovo bez diakritiky ve slovníku nenajdeme (např. ''pocitac''). Jindy je třeba využít znalostí o frekvencích výskytu a spoluvýskytu slov, které získáme z korpusu. Z nich program spočítá pravděpodobnost oháčkováného slova (např. ''měj se''} místo ''mej se'').326 Lidé často píšou bez diakritiky. Pokud chceme takovým textům rozumět a třeba v nich vyhledávat, musíme si diakritiku domyslet. Někdy je to snadné, protože slovo bez diakritiky ve slovníku nenajdeme (např. ''pocitac''). Jindy je třeba využít znalostí o frekvencích výskytu a spoluvýskytu slov, které získáme z korpusu. Z nich program spočítá pravděpodobnost oháčkováného slova (např. ''měj se''} místo ''mej se''). 327 327 328 328 {{{#!html