Changes between Version 81 and Version 82 of cs/PocitaceNerozumiNikomu


Ignore:
Timestamp:
Jul 31, 2015, 8:52:56 AM (6 years ago)
Author:
Ales Horak
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/PocitaceNerozumiNikomu

    v81 v82  
    3333{{{#!html
    3434<div class="box-qa">
    35 <strong>Otázka:</strong> Baron Prᚚšššššil nebo Milošš Zeman?
     35<strong>Otázka:</strong> Baron Prášil nebo Miloš Zeman?
    3636<br/>
    3737<strong> Odpověď:</strong> Vyrovnáno.
    3838}}}
    3939
    40 Projekt Demagog.cz jižž delšší dobu mapuje výroky naššich politiků. Přiřazení příznaku pravda/nepravda probíhá zatím manuálně.
     40Projekt Demagog.cz již delší dobu mapuje výroky našich politiků. Přiřazení příznaku pravda/nepravda probíhá zatím manuálně.
    4141
    4242{{{#!html
     
    4545}}}
    4646
    47 S vhodnou bází dat by bylo možžné na základě syntaktické a logické analýzy výroku o jeho pravdivosti rozhodnout automaticky.
     47S vhodnou bází dat by bylo možné na základě syntaktické a logické analýzy výroku o jeho pravdivosti rozhodnout automaticky.
    4848
    4949{{{#!html
     
    5959}}}
    6060
    61 Dolování názorů je téma, kterému se poslední dobou věnuje mnoho lidí. Software pro dolování názorů využžívá jak jazykových technik, tak například strojového učení.
     61Dolování názorů je téma, kterému se poslední dobou věnuje mnoho lidí. Software pro dolování názorů využívá jak jazykových technik, tak například strojového učení.
    6262
    6363{{{#!html
     
    8080}}}
    8181
    82 Extrakce informací z textu je velmi žžádaným tématem. V případě anglických textů se použžívají zpravidla jen statistické metody. Češština, podobně jako jiné slovanské jazyky, má bohatou flexi (skloňování jmen a časování sloves), a proto je třeba před statistickým zpracováním určit základní tvary slov.
     82Extrakce informací z textu je velmi žádaným tématem. V případě anglických textů se používají zpravidla jen statistické metody. Čeština, podobně jako jiné slovanské jazyky, má bohatou flexi (skloňování jmen a časování sloves), a proto je třeba před statistickým zpracováním určit základní tvary slov.
    8383
    8484{{{
     
    8787KRYTON: To není kuře, pánové.
    8888KOCOUR: A co to je?
    89 KRYTON: Ten muž, co jsme ho našli.
    90 LISTER: Cožže?
     89KRYTON: Ten muž, co jsme ho našli.
     90LISTER: Cože?
    9191KRYTON: Připadalo mi to, jako hrozné mrhání ho tam nechat,
    92         když by se tak bezvadně griloval.
     92        když by se tak bezvadně griloval.
    9393RIMMER se chichotá.
    94 KRYTON: Udělal jsem něco ššpatně? Nedostal jsem žžádné hlṚení o chybě.
    95         Asi je to tím, žže nemám čip svědomí a žžádné morální imperativy,
    96         které by mě vedly. Ale přišlo mi logické, žže když lidé jedí kuřata,
     94KRYTON: Udělal jsem něco špatně? Nedostal jsem žádné hlášení o chybě.
     95        Asi je to tím, že nemám čip svědomí a žádné morální imperativy,
     96        které by mě vedly. Ale přišlo mi logické, že když lidé jedí kuřata,
    9797        tak budou pojídat i svůj druh. Přece by si nezasedli pouze na kuřata.
    9898}}}
     
    112112}}}
    113113
    114 Generování textů v přirozeném jazyce je celý vědní podobor. Vědecké prace vygenerované programem !SciGen byly už několikrát přijaty na konference. Pro české a slovenské texty zatím software nemáme, a proto musí nebozí studenti za práce platit nebo je sami psát (zatím).
     114Generování textů v přirozeném jazyce je celý vědní podobor. Vědecké práce vygenerované programem !SciGen byly už několikrát přijaty na konference. Pro české a slovenské texty zatím software nemáme, a proto musí nebozí studenti za práce platit nebo je sami psát (zatím).
    115115
    116116{{{#!html
     
    129129<strong>Otázka:</strong> Kdo ví víc?
    130130<br/>
    131 <strong> Odpověď:</strong> Bůh ví 4,2578537320x častěji nežž čert.
    132 }}}
    133 
    134 Vytváříme obrovské soubory textů (jazykové korpusy), ze kterých se lingvisté o jazyku leccos dozvídají: která slova se použžívají často, málo často, často spolu, která slova jsou nová a co znamenají. Vývoj software, který umožžňuje indexovat miliardy slov a pomocí regulárních výrazů v nich rychle vyhledávat, je informatická výzva.
     131<strong> Odpověď:</strong> Bůh ví 4,2578537320x častěji než čert.
     132}}}
     133
     134Vytváříme obrovské soubory textů (jazykové korpusy), ze kterých se lingvisté o jazyku leccos dozvídají: která slova se používají často, málo často, často spolu, která slova jsou nová a co znamenají. Vývoj software, který umožňuje indexovat miliardy slov a pomocí regulárních výrazů v nich rychle vyhledávat, je informatická výzva.
    135135
    136136{{{#!html
     
    153153}}}
    154154
    155 Prožžít pěkný žživot lze i s mnohem méně nežž pěti tisíci slovy. Pasivní slovní zásoba je asi 5x rozsáhlejšší. Měřením slovní zásoby (aktivní i pasivní) cizího jazyka můžžete zjistit, jak dobře jazyk znáte. Lidé mají svá oblíbená slova, která jsou pro jejich mluvený nebo psaný projev charakteristická. Díky tomu můžžeme poznat autora textu, případně zjistit, žže je vrcholový sportovec. Tak určitě.
     155Prožít pěkný život lze i s mnohem méně než pěti tisíci slovy. Pasivní slovní zásoba je asi 5x rozsáhlejší. Měřením slovní zásoby (aktivní i pasivní) cizího jazyka můžete zjistit, jak dobře jazyk znáte. Lidé mají svá oblíbená slova, která jsou pro jejich mluvený nebo psaný projev charakteristická. Díky tomu můžeme poznat autora textu, případně zjistit, že je vrcholový sportovec. Tak určitě.
    156156
    157157{{{#!html
     
    167167{{{#!html
    168168<div class="box-qa">
    169 <strong>Otázka:</strong> Můžžu si s počítačem povídat?
     169<strong>Otázka:</strong> Můžu si s počítačem povídat?
    170170<br/>
    171171<strong> Odpověď:</strong> Ano, ale chce to pevné nervy.
    172172}}}
    173173
    174 Konverzační agenty každoročně soutěží o 100,000 dolarů v soutěži Loebner prize. Snaží se uspět v Turingově testu~-- být v konverzaci partnerem nerozeznatelným od člověka. Český konverzační agent ještě svět nedobyl.
     174Konverzační agenty každoročně soutěží o 100,000 dolarů v soutěži Loebner prize. Snaží se uspět v Turingově testu~-- být v konverzaci partnerem nerozeznatelným od člověka. Český konverzační agent ještě svět nedobyl.
    175175
    176176{{{#!html
     
    212212}}}
    213213
    214 Pro nás lidi je jednoduché rozlišit mezi kamenem, hodinkami a sedmikráskou. Mnohem těžšžší je ale vysvětlit rozdíly mezi jednotlivými věcmi a pojmy počítači. Jedním z přístupů je pomocí online hry učit neuronovou síť.
     214Pro nás lidi je jednoduché rozlišit mezi kamenem, hodinkami a sedmikráskou. Mnohem těžší je ale vysvětlit rozdíly mezi jednotlivými věcmi a pojmy počítači. Jedním z přístupů je pomocí online hry učit neuronovou síť.
    215215
    216216{{{#!html
     
    250250{{{#!html
    251251<div class="box-qa">
    252 <strong>Otázka:</strong> Dokើe počítač detekovat jména?
    253 <br/>
    254 <strong> Odpověď:</strong> Ne vžždy.
     252<strong>Otázka:</strong> Dokáže počítač detekovat jména?
     253<br/>
     254<strong> Odpověď:</strong> Ne vždy.
    255255}}}
    256256
    257257Vezměme si větu '''''Opera Vladimíra Franze Válka s mloky vzbudila u diváků ohlas'''''.
    258258
    259 Počítačové programy najdou víc významů, nežž by nás napadlo.
     259Počítačové programy najdou víc významů, než by nás napadlo.
    260260
    261261{{{#!html
     
    285285}}}
    286286
    287 Aby počítače rozuměly textu, potřebují vědět, co slova znamenají. Lidem stačí podívat se do slovníku, počítačovým programům ne. Potřebují pomoci s určením správného významu (hospodářské zvíře, špinavý člověk, přechodník od slovesa ''prasit''.
     287Aby počítače rozuměly textu, potřebují vědět, co slova znamenají. Lidem stačí podívat se do slovníku, počítačovým programům ne. Potřebují pomoci s určením správného významu (hospodářské zvíře, špinavý člověk, přechodník od slovesa ''prasit''.
    288288
    289289[[BR]]
     
    304304}}}
    305305
    306 Dávno minuly doby, kdy lexikografové kroužžili velkou místností plnou papírových kartiček a seřazovali, upravovali, odstraňovali nebo přidávali hesla do vznikajícího slovníku. Dnes pracují, aniž by se museli vidět a řadu činností po počítačových programech jen překontrolují.
     306Dávno minuly doby, kdy lexikografové kroužili velkou místností plnou papírových kartiček a seřazovali, upravovali, odstraňovali nebo přidávali hesla do vznikajícího slovníku. Dnes pracují, aniž by se museli vidět a řadu činností po počítačových programech jen překontrolují.
    307307
    308308{{{#!html
     
    324324}}}
    325325
    326 Lidé často píššou bez diakritiky. Pokud chceme takovým textům rozumět a třeba v nich vyhledávat, musíme si diakritiku domyslet. Někdy je to snadné, protože slovo bez diakritiky ve slovníku nenajdeme (např. ''pocitac''). Jindy je třeba využžít znalostí o frekvencích výskytu a spoluvýskytu slov, které získáme z korpusu. Z nich program spočítá pravděpodobnost oháčkováného slova (např. ''měj se''} místo ''mej se'').
     326Lidé často píšou bez diakritiky. Pokud chceme takovým textům rozumět a třeba v nich vyhledávat, musíme si diakritiku domyslet. Někdy je to snadné, protože slovo bez diakritiky ve slovníku nenajdeme (např. ''pocitac''). Jindy je třeba využít znalostí o frekvencích výskytu a spoluvýskytu slov, které získáme z korpusu. Z nich program spočítá pravděpodobnost oháčkováného slova (např. ''měj se''} místo ''mej se'').
    327327
    328328{{{#!html