wiki:cs/PocitaceNerozumiNikomu

Version 29 (modified by xkocinc, 6 years ago) (diff)

--

Někdo rozumí počítačům. Počítače nerozumí nikomu. Naučíme je to?

Information Extraction

Otázka: Baron Prᚚšššššil nebo Milošš Zeman?
Odpověď: Vyrovnáno.

Projekt Demagog.cz již delšší dobu mapuje výroky naššich politiků. Přiřazení příznaku pravda/nepravda probíhá zatím manuálně.

S vhodnou bází dat by bylo možžné na základě syntaktické a logické analýzy výroku o jeho pravdivosti rozhodnout automaticky.

Opinion Mining

Otázka: Poradí mi počítač, jaký telefon si mám koupit?
Odpověď: Ano, dokonce bude mít radost, že se vám líbí ten nový iPhone / Samsung Galaxy / HTC / Sony Xperia / Huawei pitomý smartphone.

Dolování názorů je téma, kterému se poslední dobou věnuje mnoho lidí. Software pro dolování názorů využžívá jak jazykových technik, tak například strojového učení.

Sledováním diskusních fór a sociálních sítí lze dokonce zjistit, jak se oblíbenost jednotlivých telefonů mění v čase.

Knowledge Extraction

Otázka: Připravil Kryton někdy Listerovi a Kocourovi k večeři mrtvolu?
Odpověď: Ano.

Extrakce informací z textu je velmi žžádaným tématem. V případě anglických textů se použžívají zpravidla jen statistické metody. Češština, podobně jako jiné slovanské jazyky, má bohatou flexi (skloňování jmen a časování sloves), a proto je třeba před statistickým zpracováním určit základní tvary slov.

KOCOUR: To kuře je dobrý.
LISTER: No jo, fakt dobrý.
KRYTON: To není kuře, pánové.
KOCOUR: A co to je?
KRYTON: Ten muž, co jsme ho našli.
LISTER: Cožže?
KRYTON: Připadalo mi to, jako hrozné mrhání ho tam nechat,
    když by se tak bezvadně griloval.
RIMMER se chichotá.
KRYTON: Udělal jsem něco ššpatně? Nedostal jsem žžádné hlṚení o chybě. 
    Asi je to tím, žže nemám čip svědomí a žžádné morální imperativy, 
    které by mě vedly. Ale přišlo mi logické, žže když lidé jedí kuřata, 
    tak budou pojídat i svůj druh. Přece by si nezasedli pouze na kuřata.

Natural Language Generation

Otázka: Mohla by se diplomka napsat sama?
Odpověď: Ano.

Generování textů v přirozeném jazyce je celý vědní podobor. Vědecké prace vygenerované programem SciGen byly už několikrát přijaty na konference. Pro české a slovenské texty zatím software nemáme, a proto musí nebozí studenti za práce platit nebo je sami psát (zatím).

Corpus-Based Knowledge

Otázka: Kdo ví víc?
Odpověď: Bůh ví 4,2578537320x častěji nežž čert.

Vytváříme obrovské soubory textů (jazykové korpusy), ze kterých se lingvisté o jazyku leccos dozvídají: která slova se použžívají často, málo často, často spolu, která slova jsou nová a co znamenají. Vývoj software, který umožžňuje indexovat miliardy slov a pomocí regulárních výrazů v nich rychle vyhledávat, je informatická výzva.

Attachments (28)