wiki:cs/PocitaceNerozumiNikomu

Version 32 (modified by xkocinc, 9 years ago) (diff)

--

Někdo rozumí počítačům. Počítače nerozumí nikomu. Naučíme je to?

Information Extraction

Otázka: Baron Prᚚšššššil nebo Milošš Zeman?
Odpověď: Vyrovnáno.

Projekt Demagog.cz již delšší dobu mapuje výroky naššich politiků. Přiřazení příznaku pravda/nepravda probíhá zatím manuálně.

S vhodnou bází dat by bylo možžné na základě syntaktické a logické analýzy výroku o jeho pravdivosti rozhodnout automaticky.

Opinion Mining

Otázka: Poradí mi počítač, jaký telefon si mám koupit?
Odpověď: Ano, dokonce bude mít radost, že se vám líbí ten nový iPhone / Samsung Galaxy / HTC / Sony Xperia / Huawei pitomý smartphone.

Dolování názorů je téma, kterému se poslední dobou věnuje mnoho lidí. Software pro dolování názorů využžívá jak jazykových technik, tak například strojového učení.

Sledováním diskusních fór a sociálních sítí lze dokonce zjistit, jak se oblíbenost jednotlivých telefonů mění v čase.

Knowledge Extraction

Otázka: Připravil Kryton někdy Listerovi a Kocourovi k večeři mrtvolu?
Odpověď: Ano.

Extrakce informací z textu je velmi žžádaným tématem. V případě anglických textů se použžívají zpravidla jen statistické metody. Češština, podobně jako jiné slovanské jazyky, má bohatou flexi (skloňování jmen a časování sloves), a proto je třeba před statistickým zpracováním určit základní tvary slov.

KOCOUR: To kuře je dobrý.
LISTER: No jo, fakt dobrý.
KRYTON: To není kuře, pánové.
KOCOUR: A co to je?
KRYTON: Ten muž, co jsme ho našli.
LISTER: Cožže?
KRYTON: Připadalo mi to, jako hrozné mrhání ho tam nechat,
    když by se tak bezvadně griloval.
RIMMER se chichotá.
KRYTON: Udělal jsem něco ššpatně? Nedostal jsem žžádné hlṚení o chybě. 
    Asi je to tím, žže nemám čip svědomí a žžádné morální imperativy, 
    které by mě vedly. Ale přišlo mi logické, žže když lidé jedí kuřata, 
    tak budou pojídat i svůj druh. Přece by si nezasedli pouze na kuřata.

Natural Language Generation

Otázka: Mohla by se diplomka napsat sama?
Odpověď: Ano.

Generování textů v přirozeném jazyce je celý vědní podobor. Vědecké prace vygenerované programem SciGen byly už několikrát přijaty na konference. Pro české a slovenské texty zatím software nemáme, a proto musí nebozí studenti za práce platit nebo je sami psát (zatím).

Corpus-Based Knowledge

Otázka: Kdo ví víc?
Odpověď: Bůh ví 4,2578537320x častěji nežž čert.

Vytváříme obrovské soubory textů (jazykové korpusy), ze kterých se lingvisté o jazyku leccos dozvídají: která slova se použžívají často, málo často, často spolu, která slova jsou nová a co znamenají. Vývoj software, který umožžňuje indexovat miliardy slov a pomocí regulárních výrazů v nich rychle vyhledávat, je informatická výzva.

Dictionaries

Otázka: Jak velká je moje slovní zásoba?
Odpověď: Aktivní slovní zásoba jedince v mateřském jazyce je asi 5000-10000 slov.

Prožžít pěkný žživot lze i s mnohem méně nežž pěti tisíci slovy. Pasivní slovní zásoba je asi 5x rozsáhlejšší. Měřením slovní zásoby (aktivní i pasivní) cizího jazyka můžžete zjistit, jak dobře jazyk znáte. Lidé mají svá oblíbená slova, která jsou pro jejich mluvený nebo psaný projev charakteristická. Díky tomu můžžeme poznat autora textu, případně zjistit, žže je vrcholový sportovec. Tak určitě.

Attachments (28)