wiki:cs/PocitaceNerozumiNikomu

Version 45 (modified by xkocinc, 9 years ago) (diff)

--

Někdo rozumí počítačům. Počítače nerozumí nikomu. Naučíme je to?

Information Extraction

Otázka: Baron Prᚚšššššil nebo Milošš Zeman?
Odpověď: Vyrovnáno.

Projekt Demagog.cz již delšší dobu mapuje výroky naššich politiků. Přiřazení příznaku pravda/nepravda probíhá zatím manuálně.

S vhodnou bází dat by bylo možžné na základě syntaktické a logické analýzy výroku o jeho pravdivosti rozhodnout automaticky.

Opinion Mining

Otázka: Poradí mi počítač, jaký telefon si mám koupit?
Odpověď: Ano, dokonce bude mít radost, že se vám líbí ten nový iPhone / Samsung Galaxy / HTC / Sony Xperia / Huawei pitomý smartphone.

Dolování názorů je téma, kterému se poslední dobou věnuje mnoho lidí. Software pro dolování názorů využžívá jak jazykových technik, tak například strojového učení.

Sledováním diskusních fór a sociálních sítí lze dokonce zjistit, jak se oblíbenost jednotlivých telefonů mění v čase.

Knowledge Extraction

Otázka: Připravil Kryton někdy Listerovi a Kocourovi k večeři mrtvolu?
Odpověď: Ano.

Extrakce informací z textu je velmi žžádaným tématem. V případě anglických textů se použžívají zpravidla jen statistické metody. Češština, podobně jako jiné slovanské jazyky, má bohatou flexi (skloňování jmen a časování sloves), a proto je třeba před statistickým zpracováním určit základní tvary slov.

KOCOUR: To kuře je dobrý.
LISTER: No jo, fakt dobrý.
KRYTON: To není kuře, pánové.
KOCOUR: A co to je?
KRYTON: Ten muž, co jsme ho našli.
LISTER: Cožže?
KRYTON: Připadalo mi to, jako hrozné mrhání ho tam nechat,
        když by se tak bezvadně griloval.
RIMMER se chichotá.
KRYTON: Udělal jsem něco ššpatně? Nedostal jsem žžádné hlṚení o chybě. 
        Asi je to tím, žže nemám čip svědomí a žžádné morální imperativy, 
        které by mě vedly. Ale přišlo mi logické, žže když lidé jedí kuřata, 
        tak budou pojídat i svůj druh. Přece by si nezasedli pouze na kuřata.

Natural Language Generation

Otázka: Mohla by se diplomka napsat sama?
Odpověď: Ano.

Generování textů v přirozeném jazyce je celý vědní podobor. Vědecké prace vygenerované programem SciGen byly už několikrát přijaty na konference. Pro české a slovenské texty zatím software nemáme, a proto musí nebozí studenti za práce platit nebo je sami psát (zatím).

Corpus-Based Knowledge

Otázka: Kdo ví víc?
Odpověď: Bůh ví 4,2578537320x častěji nežž čert.

Vytváříme obrovské soubory textů (jazykové korpusy), ze kterých se lingvisté o jazyku leccos dozvídají: která slova se použžívají často, málo často, často spolu, která slova jsou nová a co znamenají. Vývoj software, který umožžňuje indexovat miliardy slov a pomocí regulárních výrazů v nich rychle vyhledávat, je informatická výzva.

Dictionaries

Otázka: Jak velká je moje slovní zásoba?
Odpověď: Aktivní slovní zásoba jedince v mateřském jazyce je asi 5000-10000 slov.

Prožžít pěkný žživot lze i s mnohem méně nežž pěti tisíci slovy. Pasivní slovní zásoba je asi 5x rozsáhlejšší. Měřením slovní zásoby (aktivní i pasivní) cizího jazyka můžžete zjistit, jak dobře jazyk znáte. Lidé mají svá oblíbená slova, která jsou pro jejich mluvený nebo psaný projev charakteristická. Díky tomu můžžeme poznat autora textu, případně zjistit, žže je vrcholový sportovec. Tak určitě.

Artificial Communication Systems

Otázka: Můžžu si s počítačem povídat?
Odpověď: Ano, ale chce to pevné nervy.

Konverzační agenty každoročně soutěží o 100,000 dolarů v soutěži Loebner prize. Snaží se uspět v Turingově testu~-- být v konverzaci partnerem nerozeznatelným od člověka. Český konverzační agent ještě svět nedobyl.

Gamification

Otázka: Co počítačové hry?
Odpověď: Máme. Hrajeme. Vytváříme.

Zabýváme se počítačovými hrami s účelem (games with a purpose). Takové hry jsou jako oboustranná sekyra: lidé si hrají a vědci sbírají jazyková data. Mezi jazykové a znalostní hry patří Slovní fotbal, Myslím si zvíře, Aktivity, Milionář. Počítačové herní strategie částečně spadají do oboru umělé inteligence.

Conceptual Representation

Otázka: Umí počítač hrát Myslím si zvíře?
Odpověď: Někdy (lépe nežž my).

Pro nás lidi je jednoduché rozlišit mezi kamenem, hodinkami a sedmikráskou. Mnohem těžšžší je ale vysvětlit rozdíly mezi jednotlivými věcmi a pojmy počítači. Jedním z přístupů je pomocí online hry učit neuronovou síť.

Corpus Engineering

Otázka: Vejde se celá knihovna do počítače?
Odpověď: Ano.

Textový korpus je soubor souvislých textů. Lingvisté na něm sledují, jak se jazyk proměňuje. Na velkých korpusech, kde už je statistický soubor dostatecný, se počítačové programy učí, jak lidé jazyk užívají. Korpusy, které vytváříme nebo spravujeme v CZPJ, obsahují miliardy slov.

Pro srovnání: nejdelší román (zapsaný v Guinessově knize rekordů) má cca 1 200 000 slov.

Attachments (28)