== Někdo rozumí počítačům. Počítače nerozumí nikomu. Naučíme je to? == * [[cs/PocitaceNerozumiNikomu#infext| Information Extraction]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Information_Extraction.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#opimin| Opinion Mining]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Opinion_Mining.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#knoext| Knowledge Extraction]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Knowledge_Extraction.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#nlg| Natural Language Generation]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Natural_Language_Generation.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#cbk| Corpus-Based Knowledge]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Corpus-Based_Knowledge.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#dict| Dictionaries]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Dictionaries.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#acs| Artificial Communication Systems]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Artificial_Communication_Systems.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#gami| Gamification]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Gamification.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#conrep| Conceptual Representation]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Conceptual_Representation.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#coreng| Corpus Engineering]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Corpus_Engineering.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#ner| Named Entity Recognition]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Named_Entity_Recognition.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#lankno| Language Knowledge]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Language_Knowledge.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#comlex| Computer Lexicography]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Computer_Lexicography.pdf PDF]) * [[cs/PocitaceNerozumiNikomu#diares| Diacritics Restoration]] ([http://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/PocitaceNerozumiNikomu/nlp.fi.muni.cz_Diacritics_Restoration.pdf PDF]) == Information Extraction == #infext {{{#!html
Otázka: Baron Prášil nebo Miloš Zeman?
Odpověď: Vyrovnáno. }}} Projekt Demagog.cz již delší dobu mapuje výroky našich politiků. Přiřazení příznaku pravda/nepravda probíhá zatím manuálně. {{{#!html }}} S vhodnou bází dat by bylo možné na základě syntaktické a logické analýzy výroku o jeho pravdivosti rozhodnout automaticky. {{{#!html

stáhnout v PDF

}}} == Opinion Mining == #opimin {{{#!html
Otázka: Poradí mi počítač, jaký telefon si mám koupit?
Odpověď: Ano, dokonce bude mít radost, že se vám líbí ten nový iPhone / Samsung Galaxy / HTC / Sony Xperia / Huawei pitomý smartphone. }}} Dolování názorů je téma, kterému se poslední dobou věnuje mnoho lidí. Software pro dolování názorů využívá jak jazykových technik, tak například strojového učení. {{{#!html }}} Sledováním diskusních fór a sociálních sítí lze dokonce zjistit, jak se oblíbenost jednotlivých telefonů mění v čase. {{{#!html

stáhnout v PDF

}}} == Knowledge Extraction == #knoext {{{#!html
Otázka: Připravil Kryton někdy Listerovi a Kocourovi k večeři mrtvolu?
Odpověď: Ano. }}} Extrakce informací z textu je velmi žádaným tématem. V případě anglických textů se používají zpravidla jen statistické metody. Čeština, podobně jako jiné slovanské jazyky, má bohatou flexi (skloňování jmen a časování sloves), a proto je třeba před statistickým zpracováním určit základní tvary slov. {{{ KOCOUR: To kuře je dobrý. LISTER: No jo, fakt dobrý. KRYTON: To není kuře, pánové. KOCOUR: A co to je? KRYTON: Ten muž, co jsme ho našli. LISTER: Cože? KRYTON: Připadalo mi to, jako hrozné mrhání ho tam nechat, když by se tak bezvadně griloval. RIMMER se chichotá. KRYTON: Udělal jsem něco špatně? Nedostal jsem žádné hlášení o chybě. Asi je to tím, že nemám čip svědomí a žádné morální imperativy, které by mě vedly. Ale přišlo mi logické, že když lidé jedí kuřata, tak budou pojídat i svůj druh. Přece by si nezasedli pouze na kuřata. }}} {{{#!html

stáhnout v PDF

}}} == Natural Language Generation == #nlg {{{#!html
Otázka: Mohla by se diplomka napsat sama?
Odpověď: Ano. }}} Generování textů v přirozeném jazyce je celý vědní podobor. Vědecké práce vygenerované programem !SciGen byly už několikrát přijaty na konference. Pro české a slovenské texty zatím software nemáme, a proto musí nebozí studenti za práce platit nebo je sami psát (zatím). {{{#!html }}} {{{#!html

stáhnout v PDF

}}} == Corpus-Based Knowledge == #cbk {{{#!html
Otázka: Kdo ví víc?
Odpověď: Bůh ví 4,2578537320x častěji než čert. }}} Vytváříme obrovské soubory textů (jazykové korpusy), ze kterých se lingvisté o jazyku leccos dozvídají: která slova se používají často, málo často, často spolu, která slova jsou nová a co znamenají. Vývoj software, který umožňuje indexovat miliardy slov a pomocí regulárních výrazů v nich rychle vyhledávat, je informatická výzva. {{{#!html }}} {{{#!html

stáhnout v PDF

}}} == Dictionaries == #dict {{{#!html
Otázka: Jak velká je moje slovní zásoba?
Odpověď: Aktivní slovní zásoba jedince v mateřském jazyce je asi 5000-10000 slov. }}} Prožít pěkný život lze i s mnohem méně než pěti tisíci slovy. Pasivní slovní zásoba je asi 5x rozsáhlejší. Měřením slovní zásoby (aktivní i pasivní) cizího jazyka můžete zjistit, jak dobře jazyk znáte. Lidé mají svá oblíbená slova, která jsou pro jejich mluvený nebo psaný projev charakteristická. Díky tomu můžeme poznat autora textu, případně zjistit, že je vrcholový sportovec. Tak určitě. {{{#!html }}} {{{#!html

stáhnout v PDF

}}} == Artificial Communication Systems == #acs {{{#!html
Otázka: Můžu si s počítačem povídat?
Odpověď: Ano, ale chce to pevné nervy. }}} Konverzační agenty každoročně soutěží o 100,000 dolarů v soutěži Loebner prize. Snaží se uspět v Turingově testu~-- být v konverzaci partnerem nerozeznatelným od člověka. Český konverzační agent ještě svět nedobyl. {{{#!html }}} {{{#!html

stáhnout v PDF

}}} == Gamification == #gami {{{#!html
Otázka: Co počítačové hry?
Odpověď: Máme. Hrajeme. Vytváříme. }}} Zabýváme se počítačovými hrami s účelem (games with a purpose). Takové hry jsou jako oboustranná sekyra: lidé si hrají a vědci sbírají jazyková data. Mezi jazykové a znalostní hry patří Slovní fotbal, Myslím si zvíře, Aktivity, Milionář. Počítačové herní strategie částečně spadají do oboru umělé inteligence. {{{#!html }}} {{{#!html

stáhnout v PDF

}}} == Conceptual Representation == #conrep {{{#!html
Otázka: Umí počítač hrát Myslím si zvíře?
Odpověď: Někdy (lépe nežž my). }}} Pro nás lidi je jednoduché rozlišit mezi kamenem, hodinkami a sedmikráskou. Mnohem těžší je ale vysvětlit rozdíly mezi jednotlivými věcmi a pojmy počítači. Jedním z přístupů je pomocí online hry učit neuronovou síť. {{{#!html }}} {{{#!html

stáhnout v PDF

}}} == Corpus Engineering == #coreng {{{#!html
Otázka: Vejde se celá knihovna do počítače?
Odpověď: Ano. }}} {{{#!html }}} Textový korpus je soubor souvislých textů. Lingvisté na něm sledují, jak se jazyk proměňuje. Na velkých korpusech, kde už je statistický soubor dostatecný, se počítačové programy učí, jak lidé jazyk užívají. Korpusy, které vytváříme nebo spravujeme v CZPJ, obsahují miliardy slov. Pro srovnání: nejdelší román (zapsaný v Guinessově knize rekordů) má cca 1 200 000 slov. {{{#!html

stáhnout v PDF

}}} == Named Entity Recognition == #ner {{{#!html
Otázka: Dokáže počítač detekovat jména?
Odpověď: Ne vždy. }}} Vezměme si větu '''''Opera Vladimíra Franze Válka s mloky vzbudila u diváků ohlas'''''. Počítačové programy najdou víc významů, než by nás napadlo. {{{#!html }}} {{{#!html

stáhnout v PDF

}}} == Language Knowledge == #lankno {{{#!html
Otázka: Co víte o praseti?
Odpověď: Leccos. }}} {{{#!html }}} Aby počítače rozuměly textu, potřebují vědět, co slova znamenají. Lidem stačí podívat se do slovníku, počítačovým programům ne. Potřebují pomoci s určením správného významu (hospodářské zvíře, špinavý člověk, přechodník od slovesa ''prasit''. [[BR]] [[BR]] [[BR]] [[BR]] {{{#!html

stáhnout v PDF

}}} == Computer Lexicography == #comlex {{{#!html
Otázka: Vyrábíte slovníky?
Odpověď: Ne. Vyrábíme software pro autory slovníků. }}} Dávno minuly doby, kdy lexikografové kroužili velkou místností plnou papírových kartiček a seřazovali, upravovali, odstraňovali nebo přidávali hesla do vznikajícího slovníku. Dnes pracují, aniž by se museli vidět a řadu činností po počítačových programech jen překontrolují. {{{#!html }}} {{{#!html

stáhnout v PDF

}}} == Diacritics Restoration == #diares {{{#!html
Otázka: Nevadi, kdyz pisu bez hacku a carek?
Odpověď: Ne. }}} Lidé často píšou bez diakritiky. Pokud chceme takovým textům rozumět a třeba v nich vyhledávat, musíme si diakritiku domyslet. Někdy je to snadné, protože slovo bez diakritiky ve slovníku nenajdeme (např. ''pocitac''). Jindy je třeba využít znalostí o frekvencích výskytu a spoluvýskytu slov, které získáme z korpusu. Z nich program spočítá pravděpodobnost oháčkováného slova (např. ''měj se''} místo ''mej se''). {{{#!html }}} {{{#!html

stáhnout v PDF

}}}