wiki:SQAD

Version 5 (modified by Zuzana Nevěřilová, 9 years ago) (diff)

--

Simple Question Answering Database (SQAD)

Cílem projektu je vytvoření databáze pro testování a vyhodnocování aplikace odpovídání na otázky (question answering). V současné fázi se zaměřujeme na vytvoření databáze jednodušších otázek, které jsou řešitelné s využitím současných nástrojů pro zpracování přirozeného jazyka.

Problematika odpovídání na otázky (Question Answering, QA)

Otázky se vyskytují v řadě komunikačních situací. Odpověď se skládá ze dvou kroků - identifikace toho, co má být odpověď (jazyková analýza), a hledání odpovědi (využití znalostní báze). Přečtěte si, jak je QA řešeno v systému Watson.

Stanislava Sedláčková: Projekt k předmětu PLIN021 Sémantická analýza v praxi, FF MU, 2013. OtazkyWatson

Zadání lingvistického úkolu do IB030 Úvod do počítačové lingvistiky

Cílem je vytvořit část výše zmíněné databáze. Každý student vypracuje 300 otázek, očekáváme průměrně 3 minuty na vytvoření jedné otázky (ze začátku to zřejmě bude více, pak to půjde rychleji, jak si osvojíte pokyny). Následují pokyny k vypracování otázek.

 • zdrojem otázek a odpovědí bude česká wikipedie (libovolné stránky)
 • odpověď na otázku musí vyplývat z krátkého souvislého kusu textu (max. 3 po sobě jdoucí věty) z wikipedie
 • otázky by měly být z různých stránek, povolujeme max. 15 otázek z jedné wiki stránky
 • formát výstupu bude textový soubor (ne Word!) v kódování UTF-8, jedna otázka zabere 4 řádky:
  • 1. řádek: otázka
  • 2. řádek: odpověď
  • 3. řádek: text, ze kterého odpověď vyplývá (max. 3 věty)
  • 4. řádek: URL wiki stránky, na které byl text nalezen
  • následuje prázdný řádek, který odděluje otázky mezi sebou
 • odpověď na otázku musí být nejkratší možná tak, aby byla zcela správná (většinou 1 jmenná fráze, téměř nikdy celá věta nebo souvětí)
 • v případě více správných odpovědí je možno uvést všechny na 1 řádku oddělené mřížkou (#)
 • otázky mohou být i velmi jednoduché
 • odpověď musí být buď ano/ne, nebo musí být obsažena v textu, z něhož vyplývá
 • otázek s odpovědí ano/ne musí být max. 30 procent
 • otázky musí mít jednoznačnou odpověď ("Co je to Amerika?" je špatná otázka)
 • odpovědi musí být správné v reálném světě (když najdete kus textu, z něhož vyplývá na první pohled nepravdivá odpověď, nesmíte jej použít)

Pozitivní příklady:

Takto může vypadat část výsledku vaší práce (nicméně prosíme, nekopírujte níže uvedené otázky):

Ze kterého roku pochází nejprodávanější fotografická publikace z první republiky?
1933
Paradoxně – amatér Karel Čapek byl autorem nejprodávanější fotografické publikace období první republiky. Dášeňka čili Život štěněte z roku 1933 vyšla v několika desítkách vydání.
http://cs.wikipedia.org/wiki/Karel_%C4%8Capek

Která Dvořákova symfonie doletěla na Měsíc?
Symfonie č.9, e-moll # Novosvětská # Z Nového světa
Symfonie č.9, e-moll, op. 95, zvaná též „Novosvětská“ či „Z Nového světa“ (From the New World), Antonína Dvořáka je nejen nejvýznamnější autorovo dílo tohoto typu, ale lze ji zařadit nejen k absolutní špičce hudebního romantismu, ale též k nejlepším dílům světové symfonické tvorby všech dob. Neil Armstrong také vzal její nahrávku na Měsíc, když v roce 1969 Apollo 11 poprvé přistálo na Měsíci.
http://cs.wikipedia.org/wiki/Symfonie_%C4%8D._9_(Dvo%C5%99%C3%A1k)

Je Nový svět vesnice?
ano
Nový Svět je vesnice, část městyse Dolní Cerekev v okrese Jihlava.
http://cs.wikipedia.org/wiki/Nov%C3%BD_Sv%C4%9Bt_(Doln%C3%AD_Cerekev)

Z kolika států se skládají USA?
50
Spojené státy se skládají z 50 států, federálního území s hlavním městem a sídlem vlády a Kongresu (District of Columbia), přidružených států s vnitřní samosprávou (Portoriko, Severní Mariany a další) a samosprávných území Spojených států (Guam, Panenské ostrovy, Americká Samoa a další).
http://cs.wikipedia.org/wiki/Spojen%C3%A9_st%C3%A1ty_americk%C3%A9

Kde se narodil Karel Čapek?
v Malých Svatoňovicích
PhDr. Karel Čapek (9. ledna 1890, Malé Svatoňovice – 25. prosince 1938, Praha) byl český spisovatel, intelektuál, novinář, dramatik, překladatel a fotograf. Narodil se v Malých Svatoňovicích v rodině lékaře Antonína Čapka.
http://cs.wikipedia.org/wiki/Karel_%C4%8Capek

Kdy byla vydána Deklarace nezávislosti?
4. července 1776
4. července 1776 vydal druhý Kontinentální kongres Deklaraci nezávislosti, která vyhlašovala vznik Spojených států amerických.
http://cs.wikipedia.org/wiki/Spojen%C3%A9_st%C3%A1ty_americk%C3%A9

Byla Deklarace nezávislosti vydána v 19. století?
ne
4. července 1776 vydal druhý Kontinentální kongres Deklaraci nezávislosti, která vyhlašovala vznik Spojených států amerických.
http://cs.wikipedia.org/wiki/Spojen%C3%A9_st%C3%A1ty_americk%C3%A9

Negativní příklady:

Z kolika států se skládají USA?
Spojené státy se skládají z 50 států
Spojené státy se skládají z 50 států, federálního území s hlavním městem a sídlem vlády a Kongresu (District of Columbia), přidružených států s vnitřní samosprávou (Portoriko, Severní Mariany a další) a samosprávných území Spojených států (Guam, Panenské ostrovy, Americká Samoa a další).
http://cs.wikipedia.org/wiki/Spojen%C3%A9_st%C3%A1ty_americk%C3%A9

(Zbytečně dlouhá odpověď, stačilo by "50".)

Co je to Nový Svět?
vesnice
Nový Svět je vesnice, část městyse Dolní Cerekev v okrese Jihlava.
http://cs.wikipedia.org/wiki/Nov%C3%BD_Sv%C4%9Bt_(Doln%C3%AD_Cerekev)

(Odpověď není úplná -- pojem "Nový Svět" má více významů a kompletní odpověď není odvoditelná z krátkého kusu textu.)

Kde se narodil Karel Čapek?
Svatoňovice
PhDr. Karel Čapek (9. ledna 1890, Malé Svatoňovice – 25. prosince 1938, Praha) byl český spisovatel, intelektuál, novinář, dramatik, překladatel a fotograf. Narodil se v Malých Svatoňovicích v rodině lékaře Antonína Čapka.
http://cs.wikipedia.org/wiki/Karel_%C4%8Capek

(Odpověď není zcela správně. Správně by bylo "Malé Svatoňovice" nebo "v Malých Svatoňovicích".)

Kdy byla vydána Deklarace nezávislosti?
1776
4. července 1776 vydal druhý Kontinentální kongres Deklaraci nezávislosti, která vyhlašovala vznik Spojených států amerických.
http://cs.wikipedia.org/wiki/Spojen%C3%A9_st%C3%A1ty_americk%C3%A9

(Odpověď opět není zcela správně. Správně je "4. července 1776".)

Kdy byla vydána Deklarace nezávislosti?
4. 7. 1776
4. července 1776 vydal druhý Kontinentální kongres Deklaraci nezávislosti, která vyhlašovala vznik Spojených států amerických.
http://cs.wikipedia.org/wiki/Spojen%C3%A9_st%C3%A1ty_americk%C3%A9

(Odpověď není přesně obsažena ve zdrojovém textu.)

Žil Karel Čapek v Úpici?
ano
Narodil se v Malých Svatoňovicích v rodině lékaře Antonína Čapka. Matka sbírala slovesný folklor. S rodiči se brzy přestěhoval do Úpice kde byl v místním kostele 13. ledna 1890 pokřtěn.
http://cs.wikipedia.org/wiki/Karel_%C4%8Capek

(Z přiloženého textu není jasné, že se mluví o Karlu Čapkovi, odpověď tedy nevyplývá z krátkého kusu textu.)

Žil Karel Čapek v Úpici?
ano
PhDr. Karel Čapek (9. ledna 1890, Malé Svatoňovice – 25. prosince 1938, Praha) byl český spisovatel, intelektuál, novinář, dramatik, překladatel a fotograf. Narodil se v Malých Svatoňovicích v rodině lékaře Antonína Čapka. Matka sbírala slovesný folklor. S rodiči se brzy přestěhoval do Úpice kde byl v místním kostele 13. ledna 1890 pokřtěn.
http://cs.wikipedia.org/wiki/Karel_%C4%8Capek

(Úsek textu, z něhož vyplývá odpověď na otázku, obsahuje 4 věty, je tedy příliš dlouhý.)

Žil Karel Čapek v Úpici?
ano
PhDr. Karel Čapek (9. ledna 1890, Malé Svatoňovice – 25. prosince 1938, Praha) byl český spisovatel, intelektuál, novinář, dramatik, překladatel a fotograf. Narodil se v Malých Svatoňovicích v rodině lékaře Antonína Čapka. ... S rodiči se brzy přestěhoval do Úpice kde byl v místním kostele 13. ledna 1890 pokřtěn.
http://cs.wikipedia.org/wiki/Karel_%C4%8Capek

(Úsek textu, z něhož vyplývá odpověď na otázku, není souvislý.)

Existují roboti, kteří jsou k nerozeznání od lidí?
ano
Továrník Rossum vyrábí dokonalé roboty, kteří jsou k nerozeznání od lidí.
http://cs.wikipedia.org/wiki/Karel_%C4%8Capek

(Text nedokládá pravdivost odpovědi v reálném světě, je obsažen v popisu jednoho z Čapkových děl.)

Jakou populaci mají Spojené Státy?
rozmanitou
USA mají velmi rozmanitou populaci. V zemi je 31 etnických skupin s počtem obyvatel větším než 1 milion.
http://cs.wikipedia.org/wiki/Spojen%C3%A9_st%C3%A1ty_americk%C3%A9

(Otázka je příliš nespecifická, nemá jednoznačnou odpověď -- další správné odpovědi by mohly být "velkou", "rostoucí", "měnící se" apod.)

Pomohla 2. světová válka Spojeným Státům?
ano
Za 2. světové války, která přímo nezasáhla území kontinentálních USA, se průmyslová výroba zdvojnásobila a USA se staly v protiváze k SSSR rozhodující vojenskou velmocí. Roli vedoucí světové mocnosti zvýraznil pád komunistických režimů ve východní Evropě po roce 1989 a následný rozpad SSSR.
http://cs.wikipedia.org/wiki/Spojen%C3%A9_st%C3%A1ty_americk%C3%A9

(odpověď nevyplývá z textu přímo -- v textu se mluví pouze o průmyslové výrobě a o roli velmoci, nikoli však již např. o kvalitě života apod.)

Byl Karel Čapek sportovec?
ne
PhDr. Karel Čapek (9. ledna 1890, Malé Svatoňovice – 25. prosince 1938, Praha) byl český spisovatel, intelektuál, novinář, dramatik, překladatel a fotograf.
http://cs.wikipedia.org/wiki/Karel_%C4%8Capek

(Uvedený text neříká, že Čapek nebyl sportovcem, pouze vyjmenovává jeho nejvýraznější oblasti zájmu.)

Vyhodnocení úkolu

Za splnění úkolu můžete získat 0-20 bodů. Z vámi připravených otázek bude náhodně vybráno několik desítek otázek, u nichž zkontrolujeme, zda splňují kritéria popsaná výše. Za každou otázku splňující kritéria dostanete 1 bod, celkové body budou přepočítány do max.20 podle počtu kontrolovaných otázek. Porušení globálních instrukcí (např. špatný formát souboru, systematické neuvádění odkazů do wikipedie, více než 30 % otázek s odpovědí ano/ne) bude sankcionováno deseti zápornými body.

V případě nejasností a otázek se neváhejte obracet e-mailem na skupinovou adresu ib030ling@aurora.fi.muni.cz, která zahrnuje následující lidi:

 • Aleš Horák
 • Zuzana Nevěřilová
 • Vojtěch Kovář

Pamatujte, že nejhloupější otázka je ta, která zůstala nepoložena.

Na uvedenou adresu rovněž zašlete výsledek vaší práce.