wiki:SQAD

Version 1 (modified by xkovar3, 9 years ago) (diff)

--

Simple Question Answering Database (SQAD)

Cílem projektu je vytvoření databáze pro testování a vyhodnocování aplikace odpovídání na otázky (question answering). V současné fázi se zaměřujeme na vytvoření databáze jednodušších otázek, které jsou řešitelné s využitím současných nástrojů pro zpracování přirozeného jazyka.

Zadání lingvistického úkolu IB030

Cílem je vytvořit část výše zmíněné databáze. Každý student vypracuje 300 otázek. Následují pokyny k vypracování otázek.

 • zdrojem otázek a odpovědí bude česká wikipedie (libovolné stránky)
 • odpověď na otázku musí vyplývat z krátkého souvislého kusu textu (max. 3 po sobě jdoucí věty) z wikipedie
 • formát výstupu bude textový soubor (ne Word!) v kódování UTF-8, jedna otázka zabere 4 řádky:
  • 1. řádek: otázka
  • 2. řádek: odpověď
  • 3. řádek: text, ze kterého odpověď vyplývá (max. 3 věty)
  • 4. řádek: URL wiki stránky, na které byl text nalezen
  • následuje prázdný řádek, který odděluje otázky mezi sebou
 • odpověď na otázku musí být nejkratší možná tak, aby byla zcela správná (většinou 1 jmenná fráze, téměř nikdy celá věta nebo souvětí)
 • v případě více správných odpovědí je možno uvést všechny na 1 řádku oddělené mřížkou (#)
 • otázky mohou být i velmi jednoduché
 • odpověď musí být buď ano/ne, nebo musí být obsažena v textu, něhož vyplývá
 • otázek s odpovědí ano/ne musí být max. 30 procent
 • otázky musí mít jednoznačnou odpověď ("Co je to Amerika" je špatná otázka)

Pozitivní příklady:

Ze kterého roku pochází nejprodávanější fotografická publikace z první republiky?
1933
Paradoxně – amatér Karel Čapek byl autorem nejprodávanější fotografické publikace období první republiky. Dášeňka čili Život štěněte z roku 1933 vyšla v několika desítkách vydání.
http://cs.wikipedia.org/wiki/Karel_%C4%8Capek


Která Dvořákova symfonie doletěla na Měsíc?
Symfonie č.9, e-moll # Novosvětská # Z Nového světa
Symfonie č.9, e-moll, op. 95, zvaná též „Novosvětská“ či „Z Nového světa“ (From the New World), Antonína Dvořáka je nejen nejvýznamnější autorovo dílo tohoto typu, ale lze ji zařadit nejen k absolutní špičce hudebního romantismu, ale též k nejlepším dílům světové symfonické tvorby všech dob. Neil Armstrong také vzal její nahrávku na Měsíc, když v roce 1969 Apollo 11 poprvé přistálo na Měsíci.
http://cs.wikipedia.org/wiki/Symfonie_%C4%8D._9_(Dvo%C5%99%C3%A1k)


Je Nový svět vesnice?
ano
Nový Svět je vesnice, část městyse Dolní Cerekev v okrese Jihlava.
http://cs.wikipedia.org/wiki/Nov%C3%BD_Sv%C4%9Bt_(Doln%C3%AD_Cerekev)


Z kolika států se skládají USA?
50
Spojené státy se skládají z 50 států, federálního území s hlavním městem a sídlem vlády a Kongresu (District of Columbia), přidružených států s vnitřní samosprávou (Portoriko, Severní Mariany a další) a samosprávných území Spojených států (Guam, Panenské ostrovy, Americká Samoa a další).
http://cs.wikipedia.org/wiki/Spojen%C3%A9_st%C3%A1ty_americk%C3%A9


Kde se narodil Karel Čapek?
v Malých Svatoňovicích
PhDr. Karel Čapek (9. ledna 1890, Malé Svatoňovice – 25. prosince
1938, Praha) byl český spisovatel, intelektuál, novinář, dramatik,
překladatel a fotograf. Narodil se v Malých Svatoňovicích v rodině
lékaře Antonína Čapka.

Negativní příklady:

Z kolika států se skládají USA?
Spojené státy se skládají z 50 států
Spojené státy se skládají z 50 států, federálního území s hlavním
městem a sídlem vlády a Kongresu (District of Columbia), přidružených
států s vnitřní samosprávou (Portoriko, Severní Mariany a další) a
samosprávných území Spojených států (Guam, Panenské ostrovy, Americká
Samoa a další).

[příliš dlouhá odpověď]

Co je to Nový Svět?
vesnice
Nový Svět je vesnice, část městyse Dolní Cerekev v okrese Jihlava.

[odpověď není úplná -- Nový Svět má více významů a kompletní odpověď
není odvoditelná z krátkého kusu textu]