wiki:cs/ArtRychlyPruvodce

ART - Rychlý průvodce

Do systému ART se můžete přihlásit na adrese http://asteria04.fi.muni.cz:6543, která slouží pouze pro vaše testovací účely.

Nástroj ART používá rozdělení dat na projekty tak, aby v jednu chvíli s jedním projektem pracoval právě jeden člověk. Zatímco dokumenty vložené do systému může používat každý, projekty se liší:

  • kolekcemi dat: kolekce je soubor dokumentů, které nás zajímají a chceme je vyhodnocovat nebo na nich trénovat nový model
  • naučenými klasifikátory pro rozhodování autorství, každý typ dokumentů (např. blog, kniha, diskuze, twitter) se od sebe významně liší a je proto vhodné vyhodnocovat jednotlivé typy zvlášť (případně při vyhodnocování např. knih s blogy se učíme na datech složených z knih a blogů)

Po přihlášení začnete v projektu MV_BLOG1/2, který má vytvořený základní model pro rozpoznávání blogů a k dispozici náhodně vytvořenou sadu dokumentů pro testování.

V reálném použití je typické, že každý uživatel si vytvoří vlastní projekty a bude s nimi pracovat. I proto jsme základní projekty s ukázkami vytvořili vždy dvakrát, tj. je MV_BLOG1 i MV_BLOG2.

Prosíme, abyste každý používal projekty se svým číslem a zabránil tak protichůdným akcím -- např. jeden člověk na datech vyhodnocuje, zatímco druhý se rozhodne vylepšit klasifikátor autorství a v půlce vyhodnocování ho přeučí. Samozřejmě si můžete tvořit další projekty, v kterých budete experimentovat. Po vytvoření projektu se do něj nezapomeňte přepnout akcí Home page/Switch project.

Pro rychlejší orientaci v systému jsme připravili rychlý návod, jak řešit základní úlohy.

Verifikace autorství dvou dokumentů

Máme dva dokumenty a chceme zjistit, zda mají stejného autora

  1. Zvolte si projekt MV_BLOG1/2 v sekci Home page/Switch project
  2. Přejděte do sekce Authorship Verification/Verify data sets
  3. Nahoře zvolte sadu Select data collection: MV_BLOG[blog_test] (je potřeba vybírat sady, které mají primární testovací data, tj. druhé číslo - ze tří parametrů alespoň dva)
  4. Sjeďte na konec stránky do sekce Verification of document pairs
  5. Zvolte rozumný počet srovnávaných dvojic Document pair limit, např. 100 (čím vyšší číslo, tím déle srovnání trvá). Při větších úlohách kvůli nárokům na paměť doporučujeme používat menší sady a problémy dělit.
  6. Stiskněte tlačítko Run verification of document pairs
  7. Vyčkejte zhruba dvě minuty, než se výsledek spočítá
  8. Čeká na vás tabulka výsledků, tzv. confusion matrix (http://en.wikipedia.org/wiki/Confusion_matrix) s celkovou úspěšností
  9. Níže pro každou srovnávanou dvojici můžete zjistit, jak jsou si dokumenty podobné v jednotlivých kategoriích, výsledky jsou ve tvaru:
    1. 59221 vs. 59250 (id dokumentů)
      Similarity:% Kategorie: %

Pokud chcete zjistit autory jednotlivých dokumentů, např. v sekci Data management/Edit data sets, můžete zadávat id dokumentu a vyhledá se vám záznam. Nebo si můžete projít celé sady dokumentů v Home page/View projects a doklikat se.

Verifikace autorství dvou skupin dokumentů

Máme dvě skupiny dokumentů a chceme zjistit, zda nejsou napsány jedním člověkem. Tato úloha je v praxi běžnější a mnohem přesnější než předcházející krok.

  1. Zvolte si projekt MV_BOOK1/2 v sekci Home page/Switch project
  2. Přejděte do sekce Authorship Verification/Verify data sets
  3. Nahoře zvolte sadu Select data collection: MV_BOOK[book_diff_author_pair] (je potřeba volit sady, kde v primárních testovacích datech jsou dokumenty jednoho kandidáta a v sekundárních datech dokumenty druhého kandidáta)
  4. Přejděte trochu níže do sekce Verification of two data sets
  5. manuální dvojice nemusíte nastavovat, protože jsme zvolili sadu na testování. Jinak můžete ale zadávat id dokumentů i ručně.
  6. Stiskněte tlačítko Run verification of data sets
  7. Vyčkejte, než se provede analýza
  8. Čeká na vás tabulka výsledků, kde zjistíte konzistenci jednoho autora, druhého autora (tj. jak je autor ve svém stylu stabilní) a podobnost mezi autory. Pokud je podobnost mezi autory podobná jejich konzistenci, výsledek je shoda autorství, pokud je velmi nízká, neshoda, v opačném případě raději vracíme nejistotu (systém vrací v 96 % správnou odpověď za cenu asi 70% pokrytí)
  9. Celý postup opakujeme pro sadu MV_BOOK[book_same_author_pair]

Výsledek vypadá následovně: (přehled dokumentů 1. kandidáta -- dokumenty si lze prohlédnout kliknutím na ně -- doporučujeme otevřít v novém okně -- provádí se současně jejich analýza, proto to chvíli trvá, prosím mějte strpení)

Analysis complete for documents of the first author Josef Pecinovský:10:

(přehled dokumentů 2. kandidáta):

and of the second author Josef Pecinovský:10:

(shrnutí výsledků)
Josef Pecinovský:10 consistency: 0.6665 (64.44% votes) Josef Pecinovský:10 consistency: 0.7522 (80.00% votes) Author's similarity: 0.73 (75.00% votes) Lower limit for same authorship: 0.5838 same authors+ same (124.8% of lower limit)

Automatické generování zdůvodnění pro znalecký posudek

Chceme vygenerovat jednoduché zdůvodnění v PDF formátu.

  1. Zvolte si projekt MAIN v sekci Home page/Switch project
  2. Opět přejděte do sekce Authorship verification/Verify data sets
  3. Zvolte sadu pdfreport
  4. Sjeďte do sekce PDF report
  5. Document type upravte podle typu zkoumaných dokumentů, můžete nechat knihu
  6. Stiskněte Generate PDF report a počkejte na vygenerování odkazu s PDF souborem se zprávou

Profil autora

Chceme zjistit, čím je styl autora význačný

  1. Přejděte do sekce Authorship writing
  2. Pro automatické přiřazení dokumentů do výběru zůstaňte v sekci `Analyse author's characteristics`
  3. Zvolte si autora, např. Karla Čapka (kolonka Author's web identity, rychle se autor hledá, když začnete psát začátek jeho jména, např. Karel)
  4. max. number of documents: čím menší číslo, tím rychleji analýza proběhne a graf bude větší a čitelnější
  5. Stiskněte `analyse autor`, pro každou charakteristiku stylu autora se vygeneruje podrobný graf. V jednom sloupci jsou vždy hodnoty všech dokumentů pro jednu charakteristiku a barva pod sloupcem značí, jak je autor konzistentní (zelená hodně, červená vůbec). Pod grafy jsou vysvětlivky jednotlivých popisků.

Podobně se postupuje i pro řešení dalších úloh, zde se odkážeme na podrobný manuál. Kromě verifikace je k dispozici i přiřazování autorství z kandidátů (je tolik kandidátů jako dokumentů v sekundární testovací sadě -- třetí číslo u sady) a přiřazování autorství bez kandidátů. Jednotlivé sady jde ručně upravovat nebo spojovat. Samozřejmostí je i učení nových klasifikátorů a možnost volit mezi aktuálním a starším klasifikátorem. Lze měnit i parametry klasifikátorů a vynechat některé charakteristiky autora. např. při zpracování anglických dat je potřeba je zcela přenastavit (např. v Settings zvolit Select en only).

Last modified 9 years ago Last modified on Apr 13, 2015, 3:27:04 PM

Attachments (2)

Download all attachments as: .zip