wiki:cs/ArtRychlyPruvodce

Version 1 (modified by Ales Horak, 9 years ago) (diff)

--

ART - Rychlý průvodce

Do systému ART se můžete přihlásit na adrese http://asteria04.fi.muni.cz:6543

která slouží pouze pro Vaše testovací účely.

Nástroj ART používá rozdělení dat na projekty tak, aby v jednu chvíli s jedním projektem pracoval právě jeden člověk.

Zatímco dokumenty vložené do systému může používat každý, projekty se liší:

  • kolekcemi dat: kolekce je soubor dokumentů, které nás zajímají a chceme je vyhodnocovat nebo na nich trénovat nový model
  • naučenými klasifikátory pro rozhodování autorství, každý typ dokumentů (např. blog, kniha, diskuze, twitter) se od sebe významně liší a je proto vhodné vyhodnocovat jednotlivé typy zvlášť (případně při vyhodnocování např. knih s blogy se učíme na datech složených z knih a blogů)


Po přihlášení oba začnete v projektu MV_BLOG1/2, který má vytvořený základní model pro rozpoznávání blogů a k dispozici náhodně vytvořenou sadu dokumentů pro testování.
V reálném použití je typické, že každý uživatel si vytvoří vlastní projekty a bude s nimi pracovat. I proto jsme základní projekty s ukázkami vytvořili vždy dvakrát, tj. je MV_BLOG1 i MV_BLOG2.
Prosíme, abyste každý používal projekty se svým číslem a zabránil tak protichůdným akcím -- např. jeden člověk na datech vyhodnocuje, zatímco druhý se rozhodne vylepšit klasifikátor autorství a v půlce vyhodnocování ho přeučí.
Samozřejmě si můžete tvořit další projekty, v kterých budete experimentovat. Po vytvoření projektu se do něj nezapomeňte přepnout akcí Home page/Switch project.Pro rychlejší orientaci v systému jsme připravili rychlý návod, jak řešit základní úlohy.
=================================================Verifikace autorství dvou dokumentů
=================================================
Máme dva dokumenty a chceme zjistit, zda mají stejného autora
1. Zvolte si projekt MV_BLOG1/2 v sekci Home page/Switch project
2. Přejděte do sekce Authorship Verification/Verify? data sets
3. Nahoře zvolte sadu `Select data collection:` MV_BLOG[blog_test] (je potřeba vybírat sady, které mají primární testovací data, tj. druhé číslo ze tří parametrů alespoň dva)
4. Sjeďte na konec stránky do sekce `Verification of document pairs`
5. Zvolte rozumný počet srovnávaných dvojic `Document pair limit`, např. 100 (čím vyšší číslo, tím déle srovnání trvá). Při větších úlohách kvůli nárokům na paměť doporučujeme používat menší sady a problémy dělit.

  1. Stiskněte tlačítko `Run verification of document pairs`
    7. Vyčkejte zhruba dvě minuty, než se výsledek spočítá
    8. Čeká na Vás tabulka výsledků, tzv. confusion matrix (http://en.wikipedia.org/wiki/Confusion_matrix) s celkovou úspěšností
    9. Níže pro každou srovnávanou dvojici můžete zjistit, jak jsou si dokumenty podobné v jednotlivých kategoriích, výsledky jsou ve tvaru:
    1. 59221 vs. 59250 (id dokumentů)
    Similarity:% Kategorie: %
    Pokud chcete zjistit autory jednotlivých dokumentů, např. v sekci Data management/Edit data sets můžete zadávat id dokumentu a vyhledá se vám záznamNebo si můžete projít celé sady dokumentů v Home page/View projects a doklikat se.

    =================================================Verifikace autorství dvou skupin dokumentů
    =================================================
    Máme dvě skupiny dokumentů a chceme zjistit, zda nejsou napsány jedním člověkem. Tato úloha je v praxi běžnější a mnohem přesnější než předcházející krok.
    1. Zvolte si projekt MV_BOOK1/2 v sekci Home page/Switch project
    2. Přejděte do sekce Authorship Verification/Verify? data sets
    3. Nahoře zvolte sadu `Select data collection:` MV_BOOK[book_diff_author_pair] (je potřeba volit sady, kde v primárních testovacích datech jsou dokumenty jednoho kandidáta a v sekundárních datech dokumenty druhého kandidáta)
    4. Přejděte trochu níže do sekce `Verification of two data sets`
    5. manuální dvojice nemusíte nastavovat, protože jsme zvolili sadu na testování. Jinak můžete ale zadávat id dokumentů i ručně.
    6. Stiskněte tlačítko `Run verification of data sets`
    7. Vyčkejte, než se provede analýza
    8. Čeká na Vás tabulka výsledků, kde zjistíte konzistenci jednoho autora, druhého autora (tj. jak je autor ve svém stylu stabilní) a podobnost mezi autory. Pokud je podobnost mezi autory podobná jejich konzistenci, výsledek je shoda autorství, pokud je velmi nízká, neshoda, v opačním případě raději vracíme nejistotu (systém vrací v 96 % správnou odpověď za cenu asi 70% pokrytí)
    9. Celý postup opakujeme pro sadu MV_BOOK[book_same_author_pair]
    Výsledek vypadá následovně:(přehled doumentů 1. kandidáta -- dokumenty si lze prohlédnout kliknutím na ně -- doporučujeme otevřít v novém okně -- provádí se současně jejich analýza, proto to chvíli trvá, prosím mějte strpení)

Analysis complete for documents of the first author '''Josef Pecinovský:10''':
No image "analysis1.png" attached to attachment

(přehled dokumentů 2. kandidáta):
No image "analysis1.png" attached to attachment
and of the second author '''Josef Pecinovský:10''':

(shrnutí výsledků)
Josef Pecinovský:10 consistency: 0.6665 (64.44% votes) Josef Pecinovský:10 consistency: 0.7522 (80.00% votes) Author's similarity: 0.73 (75.00% votes) Lower limit for same authorship: 0.5838 same authors+ same (124.8% of lower limit)

=================================================generování automatického znaleckého posudku
=================================================Chceme vygenerovat jednoduché zdůvodnění v PDF formátu.
1. Zvolte si projekt MAIN v sekci Home page/Switch project2. Opět přejděte do sekce Authorship verification/Verify data sets3. Zvolte sadu pdfreport
4. Sjeďte do sekce `PDF report`
5. Document type upravte podle typu zkoumaných dokumentů, můžete nechat knihu6. Stiskněte `Generate PDF report` a počkejte na vygenerování odkazu s PDF souborem se zprávou=================================================Profil autora
=================================================Chceme zjistit, čím je styl autora význačný1. Přejděte do sekce Authorship writing2. Pro automatické přiřazení dokumentů do výběru zůstaňte v sekci `Analyse author's characteristics`
3. Zvolte si autora, např. Karla Čapka (kolonka Author's web identity, rychle se autor hledá, když začnete psát začátek jeho jména, např. Karel)
4. max. number of documents: čím menší číslo, tím rychleji analýza proběhne a graf bude větší a čitelnější5. Stiskněte `analyse autor`, pro každou charakteristiku stylu autora se vygeneruje podrobný graf.V jednom sloupci jsou vždy hodnoty všech dokumentů pro jednu charakteristiku a pod sloupcem barva značí, jak je autor konzistentní (zelená hodně, červená vůbec). Pod grafy jsou vysvětivky jednotlivých popisků.
Podobně se postupuje i pro řešení dalších úloh, zde se odkážeme na podrobný manuál.Kromě verifikace je k dispozici i přiřazování autorství z kandidátů (je tolik kandidátů jako dokumentů v sekundární testovací sadě -- třetí číslo u sady) a přiřazování autorství bez kandidátů.Jednotlivé sady jde ručně upravovat nebo spojovat.Samozřejmostí je i učení nových klasifikátorů a možnost volit mezi aktuálním a starším klasifikátorem. Lze měnit i parametry klasifikátorů a vynechat některé charakteristiky autora. např. při zpracování anglických dat je potřeba je zcela přenastavit (např. v settings select en only).

Attachments (2)

Download all attachments as: .zip