Changes between Version 1 and Version 2 of cs/ArtRychlyPruvodce


Ignore:
Timestamp:
Apr 10, 2015, 12:53:43 PM (6 years ago)
Author:
Ales Horak
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/ArtRychlyPruvodce

    v1 v2  
    1 = ART - Rychlý průvodce =
    2 Do systému ART se můžete přihlásit na adrese [http://asteria04.fi.muni.cz:6543/ http://asteria04.fi.muni.cz:6543]
     1== Verifikace autorství dvou dokumentů ==
    32
    4 která slouží pouze pro Vaše testovací účely.
     3Máme dva dokumenty a chceme zjistit, zda mají stejného autora
     41. Zvolte si projekt MV_BLOG1/2 v sekci Home page/Switch project
     51. Přejděte do sekce Authorship !Verification/Verify data sets
     61.  Nahoře zvolte sadu !`Select data collection:` MV_BLOG[blog_test] (je  potřeba vybírat sady, které mají primární testovací data, tj. druhé  číslo ze tří parametrů alespoň dva)
     71. Sjeďte na konec stránky do sekce !`Verification of document pairs`
     81.  Zvolte rozumný počet srovnávaných dvojic !`Document pair limit`, např.  100 (čím vyšší číslo, tím déle srovnání trvá). Při větších úlohách kvůli  nárokům na paměť doporučujeme používat menší sady a problémy dělit.
     91. Stiskněte tlačítko !`Run verification of document pairs`
     101. Vyčkejte zhruba dvě minuty, než se výsledek spočítá
     111. Čeká na Vás tabulka výsledků, tzv. confusion matrix (http://en.wikipedia.org/wiki/Confusion_matrix) s celkovou úspěšností
     121.  Níže pro každou srovnávanou dvojici můžete zjistit, jak jsou si  dokumenty podobné v jednotlivých kategoriích, výsledky jsou ve tvaru:
     13 1. 59221 vs. 59250 (id dokumentů)
     14                                                       Similarity:%                     Kategorie: %
     15Pokud  chcete zjistit autory jednotlivých dokumentů, např. v sekci Data
     16management/Edit data sets můžete zadávat id dokumentu a vyhledá se vám
     17záznamNebo si můžete projít celé sady dokumentů v Home page/View projects a
     18doklikat se.
    519
    6 Nástroj ART používá rozdělení dat na projekty tak, aby v jednu chvíli s jedním projektem pracoval právě jeden člověk.
    720
    8 Zatímco dokumenty vložené do systému může používat každý, projekty se liší:
     21== Verifikace autorství dvou skupin dokumentů ==
     22Máme  dvě skupiny dokumentů a chceme zjistit, zda nejsou napsány jedním  člověkem. Tato úloha je v praxi běžnější a mnohem přesnější než  předcházející krok.
     231. Zvolte si projekt MV_BOOK1/2 v sekci Home page/Switch project
     241. Přejděte do sekce Authorship !Verification/Verify data sets
     251.  Nahoře zvolte sadu !`Select data collection:`  MV_BOOK[book_diff_author_pair] (je potřeba volit sady, kde v primárních  testovacích datech jsou dokumenty jednoho kandidáta a v sekundárních  datech dokumenty druhého kandidáta)
     261. Přejděte trochu níže do sekce !`Verification of two data sets`
     271.  manuální dvojice nemusíte nastavovat, protože jsme zvolili sadu na testování. Jinak můžete ale zadávat id dokumentů i ručně.
     281. Stiskněte tlačítko !`Run verification of data sets`
     291. Vyčkejte, než se provede analýza
     301.  Čeká na Vás tabulka výsledků, kde zjistíte konzistenci jednoho autora,  druhého autora (tj. jak je autor ve svém stylu stabilní) a podobnost  mezi autory. Pokud je podobnost mezi autory podobná jejich konzistenci,  výsledek je shoda autorství, pokud je velmi nízká, neshoda, v opačním  případě raději vracíme nejistotu (systém vrací v 96 % správnou odpověď  za cenu asi 70% pokrytí)
     311.  Celý postup opakujeme pro sadu MV_BOOK[book_same_author_pair]
    932
    10  * kolekcemi dat: kolekce je soubor dokumentů, které nás zajímají a chceme je vyhodnocovat nebo na nich trénovat nový model
     33 Výsledek vypadá následovně:(přehled  doumentů 1. kandidáta -- dokumenty si lze prohlédnout kliknutím na ně  -- doporučujeme otevřít v novém okně -- provádí se současně jejich  analýza, proto to chvíli trvá, prosím mějte strpení)
    1134
    12  * naučenými klasifikátory pro rozhodování autorství, každý typ dokumentů  (např. blog, kniha, diskuze, twitter) se od sebe významně liší a je  proto vhodné vyhodnocovat jednotlivé typy zvlášť (případně při  vyhodnocování např. knih s blogy se učíme na datech složených z knih a  blogů)
     35 Analysis complete for documents of the first author '''Josef Pecinovský:10''':         
    1336
    14 [[BR]]Po přihlášení oba začnete v projektu MV_BLOG1/2,  který má vytvořený základní model pro rozpoznávání blogů a k dispozici  náhodně vytvořenou sadu dokumentů pro testování.[[BR]]V reálném  použití je typické, že každý uživatel si vytvoří vlastní projekty a bude  s nimi pracovat. I proto jsme základní projekty s ukázkami vytvořili  vždy dvakrát, tj. je MV_BLOG1 i MV_BLOG2.[[BR]]Prosíme, abyste každý  používal projekty se svým číslem a zabránil tak protichůdným akcím --  např. jeden člověk na datech vyhodnocuje, zatímco druhý se rozhodne  vylepšit klasifikátor autorství a v půlce vyhodnocování ho přeučí.[[BR]]Samozřejmě  si můžete tvořit další projekty, v kterých budete experimentovat. Po  vytvoření projektu se do něj nezapomeňte přepnout akcí Home page/Switch  project.Pro rychlejší orientaci v systému jsme připravili rychlý návod, jak řešit základní úlohy.[[BR]]=================================================Verifikace autorství dvou dokumentů[[BR]]=================================================[[BR]]Máme dva dokumenty a chceme zjistit, zda mají stejného autora[[BR]]1. Zvolte si projekt MV_BLOG1/2 v sekci Home page/Switch project[[BR]]2. Přejděte do sekce Authorship Verification/Verify data sets[[BR]]3.  Nahoře zvolte sadu !`Select data collection:` MV_BLOG[blog_test] (je  potřeba vybírat sady, které mají primární testovací data, tj. druhé  číslo ze tří parametrů alespoň dva)[[BR]]4. Sjeďte na konec stránky do sekce !`Verification of document pairs`[[BR]]5.  Zvolte rozumný počet srovnávaných dvojic !`Document pair limit`, např.  100 (čím vyšší číslo, tím déle srovnání trvá). Při větších úlohách kvůli  nárokům na paměť doporučujeme používat menší sady a problémy dělit.
     37 [[Image(attachment:analysis1.png)]]
    1538
    16  6. Stiskněte tlačítko !`Run verification of document pairs`[[BR]]7. Vyčkejte zhruba dvě minuty, než se výsledek spočítá[[BR]]8. Čeká na Vás tabulka výsledků, tzv. confusion matrix (http://en.wikipedia.org/wiki/Confusion_matrix) s celkovou úspěšností[[BR]]9.  Níže pro každou srovnávanou dvojici můžete zjistit, jak jsou si  dokumenty podobné v jednotlivých kategoriích, výsledky jsou ve tvaru:[[BR]]1. 59221 vs. 59250 (id dokumentů)[[BR]]                                                       Similarity:%                     Kategorie: %[[BR]]Pokud  chcete zjistit autory jednotlivých dokumentů, např. v sekci Data  management/Edit data sets můžete zadávat id dokumentu a vyhledá se vám  záznamNebo si můžete projít celé sady dokumentů v Home page/View projects a doklikat se.[[BR]][[BR]]=================================================Verifikace autorství dvou skupin dokumentů[[BR]]=================================================[[BR]]Máme  dvě skupiny dokumentů a chceme zjistit, zda nejsou napsány jedním  člověkem. Tato úloha je v praxi běžnější a mnohem přesnější než  předcházející krok.[[BR]]1. Zvolte si projekt MV_BOOK1/2 v sekci Home page/Switch project[[BR]]2. Přejděte do sekce Authorship Verification/Verify data sets[[BR]]3.  Nahoře zvolte sadu !`Select data collection:`  MV_BOOK[book_diff_author_pair] (je potřeba volit sady, kde v primárních  testovacích datech jsou dokumenty jednoho kandidáta a v sekundárních  datech dokumenty druhého kandidáta)[[BR]]4. Přejděte trochu níže do sekce !`Verification of two data sets`[[BR]]5.  manuální dvojice nemusíte nastavovat, protože jsme zvolili sadu na testování. Jinak můžete ale zadávat id dokumentů i ručně.[[BR]]6. Stiskněte tlačítko !`Run verification of data sets`[[BR]]7. Vyčkejte, než se provede analýza[[BR]]8.  Čeká na Vás tabulka výsledků, kde zjistíte konzistenci jednoho autora,  druhého autora (tj. jak je autor ve svém stylu stabilní) a podobnost  mezi autory. Pokud je podobnost mezi autory podobná jejich konzistenci,  výsledek je shoda autorství, pokud je velmi nízká, neshoda, v opačním  případě raději vracíme nejistotu (systém vrací v 96 % správnou odpověď  za cenu asi 70% pokrytí)[[BR]]9.  Celý postup opakujeme pro sadu MV_BOOK[book_same_author_pair][[BR]]Výsledek vypadá následovně:(přehled  doumentů 1. kandidáta -- dokumenty si lze prohlédnout kliknutím na ně  -- doporučujeme otevřít v novém okně -- provádí se současně jejich  analýza, proto to chvíli trvá, prosím mějte strpení)
    1739
    18 Analysis complete for documents of the first author `'''Josef Pecinovský:10'''`:         [[BR]]
    19 [[Image(attachment:analysis1.png)]] [[BR]]
     40 (přehled dokumentů 2. kandidáta):
    2041
    21 (přehled dokumentů 2. kandidáta): [[BR]]
    22 [[Image(attachment:analysis1.png)]] [[BR]]
    23 and of the second author `'''Josef Pecinovský:10'''`:         [[BR]]
     42 [[Image(attachment:analysis2.png)]]
    2443
    25 (shrnutí výsledků)[[BR]]'''Josef Pecinovský:10''' consistency: '''0.6665''' (64.44% votes)     '''Josef Pecinovský:10''' consistency: '''0.7522''' (80.00% votes)      Author's similarity: '''0.73''' (75.00% votes)     Lower limit for same authorship: 0.5838     '''same authors'''+ same (124.8% of lower limit)[[BR]][[BR]]=================================================generování automatického znaleckého posudku[[BR]]=================================================Chceme vygenerovat jednoduché zdůvodnění v PDF formátu.[[BR]]1. Zvolte si projekt MAIN v sekci Home page/Switch project2. Opět přejděte do sekce Authorship verification/Verify data sets3. Zvolte sadu pdfreport[[BR]]4. Sjeďte do sekce !`PDF report`[[BR]]5. Document type upravte podle typu zkoumaných dokumentů, můžete nechat knihu6. Stiskněte !`Generate PDF report` a počkejte na vygenerování odkazu s PDF souborem se zprávou=================================================Profil autora[[BR]]=================================================Chceme zjistit, čím je styl autora význačný1. Přejděte do sekce Authorship writing2. Pro automatické přiřazení dokumentů do výběru zůstaňte v sekci !`Analyse author's characteristics`[[BR]]3.  Zvolte si autora, např. Karla Čapka (kolonka Author's web identity,  rychle se autor hledá, když začnete psát začátek jeho jména, např.  Karel)[[BR]]4. max. number of documents: čím menší číslo, tím rychleji analýza proběhne a graf bude větší a čitelnější5.  Stiskněte !`analyse autor`, pro každou charakteristiku stylu autora se  vygeneruje podrobný graf.V jednom sloupci jsou vždy hodnoty všech  dokumentů pro jednu charakteristiku a pod sloupcem barva značí, jak je  autor konzistentní (zelená hodně, červená vůbec). Pod grafy jsou  vysvětivky jednotlivých popisků.[[BR]]Podobně se postupuje i pro řešení dalších úloh, zde se odkážeme na podrobný manuál.Kromě  verifikace je k dispozici i přiřazování autorství z kandidátů (je tolik  kandidátů jako dokumentů v sekundární testovací sadě -- třetí číslo u  sady) a přiřazování autorství bez kandidátů.Jednotlivé sady jde ručně upravovat nebo spojovat.Samozřejmostí  je i učení nových klasifikátorů a možnost volit mezi aktuálním a  starším klasifikátorem. Lze měnit i parametry klasifikátorů a vynechat  některé charakteristiky autora. např. při zpracování anglických dat je  potřeba je zcela přenastavit (např. v settings select en only).
     44 and of the second author '''Josef Pecinovský:10''':         
     45
     46 (shrnutí výsledků)
     47 '''Josef Pecinovský:10''' consistency: '''0.6665''' (64.44% votes)     '''Josef Pecinovský:10''' consistency: '''0.7522''' (80.00% votes)      Author's similarity: '''0.73''' (75.00% votes)     Lower limit for same authorship: 0.5838     '''same authors'''+ same (124.8% of lower limit)
     48
     49== Automatické generování zdůvodnění pro znalecký posudek ==
     50
     51Chceme vygenerovat jednoduché zdůvodnění v PDF formátu.
     52
     531. Zvolte si projekt MAIN v sekci Home page/Switch project
     541. Opět přejděte do sekce Authorship verification/Verify data sets
     551. Zvolte sadu pdfreport
     561. Sjeďte do sekce !`PDF report`
     571. Document type upravte podle typu zkoumaných dokumentů, můžete nechat knihu
     581. Stiskněte !`Generate PDF report` a počkejte na vygenerování odkazu s PDF souborem se zprávou
     59
     60== Profil autora ==
     61
     62Chceme zjistit, čím je styl autora význačný
     63
     641. Přejděte do sekce Authorship writing
     651. Pro automatické přiřazení dokumentů do výběru zůstaňte v sekci !`Analyse author's characteristics`
     661. Zvolte si autora, např. Karla Čapka (kolonka Author's web identity,  rychle se autor hledá, když začnete psát začátek jeho jména, např.  Karel)
     671. max. number of documents: čím menší číslo, tím rychleji analýza proběhne a graf bude větší a čitelnější
     681. Stiskněte !`analyse autor`, pro každou charakteristiku stylu autora se  vygeneruje podrobný graf.V jednom sloupci jsou vždy hodnoty všech  dokumentů pro jednu charakteristiku a pod sloupcem barva značí, jak je  autor konzistentní (zelená hodně, červená vůbec).  Pod grafy jsou  vysvětivky jednotlivých popisků.
     69
     70Podobně se postupuje i pro řešení dalších úloh, zde se odkážeme na podrobný
     71manuál.Kromě  verifikace je k dispozici i přiřazování autorství z kandidátů (je
     72tolik  kandidátů jako dokumentů v sekundární testovací sadě -- třetí číslo u
     73sady) a přiřazování autorství bez kandidátů.Jednotlivé sady jde ručně upravovat
     74nebo spojovat.Samozřejmostí  je i učení nových klasifikátorů a možnost volit
     75mezi aktuálním a  starším klasifikátorem. Lze měnit i parametry klasifikátorů a
     76vynechat  některé charakteristiky autora. např. při zpracování anglických dat
     77je  potřeba je zcela přenastavit (např. v settings select en only).