4 | | která slouží pouze pro Vaše testovací účely. |
| 3 | Máme dva dokumenty a chceme zjistit, zda mají stejného autora |
| 4 | 1. Zvolte si projekt MV_BLOG1/2 v sekci Home page/Switch project |
| 5 | 1. Přejděte do sekce Authorship !Verification/Verify data sets |
| 6 | 1. Nahoře zvolte sadu !`Select data collection:` MV_BLOG[blog_test] (je potřeba vybírat sady, které mají primární testovací data, tj. druhé číslo ze tří parametrů alespoň dva) |
| 7 | 1. Sjeďte na konec stránky do sekce !`Verification of document pairs` |
| 8 | 1. Zvolte rozumný počet srovnávaných dvojic !`Document pair limit`, např. 100 (čím vyšší číslo, tím déle srovnání trvá). Při větších úlohách kvůli nárokům na paměť doporučujeme používat menší sady a problémy dělit. |
| 9 | 1. Stiskněte tlačítko !`Run verification of document pairs` |
| 10 | 1. Vyčkejte zhruba dvě minuty, než se výsledek spočítá |
| 11 | 1. Čeká na Vás tabulka výsledků, tzv. confusion matrix (http://en.wikipedia.org/wiki/Confusion_matrix) s celkovou úspěšností |
| 12 | 1. Níže pro každou srovnávanou dvojici můžete zjistit, jak jsou si dokumenty podobné v jednotlivých kategoriích, výsledky jsou ve tvaru: |
| 13 | 1. 59221 vs. 59250 (id dokumentů) |
| 14 | Similarity:% Kategorie: % |
| 15 | Pokud chcete zjistit autory jednotlivých dokumentů, např. v sekci Data |
| 16 | management/Edit data sets můžete zadávat id dokumentu a vyhledá se vám |
| 17 | záznamNebo si můžete projít celé sady dokumentů v Home page/View projects a |
| 18 | doklikat se. |
8 | | Zatímco dokumenty vložené do systému může používat každý, projekty se liší: |
| 21 | == Verifikace autorství dvou skupin dokumentů == |
| 22 | Máme dvě skupiny dokumentů a chceme zjistit, zda nejsou napsány jedním člověkem. Tato úloha je v praxi běžnější a mnohem přesnější než předcházející krok. |
| 23 | 1. Zvolte si projekt MV_BOOK1/2 v sekci Home page/Switch project |
| 24 | 1. Přejděte do sekce Authorship !Verification/Verify data sets |
| 25 | 1. Nahoře zvolte sadu !`Select data collection:` MV_BOOK[book_diff_author_pair] (je potřeba volit sady, kde v primárních testovacích datech jsou dokumenty jednoho kandidáta a v sekundárních datech dokumenty druhého kandidáta) |
| 26 | 1. Přejděte trochu níže do sekce !`Verification of two data sets` |
| 27 | 1. manuální dvojice nemusíte nastavovat, protože jsme zvolili sadu na testování. Jinak můžete ale zadávat id dokumentů i ručně. |
| 28 | 1. Stiskněte tlačítko !`Run verification of data sets` |
| 29 | 1. Vyčkejte, než se provede analýza |
| 30 | 1. Čeká na Vás tabulka výsledků, kde zjistíte konzistenci jednoho autora, druhého autora (tj. jak je autor ve svém stylu stabilní) a podobnost mezi autory. Pokud je podobnost mezi autory podobná jejich konzistenci, výsledek je shoda autorství, pokud je velmi nízká, neshoda, v opačním případě raději vracíme nejistotu (systém vrací v 96 % správnou odpověď za cenu asi 70% pokrytí) |
| 31 | 1. Celý postup opakujeme pro sadu MV_BOOK[book_same_author_pair] |
16 | | 6. Stiskněte tlačítko !`Run verification of document pairs`[[BR]]7. Vyčkejte zhruba dvě minuty, než se výsledek spočítá[[BR]]8. Čeká na Vás tabulka výsledků, tzv. confusion matrix (http://en.wikipedia.org/wiki/Confusion_matrix) s celkovou úspěšností[[BR]]9. Níže pro každou srovnávanou dvojici můžete zjistit, jak jsou si dokumenty podobné v jednotlivých kategoriích, výsledky jsou ve tvaru:[[BR]]1. 59221 vs. 59250 (id dokumentů)[[BR]] Similarity:% Kategorie: %[[BR]]Pokud chcete zjistit autory jednotlivých dokumentů, např. v sekci Data management/Edit data sets můžete zadávat id dokumentu a vyhledá se vám záznamNebo si můžete projít celé sady dokumentů v Home page/View projects a doklikat se.[[BR]][[BR]]=================================================Verifikace autorství dvou skupin dokumentů[[BR]]=================================================[[BR]]Máme dvě skupiny dokumentů a chceme zjistit, zda nejsou napsány jedním člověkem. Tato úloha je v praxi běžnější a mnohem přesnější než předcházející krok.[[BR]]1. Zvolte si projekt MV_BOOK1/2 v sekci Home page/Switch project[[BR]]2. Přejděte do sekce Authorship Verification/Verify data sets[[BR]]3. Nahoře zvolte sadu !`Select data collection:` MV_BOOK[book_diff_author_pair] (je potřeba volit sady, kde v primárních testovacích datech jsou dokumenty jednoho kandidáta a v sekundárních datech dokumenty druhého kandidáta)[[BR]]4. Přejděte trochu níže do sekce !`Verification of two data sets`[[BR]]5. manuální dvojice nemusíte nastavovat, protože jsme zvolili sadu na testování. Jinak můžete ale zadávat id dokumentů i ručně.[[BR]]6. Stiskněte tlačítko !`Run verification of data sets`[[BR]]7. Vyčkejte, než se provede analýza[[BR]]8. Čeká na Vás tabulka výsledků, kde zjistíte konzistenci jednoho autora, druhého autora (tj. jak je autor ve svém stylu stabilní) a podobnost mezi autory. Pokud je podobnost mezi autory podobná jejich konzistenci, výsledek je shoda autorství, pokud je velmi nízká, neshoda, v opačním případě raději vracíme nejistotu (systém vrací v 96 % správnou odpověď za cenu asi 70% pokrytí)[[BR]]9. Celý postup opakujeme pro sadu MV_BOOK[book_same_author_pair][[BR]]Výsledek vypadá následovně:(přehled doumentů 1. kandidáta -- dokumenty si lze prohlédnout kliknutím na ně -- doporučujeme otevřít v novém okně -- provádí se současně jejich analýza, proto to chvíli trvá, prosím mějte strpení) |
25 | | (shrnutí výsledků)[[BR]]'''Josef Pecinovský:10''' consistency: '''0.6665''' (64.44% votes) '''Josef Pecinovský:10''' consistency: '''0.7522''' (80.00% votes) Author's similarity: '''0.73''' (75.00% votes) Lower limit for same authorship: 0.5838 '''same authors'''+ same (124.8% of lower limit)[[BR]][[BR]]=================================================generování automatického znaleckého posudku[[BR]]=================================================Chceme vygenerovat jednoduché zdůvodnění v PDF formátu.[[BR]]1. Zvolte si projekt MAIN v sekci Home page/Switch project2. Opět přejděte do sekce Authorship verification/Verify data sets3. Zvolte sadu pdfreport[[BR]]4. Sjeďte do sekce !`PDF report`[[BR]]5. Document type upravte podle typu zkoumaných dokumentů, můžete nechat knihu6. Stiskněte !`Generate PDF report` a počkejte na vygenerování odkazu s PDF souborem se zprávou=================================================Profil autora[[BR]]=================================================Chceme zjistit, čím je styl autora význačný1. Přejděte do sekce Authorship writing2. Pro automatické přiřazení dokumentů do výběru zůstaňte v sekci !`Analyse author's characteristics`[[BR]]3. Zvolte si autora, např. Karla Čapka (kolonka Author's web identity, rychle se autor hledá, když začnete psát začátek jeho jména, např. Karel)[[BR]]4. max. number of documents: čím menší číslo, tím rychleji analýza proběhne a graf bude větší a čitelnější5. Stiskněte !`analyse autor`, pro každou charakteristiku stylu autora se vygeneruje podrobný graf.V jednom sloupci jsou vždy hodnoty všech dokumentů pro jednu charakteristiku a pod sloupcem barva značí, jak je autor konzistentní (zelená hodně, červená vůbec). Pod grafy jsou vysvětivky jednotlivých popisků.[[BR]]Podobně se postupuje i pro řešení dalších úloh, zde se odkážeme na podrobný manuál.Kromě verifikace je k dispozici i přiřazování autorství z kandidátů (je tolik kandidátů jako dokumentů v sekundární testovací sadě -- třetí číslo u sady) a přiřazování autorství bez kandidátů.Jednotlivé sady jde ručně upravovat nebo spojovat.Samozřejmostí je i učení nových klasifikátorů a možnost volit mezi aktuálním a starším klasifikátorem. Lze měnit i parametry klasifikátorů a vynechat některé charakteristiky autora. např. při zpracování anglických dat je potřeba je zcela přenastavit (např. v settings select en only). |
| 44 | and of the second author '''Josef Pecinovský:10''': |
| 45 | |
| 46 | (shrnutí výsledků) |
| 47 | '''Josef Pecinovský:10''' consistency: '''0.6665''' (64.44% votes) '''Josef Pecinovský:10''' consistency: '''0.7522''' (80.00% votes) Author's similarity: '''0.73''' (75.00% votes) Lower limit for same authorship: 0.5838 '''same authors'''+ same (124.8% of lower limit) |
| 48 | |
| 49 | == Automatické generování zdůvodnění pro znalecký posudek == |
| 50 | |
| 51 | Chceme vygenerovat jednoduché zdůvodnění v PDF formátu. |
| 52 | |
| 53 | 1. Zvolte si projekt MAIN v sekci Home page/Switch project |
| 54 | 1. Opět přejděte do sekce Authorship verification/Verify data sets |
| 55 | 1. Zvolte sadu pdfreport |
| 56 | 1. Sjeďte do sekce !`PDF report` |
| 57 | 1. Document type upravte podle typu zkoumaných dokumentů, můžete nechat knihu |
| 58 | 1. Stiskněte !`Generate PDF report` a počkejte na vygenerování odkazu s PDF souborem se zprávou |
| 59 | |
| 60 | == Profil autora == |
| 61 | |
| 62 | Chceme zjistit, čím je styl autora význačný |
| 63 | |
| 64 | 1. Přejděte do sekce Authorship writing |
| 65 | 1. Pro automatické přiřazení dokumentů do výběru zůstaňte v sekci !`Analyse author's characteristics` |
| 66 | 1. Zvolte si autora, např. Karla Čapka (kolonka Author's web identity, rychle se autor hledá, když začnete psát začátek jeho jména, např. Karel) |
| 67 | 1. max. number of documents: čím menší číslo, tím rychleji analýza proběhne a graf bude větší a čitelnější |
| 68 | 1. Stiskněte !`analyse autor`, pro každou charakteristiku stylu autora se vygeneruje podrobný graf.V jednom sloupci jsou vždy hodnoty všech dokumentů pro jednu charakteristiku a pod sloupcem barva značí, jak je autor konzistentní (zelená hodně, červená vůbec). Pod grafy jsou vysvětivky jednotlivých popisků. |
| 69 | |
| 70 | Podobně se postupuje i pro řešení dalších úloh, zde se odkážeme na podrobný |
| 71 | manuál.Kromě verifikace je k dispozici i přiřazování autorství z kandidátů (je |
| 72 | tolik kandidátů jako dokumentů v sekundární testovací sadě -- třetí číslo u |
| 73 | sady) a přiřazování autorství bez kandidátů.Jednotlivé sady jde ručně upravovat |
| 74 | nebo spojovat.Samozřejmostí je i učení nových klasifikátorů a možnost volit |
| 75 | mezi aktuálním a starším klasifikátorem. Lze měnit i parametry klasifikátorů a |
| 76 | vynechat některé charakteristiky autora. např. při zpracování anglických dat |
| 77 | je potřeba je zcela přenastavit (např. v settings select en only). |