Changes between Version 3 and Version 4 of cs/ArtRychlyPruvodce


Ignore:
Timestamp:
Apr 10, 2015, 12:57:56 PM (8 years ago)
Author:
Ales Horak
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
 • cs/ArtRychlyPruvodce

  v3 v4  
   1= ART - Rychlý průvodce =
   2
   3Do systému ART se můžete přihlásit na adrese http://asteria04.fi.muni.cz:6543,
   4která slouží pouze pro Vaše testovací účely.
   5
   6Nástroj ART používá rozdělení dat na projekty tak, aby v jednu chvíli s jedním projektem pracoval právě jeden člověk.
   7Zatímco dokumenty vložené do systému může používat každý, projekty se liší:
   8 * kolekcemi dat: kolekce je soubor dokumentů, které nás zajímají a chceme je vyhodnocovat nebo na nich trénovat nový model
   9 * naučenými klasifikátory pro rozhodování autorství, každý typ dokumentů (např. blog, kniha, diskuze, twitter) se od sebe významně liší a je proto vhodné vyhodnocovat jednotlivé typy zvlášť (případně při vyhodnocování např. knih s blogy se učíme na datech složených z knih a blogů)
   10
   11Po přihlášení začnete v projektu MV_BLOG1/2, který má vytvořený základní model pro rozpoznávání blogů a k dispozici náhodně vytvořenou sadu dokumentů pro testování.
   12
   13V reálném použití je typické, že každý uživatel si vytvoří vlastní projekty a bude s nimi pracovat. I proto jsme základní projekty s ukázkami vytvořili vždy dvakrát, tj. je MV_BLOG1 i MV_BLOG2.
   14
   15Prosíme, abyste každý používal projekty se svým číslem a zabránil tak protichůdným akcím -- např. jeden člověk na datech vyhodnocuje, zatímco druhý se rozhodne vylepšit klasifikátor autorství a v půlce vyhodnocování ho přeučí.
   16Samozřejmě si můžete tvořit další projekty, v kterých budete experimentovat. Po vytvoření projektu se do něj nezapomeňte přepnout akcí Home page/Switch project.
   17
   18Pro rychlejší orientaci v systému jsme připravili rychlý návod, jak řešit základní úlohy.
   19
  120== Verifikace autorství dvou dokumentů ==
  221
   
  4231. Zvolte si projekt MV_BLOG1/2 v sekci Home page/Switch project
  5241. Přejděte do sekce Authorship !Verification/Verify data sets
  6 1.  Nahoře zvolte sadu !`Select data collection:` MV_BLOG[blog_test] (je  potřeba vybírat sady, které mají primární testovací data, tj. druhé  číslo ze tří parametrů alespoň dva)
  7 1. Sjeďte na konec stránky do sekce !`Verification of document pairs`
  8 1.  Zvolte rozumný počet srovnávaných dvojic !`Document pair limit`, např.  100 (čím vyšší číslo, tím déle srovnání trvá). Při větších úlohách kvůli  nárokům na paměť doporučujeme používat menší sady a problémy dělit.
  9 1. Stiskněte tlačítko !`Run verification of document pairs`
   251.  Nahoře zvolte sadu `Select data collection:` MV_BLOG[blog_test] (je  potřeba vybírat sady, které mají primární testovací data, tj. druhé  číslo ze tří parametrů alespoň dva)
   261. Sjeďte na konec stránky do sekce `Verification of document pairs`
   271.  Zvolte rozumný počet srovnávaných dvojic `Document pair limit`, např.  100 (čím vyšší číslo, tím déle srovnání trvá). Při větších úlohách kvůli  nárokům na paměť doporučujeme používat menší sady a problémy dělit.
   281. Stiskněte tlačítko `Run verification of document pairs`
  10291. Vyčkejte zhruba dvě minuty, než se výsledek spočítá
  11301. Čeká na Vás tabulka výsledků, tzv. confusion matrix (http://en.wikipedia.org/wiki/Confusion_matrix) s celkovou úspěšností
   
  23421. Zvolte si projekt MV_BOOK1/2 v sekci Home page/Switch project
  24431. Přejděte do sekce Authorship !Verification/Verify data sets
  25 1.  Nahoře zvolte sadu !`Select data collection:`  MV_BOOK[book_diff_author_pair] (je potřeba volit sady, kde v primárních  testovacích datech jsou dokumenty jednoho kandidáta a v sekundárních  datech dokumenty druhého kandidáta)
  26 1. Přejděte trochu níže do sekce !`Verification of two data sets`
   441.  Nahoře zvolte sadu `Select data collection:`  MV_BOOK[book_diff_author_pair] (je potřeba volit sady, kde v primárních  testovacích datech jsou dokumenty jednoho kandidáta a v sekundárních  datech dokumenty druhého kandidáta)
   451. Přejděte trochu níže do sekce `Verification of two data sets`
  27461.  manuální dvojice nemusíte nastavovat, protože jsme zvolili sadu na testování. Jinak můžete ale zadávat id dokumentů i ručně.
  28 1. Stiskněte tlačítko !`Run verification of data sets`
   471. Stiskněte tlačítko `Run verification of data sets`
  29481. Vyčkejte, než se provede analýza
  30491.  Čeká na Vás tabulka výsledků, kde zjistíte konzistenci jednoho autora,  druhého autora (tj. jak je autor ve svém stylu stabilní) a podobnost  mezi autory. Pokud je podobnost mezi autory podobná jejich konzistenci,  výsledek je shoda autorství, pokud je velmi nízká, neshoda, v opačním  případě raději vracíme nejistotu (systém vrací v 96 % správnou odpověď  za cenu asi 70% pokrytí)
   
  54731. Opět přejděte do sekce Authorship verification/Verify data sets
  55741. Zvolte sadu pdfreport
  56 1. Sjeďte do sekce !`PDF report`
   751. Sjeďte do sekce `PDF report`
  57761. Document type upravte podle typu zkoumaných dokumentů, můžete nechat knihu
  58 1. Stiskněte !`Generate PDF report` a počkejte na vygenerování odkazu s PDF souborem se zprávou
   771. Stiskněte `Generate PDF report` a počkejte na vygenerování odkazu s PDF souborem se zprávou
  5978
  6079== Profil autora ==