Changes between Initial Version and Version 1 of cs/AutorstviAStylometrie


Ignore:
Timestamp:
Aug 26, 2014, 1:02:14 PM (10 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/AutorstviAStylometrie

    v1 v1  
     1= Určování autorství a stylometrie =
     2
     3== Proč chceme znát autora textu? ==
     4Lidé se snaží zjistit autorství textů už od antiky. Už Aristoteles ve svém díle Poetika zkoumal, zda opravdu všechna Homérova díla byla napsána jediným člověkem – a došel k poznatku, že nikoliv. Další velký zájem o autorství byl ve středověku během řádění inkvizice. Protistátní, heretické, ale i pornografické spisy byly vydávány anonymně a to se církvi a policii nelíbilo. Až do konce 19. století se přistupovalo k zjišťování autorství intuitivně, na základě postojů autora, jeho znalostí a svědectví. Se zkoumáním Shakespearologů přichází první pokusy o algoritmizaci, v té době však nemohly být použity počítače a vše se počítalo ručně.
     5
     6V dnešní době má zjišťování autorství řadu využití. Historikové a literární vědci se zajímají o autorství známých děl. Soudy chtějí ověřit pravost posledních vůlí, svědectví a dalších úředních dokumentů. Firmy i zákazníky zajímá, zda nejsou recenze zboží psány jedním člověk, či případně zda ve fóru nediskutuje jedna osoba pod více identitami. A tajné služby by rády znaly autory ilegálních dokumentů s extremistickým a teroristickým obsahem. Právě na základě zakázky Ministerstva vnitra v rámci Bezpečnostního výzkumu ČR se začalo autorství věnovat Centrum zpracování přirozeného jazyka.
     7
     8== Jak to funguje? ==
     9Nejnovější poznatky říkají, že autorství dokážeme spolehlivě určit, spojíme-li lingvistické metody a strojové učení. Z lingvistiky si půjčujeme stylometrickou analýzu – zkoumáme slovní zásobu autora, jeho znalost gramatiky, typografické prohřešky, slohovou zdatnost a další vlastnosti. Všechny tyto rysy autora lze vyčíslit. Zajímají nás především ty vlastnosti autora, které jsou pro něj typické (lze je pozorovat ve více dokumentech autora) a současně jsou unikátní (ostatní autoři se od něj odlišují) .
     10
     11Pokud jednotlivé rysy autora spojíme, získáme seznam čísel, které autora charakterizují. Tomuto seznamu se často říká otisk autora nebo stylom (inspirováno genomem).
     12
     13Se stylomem pak pracuje strojové učení. Podle typy úlohy automatické statistické metody vytvoří klasifikátor. Klasifikátor může řešit různé úlohy. Typické je srovnání, zda byl dokument napsán autorem (případ srovnání zpochybněné závěti s korespondencí zesnulého), přiřazení autorství anonymnímu dokumentu (návštěvník fóra se nepodepsal, ale ze znalostí obsažených v příspěvku plyne, že na fóru je registrovaný – chceme tedy přiřadit dokument jednomu z kandidátů) a shlukování podle autorství (spoj na diskuzi ty autory, kteří píší stejně). Klasifikátor pak vrací řešení s pravděpodobností správnosti odpovědí.
     14
     15== Co nabízíme ==
     16Pokud Vás někdo na diskuzích anonymně pomlouvá, máte-li pocit, že recenze Vašich produktů píše jeden člověk, či na Internetu nalézáte plagiáty Vašich prací?
     17Námi vyvinuté nástroje na stylistickou analýzu textů Vám mohou pomoci. Nabízíme vývoj aplikací na míru Vašich potřeb, sepsání znaleckých posudků a poradenství v této oblasti. Máme zkušenost s čytřletým vývojem aplikace na rozpoznání autorství pro Ministerstvo vnitra a s poradenstvím a přípravou podkladů pro komerční firmy. Vítáme i spolupráci s průmyslovým partnerem a případně i společné podání grantu.
     18Pokud Vás tento článek zaujal či byste měli zájem o pomoc s analýzou textů, můžete se na nás obrátit.
     19
     20(Autor: RNDr. Jan Rygl)