wiki:cs/AutorstviAStylometrie

Version 4 (modified by xkocinc, 10 years ago) (diff)

--

Určování autorství a stylometrie

Proč chceme znát autora textu?

Lidé se snaží zjistit autorství textů už od antiky. Už Aristoteles ve svém díle Poetika zkoumal, zda opravdu všechna Homérova díla byla napsána jediným člověkem – a došel k poznatku, že nikoliv. Další velký zájem o autorství byl ve středověku během řádění inkvizice. Protistátní, heretické, ale i pornografické spisy byly vydávány anonymně a to se církvi a policii nelíbilo. Až do konce 19. století se přistupovalo k zjišťování autorství intuitivně, na základě postojů autora, jeho znalostí a svědectví. Se zkoumáním Shakespearologů přichází první pokusy o algoritmizaci, v té době však nemohly být použity počítače a vše se počítalo ručně.

V dnešní době má zjišťování autorství řadu využití. Historikové a literární vědci se zajímají o autorství známých děl. Soudy chtějí ověřit pravost posledních vůlí, svědectví a dalších úředních dokumentů. Firmy i zákazníky zajímá, zda nejsou recenze zboží psány jedním člověk, či případně zda ve fóru nediskutuje jedna osoba pod více identitami. A tajné služby by rády znaly autory ilegálních dokumentů s extremistickým a teroristickým obsahem. Právě na základě zakázky Ministerstva vnitra v rámci Bezpečnostního výzkumu ČR se začalo autorství věnovat Centrum zpracování přirozeného jazyka.

Jak to funguje?

Nejnovější poznatky říkají, že autorství dokážeme spolehlivě určit, spojíme-li lingvistické metody a strojové učení. Z lingvistiky si půjčujeme stylometrickou analýzu – zkoumáme slovní zásobu autora, jeho znalost gramatiky, typografické prohřešky, slohovou zdatnost a další vlastnosti. Všechny tyto rysy autora lze vyčíslit. Zajímají nás především ty vlastnosti autora, které jsou pro něj typické (lze je pozorovat ve více dokumentech autora) a současně jsou unikátní (ostatní autoři se od něj odlišují) .

Pokud jednotlivé rysy autora spojíme, získáme seznam čísel, které autora charakterizují. Tomuto seznamu se často říká otisk autora nebo stylom (inspirováno genomem).

Se stylomem pak pracuje strojové učení. Podle typy úlohy automatické statistické metody vytvoří klasifikátor. Klasifikátor může řešit různé úlohy. Typické je srovnání, zda byl dokument napsán autorem (případ srovnání zpochybněné závěti s korespondencí zesnulého), přiřazení autorství anonymnímu dokumentu (návštěvník fóra se nepodepsal, ale ze znalostí obsažených v příspěvku plyne, že na fóru je registrovaný – chceme tedy přiřadit dokument jednomu z kandidátů) a shlukování podle autorství (spoj na diskuzi ty autory, kteří píší stejně). Klasifikátor pak vrací řešení s pravděpodobností správnosti odpovědí.

/trac/research/raw-attachment/wiki/cs/AutorstviAStylometrie/Autorstvi_ML.png (Schéma zapojení strojového učení)

Kromě samotné odpovědi dokážeme automaticky generovat podklady pro rozhodnutí, které lze použít jako znalecký posudek u soudu. Mimochodem, běžně se tyto metody používají u soudních řízeních ve Velké Británii, USA a např. v Austrálii.

/trac/research/raw-attachment/wiki/cs/AutorstviAStylometrie/Autorstvi_rysy.png (Podklady pro znalecký posudek: analýza jednotlivých rysů autora)

Co nabízíme

Pokud Vás někdo na diskuzích anonymně pomlouvá, máte-li pocit, že recenze Vašich produktů píše jeden člověk, či na Internetu nalézáte plagiáty Vašich prací? Námi vyvinuté nástroje na stylistickou analýzu textů Vám mohou pomoci. Nabízíme vývoj aplikací na míru Vašich potřeb, sepsání znaleckých posudků a poradenství v této oblasti. Máme zkušenost s čytřletým vývojem aplikace na rozpoznání autorství pro Ministerstvo vnitra a s poradenstvím a přípravou podkladů pro komerční firmy. Vítáme i spolupráci s průmyslovým partnerem a případně i společné podání grantu. Pokud Vás tento článek zaujal či byste měli zájem o pomoc s analýzou textů, můžete se na nás obrátit.

(Autor: RNDr. Jan Rygl)

Attachments (2)

Download all attachments as: .zip