| 1 | = Určování autorství a stylometrie = |
| 2 | |
| 3 | == Proč chceme znát autora textu? == |
| 4 | Lidé se snaží zjistit autorství textů už od antiky. Už Aristoteles ve svém díle Poetika zkoumal, zda opravdu všechna Homérova díla byla napsána jediným člověkem – a došel k poznatku, že nikoliv. Další velký zájem o autorství byl ve středověku během řádění inkvizice. Protistátní, heretické, ale i pornografické spisy byly vydávány anonymně a to se církvi a policii nelíbilo. Až do konce 19. století se přistupovalo k zjišťování autorství intuitivně, na základě postojů autora, jeho znalostí a svědectví. Se zkoumáním Shakespearologů přichází první pokusy o algoritmizaci, v té době však nemohly být použity počítače a vše se počítalo ručně. |
| 5 | |
| 6 | V dnešní době má zjišťování autorství řadu využití. Historikové a literární vědci se zajímají o autorství známých děl. Soudy chtějí ověřit pravost posledních vůlí, svědectví a dalších úředních dokumentů. Firmy i zákazníky zajímá, zda nejsou recenze zboží psány jedním člověk, či případně zda ve fóru nediskutuje jedna osoba pod více identitami. A tajné služby by rády znaly autory ilegálních dokumentů s extremistickým a teroristickým obsahem. Právě na základě zakázky Ministerstva vnitra v rámci Bezpečnostního výzkumu ČR se začalo autorství věnovat Centrum zpracování přirozeného jazyka. |
| 7 | |
| 8 | == Jak to funguje? == |
| 9 | Nejnovější poznatky říkají, že autorství dokážeme spolehlivě určit, spojíme-li lingvistické metody a strojové učení. Z lingvistiky si půjčujeme stylometrickou analýzu – zkoumáme slovní zásobu autora, jeho znalost gramatiky, typografické prohřešky, slohovou zdatnost a další vlastnosti. Všechny tyto rysy autora lze vyčíslit. Zajímají nás především ty vlastnosti autora, které jsou pro něj typické (lze je pozorovat ve více dokumentech autora) a současně jsou unikátní (ostatní autoři se od něj odlišují) . |
| 10 | |
| 11 | Pokud jednotlivé rysy autora spojíme, získáme seznam čísel, které autora charakterizují. Tomuto seznamu se často říká otisk autora nebo stylom (inspirováno genomem). |
| 12 | |
| 13 | Se stylomem pak pracuje strojové učení. Podle typy úlohy automatické statistické metody vytvoří klasifikátor. Klasifikátor může řešit různé úlohy. Typické je srovnání, zda byl dokument napsán autorem (případ srovnání zpochybněné závěti s korespondencí zesnulého), přiřazení autorství anonymnímu dokumentu (návštěvník fóra se nepodepsal, ale ze znalostí obsažených v příspěvku plyne, že na fóru je registrovaný – chceme tedy přiřadit dokument jednomu z kandidátů) a shlukování podle autorství (spoj na diskuzi ty autory, kteří píší stejně). Klasifikátor pak vrací řešení s pravděpodobností správnosti odpovědí. |
| 14 | |
| 15 | == Co nabízíme == |
| 16 | Pokud Vás někdo na diskuzích anonymně pomlouvá, máte-li pocit, že recenze Vašich produktů píše jeden člověk, či na Internetu nalézáte plagiáty Vašich prací? |
| 17 | Námi vyvinuté nástroje na stylistickou analýzu textů Vám mohou pomoci. Nabízíme vývoj aplikací na míru Vašich potřeb, sepsání znaleckých posudků a poradenství v této oblasti. Máme zkušenost s čytřletým vývojem aplikace na rozpoznání autorství pro Ministerstvo vnitra a s poradenstvím a přípravou podkladů pro komerční firmy. Vítáme i spolupráci s průmyslovým partnerem a případně i společné podání grantu. |
| 18 | Pokud Vás tento článek zaujal či byste měli zájem o pomoc s analýzou textů, můžete se na nás obrátit. |
| 19 | |
| 20 | (Autor: RNDr. Jan Rygl) |