ROZDĚLOVAČ

Vítejte na stránkách automatického rozdělovače českého textu na věty. Rozdělovač vznikl jako součást mnohem většího projektu – sumatizátoru textu vyvinutého v Centru zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity. Autorem je Bc. teď už Mgr. Petr Machovec.

Rozdělit český text na samostatné věty... Může se to zdát snadné, jenže není. Čeština je pro tuto úlohu velmi zákeřná, protože často používá tečky i jinde než na koncích vět, konkrétně za zkratkami a v řadových číslovkách. Rozdělovač čte zadaný text znak po znaku a pokud narazí na podezřelý znak (tečku, otazník, vykřičník), podívá se, co je v okolí tohoto znaku. A pokud okolí vypadá jako oblast mezi dvěma větami, text je v daném místě skutečně rozdělen. Pokud vás zajímají detaily, jsou popsány v jedné sekci diplomové práce, v rámci které vznikl již zmíněný sumarizátor a potažmo i rozdělovač.

Rozdělovač je napsán v jazyce Python a je ovladatelný pomocí unixového terminálu nebo příkazové řádky systému Windows, podrobnosti jsou uvedeny v sekci OVLÁDÁNÍ. Je založen pouze na obecných znalostech a neobsahuje žádná obrovská referenční data. Můžete si jej proto stáhnout a zahrnout do svého projektu. V příslušném modulu separator.py je funkce separate, které jako argument zadáte řetězec s českým textem a ona vám vrátí seznam textů – samostatných vět.

Pokud si chcete rozdělovač jen vyzkoušet na interntetu, přejděte do sekce DEMO.