Changes between Version 1 and Version 2 of cs/JakVytvoritKorpus1
- Timestamp:
- Feb 27, 2014, 3:37:22 PM (9 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/JakVytvoritKorpus1
v1 v2 81 81 K dispozici jsou tyto programy: 82 82 83 1. `il2_check` [[BR]] Určeno pro: *.vert, *.meta. Kontroluje kódování češtiny. Ohlásí podezřelé znaky. Je nutno zvážit, zda se jedná o skutečnou chybu nebo ne. 84 85 1. `tags_check` [[BR]] Určeno pro: *.vert. Kontroluje, zda řádky, které vypadají jako značky, jsou ze seznamu povolených značek. 86 87 1. `pozice_check` [[BR]] Určeno pro: *.vert. Kontroluje, zda řádky, které nejsou značkami, jsou dále nedělitelné pomocí funkce Corpus::split(). 88 89 1. `heuristic_check` [[BR]] Určeno pro: *.vert. Kontrola pozic, zda neobsahují řídící a značkovací řetězce originálního textu. Hledá HTML značky a příkazy LATEXu. 90 91 1. `xml_check` [[BR]] Určeno pro: *.vert. Kontrola struktury vertikálů. 92 93 1. `meta_check` [[BR]] Určeno pro: *.meta. Kontrola struktury metainformací. 83 1. `il2_check`[[BR]]Určeno pro: *.vert, *.meta. Kontroluje kódování češtiny. Ohlásí podezřelé znaky. Je nutno zvážit, zda se jedná o skutečnou chybu nebo ne. 84 1. `tags_check`[[BR]]Určeno pro: *.vert. Kontroluje, zda řádky, které vypadají jako značky, jsou ze seznamu povolených značek. 85 1. `pozice_check`[[BR]]Určeno pro: *.vert. Kontroluje, zda řádky, které nejsou značkami, jsou dále nedělitelné pomocí funkce Corpus::split(). 86 1. `heuristic_check`[[BR]]Určeno pro: *.vert. Kontrola pozic, zda neobsahují řídící a značkovací řetězce originálního textu. Hledá HTML značky a příkazy LATEXu. 87 1. `xml_check`[[BR]]Určeno pro: *.vert. Kontrola struktury vertikálů. 88 1. `meta_check`[[BR]]Určeno pro: *.meta. Kontrola struktury metainformací. 94 89 95 90 Všechny tyto programy jsou filtry. Proto je používáme jedním z těchto tří způsobů: … … 371 366 372 367 1. tags_pair_doc [[BR]] Páruje značku <doc>. 373 374 368 1. tags_rm_bad_glue [[BR]] Maže značku <g/>, pokud není "obalena" pozicemi. 375 376 369 1. tags_rm_multi [[BR]] Maže opakující se značky (nechá jen první výskyt z posloupnosti). 377 378 370 1. tags_pair_item [[BR]] Páruje značku <item>. 379 380 371 1. tags_rm_empty [[BR]] Maže počáteční a koncovou značku, pokud jsou bezprostředně za sebou. 381 382 372 1. tags_insert_p [[BR]] Vkládá značku <p> před pozici tam, kde by tato pozice byla zahnízděná přímo v kontejneru značky <doc>. 383 384 373 1. tags_pair_p [[BR]] Páruje značku <p>. 385 386 374 1. tags_all [[BR]] Dávka, která kombinuje některé výše uvedené programy. 387 375 … … 415 403 Vložení dalších atributů zajišťují programy: 416 404 417 1. atrib_insert_offset [[BR]] 418 419 1. atrib_insert_size [[BR]] 420 421 1. atrib_insert_lemmat [[BR]] 422 405 1. atrib_insert_offset 406 1. atrib_insert_size 407 1. atrib_insert_lemmat 423 408 1. atrib_insert_signat (běží zatím je na auroře) 424 409 … … 438 423 == Doplňkové programy == #Dopl.2BAUg-kov.2BAOk_programy 439 424 1. vert2xml [[BR]] Program vhodný pro transformaci starého formátu vertikálů na nový. Filtr, který vkládá tyto 3 řádky před svůj vstup: 440 441 425 {{{ 442 426 <?xml version="1.0"?> … … 444 428 <vertical> 445 429 }}} 446 430 a tento za svůj vstup: 447 431 448 432 {{{ 449 433 </vertical> 450 434 }}} 451 a provádí změnu u značek <doc> , <pre> a <g>. 435 a provádí změnu u značek <doc> , <pre> a <g>. 436 452 437 453 438 1. cisti_corpus [[BR]] Najde soubory, které nekončí .vert nebo .meta (lze je potom smazat). Použití: 454 455 439 {{{ 456 440 $ cd korpus … … 459 443 }}} 460 444 1. docs2meta[[BR]] Přejmenuje .docs soubory na .meta (docs - starší, již nepoužívaná koncovka pro metainformace). Použití: 461 445 462 446 {{{ 463 447 $ cd korpus