Changes between Version 50 and Version 51 of cs/MainTopics
- Timestamp:
- Apr 28, 2014, 11:49:06 AM (10 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
cs/MainTopics
v50 v51 26 26 27 27 28 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png , align=right)]]28 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/corpora.png)]] 29 29 30 30 Korpus je kolekce textových dat v elektronické podobě. Jako významný zdroj lingvistických dat slouží korpusy ke zkoumání mnoha frekvenčních jevů jazyka a v současnosti jsou již neodmyslitelným nástrojem v oblasti NLP. Kromě korpusů obsahujících libovolné texty, se vytvářejí i jiné pro zvláštní účely, např. značkované, doménové, mluvené nebo chybové. … … 36 36 V NLP Centru byla vytvořena kompletní sada nástrojů pro tvorbu a správu korpusů '''Corpus Architect'''. Tyto korpusy mohou obsahovat i více než 100 miliard slovních pozic. 37 37 38 {{{39 #!html40 <!-- <img src="/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png" />-->41 }}}42 38 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/metatrans.png, align=left)]] 43 39 … … 71 67 <img src="https://nlp.fi.muni.cz/trac/research/raw-attachment/wiki/cs/MainTopics/debII_slovniky.png?format=raw" /> 72 68 }}} 69 70 [[Image(/trac/research/raw-attachment/wiki/cs/MainTopics/debII_slovniky.png, align=right)]] 71 72 73 73 Slovníky jsou odjakživa základní pomůckou jazykovědců. Ovšem práce s nimi v papírové podobě je zdlouhavá a nepraktická. Proto jedním z prvních projektů CZPJ byla digitalizace klasických slovníků spisovného jazyka a vývoj souboru pokročilých nástrojů pro zpracování slovníkových dat označovaných souhrnně jako lexikografická stanice. Jedná se o systém, který umožní odbornému uživateli pohodlný přístup k mnoha různým lingvistickým zdrojům a poskytne mu aplikační prostředí pro vyhledávání a editaci dat. 74 74