Čeština
English
  • Vítejte na stránkách NLP Centra!
  • Zapojte se do vývoje softwarových nástrojů!
  • Analýza přirozeného jazyka
  • Vyzkoušejte si korpusy o velikosti knihoven online!
  • Studujte jednu ze specializací!
  • Členové laboratoře

Stručný terminologický slovník

Tento slovníček obsahuje základní lingvistické termíny (určené zejména počítačovým lingvistům) a některé termíny z počítačové lingvistiky (kurzívou jsou uvedeny anglické překlady)

Adjektivum (adjective) přídavné jméno

Adverbium (adverb) příslovce

Aktivum (active voice) činný rod

Akuzativ (accusative) čtvrtý pád

Anafora (anaphora) odkazování na jednotku zmíněnou v textu dříve (antecedent)

Anotace (annotation) značkování

Antecedent (antecedent) sémantická jednotka v textu, která je později odkazována (anafora)

Antonymie (antonymy) vztah významové opozitnosti vyjadřující protiklad (např. rychlý-pomalý)

Dativ (dative) třetí pád

Desambiguací (disambiguation) se rozumí proces, v němž je zjednoznačněn výstup analyzátoru podle kontextu, v němž se slovo v textu nalézá.

Duál (dual) dvojné číslo (např. oba)

Femininum (feminine) ženský rod

Genitiv (genitive) druhý pád

Holonymie (holonymy) významový vztah mezi celkem (holonymum) a částí (meronymum)

Homografie (homography) - z jednoho slovního tvaru lze bez ohledu na kontext vytvořit dva tvary základní. Například tvaru ' ubrus' lze jako základní tvar přiřadit nominativ substantiva 'ubrus' nebo infinitiv slovesa 'ubrousit'.

Homonymie (homonymy) označuje slova, která mají stejný tvar, avšak různý význam (tj. víceznačnost). Různé významy nevznikají přenesením významu jako u polysémie, ale náhodou (např. kolej, význam kovová dráha je slovanského původu, ubytovna je z francouzštiny a dále latiny).

Hyperonymie (hypernymy) významový vztah nadřazenosti, mimo počítačovou lingvistiku se uvádí také termín nadtřída, nebo relace ISA (is-a)

Hyponymie (hyponymy) významový vztah podřazenosti

Imperativ (imperative) rozkazovací způsob

Imperfektum (imperfective) nedokonavý vid

Infinitiv (infinitive) neurčitek

Instrumentál (instrumental) sedmý pád

Interjekce (interjection) citoslovce

Jazyk je systém znaků sloužící k výměně a vyrovnávání obsahů lidského vědomí.

Jazykový styl je způsob cílevědomého výběru a uspořádání jazykových prostředků, který se uplatňuje při genezi textu; v hotovém komunikátu se pak projevuje jako princip organizace jazykových jednotek, který z částí a jednotlivostí tvoří jednotu vyhovující komunikačnímu záměru autora.

Katafora (cataphora) odkazování na jednotku v textu, která je zmíněna později

Kmen (stem) je ta část slovního tvaru, která zbývá po odtržení koncovky.

Komparativ druhý stupeň stupňování adjektiv nebo adverbií (např. krásnější, hůře), první stupeň je pozitiv, třetí je superlativ

Komplementárnost vztah významové opozitnosti vyjadřující doplněk (např. muž-žena)

Koncovka (ending) je tvarotvorná přípona stojící v absolutním konci slova (pádová, osobní, infinitivní).

Kondicionál (conditional) podmiňovací způsob u sloves

Konsonant (consonant) souhláska

Konverznost vztah významové opozitnosti vyjadřující opozitnost rolí (např. otec-syn)

Koreference (coreference) jazykový jev, kdy více různých výrazů odkazuje na tutéž sémantickou jednotku

Korpusem (corpus, pl. corpora) se rozumí rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný. Texty jsou v korpusu strukturovány a organizovány se zřetelem k využití pro určitý cíl, vůči němuž pak je korpus považován za reprezentativní. Podle uložených dat mohou korpusy obsahovat pouze holé texty nebo texty různě označkované (anotované).

Lemma (lemma, pl. lemmas i lemmata) základní tvar slova, v každém jazyce stanoven konvencí. V češtině je to např. nominativ singuláru (pokud existuje) u jmen, infinitiv u sloves.

Lokativ (locative) šestý pád

Maskulinum (masculine) mužský rod

Matice záměn (confusion matrix) způsob vyhodnocení klasifikační úlohy. Matice dává do souvislosti výsledky klasifikace nějakých dat s informací o „správném“ zařazení těchto příkladů do tříd (true positives, true negatives, false negatives, false positives). Pomocí matice záměn lze spočítat přesnost, pokrytí, celkovou správnost a F-míry.

Meronymie (meronymy) významový vztah mezi částí (meronymum) a celkem (holonymum)

Metafora (metaphor) jazyková konstrukce přenášející význam na základě vnější podobnosti (např. softwarový klient, tj. ten, kdo je obsloužen)

Metonymie (metonymy) přenos označení na základě vnitřní souvislosti, např. významové podobnosti (metafora) nebo vztahu část-celek (synekdocha)

Morfémy (morpheme) jsou elementární znaky jazyka. V praxi rozlišujeme různé typy morfémů: kořeny - nesamostatné morfémy nesoucí elementární lexikální významy; afixy, které se dále dělí podle funkce na gramatické a lexikální, podle postavení vzhledem ke kořeni na prefixy - morfémy stojící před kořenovým morfémem, sufixy - morfémy připojované za kořenové morfémy, postfixy - slovotvorné morfémy připojované až za gramatický sufix

Morfologický analyzátor (morphological analyser) - automat, který ke každému slovnímu tvaru poskytuje množinu základních tvarů - lemmat a gramatických značek.

Morfologický desambiguátor (tagger) - program, který na základě pravidel, statistiky nebo pomocí hybridního přístupu vybere ze značek a lemmat poskytnutých morfologickým analyzátorem jednu dvojici (lemma, značky).

Neutrum (neuter) střední rod

Nominativ (nominative) první pád, nominativ jmenovací (citativ) je nominativ používaný u vlastních jmen, které buď potřebují vysvětlení (např. bydlím v hotelu Praha), nebo je jejich skloňování problematické (např. pracuji s operačním systémem Windows)

Numerale (numeral) číslovka

Opozitnost významový vztah popisující významovou blízkost v určitém ohledu, avšak ne shodu ve významu

Participium (participle) - příčestí, tj. neurčitý tvar slovesa. Spolu s dalšími částmi sloves tvoří např. pasivní konstrukce, minulý čas nebo kondicionál.

Partikule (particle) - částice

Pasivum (passive voice) trpný rod (např. být viděn)

Perfektum (perfective) dokonavý vid

Plurál (plural, plural form) množné číslo

Pojmenovaná entita (named entity) slovo nebo slovní spojení označující určitou instanci, typicky jména osob, institucí, míst, zboží, uměleckých děl, telefonní čísla, e-mailové adresy, zkratky, jednotky apod.

Polysémie (polysemy) víceznačnost, kde je mezi jednotlivými významy určitý vztah. Typicky vzniká přenesením významu (např. kohout). Lingvisté odlišují homonymii a polysémii (typicky na základě historického srovnání).

Počítačová lingvistika (computational linguistics, CL) je oborem jazykovědy, který se zabývá strojovým zpracováním přirozeného jazyka. Primárním cílem počítačové lingvistiky je automatizace procesu porozumění přirozenému jazyku, a to jak v mluvené, tak i v psané formě.

Podmět (subject) je větný člen, jemuž se přísudkem přisuzuje nějaký příznak (děj, stav a jejich změny)

Pokrytí (recall) poměr true positives k součtu true positives a false positives

Pozitiv (positive) první stupeň u adjektiv a adverbií (druhý je komparativ, třetí je superlativ)

Pronomen (pronoun) zájmeno

Přesnost (precision) poměr true negatives k součtu true negatives a false positives

Přísudek (predicate) vedle podmětu jde o druhý člen predikační dvojice, typicky vyjádřený slovesnou frází v určitém tvaru

Reflexivní (reflexive) zvratný

Réma (focus) základní jednotka aktuálního členění větného, jádro věty, skutečnosti, které jsou nové (v českém slovosledu typicky na konci věty)

Sémantická role (semantic role), někdy totožná z tematickou rolí či theta rolí označuje kategorii určité větné fráze z pohledu sémantiky, např. vykonavatel děje je AGENS, ten, kdo je dějem postižen, je PATIENS, prostředek, kterým je děj vykonáván, je INSTRUMENT. Terminologie ani typologie sémantických rolí není jednotná.

Sémantika (semantics) studium významu (morfémů, slov, vět...)

Singulár (singular, singular form) jednotné číslo

Slovní druh (part of speech, POS) kategorizace slov z hlediska ohebnosti a gramatické funkce (v češtině tradičně rozlišujeme deset slovních druhů)

Slovní tvar (word form) je lineární segment promluvy, charakterizovaný celistvostí jak významově funkční, tak i zvukovou a grafickou, se zásadní samostatností, projevující se v jeho přemístitelnosti (omezené ovšem zákonitostmi pořádku slov ve větě).

Slovo (word) jako potenciální jednotka jazyka (jazykového systému), která je slovem v předchozím smyslu reprezentována. Z této definice vyplývá též rozlišování slova textového a slova systémového, nebo také slovoformy a lexému. Textové slovo je realizací systémového slova.

Slovo jako reálně vyčlenitelná jednotka jazykového projevu (textu), jako sled, řetězec morfů.

Sponové sloveso (copula verb, verbonominal predicate) sloveso, jehož význam je oslaben, typicky vyjadřuje význam pouze dohromady se jménem (podstatným, přídavným) nebo příslovcem (např. být opilý)

Stylistický korektor definujeme jako prostředek pro automatickou detekci stylistických a stylových prohřešků, který pracuje nad elektronicky uchovaným textem přirozeného jazyka.

Stylistika je jazykovědná disciplína, která styl studuje a na základě jednotlivých textů dochází ke zobecnění zákonitostí stylizace jazykových projevů.

Substantivum (noun) podstatné jméno

Superlativ třetí stupeň (např. nejchytřejší), první je pozitiv, druhý je komparativ

Synekdocha (synecdoche) významový posun na základě vztahu část-celek. Synekdoch existuje několik druhů, nejčastějsí jsou: pars pro toto (část za celek), např. občan ve významu všichni občané; totum pro parte (celek za část), např. vláda ve významu členové vlády.

Synonymie (synonymy) vztah významové blízkosti v určitém kontextu. Úplná synonymie (synonymie ve všech kontextech) je vzácná (např. šeřík-bez).

Syntaktický analyzátor (syntactic parser) - program, jehož vstupem je věta a výstupem je syntaktický strom

Syntax (syntax) studium větné struktury v textu

Téma (topic) základní jednotka aktuálního členění větného, východisko věty, skutečnosti, které jsou známé (v českém slovosledu typicky na začátku věty)

Textové slovo je vzhledem k zaměření morfologické analýzy na psaný text definováno jako posloupnost znaků (písmen) ohraničená po obou stranách mezerou. Textová slova jsou realizacemi systémových slov, která jsou definována ve slovníku kmenových základů.

Tvarotvorný základ je lexikální složka slovního tvaru, která je všem tvarům ohebného slova společná.

Verbum (verb) sloveso

Víceznačnost (ambiguity) typická vlastnost jazyka, kdy jeden znak (morfém, slovo, věta) má více významů. U slov lingvisté rozlišují polysémii a homonymii.

Vokál (vowel) samohláska

Vokativ (vocative) pátý pád

Prameny

Čechová M., Chloupek J., Krčmová M., Minářová E.: Stylistika současné češtiny, Praha, ISV, 1997.

https://en.wikipedia.org/wiki/Precision_and_recall

Karlík P., Nekula M., Pleskalová J.: Encyklopedický slovník češtiny, Nakladatelství LN, 2002.