Čeština
English
 • Vítejte na stránkách NLP Centra!
 • Zapojte se do vývoje softwarových nástrojů!
 • Analýza přirozeného jazyka
 • Vyzkoušejte si korpusy o velikosti knihoven online!
 • Studujte jednu ze specializací!
 • Členové laboratoře

Den otevřených dveří

/trac/research/raw-attachment/wiki/cs/DenOtevrenychDveri/demagog.png

Den otevřených dveří FI MU pořádá každoročně v lednu a únoru. My chápeme Den otevřených dveří jako příležitost pro zájemce o studium i pro zájemce o cokoliv.

Pro zájemce o doktorské studium máme i pokročilejší informace.

Při Dni otevřených dveří probíhá společná přednáška o FI MU a dále si zájemci mohou prohlédnout jednotlivá pracoviště na FI. Protože je celý program poněkud hektický, níže v bodech shrnujeme, co se mohou návštěvníci dozvědět v CZPJ.

 • přirozený jazyk = náš lidský jazyk (čeština, slovenština, angličtina)
 • snažíme se o porozumění jazyku počítačem.
 • cíl oboru: komunikace s počítačem v přirozeném jazyce, počítačové porozumění.
 • s jazykem pracujeme empiricky, jako s živým systémem, nepíšeme básně ani prózu (ale můžeme je studovat), nerozebíráme literární díla
 • jazyk vidíme skrze korpusy, což jsou obrovské (miliardové) soubory slov
 • pracujeme tím pádem s velkými objemy dat, máme výkonné servery a píšeme efektivní programy (v různých programovacích jazycích)
 • studujeme jazyk na několika úrovních (které se vyučují už na základní škole, ale my je bereme trochu víc vážně): tvaroslovné (morfologické), syntaktické i významové (sémantické)
 • jak souvisí lingvistika s informatikou? aplikace jsou: jazykové korektory, vyhledávače (proč umí Seznam najít i slova v jiném pádu?), výkladové a překladové slovníky, dotazovací systémy, strojový překlad
 • spolupracujeme s FF (obor Český jazyk se specializací počítačová lingvistika)

Letem světem počítačovou lingvistikou

Slovotvorná rovina zpracování přirozeného jazyka

 • slova se skládají z kmenů, předpon, přípon, koncovek
 • slova jsou ohebná (pád-číslo-rod, osoba-číslo-čas) a neohebná
 • máme program, který pro každé slovo dokáže určit, co je zač (wwwajka) - Seznam.cz jej používá na lematizaci, čili lze hledat slova zapsaná v libovolném korektním tvaru.
 • máme i oháčkovávač - tím pádem lze hledat i slova bez diakritiky.
 • slovník slovních tvarů se může použít taky na opravu překlepů (spell-checker)
 • když nevíme, jak se něco píše, můžeme se podívat do Internetové jazykové příručky - výsledek naší spolupráce s ÚJČ

Syntaktická rovina zpracování přirozeného jazyka

/trac/research/raw-attachment/wiki/cs/DenOtevrenychDveri/opinion.png

 • věty jsou tvořeny ze slov, ale ne ledajak, podle pravidel
 • tato pravidla tvoří tzv. syntax určitého jazyka
 • pamatujeme si ze základní školy nechvalně proslulé větné rozbory, a máme program, který je umí dělat za nás (wwwsynt)

Sémantická a lexikální rovina

 • máme k dispozici překladové slovníky (LEDA)
 • máme i speciální slovníky: Slovník spisovného jazyka českého, Slovník spisovné češtiny, Příruční slovník jazyka českého, Slovník cizích slov, Slovník českých synonym, Slovník české frazeologie a idiomatiky: výrazy slovesné i neslovesné. (DEB, DEBDict)
 • máme taky sítě slov (hierarchický slovník, sémantická/významová databáze): WordNet (viz Visual Browser) - podobnost s biologickou taxonomií
 • zjistíme, že luxovat může člověk za pomocí stroje (VerbaLex)

Příklady z korpusu

/trac/research/raw-attachment/wiki/cs/DenOtevrenychDveri/recognition.png

 • Peking, hlavní město USA, přivítalo císaře Evropské unie.
 • "Pravda a láska" jsou ošklivá a falešná slovíčka.
 • Petr viděl, že se Marie koupe s Pavlem, a hrozně si přál, aby se v tomto okamžiku proměnil v Pavla.
 • Pane vrchní, jednou pivo s rumem, jednou bez.
 • Petr na mě hodil své obrovitánské trenýrky, což byla zbraň odpovídající dvěma atomovým bombám svrženým na Hirošimu.