Version 2 (modified by 11 years ago) (diff) | ,
---|
Den otevřených dveří
Určeno jak pro zájemce o studium, tak pro zájemce o cokoliv, pro zájemce o doktorské studium máme i pokročilejší informace.
- jeden z oborů, které je možné na FI studovat, je i Umělá inteligence a zpracování přirozeného jazyka
- přirozený jazyk = náš lidský jazyk (čeština, slovenština, angličtina)
- snažíme se o porozumění jazyku počítačem.
- kámen mudrců NLP: komunikace s počítačem v přirozeném jazyce a strojový překlad.
- s jazykem pracujeme empiricky, jako s živým systémem, nepíšeme básně ani prózu (ale můžeme je studovat), nerozebíráme literární díla
- jazyk vidíme skrze korpusy (odkaz), což jsou obrovské (miliardové) soubory slov
- pracujeme tím pádem s velkými objemy dat, máme výkonné servery a píšeme efektivní programy (v různých programovacích jazycích)
- studujeme jazyk na několika úrovních (které se vyučují už na základní škole, ale my je bereme trochu víc vážně): tvaroslovné (morfologické), syntaktické i významové (sémantické)
- jak souvisí lingvistika s informatikou? aplikace jsou: jazykové korektory, vyhledávače (proč umí Seznam najít i slova v jiném pádu?), výkladové a překladové slovníky, dotazovací systémy (UIO), překlad
- spolupracujeme s FF (obor Český jazyk se specializací počítačová lingvistika)
Slovotvorná rovina zpracování přirozeného jazyka
- slova se skládají z kmenů, předpon, přípon, koncovek
- slova jsou ohebná (pád-číslo-rod, osoba-číslo-čas) a neohebná
- máme program, který pro každé slovo dokáže určit, co je zač (wwwajka) - Seznam.cz jej používá na lemmatizaci, čili lze hledat slova zapsaná v libovolném korektním tvaru.
- máme díky tomu i oháčkovávač, který využívá také Seznam.cz - tím pádem lze hledat i slova bez diakritiky.
- může se použít taky na opravu překlepů (spell-checker)
- když nevíme, jak se něco píše, můžeme se podívat do Internetové jazykové příručky - spolupráce s ÚJČ
Syntaktická rovina zpracování přirozeného jazyka
- věty jsou tvořeny ze slov, ale ne ledajak, podle pravidel
- tato pravidla tvoří tzv. syntax určitého jazyka
- pamatujeme si ze základní školy nechvalně proslulé větné rozbory, a máme program, který je umí dělat za nás (wwwsynt)
Sémantická a lexikální rovina
- máme k dispozici překladové slovníky (LEDA)
- máme i speciální slovníky: Slovník spisovného jazyka českého, Slovník spisovné češtiny, Příruční slovník jazyka českého, Slovník cizích slov, Slovník českých synonym, Slovník české frazeologie a idiomatiky: výrazy slovesné i neslovesné. (DEB, DEBDict)
- máme taky sítě slov (hierarchický slovník, sémantická/významová databáze): WordNet (viz Visual Browser) - podobnost s biologickou taxonomií
- zjistíme, že luxovat může člověk za pomocí stroje (VerbaLex)
http://nlp.fi.muni.cz/~xpopelk/screencast.avi
http://nlp.fi.muni.cz/~xpopelk/final.avi
http://nlp.fi.muni.cz/~xpopelk/dod.avi
Schéma krátké verse výkladu:
Příklady z korpusu
- Peking, hlavní město USA, přivítalo císaře Evropské unie.
- "Pravda a láska" jsou ošklivá a falešná slovíčka.
- Petr viděl, že se Marie koupe s Pavlem, a hrozně si přál, aby se v tomto okamžiku proměnil v Pavla.
- Pane vrchní, jednou pivo s rumem, jednou bez.
- Petr na mě hodil své obrovitánské trenýrky, což byla zbraň odpovídající dvěma atomovým bombám svrženým na Hirošimu.
Attachments (6)
- dod_2012.pdf (89.9 KB) - added by 11 years ago.
- dod_jan2013.pdf (103.2 KB) - added by 11 years ago.
- recognition.png (338.4 KB) - added by 11 years ago.
- opinion.png (164.5 KB) - added by 11 years ago.
- extraction.png (143.7 KB) - added by 11 years ago.
- demagog.png (174.3 KB) - added by 11 years ago.
Download all attachments as: .zip