= Den otevřených dveří = #top [[Image(demagog.png, 450px, align=right)]] Určeno jak pro zájemce o studium, tak pro zájemce o cokoliv, pro zájemce o doktorské studium máme i [[DODPhD|pokročilejší informace]]. * jeden z oborů, které je možné na FI studovat, je i [[Specializace|Umělá inteligence a zpracování přirozeného jazyka]] * přirozený jazyk = náš lidský jazyk (čeština, slovenština, angličtina) * snažíme se o porozumění jazyku počítačem. * kámen mudrců NLP: komunikace s počítačem v přirozeném jazyce a strojový překlad. * s jazykem pracujeme empiricky, jako s živým systémem, nepíšeme básně ani prózu (ale můžeme je studovat), nerozebíráme literární díla * jazyk vidíme skrze korpusy (odkaz), což jsou obrovské (miliardové) soubory slov * pracujeme tím pádem s velkými objemy dat, máme výkonné servery a píšeme efektivní programy (v různých programovacích jazycích) * studujeme jazyk na několika úrovních (které se vyučují už na základní škole, ale my je bereme trochu víc vážně): tvaroslovné (morfologické), syntaktické i významové (sémantické) * jak souvisí lingvistika s informatikou? aplikace jsou: jazykové korektory, vyhledávače (proč umí Seznam najít i slova v jiném pádu?), výkladové a překladové slovníky, dotazovací systémy (UIO), překlad * spolupracujeme s FF (obor Český jazyk se specializací počítačová lingvistika) == Slovotvorná rovina zpracování přirozeného jazyka == #words * slova se skládají z kmenů, předpon, přípon, koncovek * slova jsou ohebná (pád-číslo-rod, osoba-číslo-čas) a neohebná * máme program, který pro každé slovo dokáže určit, co je zač ([http://nlp.fi.muni.cz/projekty/wwwajka/ wwwajka]) - Seznam.cz jej používá na lemmatizaci, čili lze hledat slova zapsaná v libovolném korektním tvaru. * máme díky tomu i [http://nlp.fi.muni.cz/cz_accent/index.php oháčkovávač], který využívá také Seznam.cz - tím pádem lze hledat i slova bez diakritiky. * může se použít taky na opravu překlepů (spell-checker) * když nevíme, jak se něco píše, můžeme se podívat do [http://prirucka.ujc.cas.cz/ Internetové jazykové příručky] - spolupráce s ÚJČ == Syntaktická rovina zpracování přirozeného jazyka == #syntan [[Image(opinion.png, 450px, align=right)]] * věty jsou tvořeny ze slov, ale ne ledajak, podle pravidel * tato pravidla tvoří tzv. syntax určitého jazyka * pamatujeme si ze základní školy nechvalně proslulé větné rozbory, a máme program, který je umí dělat za nás ([http://nlp.fi.muni.cz/projekty/wwwsynt/ wwwsynt]) == Sémantická a lexikální rovina == #seman * máme k dispozici překladové slovníky (LEDA) * máme i speciální slovníky: Slovník spisovného jazyka českého, Slovník spisovné češtiny, Příruční slovník jazyka českého, Slovník cizích slov, Slovník českých synonym, Slovník české frazeologie a idiomatiky: výrazy slovesné i neslovesné. (DEB, DEBDict) * máme taky sítě slov (hierarchický slovník, sémantická/významová databáze): [https://nlp.fi.muni.cz/cs/WordNet WordNet] (viz Visual Browser) - podobnost s biologickou taxonomií * zjistíme, že luxovat může člověk za pomocí stroje ([http://nlp.fi.muni.cz/verbalex/html2/generated/alphabet/ VerbaLex]) [http://nlp.fi.muni.cz/%7Expopelk/screencast.avi http://nlp.fi.muni.cz/~xpopelk/screencast.avi] [http://nlp.fi.muni.cz/%7Expopelk/final.avi http://nlp.fi.muni.cz/~xpopelk/final.avi] [http://nlp.fi.muni.cz/%7Expopelk/dod.avi http://nlp.fi.muni.cz/~xpopelk/dod.avi] Schéma krátké verse výkladu: * [https://nlp.fi.muni.cz/trac/research/attachment/wiki/cs/DenOtevrenychDveri/dod_2012.pdf verse 2012] * [https://nlp.fi.muni.cz/trac/research/attachment/wiki/cs/DenOtevrenychDveri/dod_jan2013.pdf verse 2013] == Příklady z korpusu == #examples [[Image(recognition.png, 450px, align=right)]] * Peking, hlavní město USA, přivítalo císaře Evropské unie. * "Pravda a láska" jsou ošklivá a falešná slovíčka. * Petr viděl, že se Marie koupe s Pavlem, a hrozně si přál, aby se v tomto okamžiku proměnil v Pavla. * Pane vrchní, jednou pivo s rumem, jednou bez. * Petr na mě hodil své obrovitánské trenýrky, což byla zbraň odpovídající dvěma atomovým bombám svrženým na Hirošimu.