| 1 | = Den otevřených dveří = #Den_otev.2BAVk-en.2BAP0-ch_dve.2BAVkA7Q- |
| 2 | Určeno jak pro zájemce o studium, tak pro zájemce o cokoliv, pro zájemce o doktorské studium máme i [[DODPhD|pokročilejší informace]]. |
| 3 | |
| 4 | * jeden z oborů, které je možné na FI studovat, je i ''Umělá inteligence a zpracování přirozeného jazyka'' |
| 5 | |
| 6 | |
| 7 | * přirozený jazyk = náš lidský jazyk (čeština, slovenština, angličtina) |
| 8 | * snažíme se o porozumění jazyku počítačem. |
| 9 | * kámen mudrců NLP: komunikace s počítačem v přirozeném jazyce a strojový překlad. |
| 10 | * s jazykem pracujeme empiricky, jako s živým systémem, nepíšeme básně ani prózu (ale můžeme je studovat), nerozebíráme literární díla |
| 11 | * jazyk vidíme skrze korpusy (odkaz), což jsou obrovské (miliardové) soubory slov |
| 12 | * pracujeme tím pádem s velkými objemy dat, máme výkonné servery a píšeme efektivní programy (v různých programovacích jazycích) |
| 13 | * studujeme jazyk na několika úrovních (které se vyučují už na základní škole, ale my je bereme trochu víc vážně): tvaroslovné (morfologické), syntaktické i významové (sémantické) |
| 14 | * jak souvisí lingvistika s informatikou? aplikace jsou: jazykové korektory, vyhledávače (proč umí Seznam najít i slova v jiném pádu?), výkladové a překladové slovníky, dotazovací systémy (UIO), překlad |
| 15 | * spolupracujeme s FF (obor Český jazyk se specializací počítačová lingvistika) |
| 16 | |
| 17 | == Slovotvorná rovina zpracování přirozeného jazyka == #Slovotvorn.2BAOE_rovina_zpracov.2BAOE-n.2BAO0_p.2BAVk-irozen.2BAOk-ho_jazyka |
| 18 | |
| 19 | * slova se skládají z kmenů, předpon, přípon, koncovek |
| 20 | * slova jsou ohebná (pád-číslo-rod, osoba-číslo-čas) a neohebná |
| 21 | * máme program, který pro každé slovo dokáže určit, co je zač ([http://nlp.fi.muni.cz/projekty/wwwajka/ wwwajka]) - Seznam.cz jej používá na lemmatizaci, čili lze hledat slova zapsaná v libovolném korektním tvaru. |
| 22 | |
| 23 | |
| 24 | * máme díky tomu i [http://nlp.fi.muni.cz/cz_accent/index.php oháčkovávač], který využívá také Seznam.cz - tím pádem lze hledat i slova bez diakritiky. |
| 25 | |
| 26 | |
| 27 | * může se použít taky na opravu překlepů (spell-checker) |
| 28 | * když nevíme, jak se něco píše, můžeme se podívat do [http://prirucka.ujc.cas.cz/ Internetové jazykové příručky] - spolupráce s ÚJČ |
| 29 | |
| 30 | |
| 31 | |
| 32 | == Syntaktická rovina zpracování přirozeného jazyka == #Syntaktick.2BAOE_rovina_zpracov.2BAOE-n.2BAO0_p.2BAVk-irozen.2BAOk-ho_jazyka |
| 33 | |
| 34 | * věty jsou tvořeny ze slov, ale ne ledajak, podle pravidel |
| 35 | * tato pravidla tvoří tzv. syntax určitého jazyka |
| 36 | * pamatujeme si ze základní školy nechvalně proslulé větné rozbory, a máme program, který je umí dělat za nás ([http://nlp.fi.muni.cz/projekty/wwwsynt/ wwwsynt]) |
| 37 | |
| 38 | |
| 39 | |
| 40 | == Sémantická a lexikální rovina == #S.2BAOk-mantick.2BAOE_a_lexik.2BAOE-ln.2BAO0_rovina |
| 41 | |
| 42 | * máme k dispozici překladové slovníky (LEDA) |
| 43 | * máme i speciální slovníky: Slovník spisovného jazyka českého, Slovník spisovné češtiny, Příruční slovník jazyka českého, Slovník cizích slov, Slovník českých synonym, Slovník české frazeologie a idiomatiky: výrazy slovesné i neslovesné. (DEB, DEBDict) |
| 44 | * máme taky sítě slov (hierarchický slovník, sémantická/významová databáze): [https://nlp.fi.muni.cz/cs/WordNet WordNet] (viz Visual Browser) - podobnost s biologickou taxonomií |
| 45 | |
| 46 | |
| 47 | * zjistíme, že luxovat může člověk za pomocí stroje ([http://nlp.fi.muni.cz/verbalex/html2/generated/alphabet/ VerbaLex]) |
| 48 | |
| 49 | |
| 50 | |
| 51 | [http://nlp.fi.muni.cz/%7Expopelk/screencast.avi http://nlp.fi.muni.cz/~xpopelk/screencast.avi] |
| 52 | |
| 53 | [http://nlp.fi.muni.cz/%7Expopelk/final.avi http://nlp.fi.muni.cz/~xpopelk/final.avi] |
| 54 | |
| 55 | [http://nlp.fi.muni.cz/%7Expopelk/dod.avi http://nlp.fi.muni.cz/~xpopelk/dod.avi] |
| 56 | |
| 57 | Schéma krátké verse výkladu: |
| 58 | |
| 59 | * verse 2012 |
| 60 | |
| 61 | |
| 62 | * verse 2013 |
| 63 | |
| 64 | |
| 65 | |
| 66 | == Příklady z korpusu == #P.2BAVkA7Q-klady_z_korpusu |
| 67 | |
| 68 | * Peking, hlavní město USA, přivítalo císaře Evropské unie. |
| 69 | * "Pravda a láska" jsou ošklivá a falešná slovíčka. |
| 70 | * Petr viděl, že se Marie koupe s Pavlem, a hrozně si přál, aby se v tomto okamžiku proměnil v Pavla. |
| 71 | * Pane vrchní, jednou pivo s rumem, jednou bez. |
| 72 | * Petr na mě hodil své obrovitánské trenýrky, což byla zbraň odpovídající dvěma atomovým bombám svrženým na Hirošimu. |