Changes between Version 1 and Version 2 of cs/DenOtevrenychDveri


Ignore:
Timestamp:
Mar 11, 2014, 11:17:44 AM (10 years ago)
Author:
xkocinc
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • cs/DenOtevrenychDveri

    v1 v2  
    22Určeno jak pro zájemce o studium, tak pro zájemce o cokoliv, pro zájemce o doktorské studium máme i [[DODPhD|pokročilejší informace]].
    33
    4  * jeden z oborů, které je možné na FI studovat, je i ''Umělá inteligence a zpracování přirozeného jazyka'' 
     4 * jeden z oborů, které je možné na FI studovat, je i ''Umělá inteligence a zpracování přirozeného jazyka''
    55
    6 
    7  * přirozený jazyk = náš lidský jazyk (čeština, slovenština, angličtina)
    8  * snažíme se o porozumění jazyku počítačem.
    9  * kámen mudrců NLP: komunikace s počítačem v přirozeném jazyce a strojový překlad.
    10  * s  jazykem pracujeme empiricky, jako s živým systémem, nepíšeme básně ani  prózu (ale můžeme je studovat), nerozebíráme literární díla
    11  * jazyk vidíme skrze korpusy (odkaz), což jsou obrovské (miliardové) soubory slov
    12  * pracujeme tím pádem s velkými objemy dat, máme výkonné servery a píšeme efektivní programy (v různých programovacích jazycích)
    13  * studujeme  jazyk na několika úrovních (které se vyučují už na základní škole, ale  my je bereme trochu víc vážně): tvaroslovné (morfologické), syntaktické i  významové (sémantické)
    14  * jak  souvisí lingvistika s informatikou? aplikace jsou: jazykové korektory,  vyhledávače (proč umí Seznam najít i slova v jiném pádu?), výkladové a  překladové slovníky, dotazovací systémy (UIO), překlad
    15  * spolupracujeme s FF (obor Český jazyk se specializací počítačová lingvistika)
     6 * přirozený jazyk = náš lidský jazyk (čeština, slovenština, angličtina)
     7 * snažíme se o porozumění jazyku počítačem.
     8 * kámen mudrců NLP: komunikace s počítačem v přirozeném jazyce a strojový překlad.
     9 * s  jazykem pracujeme empiricky, jako s živým systémem, nepíšeme básně ani  prózu (ale můžeme je studovat), nerozebíráme literární díla
     10 * jazyk vidíme skrze korpusy (odkaz), což jsou obrovské (miliardové) soubory slov
     11 * pracujeme tím pádem s velkými objemy dat, máme výkonné servery a píšeme efektivní programy (v různých programovacích jazycích)
     12 * studujeme  jazyk na několika úrovních (které se vyučují už na základní škole, ale  my je bereme trochu víc vážně): tvaroslovné (morfologické), syntaktické i  významové (sémantické)
     13 * jak  souvisí lingvistika s informatikou? aplikace jsou: jazykové korektory,  vyhledávače (proč umí Seznam najít i slova v jiném pádu?), výkladové a  překladové slovníky, dotazovací systémy (UIO), překlad
     14 * spolupracujeme s FF (obor Český jazyk se specializací počítačová lingvistika)
    1615
    1716== Slovotvorná rovina zpracování přirozeného jazyka == #Slovotvorn.2BAOE_rovina_zpracov.2BAOE-n.2BAO0_p.2BAVk-irozen.2BAOk-ho_jazyka
     17 * slova se skládají z kmenů, předpon, přípon, koncovek
     18 * slova jsou ohebná (pád-číslo-rod, osoba-číslo-čas) a neohebná
     19 * máme program, který pro každé slovo dokáže určit, co je zač ([http://nlp.fi.muni.cz/projekty/wwwajka/ wwwajka]) - Seznam.cz jej používá na lemmatizaci, čili lze hledat slova zapsaná v libovolném korektním tvaru.
    1820
    19  * slova se skládají z kmenů, předpon, přípon, koncovek
    20  * slova jsou ohebná (pád-číslo-rod, osoba-číslo-čas) a neohebná
    21  * máme program, který pro každé slovo dokáže určit, co je zač ([http://nlp.fi.muni.cz/projekty/wwwajka/ wwwajka]) - Seznam.cz jej používá na lemmatizaci, čili lze hledat slova zapsaná v libovolném korektním tvaru.
     21 * máme díky tomu i [http://nlp.fi.muni.cz/cz_accent/index.php oháčkovávač], který využívá také Seznam.cz - tím pádem lze hledat i slova bez diakritiky.
    2222
    23 
    24  * máme díky tomu i [http://nlp.fi.muni.cz/cz_accent/index.php oháčkovávač], který využívá také Seznam.cz - tím pádem lze hledat i slova bez diakritiky.
    25 
    26 
    27  * může se použít taky na opravu překlepů (spell-checker)
    28  * když nevíme, jak se něco píše, můžeme se podívat do [http://prirucka.ujc.cas.cz/ Internetové jazykové příručky] - spolupráce s ÚJČ
    29 
    30 
     23 * může se použít taky na opravu překlepů (spell-checker)
     24 * když nevíme, jak se něco píše, můžeme se podívat do [http://prirucka.ujc.cas.cz/ Internetové jazykové příručky] - spolupráce s ÚJČ
    3125
    3226== Syntaktická rovina zpracování přirozeného jazyka == #Syntaktick.2BAOE_rovina_zpracov.2BAOE-n.2BAO0_p.2BAVk-irozen.2BAOk-ho_jazyka
    33 
    34  * věty jsou tvořeny ze slov, ale ne ledajak, podle pravidel
    35  * tato pravidla tvoří tzv. syntax určitého jazyka
    36  * pamatujeme si ze základní školy nechvalně proslulé větné rozbory, a máme program, který je umí dělat za nás ([http://nlp.fi.muni.cz/projekty/wwwsynt/ wwwsynt])
    37 
    38 
     27 * věty jsou tvořeny ze slov, ale ne ledajak, podle pravidel
     28 * tato pravidla tvoří tzv. syntax určitého jazyka
     29 * pamatujeme si ze základní školy nechvalně proslulé větné rozbory, a máme program, který je umí dělat za nás ([http://nlp.fi.muni.cz/projekty/wwwsynt/ wwwsynt])
    3930
    4031== Sémantická a lexikální rovina == #S.2BAOk-mantick.2BAOE_a_lexik.2BAOE-ln.2BAO0_rovina
     32 * máme k dispozici překladové slovníky (LEDA)
     33 * máme  i speciální slovníky: Slovník spisovného jazyka českého, Slovník  spisovné češtiny, Příruční slovník jazyka českého, Slovník cizích slov,  Slovník českých synonym, Slovník české frazeologie a idiomatiky: výrazy  slovesné i neslovesné. (DEB, DEBDict)
     34 * máme taky sítě slov (hierarchický slovník, sémantická/významová databáze): [https://nlp.fi.muni.cz/cs/WordNet WordNet] (viz Visual Browser) - podobnost s biologickou taxonomií
    4135
    42  * máme k dispozici překladové slovníky (LEDA)
    43  * máme  i speciální slovníky: Slovník spisovného jazyka českého, Slovník  spisovné češtiny, Příruční slovník jazyka českého, Slovník cizích slov,  Slovník českých synonym, Slovník české frazeologie a idiomatiky: výrazy  slovesné i neslovesné. (DEB, DEBDict)
    44  * máme taky sítě slov (hierarchický slovník, sémantická/významová databáze): [https://nlp.fi.muni.cz/cs/WordNet WordNet] (viz Visual Browser) - podobnost s biologickou taxonomií
     36 * zjistíme, že luxovat může člověk za pomocí stroje ([http://nlp.fi.muni.cz/verbalex/html2/generated/alphabet/ VerbaLex])
    4537
     38[http://nlp.fi.muni.cz/%7Expopelk/screencast.avi http://nlp.fi.muni.cz/~xpopelk/screencast.avi]
    4639
    47  * zjistíme, že luxovat může člověk za pomocí stroje ([http://nlp.fi.muni.cz/verbalex/html2/generated/alphabet/ VerbaLex])
     40[http://nlp.fi.muni.cz/%7Expopelk/final.avi http://nlp.fi.muni.cz/~xpopelk/final.avi]
    4841
     42[http://nlp.fi.muni.cz/%7Expopelk/dod.avi http://nlp.fi.muni.cz/~xpopelk/dod.avi]
    4943
     44Schéma krátké verse výkladu:
    5045
    51 [http://nlp.fi.muni.cz/%7Expopelk/screencast.avi http://nlp.fi.muni.cz/~xpopelk/screencast.avi]
     46 * [https://nlp.fi.muni.cz/trac/research/attachment/wiki/cs/DenOtevrenychDveri/dod_2012.pdf verse 2012]
    5247
    53 [http://nlp.fi.muni.cz/%7Expopelk/final.avi http://nlp.fi.muni.cz/~xpopelk/final.avi]
    54 
    55 [http://nlp.fi.muni.cz/%7Expopelk/dod.avi http://nlp.fi.muni.cz/~xpopelk/dod.avi]
    56 
    57 Schéma krátké verse výkladu:
    58 
    59  * verse 2012
    60 
    61 
    62  * verse 2013
    63 
    64 
     48 * [https://nlp.fi.muni.cz/trac/research/attachment/wiki/cs/DenOtevrenychDveri/dod_jan2013.pdf verse 2013]
    6549
    6650== Příklady z korpusu == #P.2BAVkA7Q-klady_z_korpusu
    67 
    68  * Peking, hlavní město USA, přivítalo císaře Evropské unie.
    69  * "Pravda a láska" jsou ošklivá a falešná slovíčka.
    70  * Petr viděl, že se Marie koupe s Pavlem, a hrozně si přál, aby se v tomto okamžiku proměnil v Pavla.
    71  * Pane vrchní, jednou pivo s rumem, jednou bez. 
     51 * Peking, hlavní město USA, přivítalo císaře Evropské unie.
     52 * "Pravda a láska" jsou ošklivá a falešná slovíčka.
     53 * Petr viděl, že se Marie koupe s Pavlem, a hrozně si přál, aby se v tomto okamžiku proměnil v Pavla.
     54 * Pane vrchní, jednou pivo s rumem, jednou bez.
    7255 * Petr na mě hodil své obrovitánské trenýrky, což byla zbraň odpovídající dvěma atomovým bombám svrženým na Hirošimu.