PA153 Počítačové zpracování přirozeného jazyka 12 - Strojové učení a ZPJ Jiří Materna, OJiriMaterna Seznam.cz 7. prosince 2015 Jiří Materna, OJ i r i Materna PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 1/16 Q Metody strojového učení Q Kasifikace dokumentů Q Modelovaní témat dokumentů Q Jazykové modely Jiří Materna, OJ i r i Materna PA153 Zpracování přirozeného jazyka Strojové učení • učení s učitelem (supervised) • učení bez učitele (unsupervised) • kombinace předchozího (semi-supervised) • zpětnovazební učení (reinforcement learning) • optimalizační úloha Jiří Materna, OJiriMaterna PA153 Zpracování přirozeného jazyka Klasifikační úloha Zdroj: http://gromgull.net/blog/category/machine-learning/ Jiří Materna, OJ i r i Materna PA153 Zpracování přirozeného jazyka Regresní úloha Housing price prediction. 400 t Price ($) in 1000's 300 + 200 + 0 X loo 4- X X X X X x vxx X * X + + + + H 500 1000 1500 2000 2500 Size in feet2 Zdroj: https : //class . coursera. org/ml/class Jiří Materna, O J i r i Materna PA153 Zpracování přirozeného jazyka Shlukování Estimated number of clusters: 3 oh -l -2 -3 -3 -2 -1 Zdroj: http://scikit-learn.org/0.5/modules/clustering.html Jiří Materna, OJ i r i Materna PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 6 Problém s přeučováním Slze High bias (underfit) (U u L. Slze "Just right" Size High variance (overfit) Zdroj: https : //class . coursera. org/ml/class Jiří Materna, OJ i r i Materna PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 7/16 Velikost trénovacŕch dat m (training set size) Zdroj: https : //class . coursera. org/ml/class Jiří Materna, OJ i r i Materna PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 8/16 Boosting Klasifikace dokumentů Jiří Materna, OJiriMaterna PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 10 / 16 Bag-of-words reprezentace dokumentů Q the man walked the dog O the man took the dog to the park O the dog went to the park [dog, man, park, the, to, took, walked, went] 0 [1, 1, 0, 1, 0, 0, 1, 0] O [1, 1, 1, 1, 1, 1, 0, 0] e [i, o, i, i, i, o, o, i] TF-IDF TF(t,d) = =^- l^k nk,d (1) IDF(ř) = log D j ■ ti e d TF-IDF(ř, d) = TF(ř, d) x IDF(ř) (2) (3) O [0, 0.18, 0, 0, 0, 0, 0.48, 0] O [0, 0.18, 0.18, 0, 0.18, 0.48, 0, 0] O [0, 0, 0.18, 0, 0.18, 0, 0, 0.48] Jiří Materna, OJiriMaterna PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 12 / 16 Modelovaní témat dokumentů Jiří Materna, OJiriMaterna PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 13 / Latentní sémantická analýza X fa) ^1,1 ■ ■ ■ %l>n U i í- 1 = (íf) (7i ... O O ... ui yr Vl Zdroj: http://en.wikipedia.org/wiki/Latent_semantic_analysis Jiří Materna, (__liri Materna PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 14 / 16 Latentní Dirichletovská alokace topic 1 DOCUMENT 1 river2 stream2 river2 stream2 streanv river2 stream2 river2 DOCUMENT 2: river2 stream2 bank2 stream2 bank2 river2 stream2 bank2 river2 bank2 stream2 river2 bank2 stream2 bank2 river2 stream2 bank2 stream2 bank2 river2 stream2 bank2 river2 bank2 stream2 river2 bank2 stream2 bank2 topic 2 Zdroj: Probabilistic Topic Models, Mark Steyvers and Tom Griffiths, 2007 Jiří Materna, OJiriMaterna PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 15/1 Jazykové modely