ADALINE Organizační dynamika: xo = 1 W0 Q O o w = (wb,wi,...fwn) ax = (x0fxi,...fxn) kdex0 = 1. Aktivní dynamika: funkce sítě: y[vv](x) = w ■ x ADALINE Adaptivní dynamika: ► Dána množina tréninkových vzorů T = {(xA,dA),{x2,d2),...,(xp,dp)] Zde xk = {xk0lxki.. .,xkn) e Rn+1, xk0 = 1, je vstup /c-tého vzoru a dk e R je očekávaný výstup. Intuice: chceme, aby síť počítala afinní aproximaci funkce, jejíž (některé) hodnoty nám předepisuje tréninková množina. Chybová funkce: ( n 1 \ < 2 1 . , _ , E(^) = 2 Yj ' ~ dk) = 2 ^ ^ W'Xki ~ dk ► Cílem je nalézt w, které minimalizuje E(w). Dále budeme uvažovat pouze n = 1. Hodnota sítě pro daný vstup (1,x-|) bude w0 + w-\X-\ Tedy množina tréninkových vzorů T = {{^ld^l(x2ld2),...l(xpldp)} splňuje xk = (1,xl(1)£R2ad), e R Zjednodušíme si notaci a budeme předpokládat T = ((xi,^),..., (xp/dp)} kde x/< £ Ka dj( e R pro /c = 1,...,p. Hodnota sítě s váhami w0/ w-, pro /c-tý vzor bude w0 + w-^. Chybová funkce pro n = 1 1 p Minimalizujeme £ vzhledem k w0 a w-|: <5£ 0 o w0 = d - w-, x o d = w0 + w-\X ôw0 kdex = JlJ^Xfc a ď = J Lj=1 cfc <5£ J L£=1 (d* ~ -*) -— =0 o w-i =--—-- ôwi JlLi(^-*)2 (tj. Wi = cov(d,x)/var(x)) Normální rozdělení pravděpodobnosti Rozdělení spojité náhodné veličiny (tj. s hodnotami v R) Hustota pravděpodobnosti ř(x) = JiH-n^} =: Mx) ji je střední hodnota, a2 rozptyl Pokud má náhodná veličina X normální rozdělení, pak P(x, < X < x2) = p(x) Často se používá k vyjádření náhodné chyby, např. chyby měření, způsobené velkým počtem neznámých a vzájemně nezávislých příčin. Normální rozdělení pravděpodobnosti O* ' 04 02 ' ■ ' li=o, o2=ío,— /1 = 0, O;=5j0.—■ fI=-2. O2=05.- -1- --1-1- ■ -1-1- Věrohodnost (likelihood) Fixujme T = |(xi,di),(x2,d2),...,(*p,cŕp)} Předpokládejme, že d/< bylo vygenerováno náhodně takto cfc = w0 + w^ xk + ek Zde ► wq, w^ jsou neznámé konstanty ► ek jsou generována náhodně s hustotou pravděpodobnosti N[0, a2] kde a2 je neznámý rozptyl Snadno se ukáže, že hustota pravděpodobnosti, se kterou je vygenerováno dk splňuje p(dk | w0,wi,o2) = N[w0 + w^xk,o2]{dk) Předpokládejme, že pro fixní w0r w-\, a2 jsou e^,...,ep generována nezávisle. Pak hustota pravděpodobnosti, se kterou jsou vygenerována všechna d\,...,dp splňuje p p(di,...,dp | wo,wi,02) = Y\ N[w0 + WiXk,o2](dk) Maximální věrohodnost (maximum likelihood) Chceme nalézt w0lw-\,o2, která maximalizují L(wOlWi,02) = p(d^,...,dp | %w1)(i2) Z technických důvodů budeme raději maximalizovat \oq(L(w0,w^,o2)) kde log(y) je přirozený logaritmus, tedy funkce inverzní k ex. Zřejmě Wq, w-i,a2 maximalizují L{wq,w^,o2) wOlw-\,02 maximalizují \og(L(w0l w-\,o2)) Maximální log-věrohodnost (log-likelihood) Ukážeme, že 1 p \og{L(w0,w^,o2)) = --\og2n-p\ogo- — Y{dk-w0-w^xk a tedy pro každé Wo,wi maximalizují L{wq,w^,o2) Wo,Wi maximalizují \og{L{wo,w^,a2)) w0/w-| minimalizují 5(1/1/0,1/1^) Tj. maximalizující w0, nezávisí na o2. Maximalizujeme-li vzhledem k o2, dostaneme 1 p a2 = - J^(cfe -w0- w^xk)2 (tj. průměrná čtvercová odchylka od žádaných hodnot dk, jak se dalo čekat) Věrohodnost (likelihood) - libovolná dimenze dat Fixujme T = {(j?i,Cfi),(j?2,Cfe).....(Xp,dp)j kde xk e Rn+1 a dk e R pro k = 1,... ,p. Předpokládejme, že d/< bylo vygenerováno náhodně takto n ;'=0 Zde ► w je vektor neznámých vah ► ek jsou generována náhodně s hustotou pravděpodobnosti N[0, a2] kde a2 je neznámý rozptyl Pro fixní w, a2 jsou e^,...,ep generována nezávisle. Pak d\,...,dp jsou generována s hustotou p p(di,...,dp | w,cj2) = J^N[w-xfc,cT2](cfc) Maximální log-věrohodnost (log-likelihood) Pro p L{w,o2) :=p(d,,...,dp | tf,a2) = y[N[w-xk,o2](dk) platí 1 P log(/_(w,a2)) = --log27i - p log a - — Y {dk - w-xk)2 a tedy pro každé w maximalizuje L(w,o2) w maximalizuje log(/.(w,a2)) iv minimalizuje £(vv) Tj. maximalizující w nezávisí na o2. Max. a2 splňuje a2 = ± - w ■ xk)2