ADALINE
Organizační dynamika:
xo = 1
W0
Q
O o
w = (wb,wi,...fwn) ax = (x0fxi,...fxn) kdex0 = 1. Aktivní dynamika:
funkce sítě: y[vv](x) = w ■ x
ADALINE
Adaptivní dynamika: ► Dána množina tréninkových vzorů
T = {(xA,dA),{x2,d2),...,(xp,dp)]
Zde xk = {xk0lxki.. .,xkn) e Rn+1, xk0 = 1, je vstup /c-tého vzoru a dk e R je očekávaný výstup.
Intuice: chceme, aby síť počítala afinní aproximaci funkce, jejíž (některé) hodnoty nám předepisuje tréninková množina.
Chybová funkce:
( n
1 \ < 2        1 . ,    _ ,
E(^) = 2 Yj     '    ~ dk)   = 2 ^ ^ W'Xki ~ dk ► Cílem je nalézt w, které minimalizuje E(w).
Dále budeme uvažovat pouze n = 1.
Hodnota sítě pro daný vstup (1,x-|) bude w0 + w-\X-\
Tedy množina tréninkových vzorů
T = {{^ld^l(x2ld2),...l(xpldp)} splňuje xk = (1,xl(1)£R2ad), e R Zjednodušíme si notaci a budeme předpokládat
T = ((xi,^),..., (xp/dp)}
kde x/< £ Ka dj( e R pro /c = 1,...,p.
Hodnota sítě s váhami w0/ w-, pro /c-tý vzor bude w0 + w-^.
Chybová funkce pro n = 1
1 p
Minimalizujeme £ vzhledem k w0 a w-|:
<5£
0   o   w0 = d - w-, x   o   d = w0 + w-\X
ôw0
kdex = JlJ^Xfc a ď = J Lj=1 cfc
<5£ J L£=1 (d* ~ -*) -— =0   o   w-i =--—--
ôwi JlLi(^-*)2
(tj. Wi = cov(d,x)/var(x))
Normální rozdělení pravděpodobnosti
Rozdělení spojité náhodné veličiny (tj. s hodnotami v R) Hustota pravděpodobnosti
ř(x) = JiH-n^} =: Mx)
ji je střední hodnota, a2 rozptyl Pokud má náhodná veličina X normální rozdělení, pak P(x, < X < x2) = p(x)
Často se používá k vyjádření náhodné chyby, např. chyby měření, způsobené velkým počtem neznámých a vzájemně nezávislých příčin.
Normální rozdělení pravděpodobnosti
O* ' 04
02
	' ■ '										
								li=o, o2=ío,— /1 = 0, O;=5j0.—■ fI=-2. O2=05.-			
											
											
											
											
	-1-	--1-1-						■	-1-1-		
Věrohodnost (likelihood)
Fixujme T = |(xi,di),(x2,d2),...,(*p,cŕp)} Předpokládejme, že d/< bylo vygenerováno náhodně takto
cfc = w0 + w^ xk + ek
Zde
► wq, w^ jsou neznámé konstanty
► ek jsou generována náhodně s hustotou pravděpodobnosti N[0, a2] kde a2 je neznámý rozptyl
Snadno se ukáže, že hustota pravděpodobnosti, se kterou je vygenerováno dk splňuje
p(dk | w0,wi,o2) = N[w0 + w^xk,o2]{dk)
Předpokládejme, že pro fixní w0r w-\, a2 jsou e^,...,ep generována nezávisle. Pak hustota pravděpodobnosti, se kterou jsou vygenerována všechna d\,...,dp splňuje
p
p(di,...,dp | wo,wi,02) = Y\ N[w0 + WiXk,o2](dk)
Maximální věrohodnost (maximum likelihood)
Chceme nalézt w0lw-\,o2, která maximalizují
L(wOlWi,02) = p(d^,...,dp | %w1)(i2)
Z technických důvodů budeme raději maximalizovat
\oq(L(w0,w^,o2))
kde log(y) je přirozený logaritmus, tedy funkce inverzní k ex. Zřejmě
Wq, w-i,a2 maximalizují L{wq,w^,o2) wOlw-\,02 maximalizují  \og(L(w0l w-\,o2))
Maximální log-věrohodnost (log-likelihood)
Ukážeme, že
1 p
\og{L(w0,w^,o2))   =   --\og2n-p\ogo- — Y{dk-w0-w^xk
a tedy pro každé
Wo,wi maximalizují L{wq,w^,o2)
Wo,Wi maximalizují \og{L{wo,w^,a2))
w0/w-| minimalizují 5(1/1/0,1/1^) Tj. maximalizující w0,    nezávisí na o2. Maximalizujeme-li vzhledem k o2, dostaneme 1 p
a2 = - J^(cfe -w0- w^xk)2 (tj. průměrná čtvercová odchylka od žádaných hodnot dk, jak se dalo čekat)
Věrohodnost (likelihood) - libovolná dimenze dat
Fixujme
T = {(j?i,Cfi),(j?2,Cfe).....(Xp,dp)j
kde xk e Rn+1 a dk e R pro k = 1,... ,p. Předpokládejme, že d/< bylo vygenerováno náhodně takto
n
;'=0
Zde
► w je vektor neznámých vah
► ek jsou generována náhodně s hustotou pravděpodobnosti N[0, a2] kde a2 je neznámý rozptyl
Pro fixní w, a2 jsou e^,...,ep generována nezávisle. Pak d\,...,dp jsou generována s hustotou
p
p(di,...,dp | w,cj2) = J^N[w-xfc,cT2](cfc)
Maximální log-věrohodnost (log-likelihood)
Pro
p
L{w,o2) :=p(d,,...,dp | tf,a2) = y[N[w-xk,o2](dk)
platí
1 P
log(/_(w,a2))   =   --log27i - p log a - — Y {dk - w-xk)2 a tedy pro každé
w maximalizuje L(w,o2)
w maximalizuje log(/.(w,a2))
iv minimalizuje £(vv) Tj. maximalizující w nezávisí na o2. Max. a2 splňuje a2 = ± - w ■ xk)2