IB047
Četnosti a kolokace
Pavel Rychlý
pary@fi.muni.cz
31. března 2014
Pavel Rychlý IB047
Zipfův zákon
Jaké je rozložení slov v korpusu?
■ f*r=C
součin četnosti a pořadí v seznamu četností je zhruba konkstantní
■ slova, slovní spojení
■ vlastní jména, velikosti měst
■ nejfrekventovanější jevy pokrývají většinu jazyka
Kolokace
Jaká slova se vyskytují v kontextech daného výrazu?
■ četnosti
■ relativní četnosti
■ skóre - asociační míry
Pavel Rychlý IB047
Asociační míry
Počítáme na základě kontingenční tabulky.
	V = v	V ŕ v		V =v	V jív
U = u	it RiCi	~ TV		On	
U	R2C1	£22- ^		On	On
= C,     = Ci =N exp ec ted frequeric ies ob served frequenc ies
Ojj - pozorované hodnoty (observed) E-,j - očekávané hodnoty (expected)
Asociační míry
T-score: T = = ^jl.
V 0\ \ y/ fxy
Ml-score: Ml = log2 = log2 Log-likelihood:
/ / _ _ inn L(Ou,Cur)L(Q,2,C2,r) IOg2 L(Ou,Cun)L(Oi2,C2,r2)
L(k,n,r) = rk^ - r)"-k
r — R\ ■ r, _ O11 ■ r„ _ O12
r - AT' ri - TT' r2 ~ "ČF
Pavel Rychlý IB047
Asociační míry
Minimum sensitivity: MS = min{^, ^} = min{^, ff} - minimum z relativních četností
Dice: D - 20,1 - 2tx
fíl+C, fx+fy
log Dice: ID = 14 + log2 D = 15 + log2fxy - log2{fx + f y)
■ vybíráme jen ty kolokace, které splňují podmínku na značkách
■ ADJ NN
■ NN NN
■ word sketches - jednostránkový souhrn chování slov
Word Sketches
Jak jej lze vytvořit
■ Velký vyvážený korpus
■ Vyhledáme závislé prvky (subjects, objects, heads, modifiers etc)
■ Seznam kolokací pro každou gramatickou relaci
■ Statistika pro třídění každého seznamu