IB047 Četnosti a kolokace Pavel Rychlý pary@fi.muni.cz 31. března 2014 Pavel Rychlý IB047 Zipfův zákon Jaké je rozložení slov v korpusu? ■ f*r=C součin četnosti a pořadí v seznamu četností je zhruba konkstantní ■ slova, slovní spojení ■ vlastní jména, velikosti měst ■ nejfrekventovanější jevy pokrývají většinu jazyka Kolokace Jaká slova se vyskytují v kontextech daného výrazu? ■ četnosti ■ relativní četnosti ■ skóre - asociační míry Pavel Rychlý IB047 Asociační míry Počítáme na základě kontingenční tabulky. V = v V ŕ v V =v V jív U = u it RiCi ~ TV On U R2C1 £22- ^ On On = C, = Ci =N exp ec ted frequeric ies ob served frequenc ies Ojj - pozorované hodnoty (observed) E-,j - očekávané hodnoty (expected) Asociační míry T-score: T = = ^jl. V 0\ \ y/ fxy Ml-score: Ml = log2 = log2 Log-likelihood: / / _ _ inn L(Ou,Cur)L(Q,2,C2,r) IOg2 L(Ou,Cun)L(Oi2,C2,r2) L(k,n,r) = rk^ - r)"-k r — R\ ■ r, _ O11 ■ r„ _ O12 r - AT' ri - TT' r2 ~ "ČF Pavel Rychlý IB047 Asociační míry Minimum sensitivity: MS = min{^, ^} = min{^, ff} - minimum z relativních četností Dice: D - 20,1 - 2tx fíl+C, fx+fy log Dice: ID = 14 + log2 D = 15 + log2fxy - log2{fx + f y) ■ vybíráme jen ty kolokace, které splňují podmínku na značkách ■ ADJ NN ■ NN NN ■ word sketches - jednostránkový souhrn chování slov Word Sketches Jak jej lze vytvořit ■ Velký vyvážený korpus ■ Vyhledáme závislé prvky (subjects, objects, heads, modifiers etc) ■ Seznam kolokací pro každou gramatickou relaci ■ Statistika pro třídění každého seznamu