IB047 Četnosti a kolokace Pavel Rychlý pary@fi.muni.cz 31. března 2014 Pavel Rychlý IB047 Zipfův zákon Jaké je rozložení slov v korpusu? ■ ř*r = C součin četnosti a pořadí v seznamu četností je zhruba konkstantní ■ slova, slovní spojení ■ vlastní jména, velikosti měst ■ nejfrekventovanější jevy pokrývají většinu jazyka Ko lokace Jaká slova se vyskytují v kontextech daného výrazu? ■ četnosti ■ relativní četnosti ■ skóre - asociační míry Pavel Rychlý IB047 Asociační míry Počítáme na základě kontingenční tabulky. impeded frequencies V = v V jív U = u E»- N On 012 U jím _ faCi 17 ?éií 02] 022 = Jíl = Jí: = Ci = C2 = N observed frequencies 0,y - pozorované hodnoty (observed) E,y - očekávané hodnoty (expected) Asociační míry T-score: T = On-E 11 _ f >*>y yfxy = log -score: Ml = log2 £ff Log-likelihood: íl _ _ Inn L(Ou,Cur)L(Oi2,C2,r) - /.(On.CriWOiz.ft/z) MV 2 fx ry ,n—/c L(k,n,r) = rK(1 - r)' fli ■ r, = %±; r2 = °12 r = N o Pavel Rychlý IB047 Asociační míry Minimum sensitivity: MS = min{^, ^} = min{^, ff} - minimum z relativních četností Dice- D — 2°11 — 2fxy uioe. u - fli+Ci - fx+fy logDice: ID = 14 + log2 D = 15 + log2fxy - log2(fx + fy) Filtrování ■ vybíráme jen ty kolokace, které splňují podmínku na značkách ■ ADJ NN ■ NN NN ■ word sketches - jednostránkový souhrn chování slov Word Sketches Jak jej lze vytvořit ■ Velký vyvážený korpus ■ Vyhledáme závislé prvky (subjects, objects, heads, modifiers etc) ■ Seznam kolokací pro každou gramatickou relaci ■ Statistika pro třídění každého seznamu