PV211 Úvod do získávání informací - Cvičení

Cvičení 2

1.Príklad

Kolekcia dokumentov obsahuje 4 slová: a, b, c, d. Vzájomná frekvencia slov je a > b > c > d. Celkový počet tokenov v kolekcii je 5000. Predpokladajte, ze pre túto kolekciu presne platí Zipfov zákon. Aké su frekvencie vyššie uvedených štyroch slov?

 

2. Príklad

γ-kódy je neefektívny pre veľké čísla (napr. 1000 alebo 10 000) pretože kódujú dĺžku offsetu v unárnom kóde. δ-kódy používajú gamma kód pre zakódovanie tejto dĺžky.

γ-kód je definovaný ako
unárny_kód(dĺžka(ofset(G))),ofset(G)

δ-kód je definovaný ako
γ(dĺžka(ofset(G+1))),ofset(G+1)

Napríklad δ-kód pre G=6 je 10,0,11. 10,0 je γ-kód pre dĺžku (v tomto prípade 2). Kódovanie ofsetu (11) je rovnaké ako v prípade γ-kódu pre G = 7.

Vypočítajte γ- a δ- kódy pre 1, 2, 3, 4, 31, 63, 127, 1023.

3. Príklad

Vypočítajte variabilný byte- a γ- kód pre postings zoznam <777, 17743, 294068, 31251336>. 
Používajte medzery namiesto docID tam kde je to možné. Binárne kódy napíšte v 8 bitových blokoch.

4. Príklad

Posúďte tabuľku s frekvenciami slov troch dokumentov Doc1, Doc2, Doc3 nižšie. Vypočítajte tf-idf váhy termov car, auto, insurance, best, pre 
každý dokument. Idf hodnoty termov sú uvedené v tabuľke.

  Doc1 Doc2 Doc3 idf
car 27 4 24 1.65
auto 3 33 0 2.08
insurance 0 33 29 1.62
best 14 0 17 1.5

 

 

5. Príklad

Vypočítajte normalizované Euclidovské vektory pre každý dokument z predchádzajúceho príkladu, kde každý vektor má štyri komponenty, jednu pre každý zo štyroch termov.

6. Príklad

S váhami slov ako boli vypočítané v predchádzajúcom príklade, oznámkujte tri dokumenty podľa vypočítaného skóre pre dotaz car insurance, pre každý z nasledujúcich prípadov váženia slov:
a) váha termu je 1 ak sa v dotaze nachádza, inak 0 
b) Euclidovské normalizované idf

 

7. Príklad

Vypočítajte vektor-space podobnosť medzi dotazom "digital cameras" a dokumentom "digital cameras and video cameras" doplnením prázdných stĺpcov v tabulke nižšie. Predpokladajte N = 10 000 000, logaritmické váženie termov (stĺpce wf) pre dotaz aj dokumenty, idf váženie len pre dotaz a kosínovú normalizáciu len pre dokument.
"And" považujte za STOP slovo. Napíšte počty termov do tf stĺpca.
Aké je konečné skóre podobnosti?

    Query Document Product
  df tf wf idf qi=wf-idf tf wf di=normalized wf qi*di
digital 10 000                
video 100 000                
cameras 50 000                

 

8. Príklad

Ukážte, že pre dotaz affection je radenie skóre troch dokumentov z tabuľky nižšie v opačnom poradí ako pre dotaz jealous gossip. Dotaz je vážený normalizáciou tf.

  SaS PaP WH
affection 0.996 0.993 0.847
jealous 0.087 0.120 0.466
gossip 0.017 0 0.254