PV211 Úvod do získávání informací - Cvičení

Cvičení 2

1.Príklad

Kolekcia dokumentov obsahuje 4 slová: a, b, c, d. Vzájomná frekvencia slov je a > b > c > d. Celkový počet tokenov v kolekcii je 5000. Predpokladajte, ze pre túto kolekciu presne platí Zipfov zákon. Aké su frekvencie vyššie uvedených štyroch slov?

2. Príklad

γ-kódy je neefektívny pre veľké čísla (napr. 1000 alebo 10 000) pretože kódujú dĺžku offsetu v unárnom kóde. δ-kódy používajú gamma kód pre zakódovanie tejto dĺžky.

γ-kód je definovaný ako
unárny_kód(dĺžka(ofset(G))),ofset(G)

δ-kód je definovaný ako
γ(dĺžka(ofset(G+1))),ofset(G+1)

Napríklad δ-kód pre G=6 je 10,0,11. 10,0 je γ-kód pre dĺžku (v tomto prípade 2). Kódovanie ofsetu (11) je rovnaké ako v prípade γ-kódu pre G = 7.

Vypočítajte γ- a δ- kódy pre 1, 2, 3, 4, 31, 63, 127, 1023.

3. Príklad

Vypočítajte variabilný byte- a γ- kód pre postings zoznam <777, 17743, 294068, 31251336>.
Používajte medzery namiesto docID tam kde je to možné. Binárne kódy napíšte v 8 bitových blokoch.

4. Príklad

Posúďte tabuľku s frekvenciami slov troch dokumentov Doc1, Doc2, Doc3 nižšie. Vypočítajte tf-idf váhy termov car, auto, insurance, best, pre
každý dokument. Idf hodnoty termov sú uvedené v tabuľke.

	Doc1	Doc2	Doc3	idf
car	27	4	24	1.65
auto	3	33	0	2.08
insurance	0	33	29	1.62
best	14	0	17	1.5

5. Príklad

Vypočítajte normalizované Euclidovské vektory pre každý dokument z predchádzajúceho príkladu, kde každý vektor má štyri komponenty, jednu pre každý zo štyroch termov.

6. Príklad

S váhami slov ako boli vypočítané v predchádzajúcom príklade, oznámkujte tri dokumenty podľa vypočítaného skóre pre dotaz car insurance, pre každý z nasledujúcich prípadov váženia slov:
a) váha termu je 1 ak sa v dotaze nachádza, inak 0
b) Euclidovské normalizované idf

7. Príklad

Vypočítajte vektor-space podobnosť medzi dotazom "digital cameras" a dokumentom "digital cameras and video cameras" doplnením prázdných stĺpcov v tabulke nižšie. Predpokladajte N = 10 000 000, logaritmické váženie termov (stĺpce wf) pre dotaz aj dokumenty, idf váženie len pre dotaz a kosínovú normalizáciu len pre dokument.
"And" považujte za STOP slovo. Napíšte počty termov do tf stĺpca.
Aké je konečné skóre podobnosti?

		Query				Document			Product
	df	tf	wf	idf	q_i=wf-idf	tf	wf	d_i=normalized wf	q_i*d_i
digital	10 000
video	100 000
cameras	50 000

8. Príklad

Ukážte, že pre dotaz affection je radenie skóre troch dokumentov z tabuľky nižšie v opačnom poradí ako pre dotaz jealous gossip. Dotaz je vážený normalizáciou tf.

	SaS	PaP	WH
affection	0.996	0.993	0.847
jealous	0.087	0.120	0.466
gossip	0.017	0	0.254

PV211 Úvod do získávání informací - Cvičení
- Study now
  
  Cvičení 1
- Study now
  
  Cvičení 2
- Study now
  
  Cvičení 3
- Study now
  
  Cvičení 4
- Study now
  
  Cvičení 5
- Study now
  
  Cvičení 6

Operations

View all

Interactive Syllabus

Cvičení 2

Operations