PV211 Úvod do získávání informací - Cvičení

Cvičení 1

1.Príklad

Nájdite dotaz v tvare [vyraz_1 vyraz_2] (bez úvodzoviek), ktorý Google neinterpretuje ako súčin jednotlivých výrazov dotazu. Tzn. dotaz, keď bude položený Googlu, vráti aspoň jeden výsledok, ktorý obsahuje len jeden výraz z dotazu.

a) Prvých 20 výsledkov označte císlami 0, 1, 2 podľa toho, či výsledok obsahuje oba výrazy, len jeden z výrazov alebo ani jeden výraz.

b) Podľa tohto usúďte, či Google interpretuje všetky dotazy implicitne ako Booleovský prienik výrazov z dotazu.

2. Príklad

Vytvorte invertovaný index, zostavený pre následujúcu kolekciu dokumentov:

Doc 1 new home sales top forecasts
Doc 2 home sales rise in july
Doc 3 increase in home sales in july
Doc 4 july new home sales rise

3. Príklad

Nižšie je časť indexu s pozíciami v tvare term: doc1: <pos1, pos2, pos3, ..>; doc2<pos1, pos2, ..>

angels: 2: <36,174,252,651>; 4: <12,22,102,432>; 7: <17>;
fools: 2: <1,17,74,222>; 4: <8,78,108,458>; 7: <3,13,23,193>;
fear: 2: <87,704,722,901>; 4: <13,43,113,433>; 7: <18,328,528>;
in: 2: <3,37,76,444,851>; 4: <10,20,110,470,500>; 7: <5,15,25,195>;
rush: 2: <2,66,194,321,702>; 4: <9,69,149,429,569>; 7: <4,14,404>;
to: 2: <47,86,234,999>; 4: <14,24,774,944>; 7: <199,319,599,709>;
tread: 2: <57,94,333>; 4: <15,35,155>; 7: <20,320>;
where: 2: <67,124,393,1001>; 4: <11,41,101,421,431>; 7: <15,35,735>;

Ktoré dokumenty zodpovedajú následujúcim dotazom, kde každý výraz v uvodzovkách je frázový dotaz (phrase query)?
a) “fools rush in” (
b) “fools rush in” AND “angels fear to tread”. 
Na ktorých pozíciách tieto dotazy matchujú?
c) V uvedenom indexe je chyba, kde?

4. Príklad

Odporučte stratégiu spracovania dotazu (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes) vzhľadom na nasledujúce velkosti postings zoznamov:
eyes 213312
kaleidoscope 87009
marmalade 107913
skies 271658
tangerine 46653
trees 316812

 

5. Príklad

Máme dotaz zložený z dvoch výrazov. Postings zoznam jedného výrazu je zložený z nasledujúcich 16 položiek:
[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]
a druhý výraz ma postings zoznam len jednoprvkový:
[47].


Zistite koľko porovnaní a prečo je potreba vykonať na prienik týchto dvoch postings zoznamov s nasledujúcimi stratégiami:
a. použitie štandardných postings zoznamov
b. použitie postings zoznamov uložených s preskakujúcimi odkazmi, s dĺžkou preskoku sqrt(P)

 

6. Príklad

Pomocou matice vypočítajte Levenshteinovu vzdialenosť slov jablko a malina.

7. Príklad

a) Nájdite dve rozdielne napísané podstatné mená (anglicky), ktoré majú rovnaký soundex kód.

b) Nájdite dve foneticky podobné podstatné mená (anglicky), ktoré majú rozdielny soundex kód

8. Príklad

Vypíšte prvky slovníka permuterm indexu ktoré su generované slovom mama.

 

9. Príklad

Aké kľúče sú použiteľné na nájdenie termu s*ng v permuterm wildcard indexe.

10. Príklad

Pre n = 2 a 1 ≤ T ≤ 30, vykonajte krok za krokom simuláciu algoritmu 4.7 (Introduction to Information Retrieval). Vytvorte tabulku, ktorá pre každý okamih v čase, v ktorom je spracovaných T = 2*k tokenov (1 ≤ k ≤ 15), ukazuje ktoré zo štyroch indexov I0, ..., I3 sú používané. Prvé tri riadky tabulky sú uvedené nižšie:

    I3    I2    I1    I0
2     0    0    0    0
4     0    0    0    1
6     0    0    1    0