PV211 Úvod do získávání informací - Cvičení

Cvičení 4

1. Príklad

Každý z dvoch webových vyhľadávacích systémov A a B zo svojich indexov generujú veľké množstvo stránok rovnomerne náhodne. 30% stránok z A sa nachádza v indexe B a 50% stránok z B 
sa nachádzav indexe A. Aký je pomer stránok medzi systémami A a B?

2. Príklad

Každý z dvoch webových vyhľadávacích systémov A a B zbierajú (crawl) náhodnú, ale rovnako veľkú podmnožinu Webu. Niektoré zozbierané stránky sú duplikáty - presné textové kópie na rôznych URL.
Predpokladajte, že sú duplikáty distribuované rovnomerne medzi stránkami zozbierané systémom A aj B. Ďalej predpokaldajte, že duplikát má presne dve kópie - žiadne stránky nemajú viac ako dve kópie. A indexuje stránky bez eliminace duplikátov, kdežto B indexuje len jednu kópiu duplikovaných stránok. Tieto dve náhodné podmonožiny majú rovnakú veľkosť pred odstránením duplikátov. 
Ak sa 45% stránok z A nachádza v indexe B, a 50% stránok z B v indexe A, aká veľká časť Webu sa skladá zo stránok, ktoré nemajú duplikáty?

3. Príklad

Daný je nasludjúci web graf.
V = {a, b, c}, E = {a -> b, a -> c, b -> c, c -> b}

Vypočítajte PageRank, hub skóre a autoritatívne skóre pre každú z troch stránok. Zoraďte sstránky podľa jednotlivých skóre a pozorujte prípadné väzby.

Pre výpočet PageRank môžte predpokladať, že sa v každom kroku náhodnej prechádzky teleportujeme na náhodnú stránku s pravdepodobnosťou 0.1 a s rovnomernou distribúciou stránok, na ktoré sa teleportujeme.

Pre huby a autority normalizujte skóre tak, aby maximum bolo 1.

4. Príklad

Priemerný vstupný stupeň všetkých uzlov vybraného grafu webu je 9. Čo môžeme povedať o priemernom výstupnom stupni všetkých uzlov tohto grafu?