Bakalářská práce

Hierarchické shlukování rozsáhlých množin vektorových dat

Hierarchical Clustering of Large Sets of Vector Data

Vladimír Míč, učo 359890
Anotace

Cílem práce bylo implementovat vybrané algoritmy hierarchického a nehierarchického shlukování množin vektorů. Tyto metody jsou porovnány s náhodným výběrem centroidů z datové množiny. Program je schopen zpracovávat velmi rozsáhlé množiny dat. Textová část obsahuje popis vybraných shlukovacích metod a odevzdanou implementaci.

Abstract

The aim of the thesis was to implement chosen cluster analysis methods. These methods are compared with a random selection of centroids from a clustered set. Algorithms are able to analyze very big datasets. Thesis contains description of chosen methods and its implementation.

Zadání práce
Student nastuduje a v jazyce Java implementuje vybrané algoritmy hierarchického a nehierarchického shlukování množin vektorů. Při implementaci využije ve vhodné míře knihovnu MESSIF. Metody musí být schopny zpracovat velmi rozsáhlé vstupní množiny, tedy množiny obsahující řádově desítky milionů vektorů. Student též implementované metody porovná s náhodným výběrem centroidů z datové množiny. Výsledná zpráva bude obsahovat popis zvolených algoritmů a jejich srovnání po stránce kvalitativní (kompaktnost vzniklých clusterů, možnost ovlivnění počtu vzniklých clusterů, možnost určení váhy clusterovaných dat, popř. další, studentem zvolená kritéria) a výkonnostní (možnosti paralelizace, rychlost zpracování). Srovnání metod se bude opírat o výsledky praktických experimentů.
Práce zkontrolována:
18. 5. 2012 08:36, RNDr. Tomáš Homola, Ph.D.
Jazyk práce
čeština čeština
Termín obhajoby
22. 6. 2012
Práce byla úspěšně obhájena

Vedoucí

RNDr. Tomáš Homola, Ph.D.
abs FI MU

Oponent

RNDr. Michal Batko, Ph.D., učo 2907
KSUZD FI MU

Konzultant

doc. RNDr. Vlastislav Dohnal, Ph.D., učo 2952
KSUZD FI MU

Masarykova univerzita Fakulta informatiky
Studijní program
Informatika
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.