Předzpracování dat

Předzpracování muselo zajistit:

Data byla dodána ve formátu xls. Největší chyby (text v numerickím atributu atd.) byly opraveny přímo v xls. Následně byl vytvořen css soubor, se kterým již pracoval předzpracovací program.

Tento nejprve odstranil všechny nekompletní řádky a sloupce - sestupně podle počtu chybějících hodnot, při shodě bylo možno určit, zda zachovat atribut, nebo instanci. Odstraněné řádky a sloupce spolu s počtem absencí byly zapsány do logovacího souboru v programové složce.

Dále bylo vytvořeno dočasné csv, které již bylo bez chybějících hodnot. Toto csv bylo upraveno (rozdělen genotyp, přidán atribut pro diskretizované MR) a následně převedeno do formátu arff. Program automaticky projde data a určí typy atributů - text, číslo, nebo, pokud existují maximálně 3 možné hodnoty - výpis těchto hodnot.

Program byl vytvořen v jazyku Microsoft Visual Basic 6

Novinky:

[11/07/2009]
Spuštěny webové stránky

[26/06/2009]
Výpočet statistické významnosti výsledků

[22/05/2009]
Výběr optimálního algoritmu

[20/04/2009]
Předzpracování dat


Související odkazy:

Weka
Stránky předmětu