Předzpracování dat
Předzpracování muselo zajistit:
- převod do arff
- rozdělení atributu genotypu
- diskretizace mr hodnot
Data byla dodána ve formátu xls. Největší chyby (text v numerickím atributu atd.) byly opraveny přímo v xls. Následně byl vytvořen css soubor, se kterým již pracoval předzpracovací program.
Tento nejprve odstranil všechny nekompletní řádky a sloupce - sestupně podle počtu chybějících hodnot, při shodě bylo možno určit, zda zachovat atribut, nebo instanci. Odstraněné řádky a sloupce spolu s počtem absencí byly zapsány do logovacího souboru v programové složce.
Dále bylo vytvořeno dočasné csv, které již bylo bez chybějících hodnot. Toto csv bylo upraveno (rozdělen genotyp, přidán atribut pro diskretizované MR) a následně převedeno do formátu arff. Program automaticky projde data a určí typy atributů - text, číslo, nebo, pokud existují maximálně 3 možné hodnoty - výpis těchto hodnot.
Program byl vytvořen v jazyku Microsoft Visual Basic 6
Novinky:
[11/07/2009]
Spuštěny webové stránky
[26/06/2009]
Výpočet statistické významnosti výsledků
[22/05/2009]
Výběr optimálního algoritmu
[20/04/2009]
Předzpracování dat
Související odkazy:
WekaStránky předmětu