Informační vzdělávání pro záchranáře a porodní asistentky

Čištění datasetu

Stáhněte si ukázkový soubor lekce1-vzor-dat.xlsx z webu Biostatistička.cz. Tento soubor obsahuje čtyři listy:

  1. vstupní data (před úpravou)
  2. opravená (vyčištěná a okódovaná) data
  3. opravená data s úpravou proměnné laická KPR
  4. seznam proměnných a hodnot

Pokud si chcete vyzkoušet čištění datasetu, vezměte si první list a pokuste se jej sami opravit, výsledek si pak zkontrolujte proti opraveným datům ve staženém souboru.

Co autorka považovala za nutné opravit?

  • formát dat ve sloupci B a C (pro přehlednost, např. seřazení a zejména rozlišení formátu pro Excel),
  • zaokrouhlení na celé roky ve sloupci D (aby bylo možné počítat s hodnotami),
  • odstranění nevalidní hodnoty ve sloupci F a G (stejný důvod),
  • sjednocení hodnot ve sloupci H na ano/ne, posunutí specifikace do nové proměnné (hypertenze.pozn),
  • klasifikace dílčích informací ze sloupců J, K a L do osmi nových (rekódovaných) proměnných pro lepšíklasifikaci.