# Data Cleaning in Python
Tento Notebook obsahuje cvičenie s jednoduchou ukážkou čistenia dát pre použitie vo vizuálnej analýze za pomoci Pythnu. Získané dáta vizualizujeme pomocou jednoduchých Bar grafov a modulu Plotly. Použité dátové sady obsahujú informácie o kriminalite v ČR podľa jednotlivých regiónov a je ich možné nájsť na stránke *http://www.mapakriminality.cz/data*

## Python a moduly
Pre úspešné dokončenie tohto cvičenia je potrebné nainštalovať Python 3+ (preferovane 3.5.+ -- pokiaľ ho ešte nemáte nainštalovaný spravte tak stiahnutím inštalačného balíčka zo stránky *https://www.pythong.org*). Alternatívne si môžete stiahnuť distribúciu Pythnu pod názvom Anaconda (*https://www.continuum.io/downloads*), ktorá obsahuje množstvo užitočných modulov, ktoré sa hodia na prácu s dátami.

Po úspešnom nainštalovaní Pythnu si stiahnite modul Plotly. Otvorte príkazovú riadku (terminál alebo konzolu, podľa OS) a zadajte príkaz:

`pip install plotly`

Tento príkaz môže byť spustený v ľubovoľnom adresáry.

## Prehľad zložky
V zložke *kriminalita* môžete nájsť súbor *clean_data_initial.ipynb*, ktoré obsahuje zákaldnú šablónu ktorú budeme dopĺňať. Nájdete tu tiež súbor *clean_data_final.ipynb*, ktoré obsahuje finálnu verziu cvičenia. Notebook *data_cleaning_pandas.ipynb* obsahuje, len pre zaujímavosť, spôsob práce s dátami za použitia modulu Pandas. V zložke */data* nájdete datasety, s ktorými budeme pracovať.

## Dáta
Naše dáta sú uložené v zákaldom CSV súbore, ktorý používa znak čiark (,) ako separátor medzi údajmi. Každý súbor odpovedá jednej územnej jednotke. Každý riadok obsahuje informácie o určitom časovom období (jeden mesiac) v rozmedzí od 1-2013 po 12-2016. Niektoré z údajov sú nekompletné (obsahujú stĺpce s hodnotou 0, ktorá je v kontexte nevalídna). Našou úlohou bude vytiahnuť z tohto súboru len tie dáta, ktoré nás budú zaujímať (špecifický stĺpec pre všetky CSV v zložke)

## Jupyter Notebook
Jupyter Notebook je jednoduchý nástroj, ktorý umožňuje rýchle prototypovanie pomocou Pythnu. Na spustenie jednotlivých buniek použite možnosť *Cells->Run Cells*, tlačidlo *run cell, select below* alebo klávesovú skraktu *ctrl + enter*

In [None]:
# IMPORTS
import csv
import glob
import plotly as py
import plotly.graph_objs as go

In [None]:
# Variables
csv_file = 'data//crimes-0100-101-903-120-167.csv'
ROW_NAMES = ["Index Kriminality","Zjištěno","Objasněno- Počet","Objasněno- Dodatečně", \
 "Stíháno, Vyšetřováno Osob - Mladiství 15-17 Let","Stíháno, Vyšetřováno Osob - Recidivisté", \
 "Stíháno, Vyšetřováno Osob - Celkem","Stíháno, Vyšetřováno Osob - Nezletilí 1-14 Let", \
 "Stíháno, Vyšetřováno Osob - Ženy","Spácháno Skutků - Mladiství 15-17 Let", \
 "Spácháno Skutků - Z Toho Alkohol","Spácháno Skutků - Pod Vlivem",\
 "Spácháno Skutků - Recidivisté","Spácháno Skutků - Nezletilí 1-14 Let",\
 "Škody V Tis. Kč - Zajištěno","Škody V Tis. Kč - Celkem","Časová Jednotka",\
 "Kód úz.jednotky","Název úz.jednotky","Počet Obyv. úz. Jednotky"]

USED_ROW_NAME = 'Zjištěno'
TIMESTAMP_NAME = "Časová Jednotka"

Najprv potrebujeme načítať dáta z CSV súboru. Python ponúka metódu `open()` pre otvorenie súboru a modul `csv` pre čítanie CSV súborov. Použijeme tento kód na načítanie dát:

```
# Open CSV file for reading, uses ',' for delimiter
 with open(file_path, 'r', encoding='utf-8') as csvfile:
 reader = csv.reader(csvfile)

 # Prints CSV data to console
 for row in reader:
 print(','.join(row))
```

Alternatívne môžte použiť metódu `csv.DictReader()` ktorej výstupom je slovník.

**TASK:** Vašou úlohou je uložiť jednotlivé riadky CSV do dátovej štruktúry a vrátiť ich ako výstup metódy

**TASK 2:** Metódy v Pythne dokážu vraciať niekoľko hodnôt. Prepíšte metódu tak, aby vracala 2 hodnoty -- hlavičku CSV a dáta. Na zísaknie hlavičky môžte použiť napríklad built-in metódu `next()`

In [None]:
def load_csv_file(file_path):
 """
 Loads CSV file and returns two variables, header and values
 """
 # Open CSV file for reading, uses ',' for delimiter
 pass
 
 # TASK: RETURN VALUE OF LOADED FILE AS 
 # TWO VARIABLES HEADER AND DATA (take a look at next() method)


In [None]:
data = load_csv_file(csv_file)
data
#header, data = load_csv_file(csv_file)

Teraz keď vieme načítať hodnoty z jedného CSV súboru, budeme potrebovať metódu, ktorá nám získa všetky súbory v adresáry. 

**TASK : ** Implementujte funkcionalitu metódy `get_all_files_in_dir()`, vyhľadajte si modul `glob` ktorý by vám mal pomôcť.

In [None]:
def get_all_files_in_dir(path):
 """
 Get all CSV files in the directory 
 and returns them as a list of urls
 """
 
 # TASK: IMPLEMENT FUNCTIONALITY, LOOK INTO glob MODULE
 pass
 

In [None]:
get_all_files_in_dir('data')

Naším ďalším krokom je získať iba tie stĺpce, ktoré nás zaujímajú.

```
 row_index = row_names.index(name)
 final_data = []
 for row in data:
 final_data.append(row[row_index])
 
 return final_data
```

In [None]:
def get_row_value(data, name, row_names):
 """
 Takes loaded CSV file, name of the row we want to display and
 list of row names. Returns list containing filtered values
 """
 pass
 

In [None]:
# We will be ordering data based on timestamps, so first get timestamps
timestamps = get_row_value(data, TIMESTAMP_NAME, header)
row = get_row_value(data, USED_ROW_NAME, header)
timestamps

Uistíme sa, že naše dáta obsahujú len dáta, ktoré pre nás majú význam. V našom datasete sa nachádzajú hodnoty, o ktorých z kontextu vieme povedať, že nie sú správné. Tieto bunky obsahujú hodnotu 0. Avšak existujú aj bunky, v ktorých je hodnota 0 správna. Preto si musíme dať pozor na to, ktoré stĺpce filtrujeme a volať túto metódu len na stĺpcoch o ktorých máme dostatok informácií.

```
 cleared_data = dict()
 
 for i in range(len(data_row)):
 # Values in file are strings
 if data_row[i] != '0':
 cleared_data[timestamps[i]] = data_row[i]
 
 return cleared_data
```

**TASK: ** Existuje lepší spôsob, ako tieto dáta nazahrnúť do výpočtu? 

*Poznámka:* Konštrukt `for i in range(len(data_row))` sa nepovažuje v Pythne za dobrý kód, pokiaľ by vás zaujímalo, ako na to ísť lepšie pozrite sa na metódu `zip()`.

In [None]:
def clean_data(data_row, timestamps):
 """
 Clears data getting rid of lines which are
 equal to 0. Make sure the data which are lost 
 were noise and were not supposed to be 0.
 Returns dictionary using timestamp as key and value as value.
 """
 pass


In [None]:
cleaned_row = clean_data(row, timestamps)
cleaned_row

In [None]:
sorted(cleaned_row.keys())

Môžete si všímnúť, že použitím built-in metódy `sorted()`, ktorá nám zoradí kľúče dostávame zoradený list, avšak nie spôsobom, akým by sme chceli. Naše dáta by mali byť zoradené podľa roku, až potom podľa mesiacov. Potrebujeme teda zmeniť formát dátumu.

```
 result = []

 for time in times:
 split_res = time.split('-')
 
 # To get the sorting right
 if int(split_res[0]) < 10:
 split_res[0] = '0' + split_res[0]
 
 result.append(split_res[1] + '-' + split_res[0])

 return result 
```

In [None]:
def change_time_format(times):
 """
 Changes time format from M-YYYY
 to YYYY-MM more suited for sorting.
 Returns result as a new list containing new formats
 """
 pass


A pre vytvorenie nového slovníka s časom v správnom formáte.

```
 k = list(data.keys())
 changed_times = change_time_format(k)
 final_dict = dict()
 
 for i in range(len(k)):
 final_dict[changed_times[i]] = data[k[i]]
 
 return final_dict
```

In [None]:
def change_dataset_time(data):
 """
 Change time format from M-YYYY 
 into YYYY-MM, more suitable for sorting
 and returns new dictionary containing dates with new keys
 """
 pass

In [None]:
cleaned_data_time_changed = change_dataset_time(cleaned_row)
cleaned_data_time_changed

Po prečístení výsledkov budeme potrebovať dáta znova uložiť (napr. ako CSV). Metóda bude brať naše dáta, názov riadku, cestu kam budeme chcieť dáta uložiť a dobrovoľný parameter, podľa toho, či budeme chcieť, aby sa naše dáta pred uložením zoradili, alebo nie.

```
 keys = data.keys()
 
 with open(file_name, 'w', encoding='utf-8') as csvfile:
 writer = csv.writer(csvfile)
 
 writer.writerow(['' , row_name])
 
 for row_key in keys:
 writer.writerow([row_key, data[row_key]])
```

**TASK:** Implementujte funkcionalitu metódy tak, aby zoradila výsledky predtým, ako ich exportuje, pokiaľ je parameter `sort` nastavený na True.

**TASK 2 (optional):** Implementujte funkcionalitu tak, aby metóda brala list hodnôt a uložila ich do CSV súboru, s tým, že názov stĺpca bude názov odpovedajúcej územnej jednotky. 

In [None]:
# TASK: CHANGE FUNCTION TO TAKE DATA FROM ALL CSV FILES
def export_as_csv_file(data, row_name, file_name, sort = True):
 """
 Takes data in a single row and the name of the row 
 and exports it as csv file. Note that 'data' variable
 has to be passed as dictionary
 """ 
 # TASK: MAKE CSV ORDER BASED ON DATE (FIRST YEAR THEN MONTH)
 pass
 

In [None]:
# Be sure to pass dictionary with cleaned data, not raw data list
#export_as_csv_file(cleaned_row, USED_ROW_NAME, 'cleaned_data.csv', False)

# TO EXPORT ORDERED DATA USE VARIABLE 'cleaned_data_time_changed'
export_as_csv_file(cleaned_data_time_changed, USED_ROW_NAME, 'cleaned_data.csv', True)

Použijeme modul Plotly na to, aby sme vytvorili jednoduchý Bar graph, ktorý bude zobrazovať naše hodnoty v jednotlivých časových obdobiach. Najjednoduchšia implementácia potrebuje dáta, ktoré ma zobraziť na X a Y osách. Preto je potrebné tieto informácie získať ako 2 listy.

```
 k = sorted(data.keys())
 names = []
 values = []
 
 for key in k:
 names.append(key)
 values.append(data[key])
 
 return names, values
```

In [None]:
def prepare_graph_data(data):
 """
 Splits data passed as dictionary into names
 and values, makes sure that values are sorted
 """
 pass

Získané dáta potom použijeme na vykreslenie grafu.

```
 graph_data = [go.Bar(
 x= names,
 y= values
 )]

 py.offline.plot(graph_data)
```

**TASK:** Pozrite sa na dokumentáciu Plotly a vyskúšajte si vylepšiť vzhľad grafu: *https://plot.ly/python/bar-charts/*

In [None]:
def draw_graph(names, values):
 """
 Draws a simple bar graph which will display
 data passed into the method
 """
 
 # TASK: Take a look at: https://plot.ly/python/bar-charts/
 # and try out more options
 pass

In [None]:
graph_names, graph_values = prepare_graph_data(cleaned_data_time_changed)
draw_graph(graph_names, graph_values)