Ukládání dat biodiverzity a jejich vizualizace Jiří Jarkovský, Danka Haruštiaková Institut biostatistiky a analýz, Masarykova univerzita, 2014 II-S1. Ukládání dat http://www.ustr.gov/sites/default/files/trade-data.jpg Parametry (znaky) DATA – ukázka uspořádání datového souboru •Správné a přehledné uložení dat je základem jejich pozdější analýzy •Je vhodné rozmyslet si předem jak budou data ukládána •Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě •Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky •Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce •Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.) •Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty •Komentáře jsou uloženy v samostatných sloupcích •U textových dat nezbytné kontrolovat překlepy v názvech kategorií •Specifickým typem dat jsou datumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu • •Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku •Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office Zásady pro ukládání dat Ukládání dat v MS Office •MS Excel :Kontingenční tabulky – rychlá sumarizace rozsáhlých tabulek :Možnost výpočtů a grafových výstupů přímo v aplikaci :Visual Basic – složitější aplikace –Omezení tabulky na 256x65536 buněk (do verze 2003) –Omezená kontrola chyb při zadávání • •MS Access :Plnohodnotná databáze vhodná pro velké množství dat, řádky omezeny v podstatě jen dostupnou pamětí :Kontrola typu dat :Relace tabulek – omezení velikosti souboru :Visual Basic a formuláře – složitější aplikace –Omezení tabulky na 255 sloupců –Výpočty a grafy jsou složitější než v Excelu • excel_hero access_hero Možnosti MS Excel • Správa a práce s tabulárními daty • Řazení dat, výběry z dat, přehledy dat • Formátování a přehledné zobrazení dat • Zobrazení dat ve formě grafů • Různé druhy výpočtů pomocí zabudovaných funkcí • Tvorba tiskových sestav • Makra – zautomatizování častých činností • Tvorba aplikací (Visual Basic for Aplications) • Import a export dat •Import dat •Manuální zadávání • import – podpora importu ze starších verzí Excelu, textových souborů, databází apod. • kopírování přes schránku Windows – vkládání z nejrůznějších aplikací – MS Office, Statistica atd. • využití textových souborů jako kompatibilního formátu pro přenos dat mezi různými aplikacemi • •Export dat •Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu •Přímé kopírování přes schránku Windows • Tipy a triky •Výběr buněk •CTRL+A – výběr celého listu •CTRL + klepnutí myší do buňky – výběr jednotlivých buněk •SHIFT + klepnutí myší na jinou buňku – výběr bloku buněk •SHIFT + šipky – výběr sousedních buněk ve směru šipky •SHIFT+CTRL+END (HOME) – výběr do konce (začátku) oblasti dat v listu •SHIFT+CTRL+šipky – výběr souvislého řádku nebo sloupce buněk •SHIFT + klepnutí na objekty – výběr více objektů • Kopírování a vkládání •CTRL+C – zkopírování označené oblasti buněk •CTRL+V – vložení obsahu schránky – oblast buněk, objekt, data z jiné aplikace •Myš a okraje buňky •Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk • • • • •Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu – např. po sobě jsoucí názvy měsíců. • Databázová struktura dat v Excelu Jednotlivé záznamy (taxon, lokalita atd.) Sloupce tabulky = parametry záznamů, hlavička udává obsah sloupce – stejný údaj v celém sloupci Automatický zadávací formulář •Slouží k usnadnění zadávání dat do databázových tabulek •Načítá automaticky hlavičky sloupců jako zadávané položky Názvy sloupců Obsah dané buňky - editovatelný Nový záznam Vyhledávání Automatické seznamy •Vytváří se z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již zadaných hodnot – usnadnění zadávání • Sloupec z nějž je seznam vytvořen a pro který platí Buňka, do níž se vloží vybraná hodnota Automatická kontrola dat •Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce databázové tabulky Co je povoleno – definiční obory čísel, seznamy, vzorce atd. Rozsahy hodnot, načtení seznamů apod. komunikace s uživatelem Seznamy •Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování dat moznosti1 Výběr buněk pro nový seznam Načtení nového seznamu Existující seznamy Řazení dat •Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek • • Zkontrolujte, zda seřazení nezničí vazby mezi buňkami = kontrola oblasti, kterou řadíte. • Využít první řádek oblasti jako záhlaví Další možnosti – řazení řádků, řazení podle seznamu Podle čeho řadit Směr řazení – vzestupně, sestupně Automatický filtr •Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů) •Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk •U sloupců použitých pro filtraci jsou rozbalovací seznamy zbarveny modře •Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel) Výběr hodnot pro filtraci Rozbalení seznamu hodnot nalezených ve sloupci III. Vizualizace biodiverzitních dat http://images.pingmag.jp/images/title/infostehtics02.jpg Species abundance curves ? Zobrazení křivky společenstva •Různé metody zobrazení – různé pohledy na společenstvo •Jednoduché optické srovnání různých společenstev nebo modelových průběhů společenstev •Jednoduchá tvorba v Excelu • Četnost druhů •Četnost druhů s danou abundancí je vynášena proti hodnotám nalezených abundancí. Graf poskytuje uživateli přehled o rozložení vzácných, středně početných a hojně se vyskytujících druhů. Rank abundance plot •Graf zobrazuje abundanci druhů seřazených podle této abundance. Poskytuje uživateli přehled o tvaru společenstva – vyrovnanost abundancí, přítomnost „ocásku“ vzácných druhů apod. Graf kategorií abundance •Je obdobou grafu četnosti druhů s určitou abundancí, namísto konkrétních hodnot zde jsou ale třídy abundance a četnost druhů k nim náležejícící. Opět umožňuje sledovat relativní podíly vzácných a hojných druhů. Ve formě početnosti druhů v log třídách abundance jsou generovány výsledky některých species abundance models. K- dominance plot •Tento graf vynáší kumulativní abundanci druhů proti logaritmu druhové řady. Může být využit pro optické srovnání diverzity různých vzorků Kumulativní počet druhů •Graf vynáší kumulativní počet druhů proti ose jejich logaritmované abundance. Graf slouží jako doplněk k výpočtu Q statistiky, který je založen na obdobně uspořádaných datech. Zobrazuje strmost narůstání počtu druhů se stoupající abundancí. Rootgram Rootgram -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0 10 20 30 5 15 Pb 25 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 0 20 80 40 Zn 60 Grafická diagnostika rozložení Hanging Histobars. Hanging Histobars. 0 -0, 05 0 0,1 -0,1 0,2 -50 10 20 Pb 30 0,05 0,15 0 -0,28 -0,8 0,12 -0,48 0,32 -50 -10 10 30 Zn 50 70 90 Grafická diagnostika rozložení Normal Probability Plot Normal Probability Plot 5 20 80 1 99 50 95 0,1 0 20 40 Zn 60 99,9 80 5 20 80 1 99 50 95 0,1 0 10 20 Pb 30 5 15 25 99,9 Grafická diagnostika rozložení 0,1 0,15 0,05 0,2 0,25 0 10 20 Pb 25 0,3 30 5 15 0,2 0,4 0,6 0 20 40 Zn 60 0,8 80 Frequency Histogram Frequency Histogram Grafická diagnostika rozložení