Transformácia a štandardizácia dát Podzim 2009 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Úvod ♦ Niektoré mnohorozmerné metódy nevyžadujú normálne rozdelenie dát, prípadne sú dostatočne robustné vo vzťahu k odchýlkam od normálneho rozdelenia dát (napr. zhluková analýza). ♦ Iné metódy mnohorozmerné normálne rozdelenie dát vyžadujú (napr. diskriminačná analýza). ♦ Transformáciou sa dá niekedy rozdelenie dát priblížiť k normálnemu rozdeleniu. 100 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 Biologický uhlík 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 Biologický uhlík Logaritmus Transformácia Transformácia je možná niekoľkými spôsobmi. K transformácii sa používajú konštanty a funkcie nezávislé na analyzovaných dátach. Väčšina transformácií, ktoré sa používajú, sú nelineárne transformácie. Tieto transformácie menia štruktúru dát. Lineárne transformácie (v ekológii napr. násobenie abundancií druhu konštantou) nemenia výsledky analýzy ak sa aplikujú na všetky premenné (druhy). Ak sa však takouto transformáciou upravia hodnoty jedného druhu, dôjde k jeho váženiu. cm o ^, (M fO t ■u "U "U "U ■u -o -o -o vzorka 1 vzorka 2 vzorka 3 vzorka 4 vzorka 5 vzorka 6 vzorka 1 vzorka 2 vzorka 3 vzorka 4 vzorka 5 vzorka 6 Logaritmická transformácia x?.. = log X 'v ij ídc alebo, ak sú prítomné nuly 0.8 0.6 Predpokladá, že dáta sú merané 0.4 v intervale <0,1>. U.z n n ( ) 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 X POUŽITIE ♦ Používa sa na úpravu percentuálnych hodnôt, vyjadrených v intervale <0,1> (napr. pokryvnosti vegetačných druhov). Exponenciálna transformácia Jí • • — Cl u 10000 8000 6000 4000 2000 0123456789 X Ak a je reálne číslo väčšie ako 1, sú zvýraznené dominantné druhy. Transformácia na ordinálnu škálu Abundancie druhov prevedené do tried. Čím vyššie je číslo triedy, tým vyššia je abundancia. Typickou transformáciou na ordinálnu škálu je použitie Braun-Blanquetovej stupnice pri kvantifikovaní pokryvnosti vegetácie. Extrémom je binarizácia - transformácia na prezenciu a absenciu. > 3 0 10 20 30 40 50 60 70 80 90 100 X x'.. = 0 ak x. = 0 x\.. = 1 ak x.. > 0 ♦ Ak sú k dispozícii spojité dáta, je vhodnejšia akákoľvek iná transformácia. ♦ Je však výhodné zbierať dáta v teréne na ordinálnej škále (v botanike). Štandardizácia ♦ Ku štandardizácii sa používajú štatistiky odvodené z analyzovaného súboru dát (rozpätie, směrodatná odchýlka, priemer, maximum atď.). Znaky sa týmto postupom prevádzajú na rovnaké merítko (čiže prestáva záležať na skutočnom rozmere príslušného znaku). ♦ Existuje viacero spôsobov štandardizácie dát a dôvody na ich použitie sú rôzne. ♦ Štandardizácia: použitie určitého štandardu pre všetky premenné (druhy) alebo objekty (vzorky, lokality) pred vypočítaním (ne)podobností alebo pred aplikovaním zhlukovej analýzy. Štandardizácia na celkovú abundanciu vzorky ♦ Abundancie druhov vo vzorke sa spočítajú a každá abundancia je vydelená týmto súčtom. Takto sa určia relatívne abundancie (dominancia) druhov. ♦ Je potrebné používať túto štandardizáciu opatrne ak sú súčty abundancií vo vzorkách veľmi rozdielne, pretože vzácne druhy a objavujú až vo vzorkách s vysokým počtom jedincov. •Ä/ • • ! _ V y z X y Štandardizácia na celkovú abundanciu druhu ♦ Pre každý druh sú spočítané abundancie cez všetky vzorky a potom sú vydelené celkovou sumou. ♦ Táto štandardizácia silne nadváži vzácne druhy a podváži bežné druhy. Preto sa táto štandardizácia odporúča len vtedy, ak sa frekvencie druhov v tabuľke veľmi nelíšia. ♦ Býva používaná v prípadoch, ak sa v zozname druhov vyskytujú rôzne trofické úrovne, pretože vyššie trofické úrovne sú menej zastúpené. x.. jc'..= J y z x j ,J Štandardizácia na maximum vzorky ♦ Všetky abundancie druhov sú vydelené maximálnou abundanciou dosiahnutou nejakým druhom vo vzorke. ♦ Táto štandardizácia je aplikovaná z rovnakého dôvodu ako štandardizácia na celkovú abundanciu vo vzorke. ♦ Je menej citlivá na počet druhov, ale je potrebné používať ju opatrne v prípadoch ak sú veľké rozdiely vo vyrovnanosti vzoriek. x.. u maxz.{x.} Štandardizácia na maximum druhu ♦ Táto štandardizácia je odporúčaná podobne ako štandardizácia na celkovú abundanciu druhu, ak sú prítomné rôzne trofické úrovne. X x'..= u max .{x,.} j ^ y Štandardizácia na jednotkovú dĺžku vektora vzorky ♦ Vydělením abundancie druhu na vzorke odmocninou sumy štvorcov abundancií sa všetky vektory vzoriek zobrazia na jednotkovej kružnici druhového priestoru. ♦ Euklidovské vzdialenosti sa touto štandardizáciou redukujú na tětivové vzdialenosti (cord distance).