Autor, Název akce Databázové systémy a SQL Lekce 7 – Statistické funkce Daniel Klimeš Autor, Název akce Kovariance, korelace Daniel Klimeš, Databázové systémy a SQL SELECT COVAR_POP(hmotnost.value, vyska.value) kovariance_pop, COVAR_SAMP(hmotnost.value, vyska.value) kovariance_sample, CORR(hmotnost.value, vyska.value) pearson, CORR_S(hmotnost.value, vyska.value) spearman FROM eav_real hmotnost, eav_real vyska WHERE hmotnost.question_id = 6081 AND vyska.question_id = 6083 AND hmotnost.subheader_id = vyska.subheader_id 59,276 59,588 0,4799 0,4952 • COVAR_POP – Kovariance populační • COVAR_SAMP – Kovariance vzorková • CORR - Pearsonův korelační koeficient • CORR_S - Spearmanův koeficient • CORR_K - Kendallův koeficient) • Autor, Název akce Lineární regrese Daniel Klimeš, Databázové systémy a SQL CREATE table regr_test as SELECT ROWNUM x, 3*ROWNUM +5 y FROM questions WHERE ROWNUM < 50 SELECT REGR_SLOPE (y, x), REGR_INTERCEPT (y, x) FROM regr_test SELECT REGR_SLOPE (hmotnost.value, vyska.value), REGR_INTERCEPT (hmotnost.value, vyska.value) FROM eav_real hmotnost, eav_real vyska WHERE hmotnost.question_id = 6081 AND vyska.question_id = 6083 AND hmotnost.subheader_id = vyska.subheader_id Linear regression.svg Y = βx + α Autor, Název akce ORACLE – statistické funkce Daniel Klimeš, Databázové systémy a SQL • Statistické testy • STATS_BINOMIAL_TEST - binomický test • STATS_CROSSTAB – kontingenční tabulka • STATS_F_TEST – F test • STATS_KS_TEST - Kolmogorov-Smirnov test • STATS_MODE - modus • STATS_MW_TEST - Mann Whitney test • STATS_ONE_WAY_ANOVA - ANOVA • STATS_T_TEST_* - varianty T testu • STATS_WSR_TEST - Wilcoxon Signed Ranks test • • Autor, Název akce Statistické testy Daniel Klimeš, Databázové systémy a SQL SELECT AVG(hmotnost.value) prumer, STATS_T_TEST_ONE (hmotnost.value, 72, 'TWO_SIDED_SIG') two_side, STATS_T_TEST_ONE (hmotnost.value, 72, 'ONE_SIDED_SIG') one_side, STATS_T_TEST_ONE (hmotnost.value, 72, 'DF') df FROM eav_real hmotnost, eav_real vyska WHERE hmotnost.question_id = 6081 AND vyska.question_id = 6083 • Jednovzorkové (one sample) • Párové uspořádání • Nepárové (nezávislé) uspořádání • Výstupní hodnoty testu Autor, Název akce Párové testy Daniel Klimeš, Databázové systémy a SQL • Parametr měřený před a po zásahu (léčba) SELECT STATS_T_TEST_PAIRED (pred.value, po.value, 'TWO_SIDED_SIG'), AVG(pred.value), AVG(po.value) FROM eav_real pred, eav_real po WHERE pred.question_id = 917 AND po.question_id = 918 AND pred.subheader_id = po.subheader_id AND ROWNUM <= 100 Autor, Název akce Test nezávislých výběrů Daniel Klimeš, Databázové systémy a SQL SELECT STATS_T_TEST_INDEP (sex, sysdate – date_of_birth, 'TWO_SIDED_SIG') two_side, STATS_T_TEST_INDEP (sex, sysdate – date_of_birth 'DF') df, STATS_T_TEST_INDEPU (sex, sysdate – date_of_birth 'TWO_SIDED_SIG') two_side_u, STATS_T_TEST_INDEPU (sex, sysdate – date_of_birth 'DF') df_u FROM patients WHERE sex IN (‘F’,’M’) and date_of_birth IS NOT NULL • Data měřená na dvou nezávislých vzorcích Autor, Název akce ANOVA Daniel Klimeš, Databázové systémy a SQL • porovnání více než 2 vzorků • analyzujeme účinek jednoho faktoru na zkoumanou proměnnou SELECT STATS_ONE_WAY_ANOVA(riziko.value, delka_hosp.value, 'F_RATIO') f_ratio, STATS_ONE_WAY_ANOVA(riziko.value, delka_hosp.value, 'SIG') p_value FROM eav_real delak_hosp, eav_int riziko, event_subheader es_hosp, event_subheader es_riz WHERE delka_hosp.question_id = 3482 AND es_hosp.subheader_id = delka_hosp.subheader_id AND es_riz.subheader_id = riziko.subheader_id AND riziko.question_id = 3442 and es_riz.header_uid = es_hosp.header_uid Autor, Název akce Cvičení Daniel Klimeš, Databázové systémy a SQL •Zjistěte průměrnou hodnotu, minumum , maximum otázky XY •Vypište věk pacientů při zařazení do studie XY, zvlášť muži, ženy •Vypište hodnotu otázky XY pro všechny pacienty (včetně nevyplněných) •Jaký je průměrný počet vyplněných formulářů na pacienta u studie XY • Vypište seznam otázek, které nebyly dosud nikdy vyplněny • Vypište počty žen a mužů zařazených v jednotlivých studiích