© Institut biostatistiky a analýz
Analýza a klasifikace dat –
přednáška 6
RNDr. Eva Koriťáková, Ph.D.
Podzim 2018
Hodnocení úspěšnosti klasifikace
a srovnání klasifikátorů
2Koriťáková: Analýza a klasifikace dat
Hodnocení úspěšnosti klasifikace - úvod
3Koriťáková: Analýza a klasifikace dat
Subjekt
voxel
1
voxel
2
voxel
3
...
Skutečnost
(správná
třída)
1 pacient
2 pacient
3 pacient
4 kontrola
5 kontrola
6 kontrola
pacient
pacient
kontrola
kontrola
pacient
kontrola
Vstupní data Výsledek
klasifikace
Jak dobrá je klasifikační metoda, kterou jsme použili?
Hodnocení úspěšnosti klasifikace
4Koriťáková: Analýza a klasifikace dat
Skutečnost (správná třída)
Pacienti (+) Kontroly (-)
Výsledek
klasifikace
Pacienti (+) TP FP
Kontroly (-) FN TN
Matice záměn (konfusní matice, confusion matrix):
TP („true positive“) – kolik výsledků bylo skutečně pozitivních
(tzn. kolik pacientů bylo správně diagnostikováno jako pacienti).
FP („false positive“) – kolik výsledků bylo falešně pozitivních
(tzn. kolik zdravých lidí bylo chybně diagnostikováno jako pacienti).
FN („false negative“) – kolik výsledků bylo falešně negativních
(tzn. kolik pacientů bylo chybně diagnostikováno jako zdraví).
TN („true negative“) – kolik výsledků bylo skutečně negativních
(tzn. kolik zdravých lidí bylo správně diagnostikováno jako zdraví).
Hodnocení úspěšnosti klasifikace
5Koriťáková: Analýza a klasifikace dat
Skutečnost
(správná třída)
Pacienti
(+)
Kontroly
(-)
Výsledek
klasifikace
Pacienti
(+)
TP FP
Kontroly
(-)
FN TN
TP+FN FP+TN
Senzitivita
(sensitivity)
Specificita
(specificity)
TP / (TP+FN) TN / (FP+TN)
Celková správnost (accuracy): (TP+TN)/(TP+FP+FN+TN)
Chyba (error): (FP+FN)/(TP+FP+FN+TN)
Příklad – klasifikace pomocí FLDA
6Koriťáková: Analýza a klasifikace dat
Subjekt Skuteč-
nost
Výsledek
LDA
1 P P
2 P P
3 P K
4 K K
5 K P
6 K K
Výsledek
klasifikace
Skutečnost (správná třída)
Pacienti (+) Kontroly (-)
Pacienti (+) TP=2 FP=1
Kontroly (-) FN=1 TN=2
Senzitivita: TP/(TP+FN)=2/(2+1)=0,67
Specificita: TN/(FP+TN)=2/(1+2)=0,67
Správnost: (TP+TN)/(TP+FP+FN+TN)=(2+2)/(2+1+1+2)=0,67
Chyba: (FP+FN)/(TP+FP+FN+TN)=(1+1)/(2+1+1+2)=0,33
   







 



N
PP
P
N
PP
P AA
A
AA
A
ˆ1ˆ
96,1ˆ;
ˆ1ˆ
96,1ˆ
Intervaly spolehlivosti pro celkovou správnost
• celková správnost:
𝑇𝑃+𝑇𝑁
𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁
7Koriťáková: Analýza a klasifikace dat
• z toho plyne: ෠𝑃𝐴 =
𝑁 𝑐𝑜𝑟
𝑁
(tedy 𝑁𝑐𝑜𝑟~𝐵𝑖(𝑁, 𝑃𝐴))
• za splnění předpokladů, že ෠𝑃𝐴 ∙ 𝑁 > 5, 1 − ෠𝑃𝐴 ∙ 𝑁 > 5 a 𝑁 > 30, lze
spočítat 95% interval spolehlivosti pro správnost pomocí aproximace na
normální rozdělení:
Příklad – pokračování
8Koriťáková: Analýza a klasifikace dat
 00,1;29,0
   







 



N
PP
P
N
PP
P AA
A
AA
A
ˆ1ˆ
96,1ˆ;
ˆ1ˆ
96,1ˆ
   





 



6
66,0166,0
96,166,0;
6
66,0166,0
96,166,0
IS pro správnost:
Správnost: (TP+TN)/(TP+FP+FN+TN) = 0,67
Trénovací a testovací data
9Koriťáková: Analýza a klasifikace dat
4. křížová validace (cross validation)
‐ k-násobná (k-fold)
‐ „odlož-jeden-mimo“ (leave-one-out, jackknife)
1. resubstituce
2. náhodný výběr s opakováním (bootstrap)
3. predikční testování externí validací (hold-out)
1. resubstituce
10Koriťáková: Analýza a klasifikace dat
• stejná trénovací a testovací množina
• výhody:
+ jednoduché
+ rychlé
• nevýhody:
- příliš optimistické výsledky!!!
2. náhodný výběr s opakováním (bootstrap)
11Koriťáková: Analýza a klasifikace dat
• náhodně vybereme N subjektů s opakováním jako trénovací data (tzn.
subjekty se v trénovací sadě mohou opakovat) a zbylé subjekty (ani
jednou nevybrané) použijeme jako testovací data
• pro rozumně velká data se vybere zhruba 63,2% subjektů pro učení a
36,8% subjektů pro testování
• trénování a testování se provede jen jednou
• výhody:
+ velká trénovací sada
+ rychlé
• nevýhody:
- data se v trénovací sadě opakují
- výsledek vcelku závislý na výběru trénovacích dat
3. predikční testování externí validací (hold-out)
12Koriťáková: Analýza a klasifikace dat
• použití části dat (většinou dvou třetin) na trénování
a zbytku dat (třetiny) na testování
• výhody:
+ nezávislá trénovací a testovací sada
• nevýhody:
- méně dat pro trénování i testování
- výsledek velmi závislý na výběru trénovacích dat
trénovací
data
testovací
data
3. predikční testování externí validací (hold-out) –
modifikace 1
13Koriťáková: Analýza a klasifikace dat
• použití části dat (obvykle poloviny)
pro trénování a zbytku (poloviny)
pro testování a následné přehození
testovací a trénovací sady → zprůměrování
2 výsledků klasifikace
• výhody:
+ nezávislá trénovací a testovací sada
• nevýhody:
- při malých souborech může být polovina dat pro trénování příliš málo
- výsledek velmi závislý na výběru trénovacích dat (i když trochu méně
než předtím)
trénovací
data
testovací
data
testovací
data
trénovací
data
3. predikční testování externí validací (hold-out) –
modifikace 2
14Koriťáková: Analýza a klasifikace dat
• r-krát náhodně rozdělíme soubor na trénovací a testovací data (většinou dvě
třetiny pro trénování a třetinu pro testování) a r výsledků zprůměrujeme
• výhody:
+ poměrně přesný odhad úspěšnosti klasifikace
• nevýhody:
- trénovací i testovací sady se překrývají
- časově náročné
trénovací
data
testovací
data
iterace 1 iterace 2 iterace 3 iterace 4 iterace r...
15Koriťáková: Analýza a klasifikace dat
• používán též název příčná validace
• rozdělení souboru na k částí, 1 část použita na testování a zbylých k-1 částí
na trénování → postup se opakuje (všechny části 1x použity pro testování)
• speciálním případem je „odlož-jeden-mimo“ (leave-one-out) CV (pro k=N)
• výhody:
+ testovací sady se nepřekrývají
+ poměrně přesný odhad úspěšnosti klasifikace
• nevýhody:
- časově náročné
4. k-násobná křížová validace (k-fold cross validation)
testování
trénování
trénování
trénování
trénování
např.
pro
k=5:
iterace 1 iterace 2 iterace 3 iterace 4 iterace 5
trénování
testování
trénování
trénování
trénování
trénování
trénování
testování
trénování
trénování
trénování
trénování
trénování
testování
trénování
trénování
trénování
trénování
trénování
testování
„odlož-jeden-mimo“ křížová validace
• platí výhody a nevýhody zmíněné u k-násobné křížové validace se čtyřmi
komentáři:
‐ časově nejnáročnější ze všech možných k
‐ velmi vhodná pro malé soubory dat
‐ na rozdíl od jakékoliv k-fold CV dostaneme vždy pouze jeden
výsledek úspěšnosti (tzn. výsledek úspěšnosti nezávisí na tom, jak
se jednotlivé subjekty „namíchají“ do jednotlivých skupin)
‐ v některých článcích se uvádí, že lehce nadhodnocuje úspěšnost →
doporučuje se 10-násobná křížová validace
16
• anglický překlad: leave-one-out (nebo jackknife)
• pro k=N (tzn. v každé z N iterací je jeden subjekt použit na testování a
zbylých N-1 subjektů na trénování)
Koriťáková: Analýza a klasifikace dat
Příklad - „odlož-jeden-mimo“ křížová validace
17Koriťáková: Analýza a klasifikace dat
pacient kontrola kontrola kontrola pacient kontrola
1
2
3
4
5
6
iter. 1 iter. 2 iter. 3 iter. 4 iter. 5 iter. 6
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
1
2
3
4
5
6
Skutečnost: pacient pacient pacient kontrola kontrola kontrola
Výsledek
klasifikace
Skutečnost
pac. kont.
pacient TP=1 FP=1
kontrola FN=2 TN=2
Iterace:
Výsledek
klasifikace:
pacient kontrola kontrola kontrola pacient kontrola
Senzitivita: 1/(1+2)=0,33
Specificita: 2/(1+2)=0,67
Správnost: (1+2)/(1+1+2+2)=0,50
Chyba: (1+2)/(1+1+2+2)=0,50
Upozornění !!!
18
Postup 1 je nesprávný, je potřebné rozdělit soubor na trénovací a testovací ještě
před redukcí dat, jinak dostaneme nadhodnocené výsledky!!!
Data
Předzpra-
cování
Redukce
Klasifikace
Trénovací
data
Testovací
data
Naučení
klasifikátoru
Data
Předzpra-
cování
Redukce
Klasifikace
Trénovací
data
Testovací
data
Naučení
klasifikátoru
Postup 1:
Postup 2:
Redukce
Koriťáková: Analýza a klasifikace dat
Je klasifikace lepší než náhodná klasifikace?
• permutační testování
• jednovýběrový binomický test
19Koriťáková: Analýza a klasifikace dat
Permutační testování
• r-krát náhodně přeházíme identifikátory příslušnosti do skupin u subjektů
a provedeme klasifikaci (se stejným nastavením jako při použití
originálních dat)
20
PA0,5
→
Koriťáková: Analýza a klasifikace dat
• p-hodnota se vypočte jako: Τ𝑛
𝑟, kde n je počet iterací, v nichž byla
úspěšnost klasifikace (např. celková správnost) vyšší nebo rovna úspěšnosti
klasifikace originálních dat (PA)
• pozn. pokud histogram z r celkových správností získaných permutacemi
neleží kolem 0,5 (v případě vyrovnaných skupin), máme v algoritmu zřejmě
někde chybu!
Jednovýběrový binomický test
• testujeme, zda se liší celková správnost (což je podíl správně zařazených
subjektů) od správnosti získané náhodnou klasifikací
• správnost u náhodné klasifikace: 𝑃𝐴0
= ൗ𝑁 𝑖
𝑁, kde 𝑁𝑖 je počet subjektů
nejpočetnější skupiny
• 𝑧 =
𝑃 𝐴−𝑃 𝐴0
Τ𝑃 𝐴0 1−𝑃 𝐴0 𝑁
• Pokud 𝑧 >1,96, zamítáme nulovou hypotézu o shodnosti správnosti naší
klasifikace a správnosti náhodné klasifikace
21Koriťáková: Analýza a klasifikace dat
Příklad – jednovýběrový binomický test
• 𝑧 =
𝑃 𝐴−𝑃 𝐴0
Τ𝑃 𝐴0 1−𝑃 𝐴0 𝑁
=
0,67−0,5
Τ0,5 1−0,5 6
= 0,83
22Koriťáková: Analýza a klasifikace dat
• uvažujme např. výsledek klasifikace pacientů a kontrol pomocí LDA
(pomocí resubstituce): 𝑃𝐴 = 0,67, 𝑁 = 6, 𝑃𝐴0
= ൗ𝑁 𝑖
𝑁 = 0,5
• protože 𝑧 <1,96, nezamítáme nulovou hypotézu o shodnosti správnosti
naší klasifikace a správnosti náhodné klasifikace (tzn. neprokázali jsme, že
by naše klasifikace byla lepší než náhodná klasifikace)
• nezamítnutí nulové hypotézy vyplývá už i z vypočteného intervalu
spolehlivosti (0,29 – 1,00), protože tento interval spolehlivosti obsahuje
hodnotu 0,5
Srovnání úspěšnosti klasifikace
• Srovnání 2 klasifikátorů
• Srovnání 3 a více klasifikátorů
23Koriťáková: Analýza a klasifikace dat
Srovnání 2 klasifikátorů
24
McNemarův test:
Dvouvýběrový binomický test:
Dvouvýb. binomický test předpokládá nezávislost (tzn. že každý klasifikátor byl testován
na jiném testovacím souboru) → raději používat McNemarův test
Klasifikátor 1
Klasifikátor 2
Správně (1) Chybně (0)
Správně (1) 𝑁11 𝑁10
Chybně (0) 𝑁01 𝑁00
Celkem:
Pokud χ2 > 3,841, zamítáme nulovou hypotézu H0 o shodnosti celkové správnosti
klasifikace pomocí dvou klasifikátorů
Pokud 𝑧 > 1,96, zamítáme nulovou hypotézu H0 o shodnosti podílu správně
klasifikovaných subjektů dvou klasifikátorů
𝑁11 + 𝑁10 + 𝑁01 + 𝑁00 = 𝑁𝑡𝑠
Koriťáková: Analýza a klasifikace dat
Příklad – srovnání 2 klasifikátorů
25
Lineární diskriminační
analýza (LDA)
Metoda 9 nejbližších
sousedů (9-nn)
Koriťáková: Analýza a klasifikace dat
Příklad – srovnání 2 klasifikátorů
26
Matice záměn:
McNemarův test: Dvouvýb. binomický test:
Klasifikátor 1:
LDA
Klasifikátor 2: 9-nn
Správně (1) Chybně (0)
Správně (1) 𝑁11 = 82 𝑁10 = 2
Chybně (0) 𝑁01 = 10 𝑁00 = 6
9-nnLDA
správnost správnost
Protože χ2 > 3,841, zamítáme H0. Protože 𝑧 < 1,96, nezamítáme H0.
Shody u
klasifikátorů:
Koriťáková: Analýza a klasifikace dat
Srovnání 3 a více klasifikátorů
27
Cochranův Q test:
F-test:
Looney doporučuje F-test, protože je méně konzervativní.
Testuje se, zda jsou statisticky významně odlišné správnosti klasifikátorů
měřené na stejných testovacích datech – tzn. 𝐻0: 𝑝1 = 𝑝2 = ⋯ = 𝑝 𝐿 , kde 𝑝 𝐿
je správnost L-tého klasifikátoru. Poté je možno srovnávat správnosti
klasifikátorů vždy po dvou, aby se zjistilo, které klasifikátory se od sebe liší.
Pokud 𝑄 𝐶 > χ2 (𝐿 − 1), zamítáme H0.
Pokud 𝐹𝑐𝑎𝑙 > 𝐹(𝐿 − 1, 𝐿 − 1 × 𝑁𝑡𝑠 − 1 ), zamítáme H0.
Koriťáková: Analýza a klasifikace dat
Příklad – srovnání 3 a více klasifikátorů
28
Cochranův Q test:
F-test:
Matice
záměn:
9-nnLDA Parzen
Protože 𝑄 𝐶 < χ2 𝐿 − 1 = 5,991, nezamítáme H0.
Protože 𝐹𝑐𝑎𝑙 > 𝐹 2; 198 = 3,09, zamítáme H0.
správnost správnost správnost
Koriťáková: Analýza a klasifikace dat
Shrnutí
• výpočet úspěšnosti klasifikace (správnosti, chyby, senzitivity, specificity a
přesnosti) pomocí matice záměn
• výpočet intervalu spolehlivosti pro správnost a chybu
• volba trénovacího a testovacího souboru:
– resubstituce
– náhodný výběr s opakováním (bootstrap)
– predikční testování externí validací (hold-out)
– křížová validace (cross validation): k-násobná, „odlož-jeden-mimo“
• srovnání úspěšnosti klasifikace s náhodnou klasifikací
– permutační testování
– jednovýběrový binomický test
• srovnání úspěšnosti klasifikace 2 klasifikátorů:
– McNemarův test
– dvouvýběrový binomický test
• srovnání úspěšnosti klasifikace 3 a více klasifikátorů:
– Cochranův Q test
– F-test
29Koriťáková: Analýza a klasifikace dat
Hledání diagnostického cut-off
pomocí ROC křivek
30Koriťáková: Analýza a klasifikace dat
Diagnostické testy
• Příklady: hodnocení úspěšnosti diagnostiky pomocí neuropsychologických
testů, hodnocení úspěšnosti klasifikace pacientů s Alzheimerovou
chorobou a kontrolních subjektů.
• Diagnostický test u dané osoby indikuje přítomnost nebo nepřítomnost
sledovaného onemocnění.
• Osoba ve skutečnosti má nebo nemá sledované onemocnění.
→ Zajímají nás diagnostické schopnosti testu.
31
Skutečnost – přítomnost nemoci
Ano Ne
Výsledek
diagnostického
testu
Pozitivní TP FP
Negativní FN TN
Senzitivita
testu
Specificita
testu
Prediktivní hodnota
pozitivního testu
Prediktivní hodnota
negativního testu
Koriťáková: Analýza a klasifikace dat
ROC analýza – motivace
• Výše zmíněné ukazatele diagnostické síly testů (senzitivita, specificita
apod.) nelze použít u diagnostických testů, jejichž výstupem je spojitá
(kvantitativní) proměnná (např. koncentrace analytu v krevním séru,
systolický krevní tlak).
• Výhoda, pokud na základě předchozích výzkumů známe dělicí body, které
odlišují normální a patologické hodnoty spojité proměnné, pomocí nichž
můžeme spojitou proměnnou binarizovat – tzn. vytvoření dvou kategorií
„pozitivní“ / „negativní“ (např. „pod normou“ / „v normě“).
• Pokud dělicí body nejsou známy předem, můžeme se je snažit nalézt
pomocí ROC („Receiver Operating Characteristic“) křivky.
• Cíle ROC analýzy:
1. Určit, zda je spojitá proměnná vhodná pro diagnostické odlišování
zdravých a nemocných jedinců.
2. Nalezení dělicího bodu („cut-off point“) na škále hodnot spojité
proměnné, který nejlépe odlišuje zdravé a nemocné jedince.
32Koriťáková: Analýza a klasifikace dat
ROC analýza
• Princip: Jakákoli hodnota spojité proměnné nějak rozlišuje zdravé a
nemocné jedince, tzn. je spojena s nějakou senzitivitou a specificitou.
33
Nejlepší dělící bod („cut-off“) – nejvyšší sensitivita a specificita pro
odlišení skupin – tzn. maximální součet hodnot senzitivity a specificity.
Zdraví Nemocní
ROC křivka
senzitivita
1 - specificita
Koriťáková: Analýza a klasifikace dat
• Plocha pod ROC křivkou = „Area Under the Curve“ (AUC).
• Nabývá hodnot od 0 do 1.
• Slouží k vyjádření diagnostické síly (efektivity) testu.
• Čím větší hodnota AUC, tím lepší diagnostický test je (hodnota AUC nad
0,75 většinou poukazuje na uspokojivou diskriminační schopnost testu).
senzitivita
1 - specificita
ROC analýza – plocha pod ROC křivkou
34
ROC křivka
Koriťáková: Analýza a klasifikace dat
ROC analýza – srovnání diagnostické síly různých testů
• Lze srovnat i velmi rozdílné testy (např. testy založené na různých
proměnných).
35
Zdroj: Dušek, Pavlík, Jarkovský, Koptíková, Analýza dat
v Neurologii, Cesk Slov Neurol N 2011; 74/ 107(4)
Diagnostický
test
AUC
DT1 0,949
DT2 0,872
DT3 0,770
nejlepší
nejhorší
Koriťáková: Analýza a klasifikace dat
senzitivita
1 - specificita
ROC analýza – srovnání diagnostické síly různých testů
36
1 - specificita
senzitivita
ROC křivka
dobře diskriminující
test
test nediskriminuje
vůbec
test diskriminuje
„obráceně“
Koriťáková: Analýza a klasifikace dat
ROC analýza – příklad
37
Příklad: Zjistěte, zda je MMSE skóre vhodné na diagnostiku mírné kognitivní
poruchy (MCI). Najděte dělící bod (cut-off), který nejlépe odlišuje pacienty
s MCI od kontrolních subjektů.
Koriťáková: Analýza a klasifikace dat
Coordinates of the Curve
Test Result Variable(s):
Positive if Less
Than or Equal Toa Sensitivity
1 -
Specificity
Specificity
Sensitivity +
Specificity
22.00 0.000 0.000 1.000 1.000
23.50 0.002 0.000 1.000 1.002
24.50 0.101 0.000 1.000 1.101
25.50 0.239 0.004 0.996 1.235
26.50 0.399 0.022 0.978 1.377
27.50 0.581 0.061 0.939 1.520
28.50 0.749 0.217 0.783 1.531
29.50 0.924 0.574 0.426 1.350
31.00 1.000 1.000 0.000 1.000
ROC analýza – řešení v softwaru SPSS
38
• Analyze – ROC Curve – zadat Test Variable a State Variable (jako Value of
State Variable zadat rizikovou kategorii)
• na záložce Options lze zvolit, zda „Larger test result indicates more positive
test“ nebo „Smaller test result indicates more positive test“ – Continue
• zatržení „Standard error and confidence interval“ umožní k AUC vypočítat
intervaly spolehlivosti a p-hodnotu
• zatržení „Coordinate points of the ROC Curve“ umožní získat tabulku se
senzitivitou a 1-specificitou pro jednotlivé cut-off body (po zkopírování
této tabulku do Excelu je možno vypočítat specificitu a nalézt nejlepší cut-
off)
Koriťáková: Analýza a klasifikace dat
Hledání cut-off – doplnění
1 - Specificita
Senzitivita
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
Plocha pod křivkou:
AUC = 0.758 (95% IS: 0.657; 0.859)
p<0.001
Bod ROC odpovídající
hraničnímu bodu (cut-off)
Sens Spec Sens+Spec
1.000 0.000 1.000
0.933 0.115 1.049
0.883 0.346 1.229
0.783 0.538 1.322
0.750 0.615 1.365
0.567 0.808 1.374
0.467 0.923 1.390
0.350 1.000 1.350
0.217 1.000 1.217
0.150 1.000 1.150
0.050 1.000 1.050
0.033 1.000 1.033
0.000 1.000 1.000
Příklad:
39Koriťáková: Analýza a klasifikace dat
Kritérium Vzoreček Reference
1. Youdenova J statistika 1
– maximalizace
vzdálenosti od diagonály
max(𝑠𝑒 + 𝑠𝑝) • W. J. Youden (1950) “Index for
rating diagnostic tests”.
Cancer, 3, 32–35.
• R-kový balík pROC
• http://www.medicalbiostatisti
cs.com/roccurve.pdf
2. Nejbližší bod levému
hornímu rohu grafu
min((1 − 𝑠𝑒)2
+(1 − 𝑠𝑝)2
) • R-kový balík pROC
• http://www.medicalbiostatisti
cs.com/roccurve.pdf
3. Maximalizace součinu
senzitivity a specificity
max(𝑠𝑒 ∗ 𝑠𝑝) • R-kový balík OptimalCutpoints
• dr. Budíková používá
maximalizaci geometrického
průměru sens a spec
1 Youdenova J statistika je definována jako: 𝐽 = 𝑠𝑒 + 𝑠𝑝 − 1; při hledání maxima lze ale člen (-1) zanedbat
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
1
2
Hledání cut-off – kritéria
40Koriťáková: Analýza a klasifikace dat
Hledání cut-off – vážená kritéria (dle R balíku pROC)
Kritérium Vzoreček
Youdenova J statistika 1 –
maximalizace vzdálenosti od diagonály
max(𝑠𝑒 + 𝑟 ∗ 𝑠𝑝)
Nejbližší bod levému hornímu rohu
grafu
min((1 − 𝑠𝑒)2
+𝑟 ∗ (1 − 𝑠𝑝)2
)
kde: 𝑟 =
1 − 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒
𝑐𝑜𝑠𝑡 ∗ 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒
𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 =
𝑛 𝑐𝑎𝑠𝑒𝑠
𝑛 𝑐𝑎𝑠𝑒𝑠 + 𝑛 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑠
defaultně: 𝑝𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 = 0,5 a 𝑐𝑜𝑠𝑡 = 1
𝑐𝑜𝑠𝑡 – penalizace falešně negativních výsledků
41Koriťáková: Analýza a klasifikace dat
Hledání cut-off – doplnění II
1 - Specificita
Senzitivita
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
Plocha pod křivkou:
AUC = 0.758 (95% IS: 0.657; 0.859)
p<0.001
Bod ROC odpovídající
hraničnímu bodu (cut-off)
Sens Spec
Sens+
Spec
closest.
topleft
Sens*
Spec
1.000 0.000 1.000 1.000 0.000
0.933 0.115 1.049 0.787 0.108
0.883 0.346 1.229 0.441 0.306
0.783 0.538 1.322 0.260 0.422
0.750 0.615 1.365 0.210 0.462
0.567 0.808 1.374 0.225 0.458
0.467 0.923 1.390 0.290 0.431
0.350 1.000 1.350 0.423 0.350
0.217 1.000 1.217 0.614 0.217
0.150 1.000 1.150 0.723 0.150
0.050 1.000 1.050 0.903 0.050
0.033 1.000 1.033 0.934 0.033
0.000 1.000 1.000 1.000 0.000
42Koriťáková: Analýza a klasifikace dat
43Koriťáková: Analýza a klasifikace dat
Příprava nových učebních materiálů
pro obor Matematická biologie
je podporována projektem OPVK
č. CZ.1.07/2.2.00/28.0043
„Interdisciplinární rozvoj studijního
oboru Matematická biologie“