J 2011

Advanced empirical estimate of information value for credit scoring models

ŘEZÁČ, Martin

Základní údaje

Originální název

Advanced empirical estimate of information value for credit scoring models

Název česky

Pokročilé empirické odhady informační hodnoty pro credit scoringové modely

Autoři

ŘEZÁČ, Martin (203 Česká republika, garant, domácí)

Vydání

Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis, Brno, Mendelova univerzita v Brně, 2011, 1211-8516

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10103 Statistics and probability

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14310/11:00052734

Organizační jednotka

Přírodovědecká fakulta

Klíčová slova česky

indexy kvality; credit scoring; informační hodnota; jádrové vyhlazování; empirický odhad

Klíčová slova anglicky

credit scoring; empirical estimate; quality indexes; kernel smoothing; information value

Štítky

Změněno: 23. 8. 2011 13:18, Mgr. Martin Řezáč, Ph.D.

Anotace

V originále

As an alternative method to the empirical estimates one can use the kernel smoothing theory, which allows to estimate unknown densities and consequently, using some numerical method for integration, to estimate value of the Information value. The main contribution of this paper is a proposal and description of the empirical estimate with supervised interval selection. This advanced estimate is based on requirement to have at least k, where k is a positive integer, observations of scores of both good and bad client in each considered interval. A simulation study shows that this estimate outperform both the empirical estimate using deciles and the kernel estimate. Furthermore it shows high dependency on choice of the parameter k. If we choose too small value, we get overestimated value of the Information value, and vice versa. Adjusted square root of number of bad clients seems to be a reasonable compromise.

Česky

Credit scoring, to je termín pro široké spektrum prediktivních modelů a jejich základní techniky, které podporují finanční instituce při poskytování úvěrů. Tyto metody rozhodují, kdo dostane úvěr, v jaké výši, a jaké další strategie zvýší ziskovost dlužníků vůči věřitelům. Mnohé statistické nástroje jsou dostupné pro měření kvality, ve smyslu prediktivní síly, credit scoringových modelů. Protože je nenemožné používat scoringový model efektivně, aniž by bylo známo, jak je dobrý, kvalitativní indexy jako Gini, Kolmogorova-Smirnova statisika a informační hodnota jsou využívány pro posouzení kvality daného credit scoringového modelu. Článek se zabývá především s informační hodnotou, někdy nazývanou divergence. Běžně je počítána pomocí diskretizace dat do intervalů pomocí decilů. Jedním z omezení, které je třeba splnit v tomto případě, je podmínka na nenulový počet případů v každém intervalu. Pokud toto omezení není splněno, existují jisté praktické postupy pro zachování konečných výsledků. Jako alternativní metodu k empirickému odhadu lze používat jádrové vyhlazování, jež umožňuje odhad neznámé hustoty a následně, pomocí některé numerické metody pro integraci, odhad informační hodnoty. Hlavním přínosem této práce je návrh a popis empirického odhadu s supervizovaným výběrem intervalů. Tato pokročilá metoda odhadu je založena na požadavku mít alespoň k, kde k je celé kladné číslo, pozorování skóre dobrých i špatných klientů v každém zkoumaném intervalu. Simulační studie ukazuje, že tento postup dosahuje lepších výsledků než klasický empirický odhad pomocí decilů i než jádrový odhad. Kromě toho vykazuje vysokou závislost na volbě parametru k. Pokud zvolíme příliš malou hodnotu, dostaneme nadsazený odhad informační hodnoty, a naopak. Adjustovaná odmocnina počtu špatných klientů se zdá být rozumný kompromis.