利用Python計算KS的實例詳解
在金融領(lǐng)域中,我們的y值和預(yù)測得到的違約概率剛好是兩個分布未知的兩個分布。好的信用風(fēng)控模型一般從準(zhǔn)確性、穩(wěn)定性和可解釋性來評估模型。
一般來說。好人樣本的分布同壞人樣本的分布應(yīng)該是有很大不同的,KS正好是有效性指標(biāo)中的區(qū)分能力指標(biāo):KS用于模型風(fēng)險區(qū)分能力進(jìn)行評估,KS指標(biāo)衡量的是好壞樣本累計分布之間的差值。
好壞樣本累計差異越大,KS指標(biāo)越大,那么模型的風(fēng)險區(qū)分能力越強(qiáng)。
1、crosstab實現(xiàn),計算ks的核心就是好壞人的累積概率分布,我們采用pandas.crosstab函數(shù)來計算累積概率分布。
2、roc_curve實現(xiàn),sklearn庫中的roc_curve函數(shù)計算roc和auc時,計算過程中已經(jīng)得到好壞人的累積概率分布,同時我們利用sklearn.metrics.roc_curve來計算ks值
3、ks_2samp實現(xiàn),調(diào)用stats.ks_2samp()函數(shù)來計算。鏈接scipy.stats.ks_2samp¶為ks_2samp()實現(xiàn)源碼,這里實現(xiàn)了詳細(xì)過程
4、直接調(diào)用stats.ks_2samp()計算ks
import pandas as pd
import numpy as np
from sklearn.metrics import roc_curve
from scipy.stats import ks_2samp
def ks_calc_cross(data,pred,y_label):
'''
功能: 計算KS值,輸出對應(yīng)分割點和累計分布函數(shù)曲線圖
輸入值:
data: 二維數(shù)組或dataframe,包括模型得分和真實的標(biāo)簽
pred: 一維數(shù)組或series,代表模型得分(一般為預(yù)測正類的概率)
y_label: 一維數(shù)組或series,代表真實的標(biāo)簽({0,1}或{-1,1})
輸出值:
'ks': KS值,'crossdens': 好壞客戶累積概率分布以及其差值gap
'''
crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]])
crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum()
crossdens['gap'] = abs(crossdens[0] - crossdens[1])
ks = crossdens[crossdens['gap'] == crossdens['gap'].max()]
return ks,crossdens
def ks_calc_auc(data,pred,y_label):
'''
功能: 計算KS值,輸出對應(yīng)分割點和累計分布函數(shù)曲線圖
輸入值:
data: 二維數(shù)組或dataframe,包括模型得分和真實的標(biāo)簽
pred: 一維數(shù)組或series,代表模型得分(一般為預(yù)測正類的概率)
y_label: 一維數(shù)組或series,代表真實的標(biāo)簽({0,1}或{-1,1})
輸出值:
'ks': KS值
'''
fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]])
ks = max(tpr-fpr)
return ks
def ks_calc_2samp(data,pred,y_label):
'''
功能: 計算KS值,輸出對應(yīng)分割點和累計分布函數(shù)曲線圖
輸入值:
data: 二維數(shù)組或dataframe,包括模型得分和真實的標(biāo)簽
pred: 一維數(shù)組或series,代表模型得分(一般為預(yù)測正類的概率)
y_label: 一維數(shù)組或series,代表真實的標(biāo)簽({0,1}或{-1,1})
輸出值:
'ks': KS值,'cdf_df': 好壞客戶累積概率分布以及其差值gap
'''
Bad = data.loc[data[y_label[0]]==1,pred[0]]
Good = data.loc[data[y_label[0]]==0, pred[0]]
data1 = Bad.values
data2 = Good.values
n1 = data1.shape[0]
n2 = data2.shape[0]
data1 = np.sort(data1)
data2 = np.sort(data2)
data_all = np.concatenate([data1,data2])
cdf1 = np.searchsorted(data1,data_all,side='right')/(1.0*n1)
cdf2 = (np.searchsorted(data2,data_all,side='right'))/(1.0*n2)
ks = np.max(np.absolute(cdf1-cdf2))
cdf1_df = pd.DataFrame(cdf1)
cdf2_df = pd.DataFrame(cdf2)
cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1)
cdf_df.columns = ['cdf_Bad','cdf_Good']
cdf_df['gap'] = cdf_df['cdf_Bad']-cdf_df['cdf_Good']
return ks,cdf_df
data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0],
'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]}
data = pd.DataFrame(data)
ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])
ks2=ks_calc_auc(data,['pred'], ['y_label'])
ks3=ks_calc_2samp(data,['pred'], ['y_label'])
get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statistic
ks4=get_ks(data['pred'],data['y_label'])
print('KS1:',ks1['gap'].values)
print('KS2:',ks2)
print('KS3:',ks3[0])
print('KS4:',ks4)
輸出結(jié)果:
KS1: [ 0.83333333] KS2: 0.833333333333 KS3: 0.833333333333 KS4: 0.833333333333
當(dāng)數(shù)據(jù)中存在NAN數(shù)據(jù)時,有一些問題需要注意!
例如,我們在原數(shù)據(jù)中增加了y_label=0,pred=np.nan這樣一組數(shù)據(jù)
data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0,0],
'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}
此時執(zhí)行
ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])
輸出結(jié)果
KS1: [ 0.83333333]
執(zhí)行
ks2=ks_calc_auc(data,['pred'], ['y_label'])
將會報以下錯誤
ValueError: Input contains NaN, infinity or a value too large for dtype('float64').
執(zhí)行
ks3=ks_calc_2samp(data,['pred'], ['y_label'])
輸出結(jié)果
KS3: 0.714285714286
執(zhí)行
ks4=get_ks(data['pred'],data['y_label'])
輸出結(jié)果
KS4: 0.714285714286
我們從上述結(jié)果中可以看出
三種方法計算得到的ks值均不相同。
ks_calc_cross計算時忽略了NAN,計算得到了數(shù)據(jù)正確的概率分布,計算的ks與我們手算的ks相同
ks_calc_auc函數(shù)由于內(nèi)置函數(shù)無法處理NAN值,直接報錯了,所以如果需要ks_calc_auc計算ks值時,需要提前去除NAN值。
ks_calc_2samp計算得到的ks因為searchsorted()函數(shù)(有興趣的同學(xué)可以自己模擬數(shù)據(jù)看下這個函數(shù)),會將Nan值默認(rèn)排序為最大值,從而改變了數(shù)據(jù)的原始累積分布概率,導(dǎo)致計算得到的ks和真實的ks有誤差。
總結(jié)
在實際情況下,我們一般計算違約概率的ks值,這時是不存在NAN值的。所以以上三種方法計算ks值均可。但是當(dāng)我們計算單變量的ks值時,有時數(shù)據(jù)質(zhì)量不好,存在NAN值時,繼續(xù)采用ks_calc_auc和ks_calc_2samp就會存在問題。
解決辦法有兩個
1. 提前去除數(shù)據(jù)中的NAN值
2. 直接采用ks_calc_cross計算。
以上這篇利用Python計算KS的實例詳解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python自動創(chuàng)建Excel并獲取內(nèi)容
這篇文章主要介紹了Python自動創(chuàng)建Excel并獲取內(nèi)容,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-09-09
針對Pandas的總結(jié)以及數(shù)據(jù)讀取_pd.read_csv()的使用詳解
這篇文章主要針對Pandas總結(jié)以及數(shù)據(jù)讀取_pd.read_csv()的使用詳解做出了實例,講解非常全面,值得收藏,需要的朋友可以參考下2023-03-03
MNIST數(shù)據(jù)集轉(zhuǎn)化為二維圖片的實現(xiàn)示例
這篇文章主要介紹了MNIST數(shù)據(jù)集轉(zhuǎn)化為二維圖片的實現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-01-01
Pytorch平均池化nn.AvgPool2d()使用方法實例
平均池化層,又叫平均匯聚層,下面這篇文章主要給大家介紹了關(guān)于Pytorch平均池化nn.AvgPool2d()使用方法的相關(guān)資料,文中通過實例代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-02-02
Python爬蟲實現(xiàn)爬取京東手機(jī)頁面的圖片(實例代碼)
下面小編就為大家分享一篇Python爬蟲實現(xiàn)爬取京東手機(jī)頁面的圖片實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2017-11-11

