Python计算IV值的示例讲解-创新互联

在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下:

创新互联公司-专业网站定制、快速模板网站建设、高性价比召陵网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式召陵网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖召陵地区。费用合理售后完善,十多年实体公司更值得信赖。
def CalcIV(Xvar, Yvar): 
 N_0 = np.sum(Yvar==0)
 N_1 = np.sum(Yvar==1)
 N_0_group = np.zeros(np.unique(Xvar).shape)
 N_1_group = np.zeros(np.unique(Xvar).shape)
 for i in range(len(np.unique(Xvar))):
  N_0_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 0)].count()
  N_1_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 1)].count()
 iv = np.sum((N_0_group/N_0 - N_1_group/N_1) * np.log((N_0_group/N_0)/(N_1_group/N_1)))
 return iv 
 
def caliv_batch(df, Kvar, Yvar):
 df_Xvar = df.drop([Kvar, Yvar], axis=1)
 ivlist = []
 for col in df_Xvar.columns:
  iv = CalcIV(df[col], df[Yvar])
  ivlist.append(iv)
 names = list(df_Xvar.columns)
 iv_df = pd.DataFrame({'Var': names, 'Iv': ivlist}, columns=['Var', 'Iv'])
 
 return iv_df

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


分享题目:Python计算IV值的示例讲解-创新互联
网站地址:http://pwwzsj.com/article/psipg.html