今天看啥  ›  专栏  ›  金科应用研院

特征筛选中常用指标详解(含代码)

金科应用研院  · 公众号  ·  · 2023-03-23 08:31
关注“金科应用研院”,回复“礼包”领取“风控资料合集”特征选择是数据预处理中非常重要的一步,目的是从原始特征中筛选出最有价值的特征,以提高模型的准确性和泛化能力。同时,适当删去一些不必要的特征也能降低模型的复杂度和过拟合的可能,增加模型的可解释性。以下是一些常用的特征选择指标及其定义、阈值和使用Python计算的代码示例。NO.1IV(Information Value)信息价值(IV)是一种用于衡量特征预测能力的指标。它基于特征和目标变量之间的关系,通过计算特征不同值的WOE(Weight of Evidence)值之间的差异来确定特征的重要性。常见的IV值阈值为0.02,如果IV值小于此阈值,则被认为是不重要的特征。Python代码示例:from scipy import statsimport pandas as pdimport numpy as npdef calc_iv(df, feature, target):    lst = []    cols=['Variable', 'Value', 'All', 'Bad'] ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照