信用评分卡模型开发⽂档
1. 业务理解
信用评分卡主要依据客户的的央⾏征信报告和个⼈申请资料数
据进⾏信用等级评审,按照客户的信用等级进⾏排序,辅助业务⼈
员进⾏相关的业务处理,帮助企业把控风险,提⾼风控能⼒。
影响客户的还款⾏为主要有客户的还款能⼒、还款意愿等因
素,通过客户的基本信息、历史信用数据、消费数据等多维度信
息,全⽅位解析客户的信用概况,为业务提供数据支撑。
2. 业务目标
识别 13 个月表现期内的 M2+(逾期超过 30 天)和 M0(⽆逾
期)客户,其它类型客户的识别不在本项目的业务目标范围内。
业务目标通常需要结合具体业务确定,本项目业务目标定义
为 13 个月表现期内的 M2+,是因为在该项目中的业务客户的
M2+客户中的⼤约 70%发⽣理赔,因此业务⽅希望将该客群进⾏
模型识别。
3. 模型目标
通过业务历史数据,识别 13 个月表现期内的 M2+和 M0 客户的
共有特征,借助于逻辑回归算法,构建信用评分卡模型,最⼤化识
别 13 个月表现期内的 M2+和 M0 客户。
4. 模型开发流程
模型的开发流程如图 1 所示,主要阶段分为数据分析和特征处
理阶段(80%的⼯作量);模型训练、验证和⽣成评分卡阶段(15%
的⼯作量);模型的上线及其监控阶段(5%的⼯作量)。
图 1 模型开发流程
5. 数据源及预处理
该项目的数据源为小微历史的信贷数据,从数据库中提取小
微 2014 ⾄ 2015 年的全部申请数据,其中对原始数据主要进⾏如
下的预处理:
(1) 去掉⽆央⾏信用报告的数据。
(2) 对不完整的央⾏信用报告特殊值补全,在特征分箱中单
独分箱处理,例如⽆信用卡用户,在信用卡使用比例特
征变量进⾏分箱时,应考虑其单独分箱。
(3) 原始数据字符串的数字映射,例如将数据库中的客户的
性别“男”映射为数字“1”,“⼥”映射为数字“0”,逻辑回归
只可以处理数字型变量,因此需要训练数据中的字符型
离散变量映射为数字型的离散变量。
由于逻辑回归算法的理论基础建立在正态分布的假设前提
下,因此,原则上需要将变量的分布转换为正态分布,将变量
转换为正态分布的常规⽅法有:取倒数、平⽅、开根号、取对
数,开根号取倒数,统计学常规使用 BOX-COX ⽅法对变量采
用极⼤似然估计参数,选择常规⽅法中的⼀种对数据进⾏变
换,还有 Q-Q 图⽅法可以可视化判别变量是否属于正态分布。
在该项目中对变量进⾏合理的分箱和采用 binary ⽅法处理分
箱后的特征,在⼀定程度上消除了非正态分布对算法的影响,
试验也证明了在做正态化处理后,模型并未改进。
6. 标签定义
依据项目业务目标,将 13 个月表现期内 M2+的客户定义为
坏用户(label=1), 13 个月表现期内 M0 客户定义为好用户
(label=0),除此之外定义为中间用户(灰⾊用户)。
7. 特征库生成
该项目的特征库主要依据⼈⼈信用管理有限公司的模型团队
对央⾏信用报告的研究以及对信贷业务理解的基础上构建积累的
特征库,同时结合小微的具体业务数据,新增部分特征,以最优
化拟合小微业务数据模式。
在⽣成特征库样本后,为了验证样本库数据的信息量是否⾜
以构建出良好的模型,可先用非线性模型例如 GBDT 对样本数据
进⾏建模,因为非线性算法⽆需对变量进⾏分箱分析,从⽽可以
较快地判断样本数据的信息量是否值得使用逻辑回归进⾏建模,
此外可以通过非线性模型指引逻辑回归模型的变量选择、组合和
分箱,通常 GBDT 算法构建的模型的指标为逻辑回归模型优化的
目标。若 GBDT ⽆法获得较好的模型结果,则逻辑回归模型通常
⽆法构建出优良的模型。
8. 特征变量分析
信息值(information value,IV)可以量化变量与标签间的相关
程度,可用来度量变量的预测能⼒,以此筛选特征变量,构建模
型。计算变量的 IV 值需要对变量进⾏分箱,否则所有变量的 IV 值
相同,⽆法区分变量特征的预测能⼒,⽽⼈⼯分箱费时耗⼒,为了
提⾼效率,该项目通过可视化变量与标签间的关系图,对变量进⾏
细分箱,计算变量的 IV 值,将变量的 IV 值按照由⾼到低排序,挑
选出最优的 50 个特征,最后优化选择 18 个特征变量进⾏⼈⼯分箱
和笛卡尔积,此外还可以通过⼀些软件⼯具,例如 SAS、SPSS、
NICE 等可视化⼯具进⾏细分箱,再根据业务的理解,对分箱进⾏
优化组合。
表 1、 特征变量的标识符
特征变量名
标识符
18 个月的央⾏报告查询次数
pbc.query_detail.cnt_query_18m_total
产品查询比
pbc.total_query_cot_rate
3 个月的央⾏报告查询次数
pbc.query_detail.cnt_query_3m_total
公司类型
婚姻状态
⼿机号码段
xw.pro_info.COMPANYTYPE
xw.base_info.MARITALSTATUS
pbc.person_info.MOBILE
贷款平均还款额
pbc.credit_info.AVERAGENEEDRET
信用卡使用比例
pbc.credit_card_detail.cc_limit_proportion
信用时长(年)
pbc.credit_info.FIRSTCREDITMONTH
性别
学历
年龄
xw.base_info.SEX
xw.base_info.EDUBG
xw.base_info.age
近 3 个月贷款数量
pbc.loan_detail.in_3m_loan_count
近 12 个月有还款记录的贷款
pbc.loan_detail.in_12m_return_loan_count
居住地⽣活时间(月)
数量
xw.base_info.ADDRESSLIVEDSTARTTIME
居住省份
xw.base_info.ADDRESSPROVINCE
所在城市⽣活时间(月)
xw.base_info.CITYLIVEDSTARTTIME
有⽆车
xw.income_info.HASCAR
如果变量间有较强的相关性,会降低逻辑回归算法拟合出的特
征权重的解释性,该项目主要应用皮尔森系数计算特征间的相关
性,具体如下表 1、表 2 所示。
变量 1
pbc.query_de
tail.cnt_que
ry_18m_total
表 2、 特征变量间的皮尔森系数
变量 2
pbc.total_query_cot_rate
pbc.query_detail.cnt_query_3m_total
xw.pro_info.COMPANYTYPE
xw.base_info.MARITALSTATUS
pbc.person_info.MOBILE
pbc.credit_info.AVERAGENEEDRET
pbc.credit_card_detail.cc_limit_proportion
pbc.credit_info.FIRSTCREDITMONTH
xw.base_info.SEX
xw.base_info.EDUBG
xw.base_info.age
pbc.loan_detail.in_3m_loan_count
pbc.loan_detail.in_12m_return_loan_count
xw.base_info.ADDRESSLIVEDSTARTTIME
xw.base_info.ADDRESSPROVINCE
xw.base_info.CITYLIVEDSTARTTIME
P 值
-0.041
0.839
0.094
0.022
0.121
0.166
0.009
0.168
0.034
0.038
0.051
0.141
0.156
-0.02
0.063
-0.046
xw.income_info.HASCAR
pbc.query_detail.cnt_query_18m_total
pbc.query_detail.cnt_query_3m_total
xw.pro_info.COMPANYTYPE
xw.base_info.MARITALSTATUS
pbc.person_info.MOBILE
pbc.credit_info.AVERAGENEEDRET
pbc.credit_card_detail.cc_limit_proportion
pbc.credit_info.FIRSTCREDITMONTH
xw.base_info.SEX
xw.base_info.EDUBG
xw.base_info.age
pbc.loan_detail.in_3m_loan_count
pbc.loan_detail.in_12m_return_loan_count
xw.base_info.ADDRESSLIVEDSTARTTIME
xw.base_info.ADDRESSPROVINCE
xw.base_info.CITYLIVEDSTARTTIME
xw.income_info.HASCAR
pbc.query_detail.cnt_query_18m_total
pbc.total_query_cot_rate
xw.pro_info.COMPANYTYPE
xw.base_info.MARITALSTATUS
pbc.person_info.MOBILE
pbc.credit_info.AVERAGENEEDRET
pbc.credit_card_detail.cc_limit_proportion
pbc.credit_info.FIRSTCREDITMONTH
xw.base_info.SEX
xw.base_info.EDUBG
xw.base_info.age
pbc.loan_detail.in_3m_loan_count
pbc.loan_detail.in_12m_return_loan_count
xw.base_info.ADDRESSLIVEDSTARTTIME
xw.base_info.ADDRESSPROVINCE
xw.base_info.CITYLIVEDSTARTTIME
xw.income_info.HASCAR
pbc.query_detail.cnt_query_18m_total
pbc.total_query_cot_rate
pbc.query_detail.cnt_query_3m_total
xw.base_info.MARITALSTATUS
pbc.person_info.MOBILE
pbc.credit_info.AVERAGENEEDRET
pbc.credit_card_detail.cc_limit_proportion
pbc.credit_info.FIRSTCREDITMONTH
0.071
-0.041
0.094
-0.035
-0.028
0.01
0.009
0.001
0.163
0.023
0.038
0.089
0.072
0.07
0.049
-0.004
0.085
0.029
0.839
0.094
0.041
0.017
0.099
0.061
0.007
0.098
0.013
0.031
0.016
0.065
0.07
-0.012
0.041
-0.027
0.03
0.094
-0.035
0.041
-0.021
0.014
0.061
0.001
-0.063
pbc.total_qu
ery_cot_rate
pbc.query_de
tail.cnt_que
ry_3m_total
xw.pro_info.
COMPANYTYPE
xw.base_info.SEX
xw.base_info.EDUBG
xw.base_info.age
pbc.loan_detail.in_3m_loan_count
pbc.loan_detail.in_12m_return_loan_count
xw.base_info.ADDRESSLIVEDSTARTTIME
xw.base_info.ADDRESSPROVINCE
xw.base_info.CITYLIVEDSTARTTIME
xw.income_info.HASCAR
pbc.query_detail.cnt_query_18m_total
pbc.total_query_cot_rate
pbc.query_detail.cnt_query_3m_total
xw.pro_info.COMPANYTYPE
pbc.person_info.MOBILE
pbc.credit_info.AVERAGENEEDRET
pbc.credit_card_detail.cc_limit_proportion
pbc.credit_info.FIRSTCREDITMONTH
xw.base_info.SEX
xw.base_info.EDUBG
xw.base_info.age
pbc.loan_detail.in_3m_loan_count
pbc.loan_detail.in_12m_return_loan_count
xw.base_info.ADDRESSLIVEDSTARTTIME
xw.base_info.ADDRESSPROVINCE
xw.base_info.CITYLIVEDSTARTTIME
xw.income_info.HASCAR
pbc.query_detail.cnt_query_18m_total
pbc.total_query_cot_rate
pbc.query_detail.cnt_query_3m_total
xw.pro_info.COMPANYTYPE
xw.base_info.MARITALSTATUS
pbc.credit_info.AVERAGENEEDRET
pbc.credit_card_detail.cc_limit_proportion
pbc.credit_info.FIRSTCREDITMONTH
xw.base_info.SEX
xw.base_info.EDUBG
xw.base_info.age
pbc.loan_detail.in_3m_loan_count
pbc.loan_detail.in_12m_return_loan_count
xw.base_info.ADDRESSLIVEDSTARTTIME
xw.base_info.ADDRESSPROVINCE
xw.base_info.CITYLIVEDSTARTTIME
xw.income_info.HASCAR
0.016
-0.124
-0.008
0.093
0.096
-0.045
0.072
-0.114
0.102
0.022
-0.028
0.017
-0.021
-0.001
-0.003
-0.005
0.001
-0.1
0.05
-0.03
-0.024
-0.025
-0.039
0.036
0.002
-0.085
0.121
0.01
0.099
0.014
-0.001
0.024
0.007
0.083
0.007
0.024
-0.032
0.044
0.046
-0.013
0.014
-0.035
0.034
xw.base_info
.MARITALSTAT
US
pbc.person_i
nfo.MOBILE