logo资料库

信贷进件模型开发文档.pdf

第1页 / 共45页
第2页 / 共45页
第3页 / 共45页
第4页 / 共45页
第5页 / 共45页
第6页 / 共45页
第7页 / 共45页
第8页 / 共45页
资料共45页,剩余部分请下载后查看
信用评分卡模型开发⽂档 1. 业务理解 信用评分卡主要依据客户的的央⾏征信报告和个⼈申请资料数 据进⾏信用等级评审,按照客户的信用等级进⾏排序,辅助业务⼈ 员进⾏相关的业务处理,帮助企业把控风险,提⾼风控能⼒。 影响客户的还款⾏为主要有客户的还款能⼒、还款意愿等因 素,通过客户的基本信息、历史信用数据、消费数据等多维度信 息,全⽅位解析客户的信用概况,为业务提供数据支撑。 2. 业务目标 识别 13 个月表现期内的 M2+(逾期超过 30 天)和 M0(⽆逾 期)客户,其它类型客户的识别不在本项目的业务目标范围内。 业务目标通常需要结合具体业务确定,本项目业务目标定义 为 13 个月表现期内的 M2+,是因为在该项目中的业务客户的 M2+客户中的⼤约 70%发⽣理赔,因此业务⽅希望将该客群进⾏ 模型识别。
3. 模型目标 通过业务历史数据,识别 13 个月表现期内的 M2+和 M0 客户的 共有特征,借助于逻辑回归算法,构建信用评分卡模型,最⼤化识 别 13 个月表现期内的 M2+和 M0 客户。 4. 模型开发流程 模型的开发流程如图 1 所示,主要阶段分为数据分析和特征处 理阶段(80%的⼯作量);模型训练、验证和⽣成评分卡阶段(15% 的⼯作量);模型的上线及其监控阶段(5%的⼯作量)。 图 1 模型开发流程
5. 数据源及预处理 该项目的数据源为小微历史的信贷数据,从数据库中提取小 微 2014 ⾄ 2015 年的全部申请数据,其中对原始数据主要进⾏如 下的预处理: (1) 去掉⽆央⾏信用报告的数据。 (2) 对不完整的央⾏信用报告特殊值补全,在特征分箱中单 独分箱处理,例如⽆信用卡用户,在信用卡使用比例特 征变量进⾏分箱时,应考虑其单独分箱。 (3) 原始数据字符串的数字映射,例如将数据库中的客户的 性别“男”映射为数字“1”,“⼥”映射为数字“0”,逻辑回归 只可以处理数字型变量,因此需要训练数据中的字符型 离散变量映射为数字型的离散变量。 由于逻辑回归算法的理论基础建立在正态分布的假设前提 下,因此,原则上需要将变量的分布转换为正态分布,将变量 转换为正态分布的常规⽅法有:取倒数、平⽅、开根号、取对 数,开根号取倒数,统计学常规使用 BOX-COX ⽅法对变量采 用极⼤似然估计参数,选择常规⽅法中的⼀种对数据进⾏变 换,还有 Q-Q 图⽅法可以可视化判别变量是否属于正态分布。 在该项目中对变量进⾏合理的分箱和采用 binary ⽅法处理分 箱后的特征,在⼀定程度上消除了非正态分布对算法的影响, 试验也证明了在做正态化处理后,模型并未改进。
6. 标签定义 依据项目业务目标,将 13 个月表现期内 M2+的客户定义为 坏用户(label=1), 13 个月表现期内 M0 客户定义为好用户 (label=0),除此之外定义为中间用户(灰⾊用户)。 7. 特征库生成 该项目的特征库主要依据⼈⼈信用管理有限公司的模型团队 对央⾏信用报告的研究以及对信贷业务理解的基础上构建积累的 特征库,同时结合小微的具体业务数据,新增部分特征,以最优 化拟合小微业务数据模式。 在⽣成特征库样本后,为了验证样本库数据的信息量是否⾜ 以构建出良好的模型,可先用非线性模型例如 GBDT 对样本数据 进⾏建模,因为非线性算法⽆需对变量进⾏分箱分析,从⽽可以 较快地判断样本数据的信息量是否值得使用逻辑回归进⾏建模, 此外可以通过非线性模型指引逻辑回归模型的变量选择、组合和 分箱,通常 GBDT 算法构建的模型的指标为逻辑回归模型优化的 目标。若 GBDT ⽆法获得较好的模型结果,则逻辑回归模型通常 ⽆法构建出优良的模型。
8. 特征变量分析 信息值(information value,IV)可以量化变量与标签间的相关 程度,可用来度量变量的预测能⼒,以此筛选特征变量,构建模 型。计算变量的 IV 值需要对变量进⾏分箱,否则所有变量的 IV 值 相同,⽆法区分变量特征的预测能⼒,⽽⼈⼯分箱费时耗⼒,为了 提⾼效率,该项目通过可视化变量与标签间的关系图,对变量进⾏ 细分箱,计算变量的 IV 值,将变量的 IV 值按照由⾼到低排序,挑 选出最优的 50 个特征,最后优化选择 18 个特征变量进⾏⼈⼯分箱 和笛卡尔积,此外还可以通过⼀些软件⼯具,例如 SAS、SPSS、 NICE 等可视化⼯具进⾏细分箱,再根据业务的理解,对分箱进⾏ 优化组合。 表 1、 特征变量的标识符 特征变量名 标识符 18 个月的央⾏报告查询次数 pbc.query_detail.cnt_query_18m_total 产品查询比 pbc.total_query_cot_rate 3 个月的央⾏报告查询次数 pbc.query_detail.cnt_query_3m_total 公司类型 婚姻状态 ⼿机号码段 xw.pro_info.COMPANYTYPE xw.base_info.MARITALSTATUS pbc.person_info.MOBILE 贷款平均还款额 pbc.credit_info.AVERAGENEEDRET 信用卡使用比例 pbc.credit_card_detail.cc_limit_proportion 信用时长(年) pbc.credit_info.FIRSTCREDITMONTH
性别 学历 年龄 xw.base_info.SEX xw.base_info.EDUBG xw.base_info.age 近 3 个月贷款数量 pbc.loan_detail.in_3m_loan_count 近 12 个月有还款记录的贷款 pbc.loan_detail.in_12m_return_loan_count 居住地⽣活时间(月) 数量 xw.base_info.ADDRESSLIVEDSTARTTIME 居住省份 xw.base_info.ADDRESSPROVINCE 所在城市⽣活时间(月) xw.base_info.CITYLIVEDSTARTTIME 有⽆车 xw.income_info.HASCAR 如果变量间有较强的相关性,会降低逻辑回归算法拟合出的特 征权重的解释性,该项目主要应用皮尔森系数计算特征间的相关 性,具体如下表 1、表 2 所示。 变量 1 pbc.query_de tail.cnt_que ry_18m_total 表 2、 特征变量间的皮尔森系数 变量 2 pbc.total_query_cot_rate pbc.query_detail.cnt_query_3m_total xw.pro_info.COMPANYTYPE xw.base_info.MARITALSTATUS pbc.person_info.MOBILE pbc.credit_info.AVERAGENEEDRET pbc.credit_card_detail.cc_limit_proportion pbc.credit_info.FIRSTCREDITMONTH xw.base_info.SEX xw.base_info.EDUBG xw.base_info.age pbc.loan_detail.in_3m_loan_count pbc.loan_detail.in_12m_return_loan_count xw.base_info.ADDRESSLIVEDSTARTTIME xw.base_info.ADDRESSPROVINCE xw.base_info.CITYLIVEDSTARTTIME P 值 -0.041 0.839 0.094 0.022 0.121 0.166 0.009 0.168 0.034 0.038 0.051 0.141 0.156 -0.02 0.063 -0.046
xw.income_info.HASCAR pbc.query_detail.cnt_query_18m_total pbc.query_detail.cnt_query_3m_total xw.pro_info.COMPANYTYPE xw.base_info.MARITALSTATUS pbc.person_info.MOBILE pbc.credit_info.AVERAGENEEDRET pbc.credit_card_detail.cc_limit_proportion pbc.credit_info.FIRSTCREDITMONTH xw.base_info.SEX xw.base_info.EDUBG xw.base_info.age pbc.loan_detail.in_3m_loan_count pbc.loan_detail.in_12m_return_loan_count xw.base_info.ADDRESSLIVEDSTARTTIME xw.base_info.ADDRESSPROVINCE xw.base_info.CITYLIVEDSTARTTIME xw.income_info.HASCAR pbc.query_detail.cnt_query_18m_total pbc.total_query_cot_rate xw.pro_info.COMPANYTYPE xw.base_info.MARITALSTATUS pbc.person_info.MOBILE pbc.credit_info.AVERAGENEEDRET pbc.credit_card_detail.cc_limit_proportion pbc.credit_info.FIRSTCREDITMONTH xw.base_info.SEX xw.base_info.EDUBG xw.base_info.age pbc.loan_detail.in_3m_loan_count pbc.loan_detail.in_12m_return_loan_count xw.base_info.ADDRESSLIVEDSTARTTIME xw.base_info.ADDRESSPROVINCE xw.base_info.CITYLIVEDSTARTTIME xw.income_info.HASCAR pbc.query_detail.cnt_query_18m_total pbc.total_query_cot_rate pbc.query_detail.cnt_query_3m_total xw.base_info.MARITALSTATUS pbc.person_info.MOBILE pbc.credit_info.AVERAGENEEDRET pbc.credit_card_detail.cc_limit_proportion pbc.credit_info.FIRSTCREDITMONTH 0.071 -0.041 0.094 -0.035 -0.028 0.01 0.009 0.001 0.163 0.023 0.038 0.089 0.072 0.07 0.049 -0.004 0.085 0.029 0.839 0.094 0.041 0.017 0.099 0.061 0.007 0.098 0.013 0.031 0.016 0.065 0.07 -0.012 0.041 -0.027 0.03 0.094 -0.035 0.041 -0.021 0.014 0.061 0.001 -0.063 pbc.total_qu ery_cot_rate pbc.query_de tail.cnt_que ry_3m_total xw.pro_info. COMPANYTYPE
xw.base_info.SEX xw.base_info.EDUBG xw.base_info.age pbc.loan_detail.in_3m_loan_count pbc.loan_detail.in_12m_return_loan_count xw.base_info.ADDRESSLIVEDSTARTTIME xw.base_info.ADDRESSPROVINCE xw.base_info.CITYLIVEDSTARTTIME xw.income_info.HASCAR pbc.query_detail.cnt_query_18m_total pbc.total_query_cot_rate pbc.query_detail.cnt_query_3m_total xw.pro_info.COMPANYTYPE pbc.person_info.MOBILE pbc.credit_info.AVERAGENEEDRET pbc.credit_card_detail.cc_limit_proportion pbc.credit_info.FIRSTCREDITMONTH xw.base_info.SEX xw.base_info.EDUBG xw.base_info.age pbc.loan_detail.in_3m_loan_count pbc.loan_detail.in_12m_return_loan_count xw.base_info.ADDRESSLIVEDSTARTTIME xw.base_info.ADDRESSPROVINCE xw.base_info.CITYLIVEDSTARTTIME xw.income_info.HASCAR pbc.query_detail.cnt_query_18m_total pbc.total_query_cot_rate pbc.query_detail.cnt_query_3m_total xw.pro_info.COMPANYTYPE xw.base_info.MARITALSTATUS pbc.credit_info.AVERAGENEEDRET pbc.credit_card_detail.cc_limit_proportion pbc.credit_info.FIRSTCREDITMONTH xw.base_info.SEX xw.base_info.EDUBG xw.base_info.age pbc.loan_detail.in_3m_loan_count pbc.loan_detail.in_12m_return_loan_count xw.base_info.ADDRESSLIVEDSTARTTIME xw.base_info.ADDRESSPROVINCE xw.base_info.CITYLIVEDSTARTTIME xw.income_info.HASCAR 0.016 -0.124 -0.008 0.093 0.096 -0.045 0.072 -0.114 0.102 0.022 -0.028 0.017 -0.021 -0.001 -0.003 -0.005 0.001 -0.1 0.05 -0.03 -0.024 -0.025 -0.039 0.036 0.002 -0.085 0.121 0.01 0.099 0.014 -0.001 0.024 0.007 0.083 0.007 0.024 -0.032 0.044 0.046 -0.013 0.014 -0.035 0.034 xw.base_info .MARITALSTAT US pbc.person_i nfo.MOBILE
分享到:
收藏