20190821专家评分卡制作.pdf

发布时间：2022-06-16 发布人：admin 分类：说明书资料大小：1.31M 资料格式：pdf 举报版权申诉

7a320308-2ec3-45ff-8bfe-771e68226a46.pdf-第1页.png

第1页 / 共15页

7a320308-2ec3-45ff-8bfe-771e68226a46.pdf-第2页.png

第2页 / 共15页

7a320308-2ec3-45ff-8bfe-771e68226a46.pdf-第3页.png

第3页 / 共15页

7a320308-2ec3-45ff-8bfe-771e68226a46.pdf-第4页.png

第4页 / 共15页

7a320308-2ec3-45ff-8bfe-771e68226a46.pdf-第5页.png

第5页 / 共15页

7a320308-2ec3-45ff-8bfe-771e68226a46.pdf-第6页.png

第6页 / 共15页

7a320308-2ec3-45ff-8bfe-771e68226a46.pdf-第7页.png

第7页 / 共15页

7a320308-2ec3-45ff-8bfe-771e68226a46.pdf-第8页.png

第8页 / 共15页

文本预览

基于专家经验制作评分卡（实战篇） Author：黄权

风险概括根据业务场景及面向客群，梳理业务流程，用几个大类囊括个人的信用风险，比如目前我们针对烟草场景，可用下面 5 个大类去囊括 ⚫ 基本信息评估 ⚫ 偿债能力评估 ⚫ 经营状况评估 ⚫ 稳定性评估 ⚫ 信用履约历史再举一个例子，支付宝的芝麻分：芝麻信用分是结合用户的 5 大个人信息(行为偏好、身份特征、履约能力、人脉关系和信用历史)，利用电脑多维度的因子和数据，并结合复杂的模型，综合计算得出的分数。1、行为偏好，是指大部分的互联网行为，以及及时缴纳水电费、爱心捐赠、给家人添置物品等。2、身份特征，是指通过学历学籍、职业资格、消费记录等信息，判断用户在网上的身份信息是否真实和全面。3、履约能力，是指是否具有足够的财富和能力去偿还债务或履行约定。4、人脉关系，是指用户的家人、朋友是否有良好的信用记录等。5、信用历史，是指用户的个人信用卡、车贷房贷、预订酒店甚至打车守不守信等。

芝麻信用分有五个等级： 1、信用极好：700-950 为一等级 2、信用优秀：650-700 为二等级 3、信用良好：600-650 为三等级 4、信用中等：550-600 为四等级 5、信用较差：350-550 为五等级实质上支付宝芝麻分制作上与评分卡制作大体一致，不过其使用场景不一样，风险大类就会有所区别。但是支付宝芝麻分拥有客户的海量数据，是基于数据驱动去制作评分卡的，和我们说的基于专家经验制做评分卡还是有些区别变量挑选针对不同风险大类利用专家经验挑选变量，变量一般分为通用变量及特有变量，比如，年龄、性别等这些就是通用变量，用在什么场景都可以，但是像近一年月均烟草进货额、进项销项等这些变量就是特有变量，只有在相关场景的背景下，才会有这些变量。以烟草客户为例，以下为专家经验根据大类挑选的变量，在做变量挑选的时候一定要细心且耐心，由于是专家经验，数据为冷启动（也就是没有存储任何业务数据），尽量只挑选对违约有影响的变量。

变量类别基本信息评估信用履约历史偿债能力评估年龄性别信用年限 3 个月多头数信用卡总额度信用卡额度使用率近 1 年月均交易金额经营状况评估稳定性评估专家经验排序变量对违约率影响强弱及逻辑（后面造数据时候 IV 与下面排序呈递减关系），部分截图如下： 20190802评分项影响强弱.xlsx

造数据首先要拍好坏客户表格出来，部门截图如下拍分箱（假如有少量数据可以给指引，利用卡方分箱分箱借鉴再调整）拍好坏客户在该箱下的占比（假如有少量数据可以观察客户分布）计算 WOE 计算 IV ------------------ IV 可用来表示一个变量的预测能力。其作用如下：一帮来说，变量 IV 小于 0.02 就不要带入模型了，但是 IV>1.2 过高，这个变量可能存在问题。造数据的 Python 代码如下：输入： 20190802造数据 .xlsx

输出：修改数据，使之符合现实情境我们运用 python 造出来的数据可能不符合现实逻辑，比如一个客户贷款总额为 20w，未结清贷款为 60w；还有历史逾期次数为 0、贷款最大逾期状态 M3+等，这些都是不符合现实逻辑的，而我们造的数据中只是混洗了一遍，这一步修改数据需要我们自己手动去修改。数据转换为 WOE 编码为什么需要编码？因为上面输出全为字符串类型，Logistic 回归模型自变量为连续型，而为什么选择 WOE 编码，而不是其他哑变量编码、Bad Rate 编码，是 20190802python数据.xlsx

因为我们模型主要是衡量好坏客户的，WOE 编码比其他编码更合适。 Python 代码如下：输入：输出： 20190802WOE数据.xlsx

挑选变量 IV 挑选这里面由于是专家想出来的变量，就无须进行 IV 挑选了。（一般来说，根据业务，比如 IV<0.01 就可以把变量剔除，0.01 是自己定的），假如现实造的变量 IV 确实小于 0.01，可能分箱没有分好，或者在拍数据分布的时候没拍好，一般来说在造数据的时候我们已经在观察变量 IV 了，这是造数据的时候，IV 如下（部分截图）：变量相关性性由于数据为自己造的，只经过混洗过程，显然每个变量与变量之间相关性是非常低的. Python 代码如下：输入：（20190802WOE 数据）

分享到：

赞收藏

资料库

20190821专家评分卡制作.pdf

相关推荐

行业

热门标签

最新资料