logo资料库

在携号转网背景下基于Xgboost算法的高价值客户流失预警建模.pdf

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
中国科技论文在线 http://www.paper.edu.cn 在携号转网背景下基于 Xgboost 算法的高 价值客户流失预警建模 黄婷婷,李佳,李江成,吴琼* (中国联合网络通信有限公司武汉市分公司) 摘要:在携号转网背景下,运营商企业将面临客户流失的风险。从全量客户中筛选出有流失 倾向的高危群体,并提前对这些客户进行关怀和维系,具有非常重要的意义。论文首先构建 了客户流失预警与精准挽留的价值模型;接着基于客户历史行为数据,运用 Xgboost 算法构 建了高价值客户流失预警模型;最后将价值模型和流失预警模型结合,给出了应对高价值客 户流失的最佳挽留策略。该模型应用于生产测试环境中,展现了较好的预测准确性,能明显 提升企业经济效益。 关键词:携号转网;客户流失预警;Xgboost 中图分类号:TP391 High Value Customer Churn Modeling based on Xgboost Algorithm under Mobile Number Portability Background HUANG Tingting, LI Jia, LI Jiangcheng, WU Qiong (China united network communications co., LTD. Wuhan branch) Abstract: Under the background of carrying number to transfer network, operators will face the risk of customer loss. It is of great significance to select the high-risk groups with loss tendency from the total number of customers and care and maintain these customers in advance. Firstly, this paper constructs the value model of customer churn early warning and accurate retention; secondly, based on the historical behavior data of customers, it constructs the high-value customer churn early warning model by using Xgboost algorithm; finally, combining the value model and churn early warning model, it gives the best retention strategy to deal with the high value customer churn. The model is applied to the production test environment, showing a good prediction accuracy, and can significantly improve the economic benefits of enterprises. Key words: Mobile Number Portability; Customer churn prediction; Xgboost 5 10 15 20 25 30 0 引言 2019 年 3 月 5 日,第十三届全国人民代表大会第二次会议上,国务院总理李克强在《政 府工作报告》中提到:今年中小企业宽带平均资费再降低 15%,移动网络流量平均资费再降 35 低 20%以上,在全国实行“携号转网”,规范套餐设置,使降费实实在在、消费者明明白白。 2020 年 1 月 14 日,工信部信息通信管理局在全国“携号转网”服务监管电视电话会议中要求: 全行业需要继续努力,坚持以人民为中心,坚持问题导向,坚持“携号转网”服务定位,不折 不扣落实好国家决策部署。 携号转网,也称作号码携带、移机不改号,也就是说一家电信运营商的用户,无需改变 40 自己的手机号码,就能转而成为另一家电信运营商的用户,并享受其提供的各种服务[1]。数 据显示,从全球范围内来看,已有超 40 多个国家和地区推出这一服务。携号转网既可减少 作者简介:黄婷婷(1983-),女,初级通信工程师,湖北工业大学,本科. E-mail: hb- huangtt@chinaunicom.cn - 1 -
中国科技论文在线 http://www.paper.edu.cn 消费者的转网成本,也能节约国家的号码资源;同时,可打破现有电信运营商的优势地位, 促进市场竞争,优化市场结构。 然而,携号转网也给运营商带来众多挑战,据数据显示,中国联通在 2019 年在 11 月 10 45 日至 11 月 26 日携号转网试运行期间,携号转网的净携入用户为负 12427 户。2019 年 12 月, 中国联通移动出账用户减少了 278.3 万。实施携号转网,不仅对数据库中转网用户数据的修 改和更新及时性、统一性要求高,且用户在供应商切换期间通信质量、VIP 级别及各种优惠 延续上也存在困难。更重要的是,随着携号转网时代的来临,客户可灵活选择供应商,运营 商面临客户流失尤其是高价值客户流失,从而营收下滑的困境。客户如若流失后公司将很难 50 再有渠道对客户进行关怀和挽留,挽留成本和客户打扰度都高。因此需要事先对客户的流失 行为进行预测和报警,提前做好客户关怀与挽留,维系客户尤其是高价值客户群体的稳定。 那么,如何提前完成精准的客户流失预警模型,模型预测流失客户与实际要流失客户一 致性高,是降低客户流失率的关键。 在客户流失预警建模这一课题中,已有相关论文研究,文献二基于粗糙集- BP 神经网络 55 的电信企业客户流失风险预警研究[2];文献三将随机森林算法应用在电信行业客户流失预测 中[3];文献四基于 Logistic 回归模型和 SVM 的企业客户流失研究[4];文献五利用数据挖掘实 现电信行业客户流失预警[5]。文献六基于数据挖掘分析移动中高端用户流失预警[6];近些年 对客户流失预警也提出更多新算法来优化,本文将基于某运营商企业的真实客户数据,基于 Xgboost 算法,预测高价值客户流失,降低客户流失率,构建价值函数,降低公司运营成本, 60 有效解决携号转网中高价值客户流失的难题。 1 问题分析 一般的,高价值客户流失预警建模问题可以归纳为以下数学模型。设某运营商共有 N 个 高价值客户,其中 M 个高价值客户有流失倾向,则这 N 个高价值客户可分为两类人:M(有 流失倾向)和 N-M(无流失倾向),客户流失预警模型就是要对这 N 个客户进行预测,假定 65 模型预测出其中 K 个客户有流失倾向,完美的结果是模型预测出的 K 个客户与实际流失的 M 个客户完全一致,然而实际当中无法实现。实际情况将存在以下四种预测结果,如表 1 所 示: 70 表 1 客户流失预测的混淆矩阵 Tab. 1 A confusion matrix for customer churn forecasts 实际流失 实际不流失 总和 模型预测流失 模型预测不流失 总和 a c K b d N-K M N-M 其中,a 为流失客户被模型精准命中(简称命中), b 为流失客户被模型错误预判为非流 失(简称漏判),c 为非流失客户被模型错误预判为流失(简称误判), d 为非流失客户被模 型判定为不流失。模型建好后,运营商会根据模型预测的流失客户(a+c)提前进行挽留,命中 75 人数 a 和误判人数 c 是对矛盾,假设模型门限过高,命中人数过少,将损失因漏判而流失的 这批高价值客户的利润;假设模型门限过松,误判人数多,那么将浪费因误判带来的客户营 销成本,因此需要构建价值函数: - 2 -
中国科技论文在线 http://www.paper.edu.cn α 是猜中一个流失客户所获得的平均利润,β 为误判一个不流失客户所付出的营销成本。 80 此次该运营商给出 α=500 元,β=30 元,需我们构建最佳模型,及提供最佳的流失客户(a+c) 清单,使得价值函数 S 最大化。 S=α×a-β×c 2 数据分析与建模准备 2.1 数据采集 数据来源:某省运营商 2019 年 3 月至 6 月高价值用户 100 万(N=100 万)数据,对总 85 样本 100 万进行随机均匀抽样,分为训练集 80 万,测试集 20 万。其中 3 至 5 月活跃且 6 月流失的客户约 5 万(M=5 万)为正样本,标记为 Y=1;3 至 5 月活跃且 6 月活跃的用户为 95 万(N-M=95 万)为负样本,标记为 Y=0。 2.2 数据预处理与特征工程 90 数据集变量共 180 个,若全用于建模,一方面,建模时间长,另一方面,部分干扰字段 将降低模型精度。因此,需要对数据做预处理和特征工程。 1) 稽查重复数据:对于整体关键指标进行数据稽查,例如:查看每个用户是否有唯一的一 条记录,核对数据准确性,删除重复数据。 2) 奇异值数据:奇异值在数据中以离群值的形式体现,即与大部分正常取值偏离较大,通 95 过变量的直方图或散点图识别并删除。 3) 缺失严重特征:对于缺失数据,评估补足难度和价值,找出缺失严重的特征行标记并删 除,如图 1: 4) 字符串重新编码:例如“客户星级”、“手机型号”、“学历”等,提前将字符串重新自动编 码为不同变量,如图 2: 100 5) 经过相关性分析删除约 70 个特征:常用来衡量相关性的为皮尔逊系数,皮尔逊系数只 能衡量线性相关性,缺少对非线性相关特征的衡量。同时运用了模型进行非线性相关性 的衡量,两者结合后进行特征选择,如图 3: 105 图 1 特征缺失数据 图 2 字符串重新编码 Fig. 1 Feature missing data Fig. 2 String recoding - 3 -
中国科技论文在线 http://www.paper.edu.cn 图 3 相关性分析删除特征 110 Fig. 3 Correlation analysis removes features 6) 根据相关性较高特征衍生新变量: 平均值:月平均总消费,月平均流量,月平均停机次数,月平均通话次数等。 占比趋势:省外流量/总流量;省内流量/总流量;前二总消费/三个月总消费等。 115 交叉特征:从工作中可以知道局向编码为某一区域的编码,可能存在某个局向上的小区 流失率很高的情况,故添加了局向编码_夜间基站编号交叉,夜间基站编号_基站宽带数 交叉等。 7) 正负样本的不平衡性处理:正样本 5 万,负样本 95 万,正负样本严重不平衡,Smote 算 法进行不平衡性处理。 120 3 算法建模与模型评估 3.1 Xgboost 算法原理 Boosting 是一种常用的统计学习方法,在训练过程中,通过改变训练样本的权重,学习 多个分类器,最终获得最优分类器。在每一轮训练结束之后,降低被正确分类的训练样本权 重,增大分类错误的样本权重,多次训练之后,一些被错误分类的训练样本会获得更多关注, 125 而正确的训练样本权重趋近于 0,得到多个简单的分类器,通过对这些分类器进行组合,得 到一个最终模型。 Xgboost 在传统 Boosting 的基础上,利用 CPU 的多线程,引入正则化项,加入剪枝,控 制了模型的复杂度。 与 GBDT 相比,Xgboost 有以下进步: 130 1) GBDT 以传统 CART 作为基分类器,而 XgBoost 支持线性分类器,相当于引入 L1 和 L2 正则化项的逻辑回归(分类问题)和线性回归(回归问题); 2) GBDT 在优化时只用到一阶导数,XgBoost 对代价函数做了二阶 Talor 展开,引入了一 阶导数和二阶导数; 3) 当样本存在缺失值是,XgBoost 能自动学习分裂方向; 135 4) XgBoost 借鉴 RF 的做法,支持列抽样,这样不仅能防止过拟合,还能降低计算; 5) XgBoost 的代价函数引入正则化项,控制了模型的复杂度,正则化项包含全部叶子节点 的个数,每个叶子节点输出的 Score 的 L2 模的平方和。从贝叶斯方差角度考虑,正则 - 4 -
中国科技论文在线 http://www.paper.edu.cn 项降低了模型的方差,防止模型过拟合; 6) XgBoost 在每次迭代之后,为叶子结点分配学习速率,降低每棵树的权重,减少每棵树 140 的影响,为后面提供更好的学习空间; 7) XgBoost 工具支持并行,但并不是 Tree 粒度上的,而是特征粒度,决策树最耗时的步骤 是对特征的值排序,XgBoost 在迭代之前,先进行预排序,存为 Block 结构,每次迭代, 重复使用该结构,降低了模型的计算;Block 结构也为模型提供了并行可能,在进行结 点的分裂时,计算每个特征的增益,选增益最大的特征进行下一步分裂,那么各个特征 145 的增益可以开多线程进行; 8) 可并行的近似直方图算法,树结点在进行分裂时,需要计算每个节点的增益,若数据量 较大,对所有节点的特征进行排序,遍历的得到最优分割点,这种贪心法异常耗时,这 时引进近似直方图算法,用于生成高效的分割点,即用分裂后的某种值减去分裂前的某 种值,获得增益,为了限制树的增长,引入阈值,当增益大于阈值时,进行分裂; 150 3.2 训练模型 用户流失预警的问题是典型的二分类问题,可以适用 XGBOOST 算法。经过反复调优, 最终,模型调用如图 4,模型的参数如图 5,模型运行环境如图 6 所示: 、、、 155 图 4 XGBoost 调用 图 5 XGBoost 调参 图 6 XGBoost 运行环境 Fig. 4 XGBoost call Fig. 5 XGBoost tuning parameter Fig. 6 XGBoost runtime environment 3.3 模型评估 160 本文应用 Logistics regression 算法和 Xgboost 算法,对训练集建模,用测试集验证,经 过反复调整参数、优化模型后,画出 LG 和 Xgboost 的 ROC 曲线对比,如图 7: - 5 -
中国科技论文在线 http://www.paper.edu.cn 图 7 LG 和 Xgboost 的 ROC 曲线对比 图 8 利润对比 Fig. 7 Comparision of ROC Curves between LG and Xgboost Fig. 8 Profit contrast 165 对比图 7 中的 ROC 曲线可以看出,Xgboost 的 AUC 明显大于 LG 的 AUC ,Xgboost 模 型由于 LG。同时,结合价值函数 S=500×a-30×c,通过穷举, 找到 S 最大化的营销方案, 其中如图 7,Xgboost 模型中预警挽留方案 A 点(命中率 93.2%,误判率 51.1%, a=9320,b=97090), S1=1747300 元 ; LG 模 型 中 预 警 挽 留 方 案 B 点 ( 命 中 率 85.3% , 误 判 率 61.4%, 170 a=8530,b=116660),S2=765200。S1 比 S2 增加了 128%,如图 8。因此,选择 Xgboost 作为客 户流失预警建模的算法,A 作为挽留营销方案的备选方案。 4 总结 本文在携号转网背景下,基于某运营商企业的真实历史数据,针对高价值客户的流失问 题,采集了数据,进行了数据预处理,运用 Logistics regression 和 Xgboost 算法完成了客户 175 流失预警模型,用 ROC 曲线做了对比,得出 Xgboost 比 LG 效果好,同时,通过计算价值 函数,找出价值最大化的方案,大大优于“地毯式”挽留,值得在后续客户流失预警挽留活动 中大力推广。 [参考文献] (References) 180 185 [1] 徐建华. 手机携号转网为何总在实验阶段[J]. 中国质量报, 2014. [2] 单其帅. 基于粗糙集- bp 神经网络的电信企业客户流失风险预警研究[D]. 河北工程大学, 2014. [3] 丁君美,刘贵全,李慧. 改进随机森林算法在电信行业客户流失预测中的应用[J]. 模型识别与人工智能, 2015, 28(11). [4] 劳晓琨. 基于 Logistic 回归模型和 SVM 的企业客户流失研究[D]. 西安电子科技大学,2018. [5] 潘志强. 利用数据挖掘实现电信行业客户流失预警[D]. 复旦大学,2006 [6] 张雪梅. 数据挖掘在中高端客户流失预警中的应用[D]. 南京邮电大学,2009. - 6 -
分享到:
收藏