员工离职预测模型
员工离职预测模型
2020 年 6 月
员工离职预测模型
摘要
本 文 针 对 企 业 员 工 的 一 些 特 征 来 判 断 员 工 是 否 离 职 , 利 用
RapidMiner 软件构建员工离职预测模型,分析影响员工离职的重要
因素,比如员工月收入,是否加班,是否出差等,预测企业员工是否
具有离职倾向,为企业提前做出判断,协助人力资源部门进行关键的
干预工作,有计划的进行“留住人才”措施,同时也可以更好的促进
企业做好“选拔人才”、“培养人才”、“管理人才”。建模前,先对原
始数据进行预处理,包括属性变量量化处理、约简属性、数据标准化
处理、特征的相关性分析、指定属性角色和划分训练集与测试集。建
模选取了决策树模型、随机森林模型、KNN 算法模型、逻辑回归模型
及贝叶斯模型,利用准确率、精度、召回率及 ROC 曲线/AUC 评价模
型的整体性能,最后总结出决定员工离职的三个重要特征和较优的预
测模型,并对用人单位提出建议。
关键词:员工离职预测,RapidMiner,离职因素
员工离职预测模型
目录
摘要............................................................................................................................................................2
一、 背景描述................................................................................................................................. 1
二、 目的.......................................................................................................................................... 1
三、 数据探索性分析................................................................................................................... 1
四、 数据清洗与转换................................................................................................................... 7
(一) 数据集说明........................................................................................................................ 7
(二) 属性变量量化处理...........................................................................................................9
(三) 约简属性.......................................................................................................................... 10
(四) 数据标准化处理.............................................................................................................11
(五) 属性的相关性分析........................................................................................................ 12
(六) 指定属性角色................................................................................................................. 13
(七) 划分测试集和训练集....................................................................................................14
五、 员工离职预测模型设计................................................................................................... 15
(一) 决策树................................................................................................................................... 15
(二) 随机森林...............................................................................................................................21
(三)
KNN 算法..............................................................................................................................27
(四) 逻辑回归...............................................................................................................................31
(五) 贝叶斯................................................................................................................................... 33
六、 模型性能对比分析............................................................................................................ 37
七、 结论........................................................................................................................................37
1
员工离职预测模型
一、 背景描述
在高度的市场竞争中,人才是最重要的资源。无论在 IT 互联网领域还是传
统领域、事业单位,均面临关键人才的流失,因为关键人才的流失不仅会造成业
务的损失,也会增加企业招聘新人才及培养新人才的成本。所以预测员工的离职
概率,从而提前预知并有效预防,变得极其重要。公司的人力资源部门需把控员
工的基本情况,对员工的工作状态实时掌握了解。然而在大数据时代下,大型企
业的管理工作越来越倾向于用数据作为企业管理和调整的工具,通过运用数据挖
掘的机器学习算法,统计学知识等可以更有效、更有依据和更有方法的对人才进
行管理,挖掘内在原因,一定程度上预测员工是否具有离职倾向,同时也可以根
据一些离职人群共同具备的特征来进一步改进企业的人才管理计划,比如进行升
职加薪、更换工作岗位等,这样提前采取行动,可以避免造成人才流失的损失。
二、 目的
建立一个精确度高、稳定性强的员工离职预测模型,为人才流失提供参考,
同时在一定程度上帮助企业更好的管理人员,对具有离职倾向的人员加以引导,
避免人才流失。提取员工离职的关键因素,探索哪些是主要影响员工离职的因素,
便于企业有计划的提前作出应对策略。
三、 数据探索性分析
探索数据
关系图
年龄与离职
率
商务差旅频
率与离职率
1
初步分析结果
28-37 岁之间的年龄
更易离职,但随着年
龄的增长离职人群在
降低。可初步猜测年
龄较低的员工还处在
一个较为迷茫的阶
段,他们更倾向于尝
试不同的新事物。
经常出差的人员相比
其他人员离职率高,
从这点看出可通过减
少人员的出差程度来
降低离职率。
员工所在部
门与离职率
公司跟家庭
住址的距离
与离职率
员工的教育
程度与离职
率
员工对环境
的满意程度
与离职率
员工所学习
的专业领域
与离职率
所在研发部的人群离
职率高,人力资源部
离职率低。如果条件
允许,可通过调整部
门在一定程度上降低
离职率。
距离越近的离职人数
最多。但从占比来看,
公司与家庭住址越远
越易离职。员工更多
的倾向选择离家庭住
址近的公司。
受教育程度中等水平
下离职人群较多,可
能与该人群教育程度
比上不足比下有余存
在一定关系,较为摇
摆不定。观察发现,
受教育程度等级最高
的离职率最低。
从占比来看,环境满
意度越低离职率越
高。说明一个好的办
公环境可以在一定程
度上降低离职率。
学习生命科学和医疗
的离职人数最多,员
工所学专业领域对是
否离职存在一定的影
响。
员工离职预测模型
2
性别与离职
率
员工投入度
与离职率
职员级别与
离职率
工作角色与
离职率
工作满意度
与离职率
员工婚姻状
况与离职率
员工离职预测模型
3
男性离职人群比女性
离职人群多,但从占
比来看却相差不大,
可能与探索的数据中
男性群体对于女性群
体有关。
员工投入度偏高(投
入度为 3)的离职群体
人数最多。
职员级别越低的越易
离职。可猜测这类人
员可能由于级别低得
不到重视或者是想挑
战更高的岗位级别而
选择离职。
实验室技术员、销售
代表与研究总监离职
人群最多。
从占比来看,工作满
意度越低的离职率越
高。提高员工对工作
的满足感可在一定程
度上降低离职率。
单身的人群更易离
职,可能与单身人群
较为自由不受约束有
关,没有家庭方面的
压力有关。
员工月收入
与离职率
关系满意度
与离职率
距离上次升
职时长与离
职率
目前工作职
责的工作年
数与离职率
在目前公司
工作年数与
离职率
月收入越低离职率越
高,月收入在 3000 以
下的离职人群最多,
月收入在
15000-19000 离职人
群较少。但是收入最
高的群体中离职率也
偏高,不乏存在能力
强的员工想要追求更
好的机会。
从占比来看,关系满
意度越低的离职率越
高。企业可通过组织
团建、员工聚会等活
动,从而促进员工之
间的关系,进而降低
离职率。
距离上次升职时长越
少的离职率越高,从
这点可以看出,通过
给员工升职可降低离
职率。
目前工作职责的工作
年数越低的离职率越
高。
在目前公司工作年数
小于 4 年的人群更易
离职,且工作年数越
少越易离职。
员工离职预测模型
4
工作与生活
平衡程度与
离职率
与上一年的
培训时长与
离职率
总工龄与离
职率
股票期权水
平与离职率
绩效评估与
离职率
工作与生活平衡程度
为 3 的离职率最高。
从这点看,平衡度高
的反而离职人数更
多。
培训次数在 2-3 次离
职人群最多。可通过
增加对员工的培训次
数来降低离职率。
总工龄小于 9 年的人
群更易离职,工龄越
长越不易离职,可能
与老员工对公司的情
感有关。
股票期权水平越低离
职率越高。可通过提
供员工股票期权从而
降低离职率。
从总数上看绩效低的
离职率高,但由于绩
效低的人群基数也
大,初步断定绩效与
离职率关系不大。
员工离职预测模型
5