深度分析 > 案例介绍 > 员工离职率分析

1.背景介绍

员工离职率与组织成长和组织活力息息相关。离职率影响组织的活力、招聘成本、工作交替的时间成本、核心技术保留、企业文化等问题。某公司希望发现员工离职的主要原因，针对存在问题对症下药，降低员工离职对于公司的各方面损失。

2.数据说明

企业提供员工个人信息汇总统计表，每条记录代表一名员工个人信息，共计14999条记录。数据字段描述如表1所示。

字段名称	字段描述	数据类型
Average_Working_Hours_per_Month	每月平均工时	数值型
Complete_Projects	完成项目数量	数值型
Department	部门	文本型
Employee_Competence	工作能力	数值型
Mistakes	失误次数	数值型
Salary	工资区间	文本型
Satisfaction_Degree	满意度	数值型
Whether_Get_a_Promotion_in_Five_Years	五年内是否晋升	数值型
Whether_Resign	是否辞职	数值型
Working_Years	工作时长（年）	数值型

3.方案介绍

聚类分析又称之为群分析或点群分析，是通过将数值特征类似的样本划分到同一个簇中，它是一种多元性统计分析方法，建模过程中不需要人为总结经验规律，模型会遵循同类个体相似度高、不同个体差异化大的原则，自动在样本数据中“总结规律”。

K-Means算法是用于解决聚类问题的一种基于划分的算法。由于算法运行过程简单，运算效率较高，因此在当每个簇形状是凸型并且不同簇之间具有较大差异性时，K-Means聚类具有良好的表现。

4.方案分析

1)搭建模型工作流

先通过K-Means聚类算法对数据进行分组，最后通过统计各组离职率，通过研究离职率较高组的质心特征，总结离职规律。

DepthAnalysis_EmployeeTurnoverRateAnalysis

2)参数配置

根据参数列表中的“意义”项的指引，按需求填写参数值。本案例分类簇数量设置为3，模型将把原始数据集分为3个簇。初始化方法在下拉列表中选择random，其他超参数可在案例中查看。

DepthAnalysis_EmployeeTurnoverRateAnalysis1

3)字段选择

K-Means是一种无监督算法，只需要选择相应的数值型特征字段输入模型，点击自变量下方的选择数据按钮。再弹出的字段列表中选择相应的字段。

DepthAnalysis_EmployeeTurnoverRateAnalysis2

5.结果说明

根据输出类型列表，K-Means算子将输出KMeans模型、质心和模型的性能指标、聚类结果的可视化图。

•K-Means模型，可连接模型应用节点，用模型进行簇标签的预测（Cluster字段）。

DepthAnalysis_EmployeeTurnoverRateAnalysis3

•质心和模型的性能指标，各簇中相应特征的平均值，以及模型的表现相关数值可作为调整模型超参数的参考值。

其中，轮廓系数趋近-1表明聚类结果不好，簇之间有明显重叠，趋近于1表明簇内实例之间紧凑，各簇之间差异显著。Calinski-Harabasz指数在多次调整参数进行比较时，发挥实际作用，该值越大说明聚类效果越好。KMeans聚类可以通过调整分类簇的数量这个参数，并观察上述两个指标的变化情况，找到最优的聚类效果。

DepthAnalysis_EmployeeTurnoverRateAnalysis5

•聚类结果可视化

不同颜色分别代表不同簇的样本点。

DepthAnalysis_EmployeeTurnoverRateAnalysis4