| << Click to Display Table of Contents >> 银行电话营销复制链接 | 
1.背景介绍
电话营销在银行的经营活动中被广泛应用。传统的电话营销采用“广撒网”的形式进行电话宣传推广,这种营销不针对特定的用户群,不具有针对性,更是浪费公司的人力资源和时间成本。因此,需要找到影响电话营销成功的关键因素,更直接有效的锁定目标客户群体,并展开更加正确合理的营销方式。
2.数据说明
某银行提供了客户信息的汇总统计表,每条记录代表一名客户的信息,共计3000条记录。数据字段描述如表所示。
| 字段名称 | 字段描述 | 数据类型 | 
|---|---|---|
| ID | 客户唯一标识 | 数值型 | 
| age | 客户年龄 | 数值型 | 
| job | 客户职业 | 文本型 | 
| marital | 婚姻状况 | 文本型 | 
| education | 受教育水平 | 文本型 | 
| balance | 每年账户平均余额 | 数值型 | 
| housing | 是否有住房贷款 | 文本型 | 
| loan | 是否有个人贷款 | 文本型 | 
| contact | 与客户联系的沟通方式 | 文本型 | 
| day | 近一次联系(日) | 数值型 | 
| month | 近一次联系(月) | 数值型 | 
| duration | 近一次联系时长 | 数值型 | 
| campaign | 活动中交流次数 | 数值型 | 
| pdays | 上次活动联系时间(日) | 数值型 | 
| previous | 活动之前沟通次数 | 数值型 | 
| poutcome | 上次活动结果 | 文本型 | 
| y | 本次订购结果 | 数值型 | 
3.方案介绍
首先,根据项目背景介绍,整个问题是一个判断客户是否响应营销活动的业务问题,可以将业务抽象为一个二分类问题,数据集中的y字段,就是建模采用的目标值,其中的是否可作为两个类别应用到模型之中。
决策树是一种基于实例的归纳学习方法,能从给定的训练样本中,提炼出树形的分类模型。树中的每个非叶子节点记录了使用了哪个特征作为判断条件,每个叶子节点代表了判断的类别。根节点到各个叶子节点形成一条分类的决策路径。决策树具有直观,计算效率高的特点,因为其一系列的特点,被广泛应用在分类问题或者构建其他集成算法之中。
4.方案分析
1)模型工作流搭建
决策树模型是一种有监督模型,模型通过寻找特征列和目标列之间的关系,完成模型的建立,并且在有新的特征数据输入模型时,输出(预测)样本是否响应了营销活动。

2)参数配置
根据参数列表中的“意义”项的指引,按需求填写参数值。本案例分裂准则在下拉列表中选择gini,分类策略选择best,最大深度设定为4,其他超参数可进入案例查看。

3)字段选择
如前所述,有监督算法需要指定特征列字段和目标列字段。点击特征列和目标列下方的选择数据按钮。再弹出的字段列表中选择相应的字段。


5.结果说明
当前项目的工作流,决策树算子将输出模型性能指标、ROC曲线、决策树结构、特征重要性、平行坐标图。
•模型性能指标:

训练集和验证集上的性能指标:准确率、召回率、F1-score、支持样本量。其中准确率、召回率、F1-score的取值范围为[0,1],当数值越接近1,说明模型表现越好。


•ROC曲线
能反映模型在选取不同阈值的时候其敏感性(sensitivity, FPR)和其精确性(specificity, TPR)的趋势走向,ROC曲线有一个巨大的优势就是,当正负样本的分布发生变化时,其形状能够基本保持不变,而P-R曲线的形状一般会发生剧烈的变化,因此该评估指标能降低不同测试集带来的干扰,更加客观的衡量模型本身的性能。

其中,ROC曲线与横轴围成的面积称为AUC值,取值范围为[0,1],该指标越接近1说明模型表现越好。
•特征重要性

特征重要性展现了每个特征对于模型的影响大小,并对它们进行降序排列,使得研究者能够直观便捷的了解每个特征在模型中发挥作用的大小。
•平行坐标图

平行坐标图是一种通用的可视化方法,能够用于探索高维或多元数据的分布情况。颜色的深浅代表了数据分布情况,颜色越深代表该区间上的数据分布越多。
•决策树结构

决策树可视化图展现了建模形成的决策树的结构形式,说明了决策树的构建过程。