大数据挖掘技术之DM经典模型（下）

作者: 大数据观察来源: 大数据观察时间:2017-05-28 19:36:360

接着上篇大数据挖掘技术之DM经典模型（上）文章，接下来我们将探讨朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型。

4、朴素贝叶斯模型

表查询模型简单有效，但是存在一个问题。随着输入数量的额增加，每个单元格中训练样本的数量会迅速减少。如果维度为2，且每一维有10个不同的变量，那么就需要100个单元格，而当有3个维度时，就需要1000个单元格，4个维度就是10000.这样成指数级的增长，哪怕的传统数据挖掘中都会遇到明显瓶颈。

当试图预测某一个概率值时，朴素贝叶斯模型就提供这一办法。基本思想：每个输入变量本身就包含一些预测需要的信息。比如目标变量是取消业务的概率，解释变量是市场、获取渠道、初始信用评分、利率计划、电话号码类型、手机号以及客户年龄。这些变量都具有预测能力。根据取消率的显著差异性，可将每个变量划分在不同的范围中。

简单理解：条件概率是指给定B的条件下A的概率以及给定A的条件下B的概率。

解释：给定B的条件下A发生的概率，等于给定A的条件下B发生的概率乘以A和B发生的概率的比例。

如果A代表停止续签，B代表使用黑莓手机，然后给定使用黑莓手机的条件下停止续签的概率，就是给定停止续签的条件下使用黑莓手机的概率乘以总体停止续签的概率与总体使用黑莓手机的概率之比。

4.1、概率、几率和释然

·概率：0到1之间的一个数字，表示一个特定结果发生的可能性。一种估计结果概率的方法是计算样本数据中出现结果次数的百分比。

·几率：某一特定结果发生于不发生的概率比。如果一个事件发生的概率是0.2，那么不发生的概率是0.8。那么其发生的几率就是1/4。几率的取值是0到无穷。

·似然：两个相关的条件概率比。即给定B发生的情况下，某一特定结果A发生的概率和给定B不发生的情况下A发生的概率之比。

4.2、朴素贝叶斯计算

对任意数量属性中的每一个属性，朴素贝叶斯公式都将目标事件的几率与该事件的似然联系起来。回到基于营销市场、渠道获取、最初信用评分、费率计算、电话号码类型、手机型号以及客户年龄来预测客户流失的例子。例如上面谈到的黑莓手机续签的案例，我们关注的是。1、停止续签的总体几率。2、黑莓手机用户停止的似然。3、在整个州市场停止续签的似然。

之所以定义为“朴素”，是基于所有似然相乘都基于输入变量相互独立的假设。在这个案例中，假设的是使用黑莓手机的似然与市场独立（并且存在于该州的似然与手机类型独立）。而在实际中，这种真正相互独立的情况很少见。

朴素贝叶斯模型最吸引人的点：对于待评分的观测，如果缺失某些输入值，可以简单地将缺失的似然从模型中去掉。意味着，包含那些并不是对所有有用都可用的输入（用户年龄），但如果知道这些变量，它们就有用。给定不同输入的概率，且这些输入与停止续签相关，朴素贝叶斯公式就可以计算停止续签的几率，而公司对这种停止续签的用户更感兴趣。

4.3、朴素与表查询模型的比较

对于概率型目标来说，朴素贝叶斯模型和表查询模型密切相关。两者之间的主要区别就在于如何使用维度。在表查询模型中，使用所有维度依次定义单元格，然后计算每一个单元格的目标概率。因此，表查询模型可以获取变量之间的相互作用。在朴素中，需要为每一个维度单独计算似然，之后组合这些似然，从而计算出目标概率。似然的组合有一个假设：各维度关于目标彼此独立。表查询没有说明这样一类属性的组合关系，即由于在训练数据中出现的频率很低，导致这些概率很低的属性就不会出现。

在朴素模型中可以预测任何从未出现过的组合，但要这样做，就必须假设这些输入所造成的影响彼此独立。表查询模型没有这样的假设，所以当数据多到可以支持一个可信的估计模型时，表查询模型也许会做的更好。

5、线性回归

回归模型也是一种预测建模技术。在Excel中就可以使用线性回归。回归模型也很复杂，这里谈到——最佳拟合曲线。输入变量和目标变量必须都是数值变量，回归方程描述了两者之间的一种算术关系。“最佳的”关系是指最大限度地减少了从数据点到拟合曲线的垂直距离的平方和。

5.1最佳拟合曲线

如下图，显示了一个知名博主发表的一篇文章日浏览率随着时间和被关注度之间的关系。图中使用描点的符号是空心圆，它有助于清楚的显示各点之间的聚集情况。例如，在较短时间内用户的关注度分布非常密集。当使用不同的颜色比较不同的客户组时，这种散点图尤其有用。

随着时间的增加，博客的日访问量会越来越低，最后维持到一个水平。画出来的曲线更像是一个双曲线。根据X轴，时间的递增。Y轴，日访问量的增加。我们可以模拟出这个博主的访问量随时间变化的曲线。如果在保证博客质量的同时，我们就可以预测博主的一篇博客的访问量大致在什么范围。可能这里有很多的误差或不精确的地方。但是通过拟合曲线，我们更能从直观上看到，曲线的走势。如果曲线更精确的化，我们甚至可以模拟出曲线的函数表达式。

如果用作数据点的标记并没有完全拟合，散点图可以传递出更多的信息。最佳拟合曲线的性质：在所有可能的曲线中，最佳拟合曲线指的是从观察点到曲线垂直距离的平方最下的那条曲线，散点图显示了每个点到曲线之间的距离。

最佳拟合曲线的定义就是最小二乘法的定义。欧式距离公式对该值进行了开方，在没有计算机的年代，计算欧式距离非常困难。当时，高斯提出这一观点，就是利用计算平方和，代替计算距离之和。这样做的目的，就使最佳拟合曲线系数很容易计算。

这里谈到的是线性回归，其实回归模型是一个直线方程，这里只是来描述一个拟合曲线，其实算不上一个回归曲线。在现实之中，更多线性回归的模型很少见，更多的是曲线拟合。

5.2拟合的优点

对于一个给定的数据集，总是可以找到一条最佳的拟合曲线。但是，存在很多条曲线，哪条才是最佳的。这里引入“残差”，就是度量预测值与实际值之差。还有一个标准方法，成为，用来衡量描述曲线对观测数据的拟合程度。

（1）残差

如图，身高与体重模型的残差。

一个无偏模型在丢失高值点方面应与丢失低值点类似。在残差图中，最重要的一点就是，这些值是位于拟合曲线之上的可能性与之下的可能性是否一样。从图中我们也可以看到在曲线上与在曲线下的样本点是不一样的。

一个良好的模型所产生的估计值应该接近真实值，所以残差应该集中于曲线轴附近。如图中也是可以看到抛离曲线的一些孤立点。这些点出现的原因，可能是由于一些人为记录的原因造成的。

在统计学中，残差在回归方程中要考虑误差项。最佳拟合曲线的方程是：

Y=aX+b

但该曲线，不是完整的模型。统计人员会将模型方程表示为：ε代表误差项，因为X并不能完美的展示Y。误差项表示模型无法解释的Y的部分。

Y=aX +b+ε

（2）R(R这里代表是R的平方)

对于最佳拟合曲线，R的取值始终在0~1之间。当该值接近1时，说明该曲线在捕获输入和目标之间的关系方面表现很好。若接近于0，则说明最佳拟合曲线的表现很差。在0~1的范围内，值越大表明两者之间存在很强的关系，越下其关系越下。

相比于随机猜测的平均值，模型的估计值有多好。定义简单，但计算起来复杂。R要比较最佳拟合曲线与y平均值的水平线。1减去两个误差的比值可以计算出R。分子式最佳拟合曲线残差的平方和。分母是水平线的残差平方和。R度量了最佳拟合曲线优于均值作为估计的程度。

R度量了数据的稳定性。同一数据集中不同的样本是否会生成相似的模型。当R值较低时，不同的样本可能会表现出非常不同的行为。或者，在此基础上，再加入少量观察值可能会极大地改变模型的系数。当R值较高时，再加入少量观察值就不会有上述的改变。

5.3全局效应

回归方程能发现数据中的全局模式。即，方程系数应该对范围内的所有输入变量都起作用。这表明回归模型善于捕获那些总是正确的模式，不是产于处理局部模式。

例如，考虑不同年龄的汽车保险购买人的风险。年轻司机的风险较高。随着驾驶人员经验的不断增加，风险会逐步降低。而对年龄很大的驾驶者，风险又会增加。因为年龄很难作为回归方程的输入。因为没有全局模式，对于不同的年龄组，年龄的影响变化又会不同。

在很多程度上，这个需要根据建模人员的熟悉程度，可以使用那些在不同取值范围的变量作为输入参数。但是，回归方程本身不会发现局部模式。

看过还想看

可能还想看

热点推荐