免费试用
banner
行业资讯>大数据技术与应用>机器学习评价指标

机器学习评价指标大汇总

作者: afenxi来源: afenxi时间:2017-04-18 14:43:460

在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总。

一、分类 1. 精确率与召回率

精确率与召回率多用于二分类问题。精确率(Precision)指的是模型判为正的所有样本中有多少是真正的正样本;召回率(Recall)指的是所有正样本有多少被模型判为正样本,即召回。设模型输出的正样本集合为A,真正的正样本集合为B,则有:

Precision(A,B)=|A⋂B||A|,Recall(A,B)=|A⋂B||B| 。

有时候我们需要在精确率与召回率间进行权衡,一种选择是画出精确率-召回率曲线(Precision-Recall Curve),曲线下的面积被称为AP分数(Average precision score);另外一种选择是计算Fβ分数:

Fβ=(1+β2)⋅precision⋅recallβ2⋅precision+recall 。

当 β=1 称为 F1 分数,是分类与信息检索中最常用的指标之一。

2. ROC

设模型输出的正样本集合为 A ,真正的正样本集合为 B ,所有样本集合为 C ,我们称 |A⋂B||B| 为真正率(True-positive rate), |A−B||C−B| 为假正率(False-positive rate)。

ROC曲线适用于二分类问题,以假正率为横坐标,真正率为纵坐标的曲线图,如:

机器学习评价指标大汇总-数据分析网

AUC分数是曲线下的面积(Area under curve),越大意味着分类器效果越好。

3. 对数损失

对数损失(Log loss)亦被称为逻辑回归损失(Logistic regression loss)或交叉熵损失(Cross-entropy loss)。

对于二分类问题,设 y∈Vary。

4. 决定系数

决定系数(Coefficient of determination)又被称为R2分数:

R2(y,y^)=1−∑nsamplesi=1(yi−y^i)2∑nsamplesi=1(yi−y¯)2,

其中y¯=1nsamples∑nsamplesi=1yi。

三、聚类 1 . 兰德指数

兰德指数(Rand index)需要给定实际类别信息C,假设K是聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K中都是不同类别的元素对数,则兰德指数为:

RI=a+bCnsamples2,

其中Cnsamples2数据集中可以组成的总元素对数,RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。

对于随机结果,RI并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近零”,调整兰德系数(Adjusted rand index)被提出,它具有更高的区分度:

ARI=RI−E[RI]max(RI)−E[RI],

具体计算方式参见Adjusted Rand index。

ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。

2. 互信息

互信息(Mutual Information)也是用来衡量两个数据分布的吻合程度。假设U与V是对N个样本标签的分配情况,则两种分布的熵(熵表示的是不确定程度)分别为:

H(U)=∑i=1|U|P(i)log(P(i)),H(V)=∑j=1|V|P′(j)log(P′(j)),

其中P(i)=|Ui|/N,P′(j)=|Vj|/N。U与V之间的互信息(MI)定义为:

MI(U,V)=∑i=1|U|∑j=1|V|P(i,j)log(P(i,j)P(i)P′(j)),

其中P(i,j)=|Ui⋂Vj|/N。标准化后的互信息(Normalized mutual information)为:

NMI(U,V)=MI(U,V)H(U)H(V)√。

与ARI类似,调整互信息(Adjusted mutual information)定义为:

AMI=MI−E[MI]max(H(U),H(V))−E[MI]。

利用基于互信息的方法来衡量聚类效果需要实际类别信息,MI与NMI取值范围为[0,1],AMI取值范围为[−1,1],它们都是值越大意味着聚类结果与真实情况越吻合。

3. 轮廓系数

轮廓系数(Silhouette coefficient)适用于实际类别信息未知的情况。对于单个样本,设a是与它同类别中其他样本的平均距离,b是与它距离最近不同类别中样本的平均距离,轮廓系数为:

s=b−amax(a,b)。

对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。

轮廓系数取值范围是[−1,1],同类别样本越距离相近且不同类别样本距离越远,分数越高。

四、信息检索

信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估,与机器学习也有较大的相关性,感兴趣的可以参考这篇不错的博文。

五、总结

上面介绍了非常多的指标,实际应用中需要根据具体问题选择合适的衡量指标。那么具体工作中如何快速使用它们呢?优秀的Python机器学习开源项目Scikit-learn实现了上述绝指标的大多数,使用起来非常方便。

原创文章,作者:大西,如若转载,请注明出处:《机器学习评价指标大汇总》https://www.afenxi.com/post/9342

banner
看过还想看
可能还想看
热点推荐
Yonghong的价值观:以卓越的数据技术为客户创造价值,实现客户成功。
免费试用