banner

数据挖掘算法:K 均值算法

作者: afenxi来源: afenxi时间:2017-05-22 15:55:550

摘要:均值算法是一种典型的无监督学习算法,用来对数据进行分类。

聚类问题 Clustering

针对监督式学习,输入数据为 (x, y) ,目标是找出分类边界,即对新的数据进行分类。而无监督式学习只给出一组数据集 $$ 和 $u_1, u_2, ... , u_k$ 算出最终的成本值 记录最小的成本值,然后跳回步骤 1,直到达到最大运算次数

这样我们可以适当加大运算次数,从而求出全局最优解。

选择聚类的个数

怎么样选择合适的聚类个数呢?实际上聚类个数和业务有紧密的关联,比如我们要对 T-Shirt 大小进行聚类分析,我们是分成 3 个尺寸好呢还是分成 5 个尺寸好?这个更多的是个业务问题而非技术问题。3 个尺寸可以给生产和销售带来便利,但客户体验可能不好。5 个尺寸客户体验好了,但可能会给生产和库存造成不便。

数据挖掘算法:K 均值算法-数据分析网 Elbow

从技术角度来讲,也是有一些方法可以来做一些判断的。我们可以把聚类个数作为横坐标,成本函数作为纵坐标,这样把成本和聚类个数的数据画出来。如上图所示。大体的趋势是随着 K 值越来越大,成本越来越低。我们找出一个拐点,即在这个拐点之前成本下降比较快,在这个拐点之后,成本下降比较慢,那么很可能这个拐点所在的 K 值就是我们要寻求的最优解。

当然,这个技术方法并不总是有效,我们很可能会得到一个没有拐点的曲线,这样的话,就必须和业务逻辑结合以便选择合适的聚类个数。

原创文章,作者:古思特,如若转载,请注明出处:《数据挖掘算法:K 均值算法》https://www.afenxi.com/post/4787

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限