数据挖掘算法：K 均值算法

作者: afenxi来源: afenxi时间:2017-05-22 15:55:550

摘要：均值算法是一种典型的无监督学习算法，用来对数据进行分类。

聚类问题 Clustering

针对监督式学习，输入数据为 (x, y) ，目标是找出分类边界，即对新的数据进行分类。而无监督式学习只给出一组数据集 $$ 和 $u_1, u_2, ... , u_k$ 算出最终的成本值记录最小的成本值，然后跳回步骤 1，直到达到最大运算次数

这样我们可以适当加大运算次数，从而求出全局最优解。

选择聚类的个数

怎么样选择合适的聚类个数呢？实际上聚类个数和业务有紧密的关联，比如我们要对 T-Shirt 大小进行聚类分析，我们是分成 3 个尺寸好呢还是分成 5 个尺寸好？这个更多的是个业务问题而非技术问题。3 个尺寸可以给生产和销售带来便利，但客户体验可能不好。5 个尺寸客户体验好了，但可能会给生产和库存造成不便。

Elbow

从技术角度来讲，也是有一些方法可以来做一些判断的。我们可以把聚类个数作为横坐标，成本函数作为纵坐标，这样把成本和聚类个数的数据画出来。如上图所示。大体的趋势是随着 K 值越来越大，成本越来越低。我们找出一个拐点，即在这个拐点之前成本下降比较快，在这个拐点之后，成本下降比较慢，那么很可能这个拐点所在的 K 值就是我们要寻求的最优解。

当然，这个技术方法并不总是有效，我们很可能会得到一个没有拐点的曲线，这样的话，就必须和业务逻辑结合以便选择合适的聚类个数。

原创文章，作者：古思特，如若转载，请注明出处：《数据挖掘算法：K 均值算法》https://www.afenxi.com/post/4787

看过还想看

可能还想看

热点推荐