R语言与数据分析之四：聚类算法1

作者: 大数据观察来源: 大数据观察时间:2017-07-15 17:19:470

前面和大家分享的分类算法属于有监督学习的分类算法，今天继续和小伙伴们分享无监督学习分类算法---聚类算法。聚类算法也因此更具有大数据挖掘的味道,话不多说，先贴张图，让大家对聚类有个大概的印象：

上图可明显看出店群被分为3个组（类），接下来让我们来瞧瞧聚类是啥玩意

聚类算法本质上是基于几何距离远近为标准的算法，最适合数据是球形的问题，首先罗列下常用的距离：

绝对值距离（又称棋盘距离或城市街区距离）

Euclide距离（欧几里德距离，通用距离）

Minkowski 距离（闵可夫斯基距离），欧几里德距离 (q=2)、绝对值距离(q=1)和切比雪夫距离(q=无穷大)，这些都是闵可夫斯基的特殊情况。

Chebyshew（切比雪夫）距离

Mahalanobis距离（咱们前面介绍的马氏距离，这里复习一下）

Lance 和Wiliams距离

定性变量距离（二进制距离）：

其中m1为所有项目中1-1配对的总数，m2是不配对的总数

R语言中，对上述的距离都有现成函数，只需要借参数加以制定即可，具体如下：

[plain] view plaincopy

看过还想看

可能还想看

热点推荐