banner

R语言与数据分析之四:聚类算法1

作者: 大数据观察来源: 大数据观察时间:2017-07-15 17:19:470

    前面和大家分享的分类算法属于有监督学习的分类算法,今天继续和小伙伴们分享无监督学习分类算法---聚类算法。聚类算法也因此更具有大数据挖掘的味道,话不多说,先贴张图,让大家对聚类有个大概的印象:

 

    上图可明显看出店群被分为3个组(类),接下来让我们来瞧瞧聚类是啥玩意

    聚类算法本质上是基于几何距离远近为标准的算法,最适合数据是球形的问题,首先罗列下常用的距离:

    绝对值距离(又称棋盘距离或城市街区距离)

    Euclide距离(欧几里德距离,通用距离)

    Minkowski 距离(闵可夫斯基距离),欧几里德距离 (q=2)、绝对值距离(q=1)和切比雪夫距离(q=无穷大),这些都是闵可夫斯基的特殊情况。

    Chebyshew(切比雪夫)距离

    Mahalanobis距离(咱们前面介绍的马氏距离,这里复习一下

    Lance 和Wiliams距离

    定性变量距离(二进制距离):

    其中m1为所有项目中1-1配对的总数,m2是不配对的总数

    R语言中,对上述的距离都有现成函数,只需要借参数加以制定即可,具体如下:

    [plain] view plaincopy

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限