banner

大数据环境下的关联规则挖掘

作者: 大数据观察来源: 大数据观察时间:2017-08-03 09:40:250

随着物联网和云计算这两大国家战略性新兴产业的不断发展,如何处理海量的信息以服务于社会的需求变得更为紧迫,数据挖掘技术成为推动两大新兴产业发展的核心技术。对于一些企业,数据挖掘更是可以带来更大的价值。

而关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,可以用来发现数据之间的联系,关联规则挖掘过程主要包含两个阶段:

关联规则挖掘的第一阶段必须从原始资料集合中找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一个项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式求得包含所产生的规则AB,其信赖度可经由公式求得,若信赖度大于等于最小信赖度,则称AB为关联规则。

而关联规则挖掘的相关算法一般有以下几种:

FP-树频集算法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。

Apriori算法:Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。

基于划分的算法:Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。

“数据海量,信息缺乏”是所有企业在数据大集中之后普遍所面对的尴尬。企业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的兴趣。同时在我国这方面的人才也十分稀缺。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限