banner

关于数据挖掘的几点思考

作者: 大数据观察来源: 大数据观察时间:2017-01-31 16:50:070

数据挖掘这个词已经火的不行了。但是有太多文章都是空中部队。没有任何实质内容。进步君有一位从事数据挖掘领域的专业朋友,写了这么一篇文章,很接地气。值得一看!她的微博是@王秋钰 大家可以关注哦!

随着在公司里面一个个项目的推进和完成,并且项目结果也都受到客户的好评,这里将最近关于数据挖掘的一点思考分享出来,也希望能够和大家讨论。这里说的思考主要是围绕着从数据中得到的消费者洞察帮助客户来改进其市场、销售和客户支持操作过程的相关内容。

1. 为什么是现在?

《大数据时代》早已成为去年最火爆的畅销书,网上关于3V(Volume,Velocity , Variety)也会在各式各样的“大数据”的话题中提及。很多人也都知道大多数的数据挖掘技术,至少是学术算法也存在了数十年,为什么现在的商业如此的关注?这里不想说什么大数据的战略,管理等很大的内容。仅仅简单讲讲我看到的一些内容和切身感受。

①从数据中更“全面”的了解消费者

曾经读麦肯锡报告中有提到快消品企业在以下几个方面如果能够更好的运用数据将能够为企业创造更多的价值,并且也估算了相关的数值。一些报告的相关内容如下:

We estimate that these applications of opendata in consumer product can enable $520billion to $1.47 trillion in valueannually Marcket share shifts could also occur across the industry,as companiesgain advantage by incorporating open data into their analytics.--《MGI OpenData FullReport》

其实这五个方面也都是建立在对消费者全面了解的基础上,以前关于消费者洞察也写过一篇《被低估的宝藏:社会化网络中的消费者洞察》,文章主要讲了三个方面:1 更丰富和贴切的消费者细分和描述 2 更真实和有效的信息获取 3 更低的获取成本和更大的样本容量。一些具体这里就不细讲了。但在这里面还想再补充一点,一些weak signal的捕捉也成为了可能,麦肯锡在《The strength of‘weak signals’》的报告中也指出了这一点:Snippets of information, often hidden in social-media streams, offercompanies a valuable new tool for staying ahead.

公司项目里在处理消费者表达数据过程中,会对数据内容的高峰值,数据的长尾部分多次的进行多次data mining直到得到尽可能多的洞察为止。在几个项目中我们也发现,一些特别多的表达内容的聚类内容可能都是大家在生活中会特别会出现和表达的,但是在处于长尾部分的数据往往有着很多连品牌商本身从来都没有想到的创新点。例如在一个薯片项目,我们发现了原来薯片的吃法可以有十来种,原来薯片包装有种种的利用,原来还有薯片哥的存在等。

做Data mining进行消费者洞察的过程就像是安安静静的浸入到消费者的生活中,没有任何假设,从不发问,仅仅是聆听和观察,为品牌商还原出一个最真实的消费者状态,一点一滴的刻画出一个生动而全面的消费者画像,而不再是一张曝光不足的照片。

②数据大量产生,技术的成熟提供基础

数据大量产生这一点就不用说了,看看我们每个人一天的生活里会有多大的比例泡在网上,再加上未来各种可穿戴设备,物联网的普及,数据量之大难以想象。我主要想谈谈技术,也许技术这个词不够专业,自己在编程,数据存储方面也不是特别了解,这里就说说算法这一部分。记得原先在《数据结构和算法》一开篇就提到关于等差数列求和的计算机求和计算,我们从小就知道等差数列的求和可利用算法公式,该算法利用了首尾两个数据和是一样的数据结构特征从而更简洁。告诉计算机进行求和命令可以是两种方法 1.一项项的加,2.直接利用算法,利用第一个方式可能在数据量少的时候计算速度与第二种相比不会有太大的差异,但如果数据量很大,后者的优越性将很明显。后来在接触到Apriori算法时候里用看到算法会用到一些剪枝手段减少计算机运算量的时候忍不住拍案叫绝。

另外,各式各样的统计软件的背后都有着大量的contributors将自己的算法程序包分享到网上,供后来人更便捷的调用使用。互联网的这种集体智慧的共享创造方式让后来人站在前人的肩膀上,走的更远。但是在调用这些算法的过程中还是要对算法本身有一些原理上的理解,算法和数据结构是钥匙和锁,我们在实际操作的过程中还需要根据具体的情况灵活和适当的使用,会在后面的分享里细说。

③信息也是产品

许多公司所拥有的客户信息不仅仅对自己有价值,同时对他人也同样具有价值。如今很多的淘宝店铺之间也有了很多的消费者数据的共享。互联网也改变了品牌和品牌之间的关系,一个拥有很多青少年儿童数据的公司完全可以将自己的数据分享给做儿童食品的公司,或者更进一步,分享彼此所拥有的平台。

2.数据挖掘 for “actionable”insightsdiscovery

数据挖掘有很多不同的名称,例如KDD(knowledge discovery in database),或者BI(businessintelligence),预测建模(predictive model)等,但针对我们业务感受,我更愿意把数据挖掘定义为发现能够让品牌商产生真正落地行为的洞察或发现。以下举两个在项目中的小例子:

在电商的数据挖掘中,我们通过对消费者的表达研究了解消费者购买产品的关注重点是什么,影响产品满意度的重要因素是什么,其次我们会对消费者的线上购买行为数据进行研究,去看消费者购买除了买自己品牌的商品同时还会购买哪些竞品品牌。结合这表达和行为的洞察,再深入探究竞品的商品展示,宣传,品牌形象,等等各方面和本品之间的差异点。这样品牌商在电商运营中更能有方向性的去改进产品和消费者之间的沟通方式。

所以,数据挖掘是在一项探测大量数据以发现有意义的模式和规则的业务流程,我们关注的重点在于发现的知识是否有意义,是否actionable。正如沈浩老师说的:“这是一个令人兴奋的时代,也是一个大数据的时代,社交媒体让我们越来越多地从数据中观察到人类社会的复杂行为模式。以数据为基础的技术决定着人类的未来,但并非是数据本身改变了我们的世界,起决定作用的是我们对可用知识的增加。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限