banner

拥抱大数据 走近大数据分析工具

作者: 大数据观察来源: 大数据观察时间:2016-12-01 17:32:060

若要说目前IT领域热度最高词的话,除了云计算外,恐怕就是大数据了。当前数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。大数据正在推动生产力迅速发展和创新,对于海量数据的应用也预示着新一波生产率大幅增长时期的到来。

大数据的好处

严格地说,大数据并非一个新词,被誉为“数据仓库之父”的Bill Inmon早在上世纪90年代就经常将“Big Data”挂在嘴边了。大数据之所以在近一两年迅速走红,要归结于互联网、移动设备、物联网和云计算的迅猛发展,它们使得人类每分每秒都在产生巨量数据——从出现文明到2003年,人类总共才创造 5 EB(5 ExaBytes)的数据,但现在全世界仅数天内就可创造出相同的数据量。来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是说全球大概需要376亿个1TB的硬盘来存储这些数据。

但是大数据并非单指数据量大,对于大数据,IDC的定义是:“大数据是为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”人们普遍将该定义概括为四个“V”,即更大的容量(Volume,从TB级跃升至PB级,甚至EB级)、更高的多样性(Variety,包括结构化、半结构化和非结构化数据),以及更快的生成速度(Velocity)。前面三个“V”的组合推动了第四个因素——价值(Value),而关于大数据所蕴含的价值,有许多被人所津津乐道的故事可以佐证。

大数据的4V特性

早在19世纪,“百货商店之父”约翰·沃纳梅克便提出了:“我在广告上的投资有一半是无用的,但是问题是我不知道是哪一半?”这也是对经典商业模式下供需不对称的典型描述。而现在依靠大数据的分析预测能力,一些精明的零售商正在收集和挖掘消费大数据,针对顾客在网上的购买行为,投其喜好进行销售与推广,实现社交电子商务和库存优化。

例如,大数据分析软件有可能使零售商进行直接相关的促销和营销活动,激励消费者进行网购,并跟踪由此产生的销售交易,最大限度地提高消费,提高盈利能力,在短时间内产生最大收益。比如Trident Marketing是一家营销企业,其客户包括DIRECTV等品牌,通过IBM大数据分析软件的帮助,他们甚至可以预计客户最佳联系时间以及客户是否会取消购买服务。其营收在短短4年间增长了10倍,产品部署后头两个月的销售额增长10%,而且其客户流失率降低了50%。

去年,西班牙电信推出了名为“智慧足迹”的大数据服务,通过向数据挖掘公司等合作方提供定向人流的移动数据,为零售客户开店选址和促销提供借鉴。另一个典型的案例是,2012年成功获得连任的美国总统奥巴马背后,有一个几十人的数据分析与挖掘团队,帮助他在获取有效选民、投放广告、募集资金等方面发挥作用。

从以上的例子不难看出,大数据的价值和重要性已经毋庸置疑。不过现在最关键的问题是,每个企业如何才能获取大数据中的“宝藏”呢?

Hadoop,大数据分析利器

对于较大的公司来说,海量数据处理已经不是什么新鲜的东西了。例如,Twitter和LinkedIn已经是大数据的著名用户了,这两家公司已经奠定了明显的竞争优势,通过挖掘他们的大规模数据仓库来判断发展趋势。那么,中型企业的CIO该怎么办呢?幸运的是,手边就有可用的工具。这些工具中有一款是免费的,那就是Hadoop,它基于Java的Apache Hadoop编程框架。Hadoop是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解分布式底层细节的情况下开发分布式程序。简单来说,Hadoop是一套开源的、以Java为基础的、可对PB级别的大数据进行存储和计算的软件平台,它能够让数千台X86服务器组成一个稳定的、强大的集群。而对那些想充分利用大数据的IT专业人员,Hadoop解决了与大数据相关联的最常见的问题:高效的存储和访问海量数据。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限