大数据：正在发生的深刻变革

作者: 大数据观察来源: 大数据观察时间:2017-07-17 12:02:170

Big Data: A Radical Revolution

刘鹏/Liu Peng 吴兆峰/Wu Zhaofeng 胡谷雨/Hu Guyu

摘要：

惊人的“计算机速度每18个月翻番”的“摩尔定律”刚刚带领人类进入到信息时代，更加惊人的“全球数据总量每18个月翻番”的“新摩尔定律”开展掀起大数据的巨浪。本文对大数据的特征、发展现状及产生原因进行了描述和分析，重点分析和比较了大数据存储、管理、处理及挖掘的主要技术。

关键词：

大数据;新摩尔定律;云计算;Hadoop;数据挖掘

Abstract:

The amazing “computer speed doubling every 18 months” which is called Moore’s lawhas just brought human into the information age, while the breathtaking “totalglobal data volume doubling every 18 months” which is called new Moore’s lawgives rise to the big data. This article gives a detailed description andanalysis of the feature, current development and cause of the big data. Then wemainly analyze and compare the methods up to date for the storage, processingand analysis of the big data.

Key words:

Big data;new Moore’s law; cloud computing; Hadoop; data mining

随着人类对自然和社会认识地进一步加深及人类活动的进一步扩展，科学研究、互联网应用、电子商务、移动运营商等诸多应用领域产生了多种多样的数量巨大的数据。大数据(Big Data)的出现对传统的数据存储、数据处理及数据挖掘提出了新的挑战，同时也深刻地影响着人类的生活、工作及思维。传统的数据存储方法、关系数据库、数据处理和数据分析方法已不能满足当前的需要。

何谓大数据?维基百科给出的定义如下：

巨量数据，或称大数据、海量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯[1]。

目前工业界普遍认为大数据具有4V+1C的特征：

1)数据量大(Volume)，存储的数据量巨大，PB级别是常态，因而对其分析的计算量也大;

2)多样(Variety)，数据的来源及格式多样，数据格式除了传统的格式化数据外，还包括半结构化或非结构化数据，比如用户上传的音频和视频内容，而随着人类的活动的进一步拓宽，数据的来源更加多样;

3)快速(Velocity)，数据增长速度快，同时要求对数据的处理速度也要快，以便能够从数据中及时地提取知识，发现价值;

4)价值密度低(Value)，需要对大量的数据处理挖掘其潜在的价值，因而，大数据对我们提出的明确要求是设计一种在成本可接受的条件下，通过快速采集、发现和分析从大量、多种类别的数据中提取价值的体系架构;

5)复杂度(Complexity)：对数据的处理和分析和处理的难度大。

1 大数据时代的来临

因特尔创始人戈登·摩尔(Gordon Moore)在1965年提出了著名的“摩尔定律”：即当价格不变时，集成电路上可容纳的晶体管数目，约每隔18个月便会增加一倍，性能也将提升一倍。 1998年图灵奖获得者杰姆·格雷(Jim Gray)提出著名的“新摩尔定律”：每18个月全球新增信息量是计算机有史以来全部信息量的总和。我们可以将新摩尔定律同1439年前后古登堡发明印刷机时造成的信息爆炸作对比：在1453-1503年这50年间大约印刷了800万本书籍，相当于1200年之前君士坦丁堡建立以来整个欧洲所有手抄书还要多，即50年内欧洲的信息增长了一倍[3];而现在的数据增长速度则是每18个月全球信息总量翻一番。图1可以清楚地看到大数据的增长,图2是IDC公司对未来全球数据总量的预测，图3则表明了大数据正在日益成为关注的焦点。我们已经进入到大数据时代。

2 大数据产生的原因

大数据随着人类活动的进一步拓宽的背景下出现，他给我们带来了机遇也带来了挑战。

2.1 数据采集方式的改变

自从计算机诞生以来，特别是近几十年因特网的发展，人类逐步进入了信息社会。信息化时代一个关键特征是自动化，包括数据的产生自动化、数据处理的自动化等等，把人从简单繁琐的任务中解脱出来，用以解决需要创新的问题。比如在精细农业中，我们需要收集植物生长环境的温度、湿度、病虫害信息，来对植物的生长进行精细的控制。因此我们在植物的生长环境中安装各种各样的传感器，自动地收集我们需要的信息。自动化的出现使人类不再满足于得到部分信息，而是倾向于收集对象的全面的信息，即将我们周围的一切数据化(注意，这里并非“数字化”)。因此，美国提出了“数字地球”计划，因为在信息时代，谁掌握了信息的制高点，谁就能掌握主动权。而且有些数据如果丢失了哪怕很小一部分，都有可能得出错误的结论，比如通过分析人的基因组判断某人可能患有某种疾病，即使丢失一小块基因片段，都有可能导致错误的结论。这些原因都导致了我们必将面临数据的大爆炸。

2.2 人类活动的进一步拓宽

在 Web2.0时代，每个人不仅是信息的接受者，同时也是信息的产生者。全球每秒中发送2.9百万封电子邮件，每天会有2.88万个小时的视频上传到 Youtube，Twitter上每天发布的信息超过5千万条，每天亚马逊将产生6.3百万比订单。2012年11月11日0点起，天猫和淘宝网在5分钟内就渗入了1000万网民抢购…

以上只是我们见到的大数据的冰山一角，大数据主要由下面几个来源：1)科学研究(包括天文学、生物学和高能物理等)：以天文学为例，2000年斯隆数字巡天项目启动的时候，位于墨西哥州的望远镜在短短几周内收集到的数据比天文学历史上总共收集的数据还要多;2)智慧城市建设：包括市政交通管理、精细农业、智能家居和环保监察等，以市政交通管理为例，在城市的任何道路上都可以看到摄像头，而视频数据是一个巨大的数据源;3)移动、电信和联通等通信和互联网运营商：运营商会实时采集网络底层数据进行网络优化，也会对所有用户的消费行为进行深度挖掘以制定相对应的营销策略;4)互联网企业(包括SNS、微博、视频网站、电子商务)：这些是最早接触大数据的企业，谷歌公司每天要处理24PB大小的数据，国内所熟知的互联网巨擘如百度、新浪、腾讯、阿里巴巴，每天产生的数据以PB量级计算。

2.3 大数据蕴含巨大的潜在价值

从数据中发现知识，用以指导企业或者个人对生产和生活中碰到的问题进行决策，而不仅仅是产生报表。这些复杂的分析必须依赖复杂的分析模型，很难用SQL语句进行表达，因此这类分析被称为“深度分析”。

以往的数据只是用来描述事实，进而理解产生这些数据背后的原因，现在我们需要通过对累积的数据进行分析，用以预测事物将来的发展趋势，进而采取相关的行动。在商业活动中，公司能够积累大量的交易记录，公司希望通过分析这些交易记录，找出其背后潜在的盈利模式。而SQL语句仅仅能够做到数据的呈现，无法满足找寻数据背后的相关性需求，进而探究事物之间的因果关系。谷歌在2009年初通过用户在网上的搜索记录成功预测甲型H1N1流感的爆发[4]。如果我们能够在流感爆发之前采取措施，将会给社会带来巨大的福祉。谷歌的成功预测是建立在大量的数据上。这就是大量数据背后的潜在的价值，谁能利用这些数据进行创新，谁就能够对未来的有更大的把握。为了得到数据背后的潜在价值，我们通常使用神经网络、数据挖掘及机器学习的方法建立模型，找出事物之间的关联，通过进而探究数据背后的原因，而这是单纯的SQL语句所无法胜任的。我们已经进入对大数据进行复杂分析的时代。

3 大数据解决方案

大数据时代的到来对数据的存储、处理及分析提出了新的挑战，但总的发展趋势是通过分布式计算来解决瓶颈问题。我们不能依赖提高单个节点新能这种纵向扩展的方式提升系统整体的性能，相反，我们需要能够通过增加系统内节点的数目这种横向扩展的方式来达到我们的目的。我们将存储、处理和分析的任务通过分布式的方式分散到系统中各个节点上来加快数据的存储、处理和分析的速度。

在实际的实现上，Google[5]、Amazon[6]、微软[7]和VMware[8]这四家公司在不同时间陆续推出各自的大数据方案，在应用领域和赢利模式上，Amazon和Google处于领跑者地位，微软和VMware紧随其后，此外还有开源的Hadoop[9]平台。Hadoop是谷歌大数据平台的开源实现，由于其开源特性，越来越多的企业在Hadoop的基础上对其进行修改以适应自己的需要，如Facebook根据其业务需求，底层采用Hadoop平台进行数据的存储和处理，并在其上开发了Hive[10]。Facebook通过Hive实现了例行性报表、即席查询、机器学习和数据挖掘算法，达到了较好的效果。图5是谷歌趋势描述的“Hadoop”关键词的搜索趋势。下面的对各项技术的比较过程中，我们将主要围绕这五种大数据解决方案展开比较。

3.1 大数据的存储

稳定、高效的存储系统既是系统正常运行的重要保证，也可以单独作为一项服务提供给用户。五种方案之中，Amazon的S3和微软的Blob存储比较的类似，Google的GFS则完全不同，VMware目前仅向虚拟机提供存储服务，Hadoop仿照GFS开发了HDFS，是GFS的简化版本。相比GFS，HDFS缺少了多客户端并发的Append模型及快照功能。表1是五种存储服务的简单对比。

五种方案都提供了数据库存储服务。Google AppEngine的Datastore构建在Bigtable上，但自身及其内部没有实现直接访问Bigtable的机制，可以看做是Bigtable上的一个简单接口。由于雅虎和Facebook的推动，Hadoop平台的数据库功能也越来越完善。雅虎在Hadoop平台上开发了Pig[11]，Facebook在Hadoop平台上开发了Hive，两者都是构建在HDFS之上，直接对HDFS进行操作，严格来讲只能算是对HDFS进行操作的接口。Hive目前已经开放了HBase接口，能够通过HBase对数据进行操作，因此，Hive同HBase的融合是未来发展的趋势。Amazon的SimpleDB采用的是“键/值”存储方式，功能比较简单，实现的查询功能也不太全面。SimpleDB和Datastore使用的都是“实体-属性-值”(Entity-Attribute-Value)的EAV数据模型。微软的SQL Azure是云环境下的关系数据库，并支持报表、数据同步等服务。10gen开发的开源云数据库MongoDB，可以实现均衡性较好的分布式数据库存储。Cassandra是Facebook推出的兼具Amazon Dynamo完全分布式特性和Google集中式管理特性的大数据库。数据立方是云创存储推出的列式完全分布式万亿记录级别的实时云计算数据库，其性能较之传统的云计算数据库提升约2个数量级[12]。表2是五种数据库之间的比较。

MapReduce[13]是谷歌提出的面向大数据的并行处理模型，具有扩展性好，鲁棒性高的优势，而属于关系型数据库的并行数据库是数据库发展的结晶，具有查询效率高，并且支持schema。此外并行数据库的外围工具种类齐全，我们不能因为大数据就把这些非常好用的软件全部扔掉，这样做不经济也不合理，在小规模数据和数据的报表显示方面，这些工具性能卓越。目前越来越多的研究人员逐渐意识到，MapReduce技术和并行数据库的融合才是真正的解决大数据问题的有效途径[14]。文献[15]指出，目前并行数据库同MapReduce的融合包括三个方面：1)并行数据库主导型，典型的代表有Exadata、Greenplum等;2)MapReduce主导型，典型代表有Hive和Pig;3)并行数据库和MapReduce集成型，典型代表有HadoopDB、Vertica及Teradata等。

3.2 大数据的处理

计算服务是所有的大数据解决方案最核心的业务之一，同时也是用户最常用的服务。Google和Hadoop提供基于MapReduce的数据处理，整个过程对用户而言是透明的。Amazon的EC2给予用户配置硬件参数的权利，使得用户可以根据实际的需求动态地改变配置，从而提高效率和节省资源。微软的Azure允许用户在处理数据之前设置部分参数，但相对于EC2其灵活性要差很多。VMware的vCloud中提供了DRS和DPM技术，可以通过迁移和关闭虚拟机来实现资源优化。表3是这五种计算服务的比较。

MapReduce在系统层面解决了大数据分析平台的扩展性和容错性问题，是非关系型数据库的典型代表，因此越来越多的研究人员从性能和易用性方面对MapReduce进行改进[14]。对MapReduce性能提升的研究包括四个方面：1)多核硬件与GPU上的性能改进;2)索引技术与连接技术的优化;3)调度技术优化;4)其他优化技术。针对MapReduce易用性的研究成果包括Yahoo的Pig、Microsoft的LINQ、Hive等。

从上述比较中不难发现，五种大数据解决方案在大数据的存储和处理方面都存在较大的差异。但不同方案之间没有绝对的优劣之分，仅有适用场合的区别，用户可在确定自身的需求后进行选择

3.3 大数据的数据挖掘

3.3.1 大数据数据挖掘的背景

图6是谷歌趋势反映的“Big Data Analytics”关键词的搜索趋势，可以看出对大数据的分析已经成为关注的焦点。对大数据进行分析，找出其背后的潜在关系，是大数据的最终目的，大数据才能真正释放其价值。

互联网和电子商务企业应用数据挖掘算法对大数据进行分析的做法由来已久。谷歌通过将软件免费提供给用户使用，使其能够对用户的喜好进行分析，从而定制更加具有针对性的广告策略。此外，谷歌在机器翻译和图像识别方面的成就也是有目共睹，而这一切都建立在对大量的数据进行分析的基础上。亚马逊能够根据以往用户的购买记录向用户推荐相似的商品，这项技术为亚马逊带来了巨大的收益，作为消费者，我们也很难不受这些推荐内容的影响。现在我们已经能够通过数据挖掘预测飞机票、规划最佳线路及对汽车的安全状况进行监测等。这些都是对大数据进行挖掘的例子，通过数据挖掘，能够为公司带来巨大的利益，也能使我们的生活更加便利。

在国内，中国移动在2007年3月确定实施“大云”计划，并同中科院计算所合作开发了大云数据挖掘系统(BD-PDM)。该系统是一套高性能、低成本、高可靠性、高可伸缩性的海量数据处理、分析和挖掘系统，实现了数据的分类、聚类及关联规则发现。阿里巴巴利用Hadoop平台对海量电子商务交易数据进行存储和深度数据挖掘，并于2011年启动10亿元云基金，专注于基于云计算的电子商务、分布式存储和计算技术、数据中心运维技术、大规模/超大规模的数据挖掘和分析的算法等等。

Mahout[16]是一个基于Hadoop的开源数据挖掘平台，其主要目标是创建一些可伸缩的机器学习算法，供开发人员在 Apache 在许可下免费使用。虽然其在开源领域比较年轻，但已经提供了大量功能，特别是在集群和CF方面。

3.3.2 大数据数据挖掘的研究现状

当数据规模增大的时候，已有的数据挖掘算法已经不再适用，需要对其改进，以利用并行计算模型加快数据的处理速度。目前对大数据进行数据挖掘的研究大致包括以下三个方面。

1)集中在将已有的在单个机器上运行的机器挖掘算法迁移到并行计算平台上来。文献[17]提出了一种基于MapReduce的、适用于大量机器学习算法的通用并行编程框架，在该框架下，他们实现了包括线性回归、朴素贝叶斯等在内的十种经典的数据挖掘算法。文献[18]阐述了SVM在在MapReduce模型下的实现。文献[19]提出了Parallel FP-Growth算法，并通过实验证明了该算法具有极强的扩展性，适用于海量数据挖掘。文献[20]-[23]也都是对已有的数据挖掘算法进行改进，使其能够通过MapReduce并行计算模型加快计算速度，以适应大数据背景下的数据挖掘要求。

2)利用MapReduce并行计算模型解决具体的问题。文献[24][25]都是对web数据进行数据挖掘。文献[24]利用MapReduce模型改进并优化了Web数据挖掘中的Graph算法，文献[25]重新设计和实现了基于中文词网络的HITS算法，对该算法进行Map/Reduce化，并测试和分析了实验结果。文献[26]分析了中药的复方数据，发现了中药药物网络具有复杂网络特性，并采用MapReduce并行计算模型对分析复杂网络的算法进行了并行化处理。文献[27]-[29]也都是在具体的应用中通过MapReduce模型对已有的算法进行并行化处理。

3)利用已有的数据挖掘算法构建大数据挖掘平台。通过将已有的数据挖掘算法同大数据挖掘平台的集成，能够使我们在利用已有的研究成果的同时，快速地开发相关的算法，使我们专注于实际的应用问题。已有的开源数据挖掘平台R和Weka被广泛使用。文献[30][31]致力于将R和Hadoop集成，使Hadoop获得强大的分析能力。文献[32]实现了Weka和MapReduce的集成。

4 结束语

大数据的产生是必然的，而且已经在深刻地影响着我们的工作和生活。本文分析了大数据的产生与发展，并对大数据的存储和处理及对大数据的数据挖掘作了介绍，最后对本文作了总结。我们有理由相信，在不远的将来，大数据将带给我们更多的精彩。我们应当抓住机遇，在未来出现的大数据生态系统中找到自己的一席之地。

参考文献

[1]大数据[EB/OL][2013-04-13].http://zh.wikipedia.org/zh/Big_data.

[2]http://research.microsoft.com/en-us/people/gray/

[3]维克·托迈尔-舍恩伯格, 肯尼思·库克耶(盛杨燕, 周涛译). 大数据时代[M].2013:1-23.

[4]JeremyG, Matthew H.M, Rajan S.P, et al. Detecting influenza epidemics using searchengin query data[J]. Nature, 2009, 457(19): 1012-1014.

[5]Google. Google App Engin [EB/OL][2013-04-13]. http://code.google.com/appengine/.

[6]Amazon. Amazon Web Service [EB/OL][2013-04-13]. http://aws.amazon.com/.

[7]Microsoft. Introducing the Windows Azure Platform (Final PDC10)[EB/OL][2013-04-13]. http://www.windowsazure.com/en-us/develop/net/fundamentals/intro-to-windows-azure/.

[8]VMware. VMware vCloud [EB/OL][2013-04-13].http://www.vmware.com/products/vcloud/.

[9]Hadoop[EB/OL][2013-04-13]. http://hadoop.apache.org/.

[10]ThusooA, Sarma JS, Jain N, et al. Hive a warehousing solution over a MapReduceframework. PVLDB, 2009, 2(2): 938-941.

[11]OlsonC, Reed B, Srivastava U, et al. Pig Latin: A not-so-foreign language for dataprocessing. Proc. of the SIGMOD. Vancouver: ACM Press, 2008. 1099-1110.

[12]cStor[EB/OL][2013-04-13]. http://www.cstor.cn.

[13]DeanJ, Ghemawat S. MapReduce: Simplified data processing on large clusters. Proc.of the OSDI. California: USENIX Association, 2004, 137-150.

[14]覃雄派, 王会举, 杜小勇, et al. 大数据分析-RDBMS与MapReduce的竞争与共生[J].软件学报, 2012, 23(1)32-45.

[15]王珊, 王会举, 覃雄派, et al. 架构大数据:挑战、现状与展望[J]. 计算机学报,2012, 34(10):1741-1752.

[16]Mahout[EB/OL][2013-04-13].http://mahout. apache.org/.

[17]ColbyR, Ramanan, R, Arun P, et al. Evaluating MapReduce for Multi-core andMultiprocessor Systems.

[18]EdwardC, Kaihua Z, Hao W, et al. PSVM: Parallelizing support vector machines ondistributed computers. NIPS, 2007.

[19]HaoyuanLi, Yi Wang, Dong Zhang, et al. Parallel FP-Growth for query recommendation. InProceedings of the 2008 ACM conference on Recommender systems.

[20]郗洋. 基于云计算的并行聚类算法研究[D].江苏南京:南京邮电大学,2012.

[21]陈爱平. 基于Hadoop的聚类算法并行化分析及应用研究. 陕西西安: 电子科技大学， 2012.

[22]张明辉. 基于Hadoop的数据挖掘算法的分析与研究. 云南昆明: 昆明理工大学, 2012.

[23]李曼. 云计算平台上的增量学习研究. 江苏南京:南京邮电大学,2012.

[24]李雪锋. 基于云计算环境的web数据挖掘算法研究. 北京:北京交通大学,2010.

[25]李辉. 基于与计算环境的web结构挖掘算法研究. 浙江杭州: 浙江理工大学, 2012.

[26]刘正. 基于MapReduce的中药数据网络化及挖掘. 江苏南京: 南京大学, 2012.

[27]李彬. 基于MapReduce编程模型的航空日志分析研究. 四川成都: 成都理工大学, 2012.

[28]高进. 基于MapReduce的DNA序列拼接算法研究. 北京:北京交通大学,2012.

[29]肖韬. 基于MapReduce的信息检索相关算法并行化研究与实现. 江苏南京: 南京大学， 2012.

[30]DasS, Sismanis Y, Beyer, KS, et al. Ricardo: Integrating R and Hadoop. InElmagarmid AK, Agrawal D, eds. Proc of the SIGMOD. Indiana: ACM Press, 2010:987-988.

[31]SaptarshiG, Ryan H, Jeremiah R, et al. Large complex data: divide and recombine(D&R)with RHIPE. The ISI’s Journal for Rapid Dissemination of Statistics Research,2012, 1:53-67.

[32]WegnerD, Mock M, Adranale D, et al. Toolkit-Based high-performance data mining oflarge data on MapReduce clusters. Proc. of the ICDM Workshop. Washington: IEEEComputer Society, 2009: 296-301.

作者简介：

刘鹏，解放军理工大学教授、博导、学科带头人，清华大学博士毕业，主要研究方向：云计算、信息网格。现任中国云计算专家咨询委员会副主任/秘书长、中国电子学会云计算专家委员会云存储组组长。主持完成科研项目18项，发表论文80余篇，出版专业书籍12本。获部级科技进步二等奖4项，三等奖3项。获全军“十大学习成才标兵”、南京“十大杰出青年”、江苏省“333高层次人才培养工程”中青年科学技术带头人、清华大学“学术新秀”等称号。

微信公众号：lpoutlook

扫描二维码关注：

转载请注明来源，加上作者微信公众号，否则将追究法律责任，不加来源者请勿转载，自重，否则后果自负！

看过还想看

可能还想看

热点推荐