中国科学院院士怀进鹏：大数据及大数据的科学与技术问题

作者: 大数据观察来源: 大数据观察时间:2017-06-15 14:45:210

第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕。本次大会以国际视野，洞悉全球云计算发展趋势，并从应用出发，探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题。大会还特别设立了云计算服务展示区域，交流国际云计算最新研究成果，展示国内云计算试点城市发展成就，分享云计算发展经验，促进全球云计算创新合作。

中国电子学会云计算专家委员会候任主任委员、中国科学院院士怀进鹏

在第五届云计算大会第二天的演讲上，中国电子学会云计算专家委员会候任主任委员、中国科学院院士怀进鹏发表了名为《大数据及大数据的科学与技术问题》的主题演讲，怀进鹏首先指出了IT发展理念——多快好省。而在过去的二十年里，计算速度和存储容量由于微电子的发展，CPU的性能提高了3500倍，但内存和硬盘的价格却下降了45000倍和360万倍。由于带宽等成本的不断降低，并超过摩尔定律时，数据的处理也从本地走入了网络。而这几年出现的热点技术中，云计算无疑很符合这个定律。

随后怀进鹏剖析了大数据的4个V，他指出大数据不只是海量的数据，拥有了海量数据后，并且有能力进行处理和分析，挖掘出数据的价值才可以获取数据的价值，从中获取真知。除此之外大数据还会给我们带来一些二次价值，从理念上改变我们的数据的认识，我们更需要获得的是一种趋势，一种预测。

以下为现场实录：

非常高兴有机会和各位嘉宾一起分享我对大数据这方面的理解和认识。也许有些内容太技术或者理论化，我尽可能简单一些。

云计算形成的先决条件

大数据已经成为非常热闹的一件事情，我这次主要跟各位交流当前互联网大数据以及对未来问题的一些思考。

信息技术从应用来看有一个信息流，从获取、传输到计算存储，到最后的使用。在过去的发展过程当中，摩尔定律催生了微电子的快速发展，实际上是通过预测来进一步推动技术的变革。还有一个是吉尔德定律，讲的是主干网带宽每六个月增加1倍，每比特的费用将趋于零。

在计算和存储方面，在过去二十年里，计算速度和存储容量由于微电子的发展，CPU的性能提高了3500倍，但内存和硬盘的价格却下降了4.5万倍和360万倍。在这样的带宽逐渐变得越来越廉价的时候，通讯的带宽远远超过摩尔定律的时候，单机就进入了网络计算，离线就进入了在线时代。这是一个非常非常大的变化。

云能给我们带来什么，为什么要使用云

为什么要有云，为什么会有这样的大数据？当我们上网获取信息资源变得越来越低成本的时候，现在通讯带宽发展进一步超越摩尔定律的时候，就使得互联网的应用进入了第二次价值挖掘。单机进入网络、离线进入在线，使得终端方面的维护和系统的维护开始进入了新的时代。我们不需要知道服务方在哪里，只需要关注我们需要获取的服务和相应的资源。

由于互联网的应用，特别是web2.0，不仅从过去技术单向交流的方式开始进入了双向交流的时代，也进一步加速了互联网的发展和新能力的创造。

计算模式的演变

过去互联网模式走过三个典型的时代，主机时代到网络计算时代再到现在的云计算。我们全当把它叫做虚拟的网络计算环境，我们是从封闭可控的平台进入了开放和没有集中控制的网络环境。到最终未来的发展当中，在宽带不断发展、微电子的价格不断下降，而资源获取能力增强的时候，就出现了计算模式的新变化。我的理解这是一种计算模式由于带宽和成本的不断变化所导致的新的一种计算模式的变化。

如果说过去我们理解在八十年代出现了第一次计算机变革，那是由于PC时代造成的，也就是软件第一次成为商品，开始通过购买copyright作为看不见的商品在市场上流行。到九十年代出现互联网有效规模的应用，就成为信息获取和信息交换的平台。第三次的时候，是不是这种计算模式正在推动我们进入新的前所未有的从量的积累到质的变化的时代，我们都在拭目以待。

对于任何一个IT领域的技术和产品，时间的开放窗口并不长，比如像PC、手机和互联网，一旦形成技术的标准或一定规模的成熟，对于追随者就再也没有机会了，或者只能处于它的旁观者。

这几年出现了很多非常热，也非常有效的方式：

1. 先谈云计算，它对我们在如此高速的互联网发展过程中，对提升高端计算的利用率和应用性、提升低端计算的事务处理能力和服务的能力，都会有重要变化。也许这种计算模式会进一步加深我们对这方面的理解。

2. 第二类，也是由于交互行为的技术支持，社会网络或者社交网络也有了很大的变化，大家都很清楚，像Facebook、人人网，以及现在的上网规模，都在不断变化。

3. 这里面还有另一类，就是我们生产控制系统、嵌入式系统、传感器所传递的系统，给我们带来了很多新的更重要的一类应用模式。当然，科学计算永远是大数据产生的基础。

但是，不论是从商业、工业，还是科学计算以及现在我们说的社会计算，给我们带来了新的问题，就是互联网二次价值的开发和新的挑战会在哪里？云计算作为一种计算模式，正在引领我们实实在在地发挥着作用，云计算背后要处理在现实应用当中或者是实际需求中的问题，人们提出大数据也是其中一个选择。

何为大数据，它给我们带来了什么？

1. 大数据的4个V

对大数据有很多说法，从外显特征来看，简单叫做4V或者5V，从规模和变化频度以及种类和价值密度的角度。维基百科也对大数据给出了外在的定义，它的数据是很大的，但现有的方法是处理不了的。对于大数据，不能简单看它就叫做一个数据，更重要的是它代表了数据从量到质的变化过程中，我们如何面对。所以它已经不是过去我们说的大批量数据、海量数据到大数据，不是简单的从量的规模考虑，而是发生了规模的质的变化以后，给我们带来了新的问题。就是传统看到的数据，从静态进入动态，从简单的多维变成了巨量的维，而且它的种类是我们没有办法控制的。

2. 大数据：价值 vs. 泛滥

在这样的一些内容当中我们知道很多具体的数据和实际的情况，但是图灵奖获得者之都曾经创造过所谓的数据规律，就是每18个月翻一番。如此巨大的数据又不同于传统结构化处理的数据，给我们带来了很多问题。因此，如何驾驭数据，是指数据过度泛滥或者数据不容易像处理商业数据那样。数据究竟是泛滥，还是我们需要找到一种新的方式，其实有很多类型的数据。有些数据不处理也没有太大的关系，也没有特别多的价值，关键我们如何看待真实的、有价值的数据和利用好这一种类。

在2010年《经济学人》有一篇专题标题就叫做“数据洪灾”或者是“数据泛滥”，它提到数据从稀缺走向丰富的时候，会有很多新的麻烦。在这篇专题当中也谈到了关于数据经济的问题，也提出了新的问题，就是数据进入了新的经济时代。

3. 生产、生活及科研中的大数据

从过去科学研究当中，也就从数据的关联关系的发现和数据的统计特征找出了新的价值。因此，由于信息的发展创造了很多人为的数据，非自然的数据。对这样的一部分数据，特别是和经济社会有关的数据，可能会给我们带来很多启示。同时，也有很多科学价值研究的重要内容。

大数据有多大的作用？在推特上，日本的海啸信息提前传播，对受灾信息提前报警。去年7月21日，北京的暴雨，有900万多条微博，把可能救助的方案提前在微博中发布。关于钓鱼岛，反映出社会的信息和情绪建议，如何更有效地处理这样的问题。我们也知道谷歌公司在2008年甲流爆发前几周就提前预测冬季流感的传播和甲流的问题。

我们很清楚，只有疾病控制中心确认患得甲流的症状以后，才能把各地的数据统计放在国家疾控中心。这个时间在候诊、确认到上报，一定是两三周。之所以谷歌能发现这个事情，它是通过在全国、全球分析用户的键入习惯和行为进行提前预警。根据用户查询的症状和方案，以及咨询，完全是根据互联网在线的信息来挖掘社会可能面临的问题。比如像阿里巴巴，马云跟我讲他曾经有金融危机的预感。原因就是在他的电子商务交易当中，实时交易中的支付出现了大幅度的下降。正常的情况是到圣诞节之前，采购计划应该提前半年发单。可是3月份没有、6月份没有，到9月份还在下滑的时候，对于我们的中小企业来说，制造业就出现了新的问题。还有百度，4亿用户来分析提供的个性化搜索。

我们也知道在西方，利用微博、社交网络创造了很多新的价值，比如说根据民众的情绪或者对某一只股票的影响，对冲基金可以根据对企业的分析决定是否购买股票，以及对于上市的企业是否破产，都可以给金融分析进行帮助。另外，还可以了解另外一些人对什么感兴趣，我们传统上有一些例子，将婴儿的尿布、奶粉和香烟放在一起，是一种方式。也有一种对应策略是将婴儿奶粉和香烟隔的距离远一些。一种方式是顺手牵羊，另一种方式是可以保证多留在商场的时间，刺激消费。这些都是通过对实际行为的判断和分析，在统计规律基础上做出来的。

4. 大数据的实际价值

实际上在数据的经济社会发展的价值当中，体现了我们如何对它进行归类和分析，并进行有效的预测。因此，拥有大数据，拥有大规模真实可运行的数据，并能够对它进行分析和处理，也许就是我们不断提高竞争能力的重要力量。

在这个方面，大数据未来投资和发展的价值有多大，实际上在去年的时候，Gartner进行了预测，他认为云计算和大数据的发展将在未来获得重要的机会。当然，咨询预测总是有风险的。从他的角度来看，2016年在全球大数据的发展当中将会出现新一轮的重大机遇。同样，他还进行了另一个分析，对当前大数据的投资领域来看，给出了当前已经超过30%左右和未来进一步投资领域的划分，列举了像教育、交通、医疗等，在这些领域可能，并且已经正在投入的行为。

5. 大数据带来社交模式及思维方式的改变

从过去来看，我们都知道互联网改变了我们的交流方式，越年轻的人越适应这种交流的习惯，发个邮件、微博、微信讨论一下。大数据是否会改变我们的经济社会生活？我前面提到这样一些例子。又有人讲，有了百度或谷歌，可以让我们熟悉用户的浏览行为。有了淘宝网和亚马逊，我们可以了解用户的购物习惯。有了微博这样的内容，对于思维习惯和阶段性社会的认识会有不同的反映。这是改变我们生活的一个方面。

从另一个角度来说，是不是大数据有可能会改变科学研究的途径？昨天李院士做了非常好的报告。过去研究有三种模式，理论研究、实验验证加仿真或者是计算为主。现在开始有人提出是不是从过去以计算为主的到数据密集型的科学发现。大数据是否能够成为人类在科学研究领域的新方式或者是新途径？如果这种方式可以在今后的发展中有所利用，我们的思维方式会发生变化：

第一种，人理解由于数据外部的4V特征，使得我们在大数据处理的研究手段和方法观念上有所变化，比如说数据量大。过去统计特征的方法不完全适用，因为它需要均匀。就像炒菜一样，我们把容易成熟、不容易成熟的按照优先次序放入。假设锅受热均匀，当你觉得一盘菜快熟的时候，可能用尝一尝的办法，尝一尝就是采样的概念，你估计它熟了，然后上桌。除非你经验非常强，估计3、5分钟，可以通过看颜色的方式判断。我们的假定，采样是重要的，一切是均匀的。

第二种就是过去从精确到非精确，当你想买一双球鞋，你未必跑遍北京市所有的鞋店。也就是说我们需要的不完全是精确计算、比较价格、式样，各方面全部走过了以后才能做决定。而是根据你对目标和趋势的判断所下的结论。

第三种就是从因果到关联关系。刚才讲到的谷歌公司发现的流感，他们可能不知起所以然，但他们把这种趋势和可能的相关性建立起来。就像一个名医一样，如果看到药典来配方支持病人的解决方案的话，是一种方式。但很多是基于他的经验，未必完全知道为什么同样的症状对他要配这样的药。

在这些背景下，大数据处理的思维模式可能发生变化，是否也会引导我们研究的变化？如何处理大数据，就变成一个重要的问题。因此，从上面的讨论，我个人觉得外显的大数据的4V特征可能要进行计算模式的变化，究竟会有什么影响？

我觉得就是所谓的近似性，从4V到3I，以数据的计算来看。近似性就是传统的精确处理不再适用，允许在解的一定范围区间内追求近似解。就是我前面提到的，当你买一双鞋的时候，不会跑遍北京所有的鞋店，而是根据你对一定目标的理解和趋势的判断。增量性。数据是源源不断的动态的变化，传统是有一个封闭的假设，所有数据都齐全了再计算。因此，在大数据动态变化特征当中需要有增量计算。同时，李院士昨天提到，过去的计算是系统还原法，给定问题A，把A变成A1一直到AN。A1到AN的有效解决，代表A的解决。现在完全变化了，因为问题单元的数据不足，需要偏差处理。第二，处理问题的方式是要采取归纳的方式，因为多数据之间的隐含关系很重要。就像微博，这里用音频，那边用视频，还有用文字，同样的表达方式还有所不同，跨越不同的区域，甚至是完全无关的区域。因此，如何有效地归纳，也是一个重要的问题。

从大数据到大数据的计算，我们把外部4V的数据表象特征理解3I的计算属性，这是我对这个问题的基本认识。

大数据 vs. 算法

为什么说研究大数据要先从计算的角度来看？因为我们都清楚计算是计算机科学的本质。我们实际上做计算机的，就是一直在解一个公式G=F（X）。F就是算法或者软件程序，X就是输入和数据，G就是一个程序给定的输入，处理完以后相应的结果。在过去的五十年中是什么状况？一直是以算法为研究基础。七十年代单纯算法研究。到七十年代之后发现了多项时间算法，所以不是所有计算都能解决问题。到八十年代又发现了随机算法，因为能加速。到九十年代所谓的近似算法，因为找不到最优解。

过去有十多个人对这些内容的研究获得了图灵奖，但都是对算法的研究。过去是假设X不重要，主要研究F。现在X发生极具变化，是否会影响F和整个F（X），对软件和算法会不会有新的变化？过去研究的问题，计算机能处理的都是可判定问题，也是可判定当中的易解性问题。但是，现在的情况，大数据下，我举一个小的例子，读取硬盘世界上最快的线性扫描一个TB要1.9天，一个EB要5年多。从这里来看，百度一天处理的网页数据有10PB，就相当于要有小于3天的时间才能把它输入进来，都不用说后面的处理和应用。所以是不可能的。

在这里面就有一个基本问题，在过去能解的问题、易解的问题，在数据规模大的情况下是不可解的：

1. 这样一个新的问题出现了。过去五十年的复杂性理论会遇到新的挑战。第二个问题就是以前的算法不能再近似，原因就是研究F找到F’，X到新的X’又有新的问题出现，也同样出现了数据量、算法效率和结果的考虑。过去研究当中有一种新的情况是研究好算法。

这张图是12年前的，在小数据下算法好坏是有差别的。当数据量增加到1千倍的时候，算法的好坏差距发生了调转。所以简单有效和对问题有应用价值的算法变得更重要，也许我们有很多新的问题出现，因为时间的关系，我只就今天计算的科学问题跟各位交流。

2. 关于可表示的问题。如此多的数据，过去的方法也有很多新的困难出现。

3. 操作相关。过去计算模型应用比较多的是比兴处理的MapReduce，是静态、离线的全量批处理。以前是计算密集型，数据挖掘的处理是单一的。对于传统数据库一直受到关注，收益也很好，但现在用不上了，所以Hadoop开始成长。对于这样的问题，同样是G=F（X），现在的问题是全量数，到齐了先Map，再Reduce，在增量问题中它不是唯一的，也不是最好的。同样是3I的计算，可精确性、增量性和归纳性，仍然有很多问题。作为软件和系统也有很多问题。

第二大类问题是关于系统的设计。由此我们怎么做数据挖掘和分析系统？也是一类非常关键的内容。这是对于软件和未来互联网大数据分析特别重要的内容。我不展开讲。

在大数据云计算的背景下，软件在数据服务和运行模式当中也会有新的机遇。这个机遇对我们的影响也是特别巨大的，就像我们现在做APP应用的时候。这样我们将面对3个问题：

未来数据的服务和软件的服务将成为主要的软件设计和开发的模式。软件的设计开发和维护方式。关于可信和隐私。

这是几年前的一张PPT，曾经有一个公司，发现网上一个建筑师住在某个州什么地方、没有孩子、喜爱旅行、最近买了一辆二手车，完全是根据客户的点击分析用户行为。现在也有公司把社交网络作为情报分析的工具。同时，也有在应用过程中，由于大数据放在云计算中心的服务内容导致系统的崩溃影响直接的应用。对于到可靠的数据存储和处理能力，特别是对不需要的用户的隐私是非常重要的。所以我个人认为不是简单的因为大数据是数据量的变化，是有质的变化。从过去科学计算、商业计算到未来的新的计算模式出现的时候，数据科学的理论、数据处理的方式可能都带来全新的认识和思考。这不是计算机科学单独可以解决的，可能需要经济学、社会科学和数学等其他领域的结合和发展。

计算模式的变化将成就智者

但大数据不仅是产业，也是资源。同时，它也是一种科学。在这个领域当中，对于未知的很多科学问题，也有未知的需要实践的很多技术和系统问题，还有需要政策和未来发展的有效支持。但是，大数据和云计算，我个人认为是有非常重要的值得我们关注的发展空间。

谢谢各位！

(责任编辑：蒙遗善)

看过还想看

可能还想看

热点推荐