banner

北京航空航天大学校长怀进鹏:云计算赋予大数据新价值

作者: 大数据观察来源: 大数据观察时间:2017-07-09 18:24:590

8月13日消息,北京航空航天大学校长怀进鹏在下午举行的“名人堂——互联网趋势论坛”上表示,云计算下大数据将产生新价值。一个是商业社会价值,另一个是学术价值。大数据不仅改变我们通讯模式,也影响到我们经济和社会生活发展模式,更重要它可能是未来学术和科学研究发现的一种重要手段。但是他同时表示,大数据的应用会不可避免地涉及隐私。怀进鹏提出,网站利用大数据可以将个人的许多相关信息挖掘出来。未来当大数据更多的应用之后,百度可以知道你上网行为,你思考的关注点可能性。淘宝可以了解你的购物习惯,微博会了解你在某个领域的思维情况。因此,关于可信和隐私也是未来需关注的问题。

以下是怀进鹏演讲实录:怀进鹏:谢谢主持人,刚才前面邬先生做了一个非常精彩的报告关于大数据,我下面向各位汇报一下有关对云计算和大数据在一些方面的思考。主要是两个部分,第一个互联网的发展所派生和影响出来的一种新模式和数据作为当前和未来的一个重点。第二就是云计算和大数据研究的一些思考。我们大家都非常清楚,由于主干网六个月增加一倍,而费用将区域分零,这个也是著名的基尔德(音)定律,这20年在计算储备和计算当中,计算速度存储容量增快,内存硬盘价格下降了45000倍和360万倍,这样一个数据给我们简单认识,一个数据如何获取带宽,另外一个数据的计算和存储需要的成本。因此作为在当前的互联网应用情况下,实际上我们进入一个更好的数据服务这样一个新时代。因为带宽不断提升已经成为基本廉价的费用,我们不担心上网需要很多费用,通讯超过摩尔定律,我们一切都是在线一切是互联网络的计算,这样方式使IT和通讯领域也是进一步在业务方面进行整合。所以我们很难分辨出IPone、谷歌(微博)、雅虎包括我们微软一部分业务,很难说一定是传统的IT还是电信新服务的内容。这个领域当中原来有一种说法,上世纪60年代互联网的先驱也是心理学家叫里德(音),他说未来计算机互联网他有一个设想,这个设想就是把世界所有的计算机连在一起,能够让用户使用远程的计算机,实现两个功能:第一个功能怎么获取数据,第二功能怎么用别人的计算机。对于第一个功能和正在开展使用多台计算机远程方面,实际上一直是计算机和信息领域学者研究实践努力的方向,第一个信息出现,TIC的出现,使得我们在全球任何一个地方可以送达数据的内容,这个事情在计算机世界是重要的事。另外一方面我们知道七八十年代有一个更重要的进展就是操作系统,操作系统实际上由微机出现把传统专业人士可以更多的向普通的非计算机专业人士来使用计算机。这个事情做的重要贡献就是我们可以不知道内存怎么管理,计算怎么分配时间,这样的情况下单机和大型机管理,也提供了技术和方法。由于操作系统的重要突破,这个领域当中先后有两次图灵奖颁奖,一个颁给了IBM360的人,一个颁给了(英文)。这两个人都是由操作系统贡献获得了图灵奖。计算机一个永恒的主题就是探讨数据处理能力如何更好,如何更快如何更强。围绕这样一个领域从过去所谓的P2P现在云计算以及移动计算物联网还有智慧地球应用的模式,都是把数据库作为它重要的一个核心。来把过去的计算模式向云向其他一种方式转型当中来强调数据资源来更有效的利用。这个过程当中无论从科学的角度还是面向某个领域应用角度,还是从计算模式的转型,对某一类计算终端来说都是更好的计算能力。我们由于带宽低廉使得我们上网成本越来越低,就是说互联网给我们带来新的机会,从简单通讯平台进入互联网作为一种更广泛的计算平台。云计算是一个什么内容我们大家都很清楚,它是基于数据中心,强调性价比、效率、可信新的服务运营模式,这是提高高端计算利用率,同时提升低端计算事物处理能力,我们不关注本身计算机的能力,更多提供给后台,由后台强大的处理能力完成。我们看到大数据基于云计算模式的应用也好,可能对服务质量保证未必完全有效。就像大食堂和小灶一样,你要想吃得好要付出你的成本处理,来吃得更好。我们在这个会议楼上正常提供五千人,突然来了五万人要就餐我们怎么去做?一种简单的方式比如说营养保持食品的问题,白菜炖豆腐,好不好难说,但是提供基本服务,在一定程度上云计算并不能够提供高质量的一种服务能力,应用环境不断发展对互联网大规模应用过程当中所产生的一种计算模式。基本应用模式第一次确实把信息技术能够作为在未来的一种基础设施,那么它核心技术前面刚才邬院士提出了用TB的方式提供更多的隔离性,以便提供更有效的服务。为互联网应用推出新的计算手段和能力,这十年来从不同角度的探索,另外一个互联网应用需求当中也对云计算的模式提供新的要求,正向前面讲到大数据本身特点,规模大,变化快,种类杂,在社交类,搜索类都有相当多数据类型的表现,以及在我们社会生活当中很多方面。曾经图灵奖获得者说18个翻一番,过去数据是确定性的数据,当前是人机物融合数据多样性和异构性是当前数据特别重要的特点。现在数据远不止18个月翻一番,更高数据在发展。去年大数据成为整个信息技术和社会当中的热门词,也成为世界上第二大热门词而引起全世界的关注。去年的时候做了一次未来趋势走向对云计算大数据的发展过程给出了它的一个走向。这个图当中给出就是对云计算所谓私有云以及混合云,还有未来大数据它在发展当中能够产生产业的空间。它的预测大概在2016年的时候大数据的相关产业将达到2000多个亿的规模,数据成为经济社会一个重要的驱动力。同样做了一个分析,去年下半年对于全球整个企业投入大数据研究,已经投资在大数据领域的情况可以看到,目前在教育、交通之医疗以及能源这些领域超过大概30%,已经事实性的投资,作为下一步继续开展工作有很多发展,对于大数据和云计算的投入。这种方式我们看到由于互联网快速普及,大量应用在互联网的计算服务从主机到客户服务到虚拟计算表现,也许云计算仅仅是对于虚拟计算环境的一种表达方式,还有很多。包括我们说的物联网等等,随着时间和应用模式变换,这种名词会很多,人们对于它的理解和要求会有很多变化。第二部分我们对未来互联网作为一个普通用户来说更多希望成为大的计算服务平台,相当于我们在自己笔记本电脑上,台式机上自己使用自己的系统资源一样。需要配置相当于有一个大的计算操作系统管理这个系统,以便实现当时对未来互联网的猜想,可以使远程计算远程数据资源共同完成你所需要的服务。这种模式实际上对互联网无论从去中心化,和终端更有效的连接都是在这样一个方式思考。我们说互联网曾经改变了我们的交流方式,大数据现在已经改变我们经济和生活的很多内容。邬先生报告当中举了特别多很有说服力的例子,说明大数据对我们不仅是交流方式,更重要它改变我们经济和社会生活。我这里有几个例子,比如说谷歌在2007用两万亿单词训练语言模型,这个也是大数据产生很好的效果。我们知道医疗有KS.BS研究对于产生新药物很有好处。预测H7N9流感爆发用了4.5亿模拟,最后提前两到三周比传统疾控中心更早预报所发生地区类型,阿里巴巴百度这方面工作都有很多杰出表现,主要原因因为他们拥有一个强大,真实可运行的数据提供。我们情况百度和谷歌使得它可以研究分析我们每一个人上网游览行为。淘宝网和亚马逊可以熟悉用户的购物习惯和社会交往的习惯。像微博对于我们社会思维对一些方式的理解也有很多变化,可以从这样几个数据例子可以看到互联网作为第一阶段改变交流方式,所谓深度挖掘就进入一种新方式,同时这种数据宏观统计的分析也改变了我们过去研究当中要知其所以然,而不只能知其然这样的分析。第三云计算下大数据新价值,这个价值更有意义是学术价值,传播理论实践是科学研究的三个手段。类似于我们看到很多这样的研究工作都是在这样基本方式下进行。现在很多学者预测数据密集型的测算成为第四种科学研究的模式,推进我们对社会、自然的认识和理解。这个变化一个是商业社会价值,另外一方面就是学术价值。给我们计算机研究人员一个挑战就是本身对于软件和理论正处于一个转型和新变革时期。我这里简单做一个粗略的理解,从计算机发现一开始我们围绕科学计算,第二阶段我们为商业阶段,现在假定是云计算这种简单代名词来看我们知道过去计算机研究基础问题就是图灵机的算法和复杂性,商业研究流程和数据处理,云计算考虑数据科学和数据理论。科学计算和数据处理为基础,推进数据库的发展,在大数据在数据科学下,现在我们知道HPdoop,mis这样仅仅是一个出入,会有很多方式推进这个工作。从计算机发展转型和过程当中对新计算模型新软件理论和复杂性,以及对软件系统互联网的软件都提出了很多的挑战。比如说第一大的问题就是对软件和数据服务的能力。因为软件的复杂性已经超过过去我们传统的软件。而非功能属性,我们完成做加减这样,更多考虑服务质量可用性,同时当前互联网应用我们过去对软件维护和生产成本已经是非常昂贵,在当前无须复杂系统配置,对终端资源不需要更多管理,也不需要你的服务对象在什么地方,只需要关注在互联网下你需要什么样的服务,和需要什么样的资源。因此在云计算的软件和我们传统所看到软件研究的方式,传播的方式和维护的方式有了很大变化。我们过去考虑是单机或者是简单的局域网机器内部变化,在互联网下如何进行软件开发,计算平台不是一个简单小的AP这样的软件,未来应用模式我们希望互联网作为完整的计算平台,因此对于未来软件机遇也许我们现在开始品尝到这种有效的模式,就是用户是开发者也是使用者。由数据和服务的提供商把它软件上载上传数据服务的运营商,由数据服务运营商实际上提供整个对软件服务进行支撑配置集成、开发和应用,也许这是未来像电信运营商一样,服务运营商将会成为越来越重要互联网一种计算新平台。同时在这种计算平台下我们看到数据处理本身技术挑战是非常多的,例如美国总统委员会的报告,在过去连续10年当中一直创造十亿美元以上的计算机产业主要是由数据处理这些领域发生,并行数据库、数据挖掘这些工具,在传统数据处理能力,已经不适应在云计算处理,2010年每年处理有70TB而且是压缩数据,这么大量的数据用传统的数据不仅存不了,而且价格贵。现在雅虎HPdoop节点,一年下来超过四千个节点,不是简单的单一数据库,综合数据方面超过了三千个节点,对这样数据处理的要求和当前技术提供的这样装备来看,应该说这个领域将会有重要挑战和机会。同时在数据处理本身来说维护的成本,数据更新的成本和本身数据维护的模式都有很多差别。因此在这样一个领域里将会有无限生机和新技术的挑战。这里有很多问题,比如说我们过去看到MIS的方式,相当于全部数据到齐一次处理,最近发现应用过程当中有很多问题,两年前OSDI对MIS进一步的升级考虑,对数据增量计算有很多局限,对新算法新问题有很多局限性,大数据算法面临很大挑战,不仅是由小到大量变,更多发生根本的变化。在数据处理计算支撑当中,同时对大数据计算模型,分布式系统的架构,对数据挖掘,预测方面都是现在技术没有办法完全解决的。在未来大规模数据处理支持平台也是在云计算和大数据计算一个重要的问题。特别是我们过去计算当中计算是被动的,以计算为主动,在转换需要存储计算联动,作为新的架构和新方式应该说也是正在研究和不断发展当中,如何有效把存储和计算,特别是基于数据主动型的计算作为新机构和处理平台设计变成重要问题。我们前面提到大数据不仅改变我们通讯模式,也影响到我们经济和社会生活发展模式,更重要它可能是未来学术和科学研究发现的一种重要手段。这种重要手段也改变了我们过去计算机研究很多新视野和空间。比如说我们过去以50年代以来一直以抽样进行,工业进行测试以抽样方式做,大数据当中不是以抽样做,比如说我们炒菜尝一尝,我们事先有理解,受热面积均匀,当你尝一尝虽然对局部进行分析,但是对全盘数据有把握。但是大数据下局部数据不可能,炒菜过程当中不断加新的菜,所以局部处理已经不能保证我们对数据的完整。我们去买鞋子不会跑遍北京所有鞋店买鞋子,我们通常跟我们成本进行计算不会达到最后的绝对成本。在医疗当中很难说一个医生把对症下药问题原因用很好科学方法说出来,更多是关联关系,通过过去经验映射到我们对当前治疗的理解。大数据给我们带来很多新研究和挑战。我们搞计算机过去数据基础就是我们离散数据和我们传统200年以前的数据,现在面临不仅考虑近百年,特别是工业发展以后我们对统计新数据分析的理解,更重要从应用数学,和我们计算机科学整个多方面的理解。对于云计算的大数据对于科学研究的意义是相当大的,所以我理解我们对于大数据的问题!社会上谈四维的特征,我们自己更多理解从研究角度理解大数据对计算本身产生什么样的重要影响,这是我前面提到如何进入增量型计算,如何进入非确定性计算,如何研究归纳计算,改变我们计算机做系统的时候,把一个问题变成N个问题,每个问题思考代表我们对问题的解决。大数据下由于增量和更多不确定性,我们更多需要做综合分析归纳的方法,对于大数据的科学计算,我们考虑数据持续增长不断变化特别对高实时的要求下,它的增量计算,以及把过去还原法结合的新计算。这些问题我们看做是大数据计算和新问题,这个也是未来大数据处理当中我们的理解和认识。第二个问题就是关于计算机学科的基本问题。我们计算机做当中我们说这事情能不能算,对计算机人来说不是所有问题都能算的,只有能算的问题才配得上拿计算机算,就像我们保密、加密以10的一次方,六一次方在一定时间内不可算的问题。我们研究基本问题这个电视能不能计算,我们说有五个城市能不能不重复的走遍每一点,这是我们传统说TSP,不存在一种算法使得你完成一遍一遍不走其他路,比如说电路板设计,都有很多不可计算的,算法是我们搞计算机基础问题,是不是能计算。从过去有计算机以来,应该说算法研究一直是计算机科学的根本问题,我这里只列出来从70年代到90年代有10位图灵奖的获得者,他们在算法和重要历史阶段获得了计算机的最高奖,叫图灵奖。发现有些问题算不了,大家知道60年代美国做了长期研究工作,其中一条和治疗癌症,登月计划同样重要的计划。算法方面研究是计算机重要的研究,大数据的时代计算复杂度和算法都有新问题。最基本原因我们非常清楚数据量如此之大,所以的机器和算法存储能力都被占满。因此作为计算机的工作者面对大数据下和新的计算模式面对新的问题,数据不可计算和存储下有没有新手段支持。我们过去研究问题我跟大家在这里报告,目前大家全球最快硬盘读取速度是每秒6个GB,这是线型扫描,扫描一个PB的数据要将近两天,一个EB需要五年多,而百度一天处理网页数量10个PB,19天你才可以把它扫描完的东西还不考虑后面的处理,显然这方面工作大数据是大的灾难,但是对研究有很多新机会。我上边这张图就是以世界最快扫描设备读取最快的磁盘来说,要19天完成对它的扫描量。这样问题大数据传解一定是一个难问题,因此明明知道大数据已经给我们带来新的问题,它传统的计算复杂性在当下要求扫描完1.9TB,要求我们一分钟就要看到一个数据,怎么定义?怎么分析?如何研究?就带来很多问题。这些问题应该会对过去50年来计算复杂性算法一个重要问题。我这里给一张图12年前著名的会议上谈论的事情。我们看到纵轴是测试数据的准确率,横轴是数据规模,随着规模增大,在小数据样本下好算法和坏算法差异不是太大。及时是坏的算法我看纵轴1坐标下排到80%以下的识别率算法,随着数据规模10倍100倍1000倍变化,已经接近最好的算法,算法的简洁等要做处理。这样给我们带来重新对我们复杂性分析设计的新问题。我们科学问题第二个情况下我们不仅过去我们考虑算法研究F的,收入是S,用F做函数得出是一个结果,过去考虑F设计如何好就可以了,现在S不是量的变化而是质的变化下来,它对算法的影响,小数据算法的好坏特别重要,大数据下算法数据受到相当大的影响。这个必须考虑算法和数据本身不断动态变化如何找到和它最能逼近最近似有效的方法,这个要考虑在大数据计算当中如何找到平衡点,这个平衡点需要我们在数据量算法数量三者考虑,现在F和S叠加起来考虑问题对于我们新系统设计就要求非常多,这样对我们计算有很多问题。第三个问题就是大数据下数据没办法表示,大部分用新数据表示,在当前运用当中都不使,当我们一维10维到三千万维这些数据我们处理怎么表示。所以这些问题我们需要从传统计算模式走出来,第二我们对于高维空间抽取的特征以及对于计算重新认识和量化。我们看我们现在写微博很简单,到后台计算机处理当中你现有方式持续不了,这个也是重要研究的机遇问题,表示、计算、异构高于数据。我们现在计算手段只能简单的存储,特别是每一天过去都会带来很多新问题。针对数据规模大,种类杂、变化快的云计算对数据的分析和挖掘也还有新问题。比如说我们现在中国有四大微博系统,对于过去挖掘只在一大微博系统,对同一事物理解我用语言用文字用声音图像不同方式表现出来,如何在跨越之间表示联动性,如何在不同领域迁徙。过去在单一的挖掘,从小样空间做的数据非常漂亮,在广域不断扩展规模下数据处理能力,分析综合能力都遇到很多问题。所以对数据理解和分析就很重要。给了这么多数据你分析的结果为什么是有效可信的,所以对数据本身的理解也变了,数据的可视化更重要给出我们对多元数据异构类的数据给出直观可视的结果,这个也是我们对大数据模式下研究的问题。对于云计算下大数据和云计算本身我们思考云计算是一种计算模式,背后处理是重要的,随着应用发展云计算的服务质量一定会重要成为研究的内容,挖掘有效信息,纠正不确定的信息,并且能够把多样性的数据进行结合,也许也是今后大数据下它的服务质量一种新的挑战,包括智能的搜索,我们以前是关键词、文档搜索进入社会网络当中,实际上开始进入(英文),这种新搜索模式也是所有互联网公司发展重要的内容。第四个重要问题就是关于可信和隐私。我这里是几前年的例子,当时有一家公司他可以根据你上网的习惯,除了名字没有特别挖掘到,他知道他是建筑师住在什么地方,他家里人口结构,以及最近他的购买习惯。我们知道西方人的生日和他购买习惯直接关联,这些数据是绝对个人隐私,你在网上任何一个单位,提供家庭住址和个人的生日号码的时候是违法是被禁止的,所以通过这样一个网站分析我们可以看到,他可以把你很多相关信息都给挖掘出来。同时在社会网络当中也有很多被利用作为敏感信息的发现,因此未来当大数据更多的在分析和应用之后,我们知道百度可以知道你上网行为,你思考的关注点可能性。你在淘宝的行为知道你购物习惯,在微博更多了解你在这个领域的思维情况,关于可信和隐私也是未来关注的问题。如果说我们曾经有过互联网的快速发展基于信息服务业的话,那么未来围绕大数据或者现在的名字还叫云计算,那么新的虚拟计算模式是重要的,基本标志就是数据服务成为越多产业技术和研究重要的内容。计算模式的变迁可能造成时代变化。在现在探讨中国互联网新的价值和它的科学价值或者产业价值的时候,我觉得这里有我们很多机遇,我想我们也会努力探索这方面的工作。谢谢各位!

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限