banner

浪潮张东:大数据时代,挑战与解决之道

作者: 大数据观察来源: 大数据观察时间:2017-05-14 09:15:140

第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕。本次大会以国际视野,洞悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据、云计算与移动互联网、云安全及云计算行业应用等焦点话题。大会还特别设立了云计算服务展示区域,交流国际云计算最新研究成果,展示国内云计算试点城市发展成就,分享云计算发展经验,促进全球云计算创新合作。

浪潮集团系统软件总监、云计算产品部总经理 张东

在第五届云计算大会第二天的演讲上,浪潮集团系统软件总监、云计算产品部总经理张东给我们带来了名为《大数据时代,挑战与解决之道》的主题演讲,他就大数据处理中遇到的问题做了深刻的剖析,并分享了浪潮的解决之道。

张东指出虽然大数据和云计算已经经过多年的发展,但是随着数据规模的增大,传统数据中心到云计算数据中心的转换中仍然存在着很多问题,而数据中心无疑是高性能计算的根本,这样就无可避免的成为传统应用到大数据技术转变的又一门槛。期间张东就计算模式过度中最重要的一点“安全和可用性”进行了深度剖析,对浪潮在上面的实践进行了分享。而后张东还对数据中心模块化及资源调度进行了讲解,最后还对实际用例进行了分享。

以下为现场实录:

首先还是要从云计算开始说起,因为今天主题还是云计算大会,今年的主题已经变成了“大数据大宽带”推动云计算的应用和创新”。我们对云计算发展历程的理解:云计算是将资源聚集起来提供服务。这之前更多的关心是的把资源聚集起来,分散的资源放到一个数据中心里面,慢慢的想怎么把应用做起来。再往后就是如何让聚集起来的数据发挥更大的作用?因此现在的云计算进入了一个新的发展状态,就是大数据的时代。

何为行业云及打造

大数据的出现并不比云计算的概念晚多少,或者说我们现在看到的很多大数据的技术也好,包括它的很多应用的模式也好,并不比云计算的概念出现的晚。浪潮在这之前我们就提出一个概念叫行业云,我们要推动行业云在中国的发展,推动不同行业的应用在中国的发展。我们提出行业云概念的时候,我们就认为数据是在整个行业云应用中转化中非常重要的一点。

因为整个信息技术就是数据处理技术,我们要把数据收集上来,处理成信息,转化成知识,最后影响决策。如何让数据最终形成服务?这是云计算最终的目的。把资源聚集起来业务放在一起这只是手段而已。

在这前面通过一些信息化建设的过程,我们聚集了很多数据。现在如何处理它?因为数据处理方面遇到了很多新的问题,一些新的挑战,性能与扩展性的挑战,多种数据类型融合的挑战,数据存储以及处理的性价比。以前可能大家也做数据分析,做过很多数据挖掘,比如要用数据仓库或者更高端的软件,成本很高。以及最后的大规模响应的需求。这几天很多专家都讲过大数据,相信对于大数据的背景用户已经听了很多了。对于这些挑战,对于所面临的问题我们如何去解决它?如何能够让大数据的技术更好的为行业应用服务呢?下面具体看一下,讲一下我们认为现在大数据从一个成熟的技术走到大家应用的过程中所面临的一些问题。

一、 大数据技术到实践需要面临的挑战

现在我们在推广的一些技术先不说是不是能够完全解决所有的问题,至少我们拿来推广的一些技术并不完全都是原创的。很多都是已经在很多互联网公司也好,科研机构、大学、院所里面已经用了好些年的技术,很多框架已经成熟。但是这些技术怎么走到普通行业用户那里去?行业云是中国未来云计算发展的非常重要的阵地,解决了行业信息化的问题就解决了中国信息化绝大部分的问题。比如说政府、公安、工商、税务、民生等等,他们那里很多数据都需要进行处理。但是现有的很多大数据的技术应用门槛我们觉得还是有些高,有的用户可能也尝试着自己去搭,可能折腾半天也没折腾出来。我们拿了现有的一个软件,现有的一个平台搭过去,它的性能是不是可以达到最优?如何把原有的业务切换过来,这都是问题,这就需要专业的公司和机构提供成熟的产品和解决方案。帮助用户能够更好的把这些新的技术用上,解决他现在所面临得很多问题。

其次,我们认为大数据应用的成功离开不开几个要素:一个是要有好的平台,一个是要有好的应用,最后必须有数据。搞IT的人最后做的就是做平台,我们把数据收集起来推给用户这是很容易的。从浪潮角度来说我们有自己的大数据平台。

用户实际使用环境最大的挑战是:

1. 数据的采集。我们觉得公安局应该是一个强力部门,很多数据整合应该做的很好,但是实际了解的时候他们的情况也不容乐观,他们里面不同的部门,不同的环节产生的数据仍然是分散的,如何让数据聚合起来?业务数据能够打破原有的壁垒?这也是大数据应用之前需要帮他做好规划和整理的工作。

2. 整个数据业务的应用上。我们反观很多做数据分析的模型并不难,模型往往非常简单。但是这些模型的产生,这些模型不断的优化需要一个很长的过程。很多用户本身可能他自己也不是做数学的,没有做数学的人帮他干这个事情。那么如何让这些应用用好?如何让这些模型能够做到最优?他的数据能发挥更大的作用?比如说他收集了很多视频信息。比如街上有很多摄象头,如果能快速找到里面的异常状况?这也是需要专业机构进行支撑的。

3. 从大数据的应用来讲,总还是要用到设备用到计算机,用到存储。这些设备总要放到数据中心里,随着数据规模的增大,我们看专门处理数据的应用包括高性能应用也是在处理数据。它的规模仍然会越来越大,传统的数据中心在转化成新数据中心的时候面临很多问题。云计算的数据中心建设里面遇到很多问题现在仍然存在。能耗越来越高,管理越来越复杂。针对这种大数据处理新的状况下,对于设备、对于存储的要求,转化成对数据中心的要求,也需要一个解决方法。

针对前面讲的几个问题,从技术到用户应用之间存在着这样的一个门槛,让我们的行业用户怎么更好的用这些技术?我们在解决了平台化的前提下怎么帮他做数据的规划?怎么做应用的规划?我们提出了浪潮大数据解决之道。这就是我们针对于大数据的应用推出了大数据一体机的解决方案。它的主要特点:

 

软硬件一体创新的数据处理平台 针对不同的应用系列化的产品 安全方面的考量

 

现在很多技术并不是非常新的技术,大数据从底层的分布式系统,到中间的算法,到上面的分布式数据库和数据挖掘,其中很多东西已经做到了相当成熟的地步,可能在很多领域都已经得到了应用。对于普通用户来讲如何把这个东西集成起来?这就需要一个一体化的解决方案。拿到这样的一个设备到你的环境里面,放到机房里装上应用马上能够运转起来。这里面的一体化,浪潮的角度,我们最主要的工作还是硬件层面。什么硬件适合大数据处理?很多人倾向于买一个普通的服务器或者是存储服务器,多配硬盘,多配内存,这种是不是适合大数据的处理?浪潮大数据处理一体机,我们就是在硬件层面也是针对于数据的处理要求和存储的要求进行了这样的优化:

首先,第一个环节就是数据存储。我们作为一个大数据平台首先把数据存下来。如果能够更好的更多的存这些数据并且更快。这里有很多技术,包括全局的负载均衡技术,动态可编码的多副本,采用多步是的环存,提升存储速度等等。

其次,是集群。我们知道大数据处理平台最终仍然是一个集群,在集群的计算里面、计算、存储和网络三个环节紧紧扣在一起,考虑任何一个优化每一个环节都不可或缺。如何让结点之间传输效率或者数据交换效率更高?我们提出了大数据互联交换芯片,如何让更不同的结点之间数据交换的的效率更高?我们在之前跟用户沟通过,当然简单的做一个文本要求可能不那么高。但是现在大数据已经慢慢向传统的高性能计算领域进行拓展,处理数据的量超过我们现在看到的很多应用。而对不同结点数据交换要求很高,数据需要在里面不停的倒腾,不仅基于网络模式也是提升的关键。

大数据的概念

第二个讲的概念,现在讲大数据处理好像是单一的事情。我们针对于大数据的特点画了一个图,抽取出来几个特性。一个数据如何分析它的应用的特点?去看它的数据总量,这是大数据首先的要求。但是,数据量只代表了数据可能大,可能小,但是并不以为这数据量大就一定很困难。比如说全中国人民每人都分一块任务干的话,每个任务就很小了。但是要看你做的事情是结构化还是非结构化,大家相互的关联耦合度有多高。另一个是更新模式,你是需要银行业务或者交易业务不断的做事务处理,在原来数据上更新还是保持原来的数据不变不断的叠加。再一个就是响应处理,比如我每天处理一次还是说提交一个请求要求多少豪秒之间就要进行返回。

数据的总量、更新和处理

从这几个角度来讲不同的数据有不同的特点。我们大概把这个进行了分离,画了三个圈,不一定非常严格。从我们做产品做平台的角度来讲,如何去推出不同的东西来应对不同的应用需求。最里面的一个圈是大家见到的非常夺得,就是最传统的数据库的应用,银行里的应用、民航的应用,类似第三方支付的应用。它现在仍然是数据库最主要的部分,现有的很多分布式技术在这儿做的非常少。最外面这一圈完全是数据虽然规模很大,但是是松散的,可以充分的分布化处理。原来传统高性能的数据就可以划到这里面来。还有中间的一层就是文本的搜索数据挖掘的很多数据都可以在中间这一层。

对于不同的层次还是有紧耦合的数据,有可能是松耦合,有可能是分布化,有的不是分布化的这就需要不同的设备对应。

也就是说作为大数据应用可能现在很多人还盯着文本检索、图像分析比较多。但是实际上很多核心数据库的应用仍然也要向这个方向发展。那么如何有一个好的平台满足它的需求,真正的把非结构化、结构化的数据融合在一起?这就是一个最强的设备混合式的结构,在上面可以跑数据库,也可以跑新型的数据库。这是针对数据量很大的,或者是数据量小计算能力要求高的。

安全可靠——元数据高可用:

我们有的用户提出来原来数据分散在底下各个不同的部门不同的单位,现在要求他们把这些数据交上来也行,他们好像也没有太大的意见。但是这些数据放在你这儿,就会出现3个问题

 

放在你那儿是不是比放在我这儿更可靠、安全? 放到你那儿别人会不会看到?

 

现有很多大数据平台里面,我们在这儿讲的很多概念也不新鲜。包括通过元数据高可用的方法保证可用性,包括通过访问控制加密保证控制性。但是目前现有的大数据处理平台,这部分从设计上来讲并不是很偏重的,这块是现在的大数据平台上做的很多工作,将我们在传统的很多在操作系统里面的概念,比如说不同级别的控制手段,包括加密手段拿到大数据平台里面,加固大数据平台,满足用户对于数据聚集以后保护的要求。包括元数据一层做的高可用,包括我们基于硬件的一些加密和存储,还有访问控制,把操作系统里面的安全技术用在里面。包括我们对于基于现有大数据平台,把原来存储用到的备份软件、异地冗灾方面的软件。

大数据应用开发平台:

现在大家用到大数据平台遇到的麻烦就是真正行业应用里面懂Hadoop的人很少,懂新型开发架构的人很少,很多应用仍然是绑在原有的平台上,甚至接口都不愿意改。这也是现在妨碍我们把这个技术能够从很多新的领域推到原来传统行业领域很大的一个阻力。我们现在尝试在做一些工作,包括如何能够让原来的业务程序很顺利的对接到新的平台上面去。其实大家以前用到的很多接口写程序的人都清楚,但是这些接口往往在新的平台里面没有,这是第一层面。

第二层面,很多数据真的到了一个新的平台,让他用MPI,现在换一个思路,都是很麻烦的,这个如何在技术层面提供支持?一方面我们希望自己做一些工作,另外这块也是我们能把新式应用推广的重要的一点,希望大家共同来做。

因此浪潮这部分我们给用户提供专业化的服务。从前期得如何做数据的分析,把数据进行分类,然后按照前面画的圈,按照复杂度、规模、交易方式、操作方式,以及最终响应的要求将数据划分成不同的类型。针对不同的数据给你提供不同的模型、解决方案,搭配我们的硬件或者软件最终把应用做起来。

还有一个非常重要的是帮他做数据建模。数据建模这个事情已经不仅仅是做计算机的人的事情,更多的是做数学的人的事情。但是计算机要为各种各样新的应用服务,如何把以前的数据进行规划、新的整理?要告诉他现在要放我这个平台里做更好的处理,那么要对你原来的表和数据结构进行调整,基于这个做模型,怎么把你的数据更好的用起来?

大数据最后还是要放到数据中心里面。而且规模也是非常庞大的,我们见过一些传统的做高性能、数据处理的,机房规模也会非常大。数据中心的发展从以前大型机时代到PC、互联网、到现在云计算时代,云计算数据中心的要求也是越来越高,要求我们整个机房首先是一个绿色的,节能得,能够高效的进行管理的。当然还有其他的一些专业化安全可靠的等等一些要求。浪潮提出了我们行业云数据中心解决之道的几个关健词:模块化、专业化、智能化、安全可靠。通过我们这几个层面来保证数据中心是一个高效、灵活的可靠的数据中心。

我今天简单给大家介绍两个层面:

1. 模块搭建

这两年模块化讲了很多,模块化的概念从互联网包括国外,包括谷歌,微软,包括国内的几个互联网公司大家都在用。但是怎么把这个概念更好的推广给普通用户?浪潮很多用户是做高性能的,他们还是用传统的方法搭建机房,怎么把这个东西做的更好?需要不断的给大家讲这个概念。模块化首先就是功能的集中化。将原来传统的一台一台机器,我们有自己的电源、自己的风扇和散热系统集中起来,集中就会带来规模效益,就会使整体空间利用率,整体能源利用率会更好来降低整体的能耗,降低我们的占地。

同时,通过标准的规格设计能塞到模块里面所有的东西全系列的产品都是可以放到模块化的数据中心里面来。每一个机器就是一个小模块,每一个机柜就是中等的模块,每一个数据中心就是一个大模块。通过我们自动化的管理监控整个机房里面的能耗,包括散热,提高效率。

2. 运营管理

作为运营管理来讲,云计算数据中心管理最重要的就是如何将资源进行调度。这在大数据时代仍然需要。我们现在部署一个新的数据处理的系统仍然是有些麻烦。如何跟云计算的部署技术也好,管理的技术也好,结合起来?也让大数据处理平台,比如Hadoop平台列式数据库的处理平台能够实现按需的组合、按需分配,结合云计算的概念当然不一定用虚拟化,可以在物理机上面也进行快速的部署和应用切换,实现资源更好的共享。

通过我们在软件层面的调优,既满足硬件更好的大数据平台的基础上,提供一些软件的性能调优,包括存储分布的算法上,在任务调度算法的优化,提高整个大数据平台整体的性能。 资源管理方面也是通过我们一体化的资源管理,监控整个大数据平台的运行状态。

成功案例:

济南公安的例子:济南公安在传统行业里面,公安行业是积累数据量非常大的。我们这一期给济南公安提供了2点多P的空间,因为存储和处理技术的限制,很多东西可能放了一段时间就扔掉了,因为没法放,再一个存了那么大的量处理起来很麻烦。他们通过我们新式的大数据平台来解决以前数据孤立整合等问题。

另一个案例分享:视频最后也讲到了除了公安以外我们在很多其他行业金融电信等等都有很多大数据的应用,我相信大家讲的比较多的也是这样的行业。

还有一个案例就是中国资源卫星中心,我个人理解他们是高性能计算的用户,高性能计算有一类计算就是数据处理计算,它对数据处理技术的要求是非常高的。在这前面它的很多处理方式都是传统的,计算结点和存储分开,需要很大规模的存储存东西,对存储进行反复的存取,拉到计算结点进行计算。在新的数据处理的模式下,老的处理模式随着卫星不断的增加,数据量膨胀非常快,因此处理慢慢已经跟不上整个数据的增长,也需要有一个新的架构来满足它的需要。

第二个层面他们需要将数据开放出来给大家用,因此对于云计算服务的要求也是非常高的。

他们在前几年就用了浪潮的一个案例,系统部署的时候还不叫大数据平台,是云存储的方式放了进去,我们在那儿部署了2.3PB,能满足这几年的需要,后面随着卫星数量的增加数据还会膨胀,我们以这样的平台替代了他们以前完全依靠国外设备的依赖。

简单总结:

我们认为云计算发展到现在资源的聚集和业务聚集已经得到大家的公认,很多人已经在做了。下一步就是如何让聚集起来的数据发挥作用?大数据处理平台会发挥更大的作用。大数据处理平台应用的关键就是如何将原来在互联网里面用的比较熟的技术推广到传统行业里面。解决它在数据规划、平台的建设直至到最后数据分析等方面的应用。浪潮希望通过我们专业化的服务给更多的用户提供专业的服务和支持。谢谢大家!

(责任编辑:蒙遗善)

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限