高密度与大数据中心的运维管理-大数据技术 -

作者: 大数据观察来源: 大数据观察时间:2017-08-12 15:10:290

当数据中心与高密度和大数据产生了关联，这样的数据中心通常意味着“体格”上的庞大。运营一个庞大的数据中心显然不是一件轻松的事情。数据中心从硬件上的技术提升，到软性的运维体系的变革，关键还是要看从专业角度的经验积累，从从专业服务厂商或者其他领先用户学习，然后将这些做成规范，通过自动化的手段将其实施。本期《戈友会》邀请到了国家气象信息中心业务与园区电讯保障室副主任孔令军与IBM全球信息科技服务部高级服务经理李强，就高密度与大数据数据中心的运维管理进行了深入的探讨。

蔡红戈：各位观众各位网友大家好，欢迎大家收看由天极传媒比特网和中国计算机用户协会机房分会共同主办的书记中心访谈栏目歌友会。我们今天的主题是数据中心的运营管理，我们今天有幸请到了两位嘉宾，一位是国家气象信息中心业务与园区保障室的孔令军副主任。

孔令军：大家好。

蔡红戈：另外一位是IBM的高级技术经理张强。

张强：大家好。

蔡红戈：有幸跟两位一起探讨我们数据中心的运营管理，就我所知数据中心会分成很多不同的类型。包括这种高性能计算型和高密度型或者不同的专业，公共IDC等等，我们的运营管理是不是也有相应的不同的类型的划分呢？

张强：这个确实是数据中心从规模从能耗确实是有各种各样的分发，但是从IBM服务的理念来说我们主要还是依据客户的业务需求，以对这个数据中心作为承载这个业务业用的这个运行基础架构，它提出各种各样的需求，所以我们是按业务的关键度来分的。比如说刚才蔡总您这边提到像一些公共IDC，它的特点是里面有不同业务需求的用户在里面，对IDC基础架构的运维就要求是服务于不同的服务等级，以及它有快速的应变能力来满足不同客户入驻。对于不行的银行金融企业，本身他对业务关键性要求是最高的，尤其是像环球金融一体化，他对系统的高可靠性保障要求是非常非常高的。所以这种是在我们运维服务当中是最高等级的。像孔令军作为国家权威的气象部门，特别是通过央视发布的消息也是分秒不能出偏差的，我觉得这个也是最少也是一个高等级的保障。所以我们认为从服务的角度来讲，业务的关键度是数据中心可以参照的一个标准。

蔡红戈：大家可能不太了解，孔令军作为我们国家气象中心的园区业务保障室的领导，管理着我们这个国家气象局的数据中心，这个数据中心的特点是这种高性能计算类型的，而且高密度的，高可靠性要求的，孔令军可不可以在这里给我们广大的用户介绍一下，我们国家气象局的数据中心数量规模以及我们日常承担的这种责任呢？

孔令军：好的。我们国家气象信息中心是作为中国气象局的一个主要的数据管理部门，它承担我们全国气象系统的所有气象资料，气象数据的一个实时的通信、储存到后续的数据加工制作，一直到提供给天气预报成品的产品之间这一个全内容的过程。期间主要经过三个环节，第一个环节首先是通讯，要把全国2千多个基准台台所有的实时的气象资料收集到国家气象局，第二把这些资料实时的储存起来。第三个是根据各个不同的用户的需求，比如我们有气象台做天气预报的需求，有输出预报中心他做输出预报预算的需求，还有其他的等等像卫星中心的实时的天气云图的传输等等，把这些数据全部汇总收集加工成定制的一些产品，然后再分发给各个用户，期间主要是业务系统主要分三块，就是刚才说的有国际国内通用系统，这是一大块，第二大块是储存系统，第三大块是高性能计算系统，这个高性能计算主要服务于数据预报中心，它的数据预报模式的一个计算过程。从目前我们各个系统的一些应用情况来看，我们目前国内气象信息中心承担总共是有8个机房，这里面从功率情况来看的话，主要还是以高性能计算为核心，为什么？因为高性能计算它占用了可能我们整个信息中心所有基础设施资源的大概60%—70%以上，尤其是能耗和制冷量方面占绝对的大头。其他的系统重要性很高，比如通信等等，但是它在我们这里面它对基础设施方面来说的话，相对比高性能计算简单一些，因为它的整个的机房的功能密度相对来说还是比较低的。所以从目前国家气象信息中心承担的机房的情况来看，目前有2千多平米的机房基本上全部在用，还比较难以满足我们未来业务的需求。所以这个也是为基础设施运营管理带来很大的压力，从目前我们实际的数据中心的机房应用情况来看，我们现在对于核心的气象局计算这个机房我们在 2004年，它的单位功率密度就达到1.5千瓦每平方米，我们是采用风能的一种方式制冷的，到现在已经连续运行了将近十年的时间，整个系统运行还是比较稳定的，没有对设备造成一些重大的导致设备一些重大的故障。第二现在我们刚刚建成一个机房，它的功率密度已经达到5千瓦每平方米，所以这是我们正在实施的一个方案，它可能要求是全部采用水冷背板这种方式，机房内全部采用水冷设备，这个也是正在建设的，可能对我们未来的一个运维运营管理也是带来一个很大的挑战。所以也希望借这个机会能够与IBM作为一个专业的继承方，还有一个咱们机房协会能够对这个运维管理方式有一个更好的深入的探讨。

蔡红戈：孔令军刚刚介绍了我们这个国家气象中心数据中心的一些规模和特点，我也想知道就我们来讨论的这个运营管理的模式来说，咱们以气象局的数据中心为例来说说咱们这种类型的数据中心运维管理它有什么特点？凭咱们的运维管理的经验给我们介绍一下，比如我觉得很有特点的像您说的功率密度达到1.5 千瓦还仍然使用风能，而且维护使用得很好，这也是一个很有特点的事情，您给我们用户能具体介绍一下吗？

孔令军：好的，因为现在国家气象信息中心自从大概是70年代就已经有机房来进行建设，并且是第一批使用油船的一个单位，我们这边从建成到现在30多年一直在不停的应用国产的各种高性能计算机，配套基础设施，人员我们都已经有一个延续性。一直到现在目前为止我们国家气象信息中心所有的数据中心的基础设施都采用自营的方式由自己来进行维护，我们保障室一部分职责是承担整个基础设施的运营管理。从目前像2004年建的1.5千瓦每平方米功率密度的一个高性能计算机房来说的话当时采用风冷，其实我们在设计阶段的时候已经考试到了，因为业界基本上认可这么高功率密度单机功耗能达30千瓦的时候已经不适合用风冷了，但是当时我们受各种条件的限制，为什么？因为是国家气象信息中心位于中国气象局单元以里，它的定位要服从于整个园区的规划，所以说当时的条件不具备大规模应用水冷的条件，所以在设计阶段还采用风冷，风冷在规划设计的时候我们更多的主要考虑几点。第一点就是它的一个制冷，整个制冷的一个雨量，因为制冷系统是靠增大雨量，相对来说能效比要高一点。这种方式有一个代价来支撑整个高密度的机房的散热，主要散热也是带来一个很大的困难，其实都是存在的。这个只能是我们通过各种应急预案，包括在运维管理过程中我对每一个集中热点采用独特的方式，比如我可以采用一些对它的集中热点

采用强制风冷这些措施来改善，但是其实到目前为止这是不能解决的。所以说真正的从业界普遍来看，10千瓦或者7千瓦是作为风冷的临界点，我觉得还是有一定的道理的。如果太高了以后在后期运营管理确实难度很大，我们也是以各种很多代价，包括人员，我们现在整个基础设施运维值班人员将近20人，整个就全围着数据中心来服务，从人员配置上我们还是比较强的，响应也是比较及时，条件也很具备，我们基本上很多老职工都在大院内做。他有什么事情的时候能够在第一时间反应，就像晚上发生故障之后，他能第一时间反应处理。可是我觉得作为一些很多其他的一些部门不一定能够具备这样的条件，包括我们现在随着老职工的退休，年轻同志都住到院外之后，这种也具有不可复制性，为什么？以后的响应时间会越来越长，如果是还采用这种方式它要求就是反应要快，出现问题反应要快。所以说这个可能后续的时候也不一定完全能支撑。所以说在新一代高性能计算机引进的时候，就提出了一个，第一个是要求采用水冷机柜，这是要求第一必须要要求的，必须采用水冷机柜。第二个是在机房整个的制冷考虑的时候，还是要适当的预留一些，因为现在对于整个机房的运维管理来说核心还是设计，设计阶段充分考虑了它的运维方式之后，后续运营管理才有条件来服务得比较好。如果前期设计阶段出现短版的话，可能会为后期的运维管理带来难度。从目前来看的话我们感觉是作为一个高密度的一个数据中心来做，这是目前的一个主要的简单的初步的一些经验。

蔡红戈：谢谢孔令军给我们大家介绍了气象局数据中心运营管理的特点和经验。刚才孔令军提到了除了我们这个数据中心的形式这种高性能计算，高热密度之外，也提到好象我们这个数据中心的运维管理，主要是以自己的技术人员管理人员为主，自营型的运维管理。这种类型我们也想知道像这种政府背景，行业内的数据中心以自行运维管理的类型在我们运维管理当中有哪些容易遇到的常见问题呢？

孔令军：具体说一下我们目前的运维方式，我们目前运维方式主要是有一线的值班人员，他是24小时值班的，二线的技术支持人员，他是作为发现问题第一时间进行处理解决的。我们两线来作为一个两线的配置，我们人员数量也是为这个服务的，整个人员数量是比较多的。其实整个对国家气象信息中心来说，相对于其他专业IDC我们机房面积不是特别大，但是其实人员配置数量其实不少的，这样也是我们在目前的人员在近期一段时间运维情况来看的话，其实这也是从我们感觉这种目前的运维方式自营管理有它的便利性，第一条我对设备能够有很好的了解，第二条也是刚才介绍的对它的响应时间有一个很好的更高的要求。第三从成本上考虑，成本上考虑就得考虑我们当时也做过评估，如果把所有的设备专业委托给第三方比如专业维护机构来进行维护的话，如果要保持保证我们目前这种响应时间的话，可能付出的代价也是比较高的，因为现在我们要求的响应时间是30分钟之内必须得赶到现场，发现故障30分钟之内必须赶到现场。我们很多做了一些外包的调研，但是外包一直没有实施但是我们做过很多调研，对各个服务公司也做过一些了解。一般现在行业比较普遍的是2小时已经算是比较快的，能赶到现场。但是2小时这就要求你后备的制冷，后备的人员一旦出现故障之后后备的时间很长，这个在前期建设的时候会带来很大的成本压力。第二个也会对机房的面积带来很大的压力，这就需要在机房建设的时候就是要对你的运维方式有一个综合考虑，这样第一是人员是否能够支持自己，第二是你的设施外包的时候有个响应时间，响应时间的时候现有的基础设施系统这些设计能否满足整个外包的响应时间。第三可以采用24小时外包给所有的专业服务公司，24小时，这就是后续的运维经费是否能够支撑，都有它各自的特点，这个需要整个的对数据中心管理者在前期进行设计的时候，对自己有个清晰的定位。我是侧重于哪一点来解决这个问题，然后针对这个我再采用不同的设计，不同的运维管理模式来共同支撑这个事情。现在外包方式我们现在也在做尝试，主要的原因是外包的话你可以找厂家，很多找专业第三方的机构他更专业性，可以解决得很深。所以我们现在逐渐已经向自营加外包的模式上进行过渡。自营主要是发现故障之后第一时间先把这个故障给屏蔽掉，不应该整个系统运行，然后再找外包服务提供商他们来现场解决这个问题，所以目前我们主要还是已经逐渐步入到这种模式了。

蔡红戈：孔令军的意思是介绍了我们这个本身气象局数据中心运维管理方面的特点，同时也提到这种模式的关键点在于我们的比如人员的技能，我们的相应时间能不能及时，另外我们的备品备件这些设施是不是自有。那么张强经理作为IBM的高级技术经理，一直以来接触数据中心的运维管理也是非常的多，非常的有经验，您能不能给孔令军做一些补充呢？我们数据中心的运维管理从几种不同模式下常见的问题有哪些？

张强：我觉得孔令军从70年代延续下来的气象局运维的管理文化我认为经验是非常丰富的。IBM更多的是从专业技术的角度看这个问题，很多服务理念最初是从像美国西方引进来的，所以很多都是条块化的。如果从运维的分类来讲，IBM通常会说第一种就是像孔令军原先完全是自己来做运维的，第二个也是你现在正在做的我们有些共同运维，有些专业厂家，专业的技术人员，专业服务公司跟用户的一些专业人才共同去维护职责划分。第三个现在也有蛮多的，尤其是一些刚才我们提到服务等级不是非常非常高的，像大型的金融企业，其他一些数据中心也有一些专业的全部外包的，包括一些国内的有些IDC或者是一些ICP他自己的机房，我们接触的用户当中是有这样打算的。至于孔令军刚才讲的很好的一点，就说至于采用哪一种运营方式，除了考虑到系统不出问题，还有一个成本确实也是非常要关注的一点。但是IBM从成本角度我们通常会讲总体成本TCO的角度看，所以我们如果从人员的技能包括人员成本，以及你采用的一些服务设施设备，包括前期的系统平台总体成本按照比如典型的是三年的外包合约，其实大多数用户来讲其实整体成本去核算的话还是蛮有优势的。所以这是一个平衡点，你服务要求特别高，你说我24小时除了一线值班的，二线的一些技术人员就必须留驻现场，成本肯定会高的。所以孔令军你们气象局是有先天的优势，所有的技术人员都处在那个大院里。通常所谓全面外包，我们从服务的支持层次来讲是分三层的。刚刚孔令军提到你这边是两层一线的值班团队，二线的比较有经验的分各个系统的一些专业工程师，大致是这样。IBM多了一层第三层就是设备厂家，其实可能你操作的时候也会涉及到这样的问题，可能你没有把它分类成一个厂家的层面。其实IBM这样分是有道理的，因为我们通常做这个运维为了持续的运维我们户借助一些管理的平台，有些所谓工单的推送是自动发到相关的责任人的。作为设备厂商有一些关键设备出问题，在你值班人员意识到的时候系统自动已经把一些必要的信息自动通过工单转化到第三层的有关人员了。所以这是为了快速响应，当然赴现场的时间取决于地理位置。其实运维是一个很大的话题，不仅有这样的组织架构，有这样的管理平台，包括刚才孔令军也提到了你从设计有些先天不足的问题就得把它避免。其实运维从IBM的经验来讲是从这个数据中心的规划的时候就应该考虑的一个问题，首先你制定了你这个业务的运行目标，相应的你就会考虑我这个运营将来要注意哪些包括组织架构，包括管理模式你都要去考虑这个。在这个设计当中你肯定要考虑我未来的业务发展，就像刚刚孔令军提到说，我当初是 1.5千瓦每平米，后面发展到5千瓦甚至未来还会走高。这个在设计之初如果是没有请一些非常专业的咨询顾问来分析你的业务的发展需求的话，可能就会留下潜在的短版。所以到了施工，其实运维也是在一些施工现场我们也是会请专业的人员去关注，未来是不是有些设施会方便去运维。举个例子，我们曾经施工的时候我们现场的技术人员发现有些管道施工那个阀门装得很高，你要开关得爬梯子。这种如果纯粹从工程完成的角度没有问题，但是从运维角度一看就有问题。非得借助一个梯子，或者这个搬的方向空间是不是利于人员操作。其实这个运维从前到后就是这样，到了后期特别在国内差不多在过去应该两三年时间，我们现在慢慢也关注全面的系统，验证链条。过去可能我们在工程方面不太强调这块，过去只会讲初验中验，为什么验证链条这几年变得这么热了呢？因为大家慢慢考虑到这个数据中心对业务的关键性，容不得半点差错，容不得这样的短版。所以这个验证链条是模拟一个生产环境，全面去做了测试，压力测试，包括在运维团队在全程参与这个验证链条，他对整个系统的熟悉程度也是跟你过去大家设计归设计，施工归施工，运维又是另外一波人，现在的理念慢慢都淘汰了。所以其实国内很多像包括孔令军这边我能感觉到非常有经验，你们可能也是这么长的时间系统不断的升级，碰到各种各样的问题总结起来的一些很好的措施，所以运维整个过程这个大的话题用IBM的话来讲就是消除短版的过程。

我们今天定T3也好，T4也好，如果今天有一块短版只有达到T2，你整个就是这个系统就不可能达到T3、T4，所以我想讲的差不多就是这样的。

蔡红戈：其实张强给我们介绍了说首次提到了我们运维管理上不同的支持层次，也提到了其实运维管理的他是有很多不同的，在数据中心从它的业务需求，业务等级以及它初期规划设计的时候，还有施工建设当中对后期运维管理的种种提供方便的这种考虑都是有关的，所以运维管理能够达到什么样的效果跟这些都是有关的。由此看到其实我们运维管理当中也分很多不同的阶段和环节对吧？

张强：是。

蔡红戈：张强能不能给我们介绍一下，其实在运维管理当中，我觉得广大用户会比较关注有些重点环节，是我必须要提前考虑或者说我必须要做好才能保证效果的，你能给大家重点介绍一下这些环节吗？

张强：我前面也提到运维这个消除短版这样一个从前到后整个大的环节，从IBM强调来讲我们关注的是前瞻性，所谓前瞻性英文叫 prospective，前瞻性包括预防性的维护，应急预案的制定，包括定期做一些应急预案的演练。所以这样你在做系统链条就是数据中心真的交付使用之前，这些过程都做过，那么后续的运维团队其实是一个验证链条维护的一个延续。所以我们会强调去做一些前瞻性的防范，包括定期的保养，这个是分得非常非常详细。我们会强调说按照这个标准操作流程，英文这个缩写是SOP，它什么意思呢？很多人其实知道SOP，但是从IBM实际操作经验来讲我们会把一些关键设备的做预防性维护的事情会分得很细。分得很细就是说可以责任到不同的人，这个举一个例子，很多人都知道国内尤其是电器生产厂商他是一个流水线的操作，SOP 其实是把复杂的东西给细分到简化了，可能对人员的技能的要求也会变得不是那么高。比如说对UPS内内外外很多的不同的组建去做预防去维护的时候可能有两三个工程师做不同的事情。这样好处就是说人员成本可以总体控制，还有相互的人员的比如有某人，比如有事情来不了，这个相互的也会容易去管理，不会因为两个加起来太复杂了。所以运维这几年从大的趋势来讲，在技术层面来看一个是大的提高自动化，毕竟人是有惰性的，会有疏忽。一个自动化以后然后我们还强调一个SOP的专业化和细化，就是把复杂的问题细化到简单操作，我觉得这是一个两大趋势。过去可能包括IBM 自己以前也是集中到一些专业的专家，但慢慢慢慢觉得说这个专业专家如果因为个人原因或者因为自动化的系统没有能够及时的去做一些防范性的东西，造成人为差错，其实统计下来是数据中心出问题是最大的原因。我们说人为差错，所以这几年SOP我们在做运维的时候，我们特别强调，IBM在美国那边也是，像我们在美国的数据中心，其实这个数据中心很多人不知道，它建于一九六几年，到现在为止近半个世纪。它为什么可以说到现在还用，而且是北美它现在是总控中心，它就是管理了一百多个其他的数据中心的一些运维的自动监控的信息在那里监控的。他能够持续半个世纪以来保持这样一个非常成功的案例，完全得益于运维的不断的革新和创新，其实运维更多是一个软性的东西，我们说服务为主。他不是说今天我买一个产品就能解决很多问题的，他是一个软性，所以我们真正是我们是一些在操作上的革新和创新，像我刚才提到的SOP的强化，加强预防性的维护，加强应急预案的演练，从这些角度去提升，我们说的东西，不是说今天发明了一个什么东西。这是我是想讲讲IBM在这些方面的考虑。

蔡红戈：孔令军听了张强的介绍以后，有没有凭自己的运维管理经验有所补充，或者对他这个有什么体验？

孔令军：刚才我觉得张强他们从一个专业的服务提供商，数据中心的服务提供商我觉得可能作出了一个比较好的诠释，对于整个的运营管理中心重点关注的环节。比如对标准SOP这个概念提出来以后，我觉得这是一个最基本的。因为我们更多的是一个数据中心的整个的维护方，但我们更多的其实还是作为一个用户方来管理数据中心的。所以从我们自己这么多年整个对数据中心的管理维护等等这些角度来说的话。跟大家一块儿说一下，做一个交流，对我们来说的话，对我们整个数据中心的运营管理，首先我们把它分成两大块。第一条是对外的就称为服务，服务对象我们现在主要是服务基础设施这些，服务对象包括所有的有些硬件需求的，里边放置的空间，整个对供求的需求等等之类的，我是否能够满足他这个需求，我需要对外给他们提供服务。第二个对内是保障，保障所有的数据中心的整个基础设施系统能够正常的运行，这是两方面组成了我们整个的运营管理的概念。在这个其中我们重点关注的环节，刚才张强已经说了比如自动化、细化我觉得这个概念提得很精辟，为什么？因为在运维过程中，好的比如说是人在集中管理是一个非常好的，比如非常经验的非常熟练的一些技术人员里面服务能够把数据中心做得很好。不好的也是如果人为的因素参与太多的话有很大的不确定性，在运营过程中人是靠经验的，经验过程中有对有错，有现场的临场判断，如果判断失误有可能就会对数据中心造成很大影响。刚才说一是自动化，因为更多的是要通过正常的设备的运行检测对这个设备运营状态，我实时能够了解他目前的运行状况，在这个运行状况基础上我们也是分为几个。自动化的检测他的运行状况之后，咱们能够对所有的数据进行分析评估，对整个系统的运营状况有一个总体的概念性的把握，比如哪个地方是运营正常的，哪个地方未来可能有潜在的隐患，包括对他做分析评估，这是目前我们做的第一步。因为气象部门和其他行业有一点区别的，我们气象部门更突出注重的是一个汛期服务保障。汛期5到9月份是汛期，6到8月份是主汛期，这是我们全年的工作最核心，也是跟咱们整个气象保障服务的有关系。比如6到8月份洪水台风等等是频发的时候，一旦比如气象预报有什么失误的或者造成什么中断，有可能会造成很大的一些经济、人员甚至政治上的一些损失，所以说我们在这个期间我们每年四五月份要对所有的整个中心的基础设施情况要做一个综合的检测，在这个基础上做分析评估，出评估报告。发现问题及早排除隐患，有些故障尽量排除，隐患发现出来要及早进行解决。这是我们在运营管理中第一个要关注的一个就是从用户的角度来说第一个要对数据中心经常做一些评估。一是它的运行状况，第二个我们也是在实际运维过程中也突出的感觉到这个问题，现在在数据中心建设的时候它的IT设备的发展是非常迅速的，还有业务需求量发展不是成正比的增加，有可能是成指数级增加的，所以数据中心的IT设备规模持续不但的扩大，但是基础设施在那儿摆着是有限的，可能很多年才能进行更新，或者更新之后容量受到限制，所以我也要对它进行分析评估之后，给后续的比如需要设备新引进的时候，我需要对它有一个评估，比如我估计还能支撑多大一个业务系统，我就知道场地这些还能支持多大的系统，这个需要随时的反映给相关职能部门，他们在做决策的时候要有一些一个优先级的考虑。比如哪些业务系统是优先需要放进去的，甚至可能时间上要晚，但是他要排在一些设备优先级的前面，这也是我们的定位。在运维管理中第一要对决策层提供一个数据的支撑，对现有的系统运营状况还有未来的可用容量有评估，分析，然后是他们在数据中心发展的时候心里有一个数。第二个在保障上更多的侧重对设备的一些定期的维护保养，这个维护保养最好通过一定的制度一定的流程等等这是一套体系的系统。刚才张强说的一个很经典就是要细化，前期我在做分析的时候要细化，列得越多越好，但是在最后你要提炼出一部分来，这个就是由繁入简，最后你给人执行的时候不能太多，因为太多的话执行起来有难度。把整个核心的流程全部制定出来，同时也是按照SOP的概念每一个程序都有一个标准化。在这个过程中减少人判断的因素，也设计人员更新交替等等都存在这种状况，这个过程中只要不管谁犯了错能拿到标准化流程按部就班的做之后，都能够顺利的完成这些工作，这我觉得是对在运营管理中人员的考验，怎么能制定出这个，这是我觉得最核心的一个工作，如果能把这个制定出来之后，运维管理我觉得至少应该是成功了一大半以上，这是第二条。第三条还有一个就是培训和演练，尤其是演练。因为我工作也是十几年，真正十几年比如像制冷系统等等配电系统这些，没有故障操作的时候时间很少的，长时间不动之后你天天记也时候也有疏忽了，第二个你长时间不接触之后这个概念就淡薄了，淡薄了之后万一有突发情况发生这个要求你是第一时间能够精确判断快速处理，这个带来一个很大的考验，怎么来解决这个问题，也是要考虑一个模拟演练。演练用实际演练会有，但是这种还是少，就算每年有的话次数也少。所以这也是我们现在正在建立的一套系统，叫做模拟演练系统，通过软件方式，以软的方面来实现整个故障的分析模拟。第一我对这个模拟建立的时候就对所有的故障肯定有系统的分析和了解，对于了解整个设备是有好处的。第二我提炼出来之后我把所有的故障全部在一套软件系统模拟出来，模拟出来之后按照刚才标准化的流程一步步来进行故障排除解决。比如我可以三个月半年进行模拟演练一次，万一这个故障发生之后可能就会很快的及时的得到处理。这是我们在运维管理中的三点，分析评估，第二个是维护保养，第三个是培训演练，我觉得这三点是我们在实际运营过程中感觉是比较关注的重点几点。

蔡红戈：重要环节，张强从我们作为服务提供商的角度给我们讲了SOP的概念和我们几个环节。孔令军又通过我们自己的实际的运维管理的经验，对这个进行了一个细化的讲解和补充。把这几个环节实际上我们在真正实际管理中如何应用，如何细分进行了一个补充。我相信其实我们广大的用户会非常关注这些细节，因为凭借我们机房协会和用户会员多年的交流来看，其实很多用户特别关注的一点是在实际操作当中不同行业的用户是如何去实施如何去细化这些环节的。第二个他们会关注的是在这个行业领域当中，有哪些新的理念和新的解决方案是他们想通过各种渠道而获得的。今天张强有没有给我们带来这方面的讯息呢？在我们数据中心的领域当中，运维管理的层面上目前有哪些新的创新的技术和解决方案可以提供给大家？

张强：我前面讲了运维更多是一个软的工夫，但是不可否认这个软的工夫也是跟上硬件的发展，这几年技术其实大大的提升，速度大大加快。比如最早风冷发展到水冷，水冷可能是有机柜水冷背板，然后现在应该已经是大概四五年前已经到芯片水冷，直接把冷却水通到需要冷却的芯片，而且IBM在欧洲已经有成功实施这样芯片水冷的这样的数据中心。除此以外在一些具体的运维操作方面我们这几年我们总结出来的也还是要以专业设备厂商对设备的运行的要求为基础来制定你的运维体系也好，或者SOP的更新也好要去做这个工作。也就是说还是要找专业人员，只有专业人员把他的这些知识能够精确的贯彻体现到你每天的运维操作当中，就可以把设备的应该说安全运行保障都可以达到最高。也就是我刚才提到SOP，IBM的做法是这样，就是我把细化的SOP通过运维管理平台，他以工单自动推送的方式发到每一个责任工程师，另外这样的做法我们每一年会请关键设备厂商跟我们的运维团队坐在一起每年审核一遍这个SOP，包括对产品的维护生命周期做评估和检验，然后在下一年你的操作细则这些 SOP是会有一些改进和变化的。所以这个运维我就说是一个非常琐碎的事情，尤其国内我们用一句中文讲跑冒滴漏，非常琐碎。尤其近几年大家对数据中心这个理念的不断提升，我其实前一阵也看到有一篇文章说数据中心就是服务器，不知道孔令军有没有关心到这个。过去我们说IBM的大机，后来到了分布式系统，大家可以并行工作完成什么样的应用，现在慢慢把这些复杂的系统搬到专用的数据中心，数据中心就是一个大的服务器。所以从这样的一些硬件的技术提升，到软性的运维体系的变革，我们觉得关键的还是要看从专业角度我们有些好的经验，从专业服务厂商向IBM或者其他成功的用户那里去学习，然后把这些能够做成你自己的规范，而且通过一些自动化的手段能够实施，我觉得是我们认同专业专家精神，专家地位，但是如何把专家的思想贯彻到我日常操作当中来。

蔡红戈：把专家的经验把它规范化标准化，然后普及到所有操作人员能够去进行日常的操作和维护。

张强：对的，其实说到运维的规范化，IBM的服务提法倒不是这样提的，IBM用了一个最佳服务实践。现在同行交流也经常用这个词，因为这是个无止尽的东西，你永远可以去提升你的运维质量，尤其是我们要提升一些运营的效率，节能减排，我们过去可能这一方面都比较粗犷型，定性的多定量的少，慢慢慢慢你不仅对系统的可靠性也有一些服务的水准要求，服务支持性的要求，对整个系统的一些每个环节的运维都会量化，就是定量这几年是比较热的一个方向。

蔡红戈：刚才张强在提这个服务的时候，提到了一个节能减排，其实我们用户也比较关注这是业内比较受关注的一个话题，数据中心的节能减排我们已经提了有三四年了。在运维管理的这个环节当中如何去推动节能减排，如何能够保证我们这个数据中心的绿色节能，也没有一些方案呢？

张强：这个话题我觉得非常好，一个是最近几年大家非常关心，确实IBM在这方面也是投入了蛮多，包括我们参与国内一些像上海被邀请参与制定上海市的数据中心绿色节能的这样一个设计标准，并作为被邀的唯一的外资企业。所以我们在这一方面也确实有一些研究，从我这边了解的情况，其实运维日复一日的操作，你要如何去提升你的运行效率，大大节能减排，我刚才用了一个跑冒滴漏，具体来说我可以举一个例子。今天机房每个机柜下面如果是下送风的话你会有很多的风孔，通过电缆然后通过电缆的缝隙冷风送上来，但是每个机柜的发热量是不一样的，尤其像孔令军这边有一些是特别的热点，你可能要有一些主动送风的措施来定向的强化。其实你可能忽略了其他几个不需要那么大量的制冷的机柜，是不是有效的把那些冷通道局部的优化呢？IBM有一些非常实用的做法，他在机柜下面这个地板开口，他围绕这个上来的电缆做了那种毛刷填在里面，这样就可以把下面的冷风给阻隔起来不需要吹到这个机柜。因为有些比如像布线机柜本身他有一些无缘的东西为主，不需要太多的制冷，他就把这个冷风给它缝隙都堵塞，包括这个机房之间有一些不必要的通道，为了节能减排也是堵塞。比如现在有一些机房从设计的时候就考虑说我是一个无人机房，这本身也是从运维节能的角度考虑，有些机房虽然设计的时候是有新风通道的，但是它在运维的时候如果IT系统一段时间不变化，它运维的时候是把新风通道关掉的，这也是为了一个节能。而且还有一个好处，因为现在国内大气污染很多，如果新风通道有的话可能会造成对机房内部的IT设施带来一些空气污染造成腐蚀。如果没有新风这样的风险也可以减低，所以在谈到这个节能，我其实去看过很多我们运营商电信、移动这些运营商建得相对比较早的机房，包括IBM造得比较早的一些老的机房，它有一个现象过去我们不太关心，就是过度制冷。实际上你这个发热量没那么大，但是空调也不做一些安需的输出这样一些自动化的措施，或者你运维上去注意这方面的是不是要及时的开关机，所以有的机房没有多大发热量但是空调是满负荷开的。过度制冷过去我们是不太关注，但是IBM在上海沧江自己机房，我们差不多在五六年前做了一个评估，发现冬天的时候这个机房九台空调可以关掉2台，因为从我们这个机房的热点检测来看，冬天室外环境温度比较低，所以环境温度低造成空调可以关掉2台，不会影响机房的运行温度。所以这些都是在我们尽管这几年采用了很多自动化的手段去检测去探知这个机房的运行温湿度，腐蚀梯度等等这些情况，但是真正去堵住这些漏洞，这些跑冒滴漏问题，其实还要我们专业人员的一些敬业精神去参与，可以做到一些节能减排一个很大的效果。

蔡红戈：在自己的实际经验当中对绿色节能，节能减排从运维管理角度有什么想法吗？

孔令军：我觉得刚才张强基本介绍了，我看了主要的大致的方式方法基本上都提到了，其实可能我这边大概结合我们实际运行过程中有些意见可以介绍一下我们采取一些措施。因为在机房数据中心我觉得他在整个实现节能减排就有几个条件，第一个条件是设计，设计阶段考虑节能减排，比如说(46：02)等等很多措施，但是这个也有前提条件的。比如一般的节能减排设备和投资都是彻反比的，越节能减排效率高的时候，他相对来说可能投资资金大，在建的时候考虑有它的制约性，这是第一个。第二个在运维阶段，运维阶段其实咱们数据中心按照规划设计建成之后，它实际运行的时候和规划设计肯定会有出入的。在这其中其实以制冷系统为主，因为整个比如一个数据中心来说，它一个POE值里边真正的基础设施系统占能耗高的主要是制冷，其他供电设备目前的效率还是比较高的，所以说制冷系统占了一个为主的能耗，要实现节能减排优先考虑的就是在制冷方面进行考虑。我们国家气象信息中心从04年建成新的高性能计算机开始，我们就做过不同的实验，来调整他们整个的一个机房的比如(47：11)组织，还有设备的合理的配置选型等这方面，我们希望能够做多种不同实验来了解它的一个规律，如果验证之后内容有效的实现节能减排就采用。我介绍两个已经采用的方式，第一个就是我们刚才说的也是1.5千瓦每平方米的机房，那个机房里配置了14台一百千瓦的空调给那个设备制冷。设计冷量是在机房内设计整个的额定发热量是一辈多，但是实际运行过程中其实整个的空调一旦有一台故障之后，机房温度能够很快上升的，我们机房温度曾经出现40度的状况。我们后来分析这个原因，后来找发现每台设计容量那么大，但是每台它整个的压缩机基本上常年处于一个很高的负载率的情况下，所以我们大概也是在09年左右的时候，我们把空调的室外机做了一个扩展，比如原先是双压机，每个压机增加一个30千瓦的一个额外的冷应器，因为我们所有的室外机全都堆在我们整个楼的楼顶，楼顶之后它会形成一个局部的热导，实际上夏季高温的时候周围温度可以达到50度以上。我们规划设计40度已经有一定余量的考虑，但是实际上还是满足不了。我们担心有这个问题，所以我们就总共增加了28台冷应器，当时成本应该是60多万。实际建成之后我们也是对它的整个的内耗又再做了一个分析评估，感觉增加一台冷应器按道理说能耗是增加的，但是实际上能耗是减少的。我们估算按年平均估算大概应该是减少了在10%左右，我们最高的时候夏季运行电流最高的时候到900多安培，现在加了冷应器之后可能能降低仅仅 100安培左右，基本上将近10%。10%我们整个功耗4百千瓦，一算下来基本上两年左右节省电费就能收回投资，这是带回来我们一个最直观的感觉。运营管理的时候第一要对他进行分析了解之后，通过一些合理的匹配这些设备的选型和配置，它的能耗是能实现节能的，这是第一条。第二条刚才张强也提到了整个空调的一些排布包括气流组织这些。我们感觉对于气流组织在实际运行过程中也是很重要的一点，因为我们在大部分机房都采用风冷，风冷的机房效率还是比较低的。我们目前可能按0.7算制冷效率是很高的，但是现在如果是能够对它的气流组织能够合理的有一个分析再进行调整的话，其实它的能耗也是能够有效的提高冷空调的制冷量的利用率。现在我们也对储存机房做过多种分析，我们就不断的调整他在每个机房内的一个地板的尺寸位置大小等等，你能明显感应出来运行一段时间之后，它的机房温度同样什么都不变，条件基本不变的情况提高它的出风口之后，它的温度室内温度范围大概是正负两三度左右的变化，这两三度反应的能耗也是一个节能减排的作用，再来就带来一个在运维过程中一是可以做模拟分析测试，测试完了之后对他来进行调整优化，我觉得这些是在运维管理过程中，可能比较小的一个成本就能带来一个节能减排的效果，这种感觉是运维管理中要加强对整个系统运行状况的了解，然后在这个基础上进行分析评估。所以这是我们感觉有这几条的话其实什么都不变的情况下，就能够实现节能减排。

蔡红戈：给我们细化了一下分析和解决办法。你是不是能给我们介绍一下，因为从去年开始我就知道咱们气象局一直有一个新的业务大楼在规划设计当中，印象里建筑面积在3万平米左右，根据你介绍的这些经验和张强介绍的这些方法，是否我们在新的业务大楼数据中心的规划设计当中，已经采用了某些更新的技术方案或者设想？是不是对未来的运维管理也有一些新的考虑呢？

孔令军：因为目前对于我们新大楼，因为我们是以气侯变化项目，就是以气侯变化应对决策执行系统功能这么一个项目名义申请下来的。整个项目其实就为了应对国家气侯变化作为一个决策分析评估的基础，所以它的气侯变化实际上我们在其中既然他是为气侯变化服务的，其实它从自身的角度来说第一条就要实现尽量可能在现有条件基础上能实现相对来说绿色节能，因为气侯变化最核心的是二氧化碳排放量，二氧化碳排放量可能反应了节能减排，所以说这个我们在设计阶段也是在目前已经设计基本算是初步完成了，初步完成之后我们在设计阶段已经在尽量是能够采用一些措施来实现他初步的绿色节能，包括下来有一些措施包括第一条我们机房采用的也是一种模块设计，比如说我们可以2百或者4百平米作为一个模块化机房。里面的制冷系统是独立的，(53：04)的供电也是独立的，因为我们的业务系统在发展过程中也是每年每年增加，比如每年增加10%20%，要不断发展过程，如果机房面积不是建得非常合适的话，比如机房面积过大就带来一个问题，就是前期投入运营很少，但是机房这么大面积可能需要制冷这些设备运行比较高的这些，这是第一个。第二个机房建成之后其他空间都不用，机房建小了有可能大的系统放不下，所以我们怎么解决这种问题？我们就是准备采用一个模块化，2百平米一个2百平米一个，我可以给你需要一个一个往上累加，这种方式实现整个机房根据业务需求量不断的扩展，尽量把这个业务投入运行的机房基础设施放在一个最小范围之内，把它的运行效率放在一个最佳的效率之内，这是第一条措施。第二条措施也是针对刚才说的机房基础设施系统能耗大头其实是制冷，我们全部采用水冷的方式，水冷HPC占我们大头，其实那个机房里边占的比例比较高还是我们高性能计算机性能，未来规划的高性能计算机，这个我们还是把它也是优先考虑用水冷机柜这种方式，对其他那些机房也优先采用水冷的空调，这样通过水冷整个的制冷效率还是要比传统的氟利昂制冷要高一些。所以这个是第二个措施，制冷方面尽量采用水冷制冷的方式。第三条措施就是对于我机房内它的一个气流组织有一个更好的优化。因为现在我们的楼里面是我们大楼90年代建的楼的现址，很难实现一些气流组织优化，楼层很低等等。我们那里边比如通道，因为现在很多数据都采用这种，所以在那里面我们也是刚刚引进，有条件我们才引进这个系统，封闭这种模式，封闭的时候结合刚才模块化那种方式，我们开空调初步构想是各个模块机房之间的空调既能相互独立，又能相互并联在一起共同来执行，具体方法可能送风也采用风道这种方式来实现，几个机房可以自由组合，来实现整个机房应该是一个随意的组合。所以这是目前是在设计考虑这三点，主要是来实现我们整个比如大楼的机房的一个节能效果。

蔡红戈：感谢孔令军，今天我们的时间也差不多了，主要的这些问题给我们广大的观众和用户介绍了我们这个数据中心运维管理的几种方式。包括运维管理当中的一些重点环节，孔令军也通过气象信息中心的经验为我们详细的分解了一下这些关键环节和方式当中的一些具体的分析方法和实施措施。张强也为我们介绍了目前IBM能够给大家提供的最新的解决方案和一些服务的方式。希望我们这期的内容对我们广大的用户有所帮助，下面请我们两位嘉宾分别对今天为大家所讲的内容做一个总结，用简单的几句话提醒我们的用户重点关注哪些内容，首先有情孔令军。

孔令军：我觉得作为一个数据中心的运维管理，我觉得最核心的一个其实就是几点做好了我觉得运维管理基本上是能够有事半功倍的效果。第一个就是规划设计要做好，因为运维管理基础还是取决于硬件这些，硬件设施构架没有搭建好的话，运维管理有很大的问题。第二个问题是人员配备，因为所有的运维管理都是靠人来实现的，所以说人员配备的时候一是人员层次结构要合理，有高精尖的人才在里面做一些详细的分析评估，也有其他一些人，比如确实基础设施，数据中心运维其实有些脏类的活，所以需要不同工种的人相互结合，这是第二条。第三条就是规章制度的建立，规章制度只要所有都纳入流程，你的运营管理可能基本上已经是成功了90%。这是我说的主要三点。

蔡红戈：张强经理有什么要对我们广大用户说的？

张强：我们现在国内有这么多的数据中心，每家都有各种各样的细化的规章制度，但是有不少是停留在墙上停留在纸面上，或者没有一个集成的，所以这个是第一步要做的，要把这些流程的操作自动化要借助管理平台去实现你的人员操作自动化，还有一个就是说我们现在机房运行的环境我们运维操作人员你是根据这个运行的比如机房温度、湿度，通过来自实际运行环境的检测系统，我们说机房环境监控系统来决定我想应的一些运维的操作，除了预防性维护以外，但是这些系统我们看到的问题也是缺乏一个跟你运维自动操作的集成。举例来说，我环控归环控，但是环控要涉及到人为的做一些对设备做一些运维的时候，他并不是一个自动反馈的过程，所以这个自动化的提升也是非常非常的关键。就是说你要把你的，我最早讲到我们有一些关键设备的出了故障或者报警的自动工单，它的工单是自动的，是直接发送到专业的责任工程师或者厂家那里，而不是通过我人员目测看到了耳朵听到报警了，我再去打电话或者再发一个邮件工单，很多东西都自动的。这个也是稍微介绍一下IBM刚才我提到那个的数据中心，它可以管一百多个其他的周边的数据中心，他是一个总控中心，它每天处理的信息报警，报警的信息差不多有几千万条，每个月超过十亿太，这是不可想象的。为什么能够管理这么多？它其实这么多的报警信息它有90%以上都是自动处理和过滤掉的。然后只有到10%需要我们的一线监控人员或者技术人员去人为干预，所以要大大的借助操作的自动化，监控和自动化要做系统集成。我想我要讲的主要2点，流程不要停留在墙上，还有所有的系统要有一个自动化的集成提升。

蔡红戈：感谢张强，感谢孔令军，今天我们的内容就到这里，今天的内容对您有所帮助吗？你有什么感兴趣的话题和希望了解的细节请于我们的栏目组取得联系，谢谢大家，再见。

看过还想看

可能还想看

热点推荐