banner

明略数据技术副总裁黄代恒:洞察工业大数据应用实践

作者: 大数据观察来源: 大数据观察时间:2017-02-05 11:39:130

明略数据技术副总裁黄代恒在29日下午的工业大数据论坛上发表了题为《感知与洞察-工业大数据应用实践》的演讲。以下是内容实录:

尊敬的各位来宾大家下午好!我是明略技术中心的副总裁,刚才有很多重要领域的专家介绍。接下来我介绍一下其实这不是偶然的,这是一种必然。

50次、7次每年,这个是轨道交通如果它出现了5分钟晚点,这个数是有指标的,轻微的事故,所有的这些是内在的动因,我们国家一直在提工业互联网,各有各的速度,坦率地来讲我们国家的工业发展跟西方来比,并不是走在领先的。

今天各位领导讲到很多的应用,今天想跟大家深入探讨的两个方面应用,一个是感知,一个是洞察。什么是感知?感知是利用分布式存储、计算计算将海量的传感器收集到的数据实时汇总,实现状态监控、感知隐患、避免风险。在感知过程中隐含了预测。

感知毕竟是已经对客观事件持续发生事情的已知,洞察不一样,已知的事件只能观察到A、B、C、D等15个维度,这15个维度后面可能的原因是什么?

在整个过程中,大数据在故障分析方面,能够在高速和自动实现更大价值。

这个事一直在提,关于大数据能不能在工业领域上用。为什么是这些行业,刚才也说了一来就发现很多能源很多高端制造,很多轨交领域,为什么是他们?这并不是偶然的。我们的能源、高端制造、冶金、建设本身是国家的核心栋梁,它的传感层、传输层渐渐具备起来,如果把物联网整个看实际上是三层,最低端是传感层。

下面我从感知和洞察两个方向介绍一两个非常实际的例子。首先来讲怎么感受到,如果是销售数据或者持续性不强的数据有各种办法可以把它介绍。我刚才介绍了就在此时此刻有数千辆列车奔驰在大国高速铁路上,每个传感器是数以万计的。在大数据环境下,支持多源异构和协议解析是一个核心技术问题,特别是海量设备实时产生和回传的传感器二进制数据。解决方案的几个核心要素是:高并发、可配置、保证时序、支持多态应用。

举具体的一个例子,这也是在很多交通领域、能源领域遇到的典型问题。这在某个典型的牵引动力、轨道、交通领域遇到的,车载设备发生了故障,其实前后若干秒是有一个高频数据的。不管是搞强电牵引动力的专家还是汽车发动机还是变速箱、车轮都是由顶层专家进行分析的。大家可以想象整个的周转系统一来慢时效性就强,二来零散。专家也是人,原来专家标注这个样本时一天效率低的6-80个,最快的有200个。现在的技术演变到今天,都可以帮助大家解决这个问题。

全国载运的大部分情况没有问题,只有一个点标成了红色,不是意味着整个车有问题,只是其中某个小环节有异常。

除了刚才的那种监控画面,其实监控画面是给领导看的,真正做的是系统能够自动根据一些规则,当时注意到比如说拍到我住的天通苑北站,不会出问题。但再过几站,大数据平台已经实时检测到了,他们能做到抱歉我们的车辆发现了一些异常,还有一个很典型有趣的小问题,历史上出现这种事,立刻调记录,上次的检验结果对这辆车这个地方的检验结果有一处没有查,就立刻发过来。我们以设备为主体实现信息的聚合,很多信息聚合进来,比如说车辆运行的设备,比如说轨旁检测设备,包括点巡检设备都聚合在当中,通过这种聚合来实现。

另外,专家知识的管理。这个里面包括阈值什么样的特征,这种特征有可能是人也可能是机器,这部分知识有些来自于专家,有些基于技术来把真正隐含的规律报告过来。

刚才也有各位领导展示过很好的报表和销售状况,这些都是发生客观现实的直观展示。更多是这个事情为什么发生?可能的原因是什么?事实来讲有三个手段:

一、基于专家规则;

二、基于特征分析;

三、基于深度学习。

比如说什么叫专家特征?比如说老专家就跟老中医说的你这个人看你这个特色是体寒,他是根据一旦也这种特征就会判断出来哪个地方不好。通过它的斜率和导数完全可以把专家判断逻辑转成机械,这是专家规则的机械化。

第二类而是说影响这个电路产生问题的话,除了刚才说的异常坏,有很多是跟数据有关系的。可能主要维度80-100个,但其中有15个根据特征来选出来,什么叫正相关负相关?大家隐隐约约知道身高和体重应该是相关的,大量样本中怎么知道这个系数是多少?这是简单的数据关系,我们通过不断的做尝试。如果这条线比较平缓,说明身高跟你的体重没有直接的关系。如果这个斜率非常抖,说明身高维度对体重的维度影响非常之深。这个描述简单,因为数据量比较大,我们需要采取多个特征,把很多的特征投诉到一个平面上来进行降维,我们专家解决这个问题。

包括刚才说的简单回归,还有一类是分类,分类器的问题。就是简简单单的分类器,有很多的方法,在这次选择过程中,我们利用多种方法组合使用。

最后一条路,这种模式的识别,是通过不断的小模式一层一层组合成大模式。也许这个东西预测量非常之大,取出来的数据可能不是这么多,但是当中有无数的迭代,一台GPS基本可以达到八台以上的普通计算机运算能力。比如说一个一台常态0.95%,比别的概率高了很多。

在这里面特别说的一个不是越先进的说法越好,当时我们做了深度计算的尝试。一个中等的故障,它三年积累了9个,这个样子只能做普通的机器学习。这是我们的故障分析。

最后跟大家说感知和洞察是工业互联网特别是传感器互联网过程中非常重要的,到现在为止它还有很多的问题,比如说在感知中要实现高并发、无遗留、灵活配置,保证时序,还要实现整个系统多个系统汇聚起来,不同标本能够汇聚起来实现不同的场景。

洞察方面,手段结合、适宜为佳。数据科学家现场,每个行业面临的情况不一样一定要有科学家在现场。最后一个是样本积累,循环迭代。这种样本积累要早做到,包括人脸识别最近的爆发,也是跟样本积累有很大的关系。

说了很多,首先第一条主线是传感器设备主线,生产系统、ERP、MES这两个数据最后可以做汇总分析。

这个是非常完整的大数据,后来我们已经跟轨交某些部门合作,把所有的技术积累,在这个领域最佳的实践跟我们的业主一起在这个行业做一些贡献。

最后我想跟大家说一下,这也是在做大数据应用中比较重要的,有三种东西一个是数据,一个是技术,一个是业务。很多公司说数据最重要,没有数据什么都不重要。但是从我自己的经验来看,我觉得业务价值最重要。最终你数据做的有没有价值,要落到业务里面。没有业务场景,整个的调性非常低。

在大数据基础上,中国现在包括自己很多的项目,曾经跟IBM这样的公司我们的接入能力、转换能力,我也知道国内很多公司扎扎实实做了非常重要的工作,随着优秀的制造企业,包括顶级的能源企业一样,都会成为国家发展很重要的基石。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限