banner

联想毕巍:大数据本质场景未变 突破在于底层技术

作者: 大数据观察来源: 大数据观察时间:2017-04-17 13:04:230

9月27日,第二届大数据产业应用协同创新峰会在北京丽亭华苑召开。联想集团数据中心业务集团中国区首席架构师毕巍在会上做了《大数据与AI助力传统行业数字化转型》的主题分享。

毕巍表示,纵观当前大数据产业的发展,大数据的场景出来以后,它本质上并没有改变原有应用场景的套路,根本的变化和突破在于实现的技术手段、计算力以及数据量。随着AI的引入与大数据技术的融合,这种突破性的转变才真正得以彰显。

同时,毕巍强调,实际上到今天为止,我们的AI本质上还没有改变应用场景的本质,它其实就是算法加数据的驱动,才能够让这个算法落地。

而对于联想的实践来说,基本上分成两块领域,一块领域是面向城市的、一块领域是面向企业的。这两块领域里,从应用场景和行业属性角度讲,它还是存在比较大的差异。但从背后的技术基理角度来说,其实它共享的是同一套技术基理。

所以,从我们的实践角度来讲,我们看到人工智能与大数据的结合,大数据实现的是大量的数据以及基于这些数据量上面的实时分析。从前面的角度可以看到,人工智能与大数据结合的分工是非常明确,如果你建模完成后,你要靠人工智能做算法以及模型的打磨,但实时的监测、实时的模式识别,最终还是放在大数据平台上。

以下是主题演讲速记:

各位领导、各位嘉宾、各位专家上午好,首先非常感谢协会邀请联想我们来参加今天这个峰会。大数据在过去的几年当中应该是如火如荼,今天重点可能不是放在技术上面,我想重点放在应用场景上面。

在整个的大数据领域里边,其实最早得到广泛应用的应该说还在互联网2C的领域里边,这两年在2B的领域里边,应该说得到了一些比较重要的突破。联想在过去三年的实践我们基本上有一个感悟,这个感悟是什么?差不多大概是在去年的时候,我们觉得在2B的应用场景当中,真正地找到了一些落地的使用价值的感受,这当中的一个转折点在哪里?这个转折点我们看到的情况,如果我们简单地大到至简,简单地去看这个问题的话,大数据整个的应用场景和十年前著名的BI的例子,其实本质上并没有太大的差别。我们大概十五年前就一直在被BI这边的一些故事,经营在这些故事当中,注明在超市里面去买啤酒的时候,通常一个男生到超市里面去买啤酒,他可能会带着尿片,我相信这样的一个数据的应用价值的神话,我相信我们已经听了十五年了。

大数据的场景出来以后,它本质上并没有改变这样的一个本质上应用场景的套路、它的下面,只是说它的技术手段、它的计算力、它的数据量,在当年BI的场景下面有了重大突破,但是它本质上并没有改变这样的应用场景。

什么时候让我们感受到有一些重大突破呢?我觉得是AI的引入,大概在前年年底到去年实实在在的一些AI技术的引入跟大数据技术的结合,才让我们感受到说跟十五年前、跟十年前或者跟五年前是有一些比较大的差别。所以我今天这边跟大家分享一些我们过去一年半,我们AI的引入大概是在两年前,实实在在落地的话大概是在一年半前,这一年半左右的时间当中,AI与大数据的结合,让我们感受到它的实用价值比纯大数据要大很多,这就是我们过去两年左右实践当中的感悟。

今天也非常有幸,我们把这些实践带过来向各位汇报一下,向各位专家汇报一下。其实我们从各方面的材料当中和市场分析、各方面的趋势可以看到,原来我们讲的经济增长极、主要的生产力要素,从今年年初角度来讲,越来越多的行业里边的专家,整个经济学界的专家将人工智能当做第四个生产要素。刚刚看到这些研究报告的时候,我本人其实是不屑一顾的,我觉得这有点忽悠,但是经历了过去一段时间的实践,确实感受到人工智能在这个领域里边确实产生了一些催化剂的作用。

当然了,前一段时间,我们上周在济南的时候,联想举办了一场创新科技大会,会上有很多的媒体记者,大家都知道媒体都是喜欢这种炒作、各种各样的话题,对他们来说只要有炒作价值的才是有效应的,所以将人工智能当做一个非常神秘的话题在谈。我当时非常简明扼要地告诉他们,其实到今天为止人工智能还是一个野蛮搜索为主的一个本质,其实真正我们广义上讲的人工智能,在今天还是远没有实现。我们现在目前真正突破的地方,我认为就是两个点,一个点其实是模式识别,不管是各种各样的模式识别,从图象的模式识别,包括脸部、包括各种场景的模式识别,到视频流上面的识别,到我们这里面自然语言的识别,到行为模式的识别,其实本质上都是模式识别;另外一点就是知识图谱,我现在这边看到的情况,模式识别目前的应用价值已经非常明确了,我们现在看到的场景是说,模式识别加深度学习加上我们的前台大数据应用,加上AI、BI,已经在实践当中找到了很多的落地场景,待会我带了几个案例跟大家分享一下。

但是知识图谱这件事,到今天为止可能还相当于模式识别三年前的状况,还在摸索,它可能是非常有价值,但是它整个的落地场景,我们现在目前感受到还没有这么solite(英文音),可能的原因是跟数据量、可能的原因是跟整个的机器数量法的chaning(06:11英文),可能还需要更多的数据、更多的时间、更多实践的场景去验证。

我们举例而言,比如说我们脸部识别,比如说你的脸部90多个点、90个点,我忘记了,大概在一万个人当中你就一定会有一次重复,现在目前做得比较好的,联想现在目前投资了face++,face++这边他们可能是,我记得应该是三个版本107个点还是多少,大概十万个人群当中会有一次重复,然后它最新的推出还是说它的竞争对手推出的127个点,基本上全球的人口都不会出现重复。所以大家可以看到说,在这个当中其实它的本质还是非常清晰的本质,它的本质主要就是一个数据量、主要就是当中的一个介模深度学习,从这些角度来看到的。

在这个当中,我们同样地可以看到,联想投资的另外一家,也是中科院体系的公司—银河水滴,他们做的是步态识别,到现在为止我们在应用场景当中发现,相对来说没有像face++这样成熟度这么高,其实原因很简单,脸部识别现在目前它的数据库、数据量比较大,步态识别它采样的成本比较高,现在目前为止,还有一个数据量的积累过程。

我不知道大家有没有了解到,其实这一轮整个的AI,它的起步点我认为是在1995年谷歌的翻译,50年代的时候翻译理论其实已经比较成熟了,当时有两大路线之争,一个是介模驱动的,一个是统计分析驱动的,当年统计分析驱动是完全被嗤之以鼻,到1995年的时候谷歌这边推进了整个的线上,面对互联网2C的谷歌翻译,1995年我那时候就用过了,我觉得效果很差,但到2005年的时候,它的效果已经是相当不错了。十年的积累,其实积累的不是算法,积累的是数据,大量的数据在里边,使得谷歌翻译迅速地能够产生价值。

所以我认为到今天为止,我们的AI本质上还没有改变这样的一个本质的应用场景,它其实就是算法加数据的驱动,才能够让这个算法比较落地。所以上周一我配元庆(音)去访问了我们投的另外一家公司,我们创投企业投的另外一家公司,是深圳智能交通设计院。在这个当中,它现在目前在深圳整个的智能交通这块,在全国甚至在全球是处于一个领先地位的,它在这个当中,它告诉我们说麻省理工其实现在目前拥有非常好的算法,但是不得不也找深圳交通去合作,原因其实很简单,深圳交通立足在中国这样一个比较肥沃的土壤上,它拥有大量的数据,他们现在每天大概是每天日增1.8亿条数据、新的数据。这使得它在全球应有了一个不可复制的、难以逾越的这样一个壁垒。所以基本上我们看到说,到目前为止其实数据量,我们认为是狭义的人工智能,其实主要是模式识别,这样的一个角度找到了应用场景,可能是现在目前落地感比较强的一个地方。

对于联想的实践来说的话,我们基本上是把它分成两块领域,一块领域是面向城市的、一块领域是面向企业的。这两块领域里,从应用场景和行业属性角度来讲,它还是存在比较大的差异的。但是从背后的技术基理角度来说,其实它共享的是同一套技术基理。简单来讲,我们现在目前在城市的实践当中,我们看到在智慧交通领域,像智慧医疗领域,智慧医疗其实有的时候很难讲,一部分可能是在行业的、一部分可能在企业的、一部分可能是在城市领域里面的;还有在智慧教育领域、智慧农业等等这些领域里边,现在都已经有一些比较具体的生根发芽的一些实践的场景。

在智能制造领域里边,目前对于联想来说,这个领域里边我们是生根得比较深的一个领域,因为联想自己本身可能就是全球500强比较大的、著名的,原来我们可以认为我们是离散制造,但今天我们可能是,自动化程度越来越高的情况下,我们可能现在目前已经快接近于智慧制造这样一个程度。今天由于时间有限,我其实有一个我们现在目前最新的,大概在去年投产的,在合肥有一个联保厂,这个联保厂基本上代表了现在目前环亚太地区的,应该说环太平洋地区的最新型的单体最大的,自动化程度和智慧化程度最高的一个大规模的制造厂。在这个制造厂里边,我们除了自动化领域以外,我们大量地实现了智慧化的工作。这个智慧化工作其实本质上来讲,其实最重要的是什么呢?最重要的是联想自己本身业面临很大的一个转型的挑战,这个挑战在哪里?这个挑战在于是说,原来大规模的批量制造现在已经赚不到钱了,我们现在目前越来越多地要去接一些小批量定制的订单。

比如说举个例子,国家统计局他们现在目前可能定制的每年大概是3万台的pad做统计用,这种pad它其实不是我们的标准2C的pad,它上面外加了很多的模块。比如说交行,它们的这种业贷,针对他们的业贷也是定制上千台的pad,这些小批量的定制在以前其实它整个的设计、制造的成本是偏高的,可能它项目的毛利率可能比对消费者单机的毛利高,但是我们的生产成本、我们的设计成本可能会把很多毛利给侵蚀掉了。在今天的环境里边,我们在联保厂里边我们已经能实现柔性自造了,实现柔性自造以后,它里面一个比较重要的视角,就是它的MES和ERP之间的联动已经做得比较好了。前端的ERP,我们以前讲按订单制造、按订单制造,但其实一直卡在哪里?ERP里边按订单制造是OK的,但是你跑到了MES,真正地能不能按订单去动态地调整你整个的生产线?这个其实一直以来是一个比较大的挑战。同时还有一点,你整个的新产品设计的生产周期、设计周期能不能大量缩短?这个其实是另外一个挑战。

这些领域,现在目前我们用了一些人工智能手段、一些新产品平台、新的信息化的手段,在这些领域里边,我们现在都得到大大的改善,使得小批量订单制造现在目前的毛利率能够得到一定的保证,这个是在智能制造领域里边的。以及同时在智能制造里边,其实联想在上半年的时候,我们面临一次巨大的挑战,挑战在哪里?挑战在汇率的变化,以及今年上半年供应链CPU memory硬盘SSD整个部件的涨价,然后供应链短缺。这样的一个情况下,这当中其实对整个的制造产业、制造企业带来一个很大的挑战,很大的要求,这个要求是什么?就是(15:00英文)的精准预测。如果我们能够对今年上半年的订单在去年就有一个精准预测的话,我们就可以提前备货、我们就敢于提前备货,这个提前备货以及对于汇率的变动可能有一些短期预测的话,那这种备货就可以让我们整个的成本得到大规模的优化。

这些方面也是目前的落地实践的一个比较重要的地方,我们目前在帮宝钢做的整个的精准预测当中,其实是帮他们从80%几提升到90%,所以这些地方其实也是有一些比较重要的获得实践的经验。这当中,在这次去年一年宝钢的项目当中,我可以跟大家讲一下,在宝钢的精准预测当中,我们总共用了一万多个参数建的模型,这一万多个参数如果手工去调优的话,几乎是不可行的,所以背后的深度学习、算法chaning(16:07英文),在它现有的数据里边的算法chaning(16:09英文)动态地去调整,然后让这一万多个参数最后调到一个比较有用的组合状态,其实就变得非常重要了。

大家可以想象,就是一个汽车钢材,它的汽车订单对宝钢特种钢材的订单,和它的下游、上游的供应链之间的联动关系的精准预测,这件事用了一万多个参数。如果按照传统的方式去做的话,其实大家都知道,参数越多,你这个模型可能越精细化,但是在传统的技术环境里边,你要去调优,你要让这个算法变得非常精准、变得非常符合有用,其实是非常难的。但是现在目前人工智能深度学习的能力,帮我们逾越了这个障碍。所以我现在看到说,如果简单来讲的话,人工智能与大数据的结合最主要体现在这里边。

在医疗这块,我们近期也是做了很多的挑战,在这个领域里边,其实还结合了一些AI、BI的技术,后面我有一些具体的场景跟大家汇报一下。

联想怎么看待这件事的?我们认为这里面有四个要素,我们这是指2B,2C的我们不敢妄论,我觉得在今天2CBAT是最专业的领域,在2B领域里,我们看到四要素我们把它叫做ABCD,基本上我们把它称之为A是算法,这是一个基石、一个基础,然后B是行业。其实最近一段时间感悟,我这边和团队还是非常深的,比如说我们前段时间在跟招行在谈供应链金融,我们自己作为核心企业我们自己也有供应链金融的平台,在这个当中,他们要用去快链实现供应链金融,分布式账本这种方式来解决一些传统的供应链金融当中的一些问题。我们就很明确地看到,对供应链金融,我们作为核心企业,我们本身的busniess insite我们知道它整个的操作模型,以及知道这里边的分控本质是什么,我们对我们的上下游企业做金融服务的时候,我们的整个分控本质是什么、我们这里边的授信的关键点在哪里,我们作为核心企业我们自己把这个东西讲得很清楚的时候,我们对我们的银行用户去提供这个解决方案的时候就是完全不一样的。

人人都可以讲去快链,但是能够从真正地供应链实践当中,供应链金融的实践当中去谈去快链的应用场景,这个要做2B生意的话,必须都有一个非常清晰的行业授信和行业专家团队。然后算法科学家其实是一个后端的支撑,前端是行业专家,行业专家和算法科学家组合在一起以后,你才能够变成一个有效的、有意义的模型,然后再送到大量的数据里边,ABCD的D是数据,大量的数据里边去做深度学习、做算法chaning(19:40英文),才能够去打磨这个模型,让这个模型变得有意义。

所有的这一切,其实都离不开C计算力。我们之所以在最近这几年突然发现这件事可行了,其实这里边的关键还是一个计算力,我建议尤深的是,我毕业设计的时候做有限元算法,去做一个电子厂里边的一个计算,那个年代很早,90年代初,那个时候还用的是8086的ST的机器,算了三天都没有结果。有限元的算法其实很有意思的一件事,就是容易发散,如果你发散了,你自动模型肯定就是失效了,你要受点才有价值。但是你算到三天的时候我并不知道到底是我发散了还是算不出来。后来好不容易争取到教授的支持,跑到他的机房里边用那时候系里边唯一一台386去计算,半天算出来了,终于知道说这个算法还是可以的。所以这当中我们可以看到,从今天来看386已经是淘汰的不要再淘汰了,可能都不如我们的手机,但是从今天来看,你要做很多深度的chaning(20:59英文)的话,其实计算力是很重要的。

在过去的一年当中,联想在这块也是架构在我们的HPC的基础上,我们原来的HPC大家都知道,主要是做科学计算的,上次我们跟张老师我们在今年上半年的时候也探讨过这个问题,现在我们已经让我们的HPC的平台能够去调度AI的算法库,然后去调度AI的分布式的计算。所以这都是目前这四个要素,我们认为是做2B的大数据人工智能的关键要素。

好,接下来我们拿几个实践的场景,向大家汇报我们近两年的一些心得,供大家参考。

第一个就是政务大数据,政务大数据我觉得这里边目前还没有太多的技术上的亮点,后面我们可能在其他一些行业里边会看到有很多的亮点。但是包括我们的创投企业、包括我们自己的大数据团队,在这当中其实是有一个比较重要的实践供大家参考,尤其是今天可能在座的还有城市的主管者。其实要打破居委办之间的数据壁垒,还依然是任重道远的,我们现在目前在实践当中,也在尝试一条路,也确实这条路已经走成功了,就是数据还是分布式的,不出居委办,不要做集中式的存储,但是计算任务我们是分布式去计算,可能是在一个总的大数据平台里边可以做统一的算法、统一计算任务的这种管理,然后把计算任务拆掉,拆完以后分到各位居委办真正的数据平台上去做本地的计算。然后汇聚到政务大数据平台上的,它不再是原始数据,它可能是已经经过第一轮加工完以后的结果数据,这样来保证各个居委办之间的数据它还是有一个相对的安全性。

所以这块地方,现在目前来看,政治大数据现在目前推进的过程其实也是不容易的,这个不容易更多的不在于技术、不在于应用场景,我们后面会讲到,我们后面很多的企业的场景其实更多的它是在一些技术上的突破或者应用场景上的突破,而政务大数据最大的压力还是在于数据壁垒,所以这个数据壁垒如果能够得到有效突破的话,我们相信政务大数据一定会迎来一拨春天。

在整个的城市当中,交通,尤其是大型城市交通可能是一个非常重要的大家关注的议题。我们跟我们的被投企业—深圳智慧交通设计院共同走过了一段历程,这个历程其实就以深圳的深南大道为例,它在整个的道路上布了很多的sensor(24:28英文音),包括它的信号控制灯、包括它下面地面预埋的一些sensor,包括它路边的一些sensor和它的一些摄像头。所有的这些信息汇聚到大数据平台上以后,它后端其实做的是一个仿真的模拟,这个仿真模拟它既有一个宏观的仿真、也有微观的基于AI仿真的模拟。

以深南大道改造为例,它这边各种各样的数据源集中在一起以后,其实第一件事他要做的事情,就是找到它里面的拥堵源,这个拥堵源不仅仅是,比如说整个深南大道在拥堵,那它这里边要去分析有哪些支道、有多少车流量导致了整个深南大道在什么时间段会发生一个重大的拥堵。在这种情况下,它要去通过一些AI的算法来判断哪些支流的车流量或者路口是引起整个主干道拥堵的主要原因,这是第一步。第二步是在这个基础上人工介入,人工介入去做一些优化改造的忙按。第三步又回到了平台上,这些优化改造的不同的方案,它可以去做semenlation(25:50英文),然后通过这个来帮助你看它改造后的效果。

在深南大道这次改造当中,其实当时一开始市政府这边想的是一个比较大规模的改造,但是通过这样的分析和semenlation之后,他们发现只是一个到两个小路口的一些局部改造,就可以大规模地改善整个的拥堵状况。因此,做了这样一个科学决策以后,使得它原来做的一亿多的改造预算,最后花了一千三百万,就基本达到了它的效果。这是人工智能与大数据平台加上仿真平台结合起来,在实践当中、在城市管理当中、城市治理当中的一个实践的应用。

另外,我跟大家汇报一下,这个项目还没有做完,正在执行当中,我相信各个城市的主管者可能也会关心,某一个大型市他们的主管安全生产的市长、副市长,在全市工地上面布了上万个摄像头的情况下,它的安全事件年比年没有明显改善,所以承受了巨大的压力。做了一些深度的调研以后,发现主要的原因在哪里?就是安全员不够,你建筑公司没有这么多的安全员,可以天天坐在这些摄像头面前、视频面前来判断。在这当中其中有一家建筑公司它的信息化做得比较好,他们提出用科技手段来出生产力,来取代安全员的作用。所以在这个当中,我们有机会介入,它的场景是什么?它的场景其实很简单,他们大概总结提炼了200多个典型的不安全的场景。

比如说举个例子,大的这种金属扳头插在后裤带上面,然后爬到上面去施工,这个时候这种是典型的不安全行为,因为这个扳头很有可能掉下来,就会酿成一些潜在的重大安全事故。这样的一些场景,当然我们现在目前还在拍的阶段,基本上是挑了十个场景,每个场景提供了典型的20张图片,这20张图片拿过来以后,他们有经验的安全员作为一个行业专家,跟我们的算法科学家一块共同针对这十种典型场景去建模。其实没有这么简单的,因为举个例子,不戴安全帽在工地行走,这是一个标准的不安全行为,但是你怎么去判断哪块区域叫做工地、哪块区域叫办公地?建模当中,光是这么一个东西,最后你会发现你可能要上千个参数配合起来,才能有效地去判断这件事,难是难在这些地方。这个地方他们提供了大概两个PB的流媒体的数据,在这当中我们做了深度的算法chaning,然后在它的实时的视频流当中做了一些尝试,现在目前来看,我们还是能够有效地从它的视频当中,他们也做了一些配合,他们也找了一些工地的工人,帮我们模拟了这些非规的行为,然后我们也从实时的视频当中有效地去检测到了一些不安全的行为模式。所以这方面,我觉得确实是一个在现实当中的应用场景,它就是一个听上去很简单,但其实真正要做到还是很难的。

刚才我简单地跟大家汇报了两个城市的应用场景,接下来跟大家汇报一下我们在企业这边的一些应用场景。

联想这边现在目前在过去的两年,其实我们已经在整个的企业这边已经做了比较多的实践,其实比较多的还是制造业,制造业里面包括钢铁、汽车,这来个行业是我们现在目前案例比较丰富的,也包括医疗、金融。在这当中,金融可能是不太一样,金融、医疗不太一样,后面我也会讲到,对于制造业来说,其实它本质上是这五个环节:智能化研发、智能化采购、智慧化生产和智能化销售以及智能化服务,接下来我分别跟大家做一些阐述。

对不起,这个顺序有点乱了,我先讲医药的案例。这是全球最大的医药流通公司康德乐,在上海的,他们这边的诉求其实也蛮简单的,他们针对全国各地的代理机构,它的药店、它的分销商,每个月都会汇聚所有的订单,订单上来以后由于人工填写的,所以对于医院名称、对于药品名称、对最终用户的名称,其实存在相当多的不规范情况,它要去花大量的人力把这个东西理清楚,理完以后才能够对它的分销体系进行一个奖金分发和计算。为什么这么做我们不用去关心,但是它实践的情况是每个月大概要花150个人,然后大概是15天半个月的时间去做这个工作,到月底的时候才能把奖金计算清楚去分发。

在这当中,我们帮他们做了,其实讲起来也蛮简单的,我们在这里边主要帮他做了两件事,效果我等会儿讲一下,我们本质上做了两件事,第一个是模式识别,各种各样的订单拍完了照片然后去做模式识别;第二是做自然语言的识别,订单里边其实都是各种各样的描述,我们要把这种描述里边抽取出来,包括我们结合网上的信息,要综合判断它整个的用户、药品等等这些方面的信息,然后帮它能够去规范化这个信息,其实最终做的就是规范化这个信息,每条记录都要规范化。

实际的效果,现在目前的情况是,我们让它整个人力成本目前降低了80%,它现在目前大概每个月只要投入30个人左右,主要是做复核、做抽检。因为这个是刚刚开始这样一个用机器算法来执行的过程,所以他们目前还不太放心,所以还是花了30个人在抽检,我相信如果再过一段时间,可能这个人员会大规模再次缩减。它准确率从原来手工复核准确率92%提升到了99%左右。这里边的效率原来基本上要花15天150个人,现在目前基本上机器去做这件事的话,大批量前期的人工把这些订单扫描进去以后,后面基本上四小时就可以把原来150人15天的工作做完了,它的准确率还比原来的人工提升七个点。这就是在行业当中的一个非常经典的另外一种应用场景,其实它背后的基理也很简单,自然语言识别、图像识别,然后做机器的匹配,帮它去做整个的,包括互联网上的数据进行精准的匹配。

这个是钢铁企业的、这个是制造业的,钢铁企业里边,我们现在目前其实除了联想自身实践以外,我们在外面输出主要做了两方面的工作,一方面的工作我们做的是精准预测,这个主要在宝钢去做的,主要针对它现在目前某一类型的汽车钢板对它前面市场上面的汽车销量的预测,以及带动对宝钢这边的,各个汽车厂对宝钢的订单的预测,加上后面它供应链的预测。这个精准预测度大概是我们提升了十个点,因此给它去年节省了差不多一个亿左右的采购金额。

另外一个比较典型的案例,也是模式识别,这个模式识别主要是对于它整个产线上面的质量的检测,这个我们主要在太钢。太钢它主要是流水线上面的钢板出厂的时候,原来它是人工抽检,现在目前我们是用搞清的摄像头拍完以后,在后端实时地去做模式识别,对它的瑕疵进行识别。现在目前的做法我们达到的效果是什么?它可以做到从原来五分钟检测一个钢板,现在做到了十毫秒可以完成一次检测;原来是抽检,现在可以做到全面检测,而且它的用工也大大降低了。

这个另外场景我就不讲了,这主要是数据弧的,这是比较传统的,只是传统的BI。前面讲的其实是有AI的结合,这个是一个传统的BI,但只是用大数据的方式去实现它原来的BI。这边我们可以看到,它的分析周期从原来的BI平台里面的一周,现在目前能做到几乎是秒级的分析场景,这个联想支撑时间也是差不多的。我们从ACP的orcal环境牵移到了ACP的哈那环境,提升了大概15倍左右的分析效率,进一步提升到了大数据平台,大概又提升了20倍左右的效率。到目前为止,在联想资金里边,现在元庆在办公室里边想要看什么数据,基本上一分钟左右就可以看到准实时的数据。确实,它的应用场景没有太大变化,但它确实是技术手段实现了我们原来大家在BI年代我们就希望做到的效果。

这是医疗上面的场景,后面有几个医疗的场景,这个医疗场景就是联想刚刚在全球的医疗图像大赛—LITS这个协会举办的比赛当中,今年刚刚我们得了冠军。这些技术我们助力了我们的被投企业做了一些尝试,比如说联想H云,它这里边做什么呢?我们去做影像、做拍片,肺片也好、脑片也好,基本上你拍完以后都是二维的,多张二维的,对于现在的医生来说,看片其实是一个很大的挑战,是非常需要常年的积累与chaning的,要把多张二维的图片,他自己脑子里边要拼成一个三维的,然后去做一个精准的判断。

现在目前联想的H医疗云我们这边做了三件事,第一件事就是把多张二维的拍片,把它整合成了一个三维空间的场景;第二是用了AI的眼睛,帮助他们做一些手术方案的模拟,在这种3D的场景上做一些手术的模拟;第三是在3D的图像里边做了一些图像识别,对于人眼小于毫米级的一些总留疑点,我们不能说做精准的定位,只能说小于毫米级的,厘米级的医生通常不会误判,毫米级的有可能会忽略,我们这边就是帮他做毫米级的潜在病灶的一个定位,进一步推送给医生,让他去做再进一步精准的判断。

这当中可以实现什么呢?可以实现让医生的工作负荷大大降低,大概80%到90%左右的其实都没什么病灶的,都可以通过这种人工智能的手段把它屏蔽掉,然后让它输出10%左右的,让他的精力集中在这些10%有疑点的、病灶疑点的这些拍片当中。

这是另外一个,我们主要是对脑部肿瘤的和肺部肿瘤的,这个做得比刚才那个更深,刚才那个特点其实在两维到三维,然后AI眼镜对诊疗方案、开刀方案的辅助。这个它的特点更多是在于病灶的模式识别,背后其实是有一个知识体系的,它对于脑部肿瘤与肺部肿瘤整个的一些。其实今天也只能做到辅助,最后一步还是需要有经验的医生去做最终的判断。但是我相信可能这样的场景应用个十年二十年,终有一天它识别的准确率可能会超过人工。现在目前人脸的识别准确率,其实机器的识别准确率已经超过我们肉眼了,这个地方其实就是需要一个数据的积累,当然2B的环境数据的积累比2C的含量其实相对困难一点、成本也高一点。

好,所以从我们的实践角度来讲,再耽误大家几分钟,我们看到人工智能与大数据的结合,大数据实现的是大量的数据以及基于这些数据量上面的实时的分析。其实我们从前面的这些角度可以看到,人工智能与大数据结合它的分工是非常明确的,如果你一个建模建完以后,你要靠人工智能做算法的chning    、做这个模型的打磨,但是实时的监测、实时的模式识别,其实还是放在大数据平台上的,所以我们现在目前的整个的配合是这样。

联想在这个实践当中,也进一步看到基于原来开元框架,其实在今天已经远远超越开元框架了,我们基本上把整个数据的架构重新整理了一下,我们整理完以后你们可以看到说,下面蓝色的这部分就是机遇开元框架原来我们通常认为的大数据平台,它主要是做数据存储、处理、计算;上面红色的其实是我们现在目前联想这边开发的叫LIPAI,我们底下叫LIPHD,上面LipAI主要就是我们刚才讲的所有的人工智能那部分功能,其实都是放在上面红色的;土黄色这块其实数据量一大,数据治理就变得很重要了,所以它是一个叫data governiss(音),这块东西主要是所有数据治理的功能,我们全部打包分装在一个模块里面;底下紫色的主要是可信、安全管控、数据管控,我们主要是在应用层、数据层进行一个可信管控,这个我不多讲;往下深绿色这边,我们主要是叫lip ege,是做边缘计算的,它的定位价值是搜所有物联网来的数据,视频流、各种各样的物联网数据;浅绿色这块我们叫lip dataup,它主要搜的是传统的应用的数据,ERP、CRM等这些各种各样的传统应用的数据以及互联网上数据的挖掘。

基本上我们现在目前重新理完以后,我们大概打包成这么几个模块,这几个模块来助力我们刚才讲的行业里边的一些应用实践。

目前联想自身的实践在全球大概有十几个数据结点,跟2C比我们的体量是不大的,但是在2B里边我们相信我们已经是巨无霸,我们差不多现在目前是12个PB左右的数据,每年大概有小一个PB左右的数据增量;差不多现在是2000台左右的服务器,当然我们可能跟腾讯,腾讯大概是200多个G,我如果没记错的话,250多个G,2C领域确实数据量大。但是在一个2B领域里边,联想作为一个制造业,我们的上下游联动这些数据当中,其实这些数据量已经是足够大了,已经足够我们去做大量的制造业行业里边的人工智能这些生产实践了。

最后一点,我这边用这一页来做结尾,我们看到的情况就是说首先要有技术能力,大数据的能力和人工智能结合,底下要有HPC高性能计算,能够支撑人工智能的HPC这种计算力。第二就是我们要懂业务、懂行业业务,其实我们现在目前发现最大的壁垒不在第一个,最大的壁垒在第二个,我们很难拥有这么多跨行业的行业专家,所以我们现在也更多的模式是有一部分我们自己比较熟悉的领域,我们可能有自己的行业专家;但是更多的领域我们可能是牵手我们的客户,由客户这边来提供行业专家,我们来共同做这个行业,因为一定要做一个行业落地的建模,一定是离不开行业专家与数据专家的。最后一个是生态环境,现在任何的巨无霸公司都没有办法去完整地做完一件事,所以都需要牵手,所以生态环境的建设非常重要。所以也非常感谢这个协会,其实也是打造了一种生态环境,也是一种讲坛。

好,我今天向大家汇报的内容就到此为止。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限