banner

Cloudera副总裁苗凯翔:大数据在金融领域的解决方案与应用案例(含PPT)

作者: 大数据观察来源: 大数据观察时间:2017-05-24 18:01:520

2014年11月1日上午9时,由上海市科学技术委员会、上海市现代服务业联合会作为指导单位,上海大数据产业技术创新战略联盟主办,张江新经济杂志承办的2014数据中国产业创新峰会暨首届中国大数据最具投资价值排行榜星光盛典在上海浦东香格里拉大酒店紫金楼三楼盛事堂成功召开,下面是Cloudera副总裁苗凯翔在会上的演讲,演讲主题为《点数成金—大数据在金融领域的解决方案与应用案例》。

谢谢大家,这里面大家听说过Cloudera吗?有,不是特别多,有百分之七八,如果你在美国搞大数据的话,如果没有通过Cloudera公司的,大在全国还是处于非常领先的定位,因为Cloudera搞大数据平台,你干大数据不管是哪行那业,搞应用,你得需要平台。平台的话Cloudera在全球是处于第一位的,他在全球的市场名额占得非常高,金融行业不能超过90%,搞金融,美国那边最大的一些银行都在Cloudera,所以刚才谈到英特尔在今年的一季度宣传要投入Cloudera7.4亿的美金,Cloudera等于是一个很主义的合作。

Cloudera公司,我先介绍一下,因为大家还不是特别了解,这个公司是成立于2008年,由4个公司搞大数据的人,从谷歌、facebook出来成立的Cloudera,这个是2008年的事情他发展得非常快,去年是600人,基本上一年只能增加了1.5,现在规模已经到750亿客户,他提供24乘7的全球服务。他现在的客户,我昨天看了一篇文章他的Cloudera客户,每个季度就要增加四五十个客户,所有这些数据300个库,这个就不太确切了,可能是去年或者是前年的数据,现在他的客户非常多了。他在的软件公司不大,750人,但是他的合作伙伴范围非常广,包括Cloudera、微软、EMC,几乎这些大的名字都是他的伙伴,所以他在全球的地位还是蛮强的,他是专门提供大数据培训,培训的话他会有证书,这是目前的一个状态。因为时间比较匆忙,我就不再仔细介绍。

再看一下在Cloudera成长过程中,从2008年成立到今天的里程碑,第一,他成立之后,马上和杜普创始人叫Cloudera,他今年12月会来中国搞活动,Cloudera在成立之后,他发表了一个软件的版本叫CDH,现在已经第5代了,今年现在已经到了5.3、5.2的状态,所以他的发展,他的客户在不断地增加,现在在全球的大数据大概占有百分之七八十的份额,他的公司的发展状态。

举个例子,比如说你在美国那边要用手机的话,美国70%的智能手机后端的驱动都是Cloudera的产品。刚才提到四大银行,在美国四大的统计银行都是他们的客户,在金融界他们蛮成功,除金融界之外,他在电信行业,在制造,在政府都有很多的客户,所以他的金融案例非常多。

再来看一下英特尔对Cloudera的投资7.4亿,这是占了很大一块Cloudera的股份,因为这个投资,Cloudera说跟英特尔达成协议,因为Cloudera在中国没有公司,所以要把英特尔搞大数据的团队分出一部分来,然后成立Cloudera中国,当时公布是在5月份,真正成立是6周前,9月15日,我们等于是正式从英特尔出来,成立了Cloudera中国,这是我们现在的状态,现在站在这里,实际上并不是英特尔来了,是Cloudera来了。这就是目前的状态,当然这里面有很多故事,合作模式是什么,计划是什么,这都是其他的板块。

今天的主题应该是针对金融,看看架构是什么状态,然后搞大数据的架构是什么样子,然后举一个案例。回顾一下整个工业界的转折,大数据最近几年发生的事情,这个词是3年以前,他慢慢变得非常的热。这个里面是要有很多故事,这一块儿总结了一下,等于说大数据他的变革是一个很深的理解,他的发展意味着有很深的变革,不光是一些平常听到的数据量大,首先来讲,你的计算,你的IT的架构,需要一个根本的变革。

过去的架构是什么样子的?过去是一个以计算为中心的架构,我要干一件事情需要计算,计算是有数据,为了搞计算把数据挪过来,计算完之后,结果挪出去,所以计算跟存储是分开的,数据挪来挪去是为了计算,而且是干某一件事情,再换一件事情还可以干,干不同的事情可以互通的,以计算为中心的整合架构,他们之间是什么关系,这是过去的架构,就是左边那个图。现在大数据大了,你怎么挪?你挪不了了。

举个例子,我经常看到客户要挪一个数据,要花几天时间,几个礼拜时间挪数据,这个你怎么办?根本就不可能挪,这意味着什么呢?意味着我需要一个新的架构,也就是说数据库挪了,计算没挪,数据在那儿不动,我可以计算,就是右边那个图,这就意味着根本性的变革,从过去以计算为中心,这个烟囱式的架构,要转到一个以数据为中间的统计架构,这个非常大的逻辑。

这个变革具体再往深一层讲的话就是合度,合度的理念是什么,他把数据与计算成为一体,他能存储,同时也能计算,这就是合度架构,这个变化是几个巨大的变化,这个里面有很多的东西,过去的计算架构模式,他很难扩容的,数据量大了,存不了,没办法,花钱买更多存储,非常昂贵,很难。所以这个网络是一个瓶颈,因为数据量大了,不可能搬来搬去,网络再宽也不够你,所以我们价钱非常的贵。再看看右边那一块,合度品牌,这些问题全解决了,而且价钱差非常大,过去一个Cloudera需要3万美元,现在只需要几百,同样的东西,为什么说额度在大数据这个领域这么热,技术架构解决了过去根本性的问题,能够计算跟存储融合,而很便宜,而且可以无限扩容,这就是一个架构层。

再继续来看,把过去的传统架构总结一下他是一个烟囱式架构,以计算为中心,存储放在一块儿,希望干事了搬来搬去,这就是现代典型的IT行业的架构,他有很多烟筒,他们之间是隔离的,数据横断大,干事情了把数据拿过去,所以仓库也好,数据库也好,文件系统也好,习惯把数据搬过去,这个架构在大数据时代已经过时了,他非常昂贵,很多客户想干事情,他干不了,因为他不可能再用这个架构来干他要干的事情,太贵了,花不起这个钱,而且这个信用也非常复杂,这个时候需要一个新的架构,他需要中间有一个新的统一平台,跟其他想干的事情,跟其他的系统是相笼统的,他是这么一个东西,他功能非常强,可以无限扩容,因为它的服务器是标准服务器,这样的话他可能把东西都统一起来,而且不改变过去的架构,他放在中间跟你相兼容,可以给你干很多事情,把里面原始的东西,你需要的话,他给你搞BTL转过去。基本上这么一个东西,这个东西实际上是目前你搞金融也好,搞各个行业,你说我这个架构到头了,大数据时代我没办法了,我想扩,没办法扩了,东西太复杂,太昂贵,怎么办?这就是你的答案,这是一个新的大数据时代,IT行业的架构,目前就是这些问题,中间他的核心就是这个合度平台,跟其他传统的数据接上来,融合在一块可以干很多事情,我待会儿讲一些案例,实际上就是根据这个平台,我们这些客户在全球部署,用这个平台为客户节约很多钱,而且解决很多问题,创新的问题,新的业务产生,节省了资源,把问题简单化,都可以达到。

谈到应用的话,现在的大数据,我们通过的接触,他们也有很多人过来,他们跟中国的客户有很多的接触,有很多的讨论,基本上结论,中国大数据这一块要谈到搞应用,搞大数据部署,他的发展阶段也基本上比美国滞后两年,因为美国跑得比较快,美国的发展的状态,大数据发展起源于互联网,第一步基本都不是在硅谷,在美国的西航(音)发出了,这大约是四五年的事儿。然后是华盛顿政府掌握大数据了,东西有用,然后在华盛顿热起来了,像美国联邦政府都开始搞,我们进去之后,美国大数据发展的历史第一步是西航微软公司,第二步政府,第三步金融,纽约就是去年的事情,纽约金融市场起来了,现在遍地开花,基本上金融、电信、制造业、零售业、医疗全部起来了,现在大数据发展基本上渗透硕士,中国网开始意识到大家感兴趣,搞数据最关键是干什么,你有很多数据怎么干,这个定义和应用非常重要,美国那边起步比较早,他们已经摸索了各种各样的应用场地,搞出很多有用的案例来,然后去推广,然后有价值。基本这些行业大数据我们都有部署,都有应用,但是基本上还都是美国那边,现在中国的特点,当然互联网公司阿里巴巴搞,然后就是电信要稍微跑得快一点,还有金融,然后是中国特色智慧城市不错的,交通、人脸识别、安全,中国这一块搞得不错,美国那边这块好像没有的,然后中国那边开始看医疗有一些案例,零零散散比较少,还是一种非常早的阶段。

然后这个例子,就像金融、电信、医疗、传媒,金融、银行、这里面没有,还有美国银行,非常大的银行,都是在用Cloudera的方案,都是在搞他们的各部门的金融,然后电信、医疗都有。但是很多的案例,从各种各样大数据的应用案例很多,但是内部做这些工作,想一想,研究了一下,归了一下类,就这么几类,从案例来讲,虽然非常多,但是你抽象的,归类就这么7类,可能最流行的就是第1类,叫做360度分析,金融可能也有,金融是你的客户,不光是搞保险,对他的行为分析,历史的分析,这是一个很沉淀的东西。然后供应链、优化,这可能在零售,像沃尔玛,客户某一个产品放在仓库里面没有卖,你是放多多少,这怎么找,你要优化,你的供应链怎么去管理,这也是大数据问题,然后审计。很多大数据行业,政府都有规定,要求你数据存几年,智慧城市2年,美国金融7年,还得备份,还得能查询,还能找东西,这都是大数据的方案能解决的,量太大了,搞数据服务,现在我们在国内谈一些项目,比如说某个互联网公司,或者小公司也好,他想把大数据作为一个服务,服务于各行各业,金融可能也好,可能是某一个公司我想搞一个,我可以来服务你。还有其他的机构,像风险分析,金融比较关注的风险,正常客户有一种特殊的方法,他怎么干事情,你可以说有一个记录,但是他某种行为不正常,你要报警,这个太正常,要防不好的事情发生,欺诈的事情发生,这个部分很重要,所以这个是一类的。因为总归来讲有几类,但是这里面不全,比如说我们能想到的,比如说电信行业搞了很多的分析,也可能是其他用户网络的行为,因为在你的网络里面窜到其他类里面去。

因为时间不多,我就马上讲几个案例,案例我们这边非常多,所以这边只能举几个例子,稍微讲一下。

第一个,这个案例我在两年前就讲过,两年前我在国内讲,知道的人非常少,现在我再讲这个案例,很多人都知道了。因为案例是一个比较典型的,在保险行业。有人听说过,开车的人,你要买车险,怎么去定格车险的金额,这个人你要保他一年多少钱,那个人多少钱,这个你怎么定,过去没有什么基础,过去就知道多少钱,或者你车什么样,我问一问,现在可以更精确的方法来定,这个现在在欧美已经很流行了,在国内有的公司已经开始实行,有些故事将来会发生,据我了解国内还没什么。什么东西呢?保险公司在你车里装一尺小盒子,他能监测到你开车的位置、速度、地点,然后你每天开多少车去哪儿了,开车的行为他能很了解,然后他帮你的开车行为,开车的时间,去哪儿了,哪儿去得最频繁,速度多少,跟他的数据库里面说,我知道这个城市哪儿最容易出事儿,哪儿出事儿频率最多,跟他一对,你这个开车行为可能是比较危险的,或者是比较保险,然后我给你定一个,保多少险,这个在欧美已经很流行了,这个就是大数据,因为数据量是巨大的,他要牵涉到很多开车人的数据,根据城市里面的数据,时间的数据,很可能事实行为分析,这是一个保险行业,保险金融的案例。

这一个可能是一个支付行业,因为我在美国的时候就开始用这个公司去搞一些支付,大家可能都能猜到他是支付行业,在线支付行业在全球最早开始搞,现在发展很快的美国公司,但是我不能说这个公司,因为他们没有签说明的合同,我不能讲,但是案例我可以讲。这个是全球最大的支付,他干什么事儿呢?他数据量非常大,刚才提到,他想把数据都统合起来做更好的分析,他当时现有的系统再多的话付不起钱了,太贵了,当时就说咱们看一下其他的方法,然后我们就把项目放在哪儿,然后就开始干了,干完之后想过非常好,他们存十几年的数据,而且可以分析,不光这样,他还可以产生新业务,他搞一些新业务,很多客户不光是个人客户,企业客户都有。他们说给这个企业形成实时报表,然后他弄了一个新业务,他用他过去的数据,过去是结构化了,现在这里非常有用,他说报表非常用,在这个新的报表业务里面,他现在是10亿美金的收入,完全是新的业务,过去没有的,因为他干了这个事情,他创新了,过去不能干的事情干了,而且这个数据量大了,他发掘出来,然后分析之后利用起来,这个数据非常有用,这个业务成长非常快,这个业务到了10亿美金。数据并不是解决你现在的困难问题,他还可以创新,创新之后还产生收益,大数据等于是解决问题加创业。实际上刚才那个保险行业的创新过去干不了的,通过大数据可以干。所以说大数据的案例来讲,可能从两个方面看,一个是IT架构本身产生的困扰怎么样消除解决掉,我能解决困扰,我能把数据分析出来,有很多创新,有新的业务。

再一个例子,好事达(音),这个是知道的一个公司,这个公司在美国非常有名,就我一个人,刚到美国买完车就买了一个保险,他是美国最好的保险公司,他是80年的公司,数据量非常的大。他也有故事,美国50周的数据,他现在能分析,分析一个周需要半天的时间,一天分析一个周,数量太大了,分析某一个特性,在这个周里面找出某一个特性来。这样他就有困惑,然后就来找我,听说你们有新的架构,大数据,咱们来看一看,搞一个项目,能不能干点事儿,然后我们搞项目,然后给大家介绍了一个新的架构,咱们把数据搬到那儿去,看结果怎么样。结果搬之后,工作量也不是特别大,花了1天时间,然后50周分析下来,我们需要16个小时,这是去年的事情。今年大家知道Cloudera这个产品,他是专门搞查询的,我们现在再搞一遍,现在实际上是40多股,有时候说40多股搞定,从50天到60点,他这个效果非常好,这个实际上他节省了大量的资源,过去干不了的事情现在能干了,而且数倍翻得非常快,过去那么长的时间,资金投入是巨大的。

再往前走,这个是我曾经在国内搞金融行业的案例,这是国内的四大行,大家知道国内有商行、工行、建行、农行,这四大行职业,这个项目实际上也是说服力的,当时那个银行最多只能存一年的数据,他想说我要为客户服务更好,多存一点存不了,这个钱太贵了。所以我们说再看其他方案,去年的时候我们还没有到国内来,还是用的英特尔的方案去搞这个方案,当时也用了一些标准的服务器,用英特尔和杜普干的项目,干完之后,他们说我们这个系统,时时最多给300人服务,就是时时的,这块儿他叫并发用户300,所以新的系统是30万,因为他的特点是并行,据我了解那个价钱,如果他解决的方案,要想找其他途径的话,这个价钱至少从这个方案高10倍,实际上差不多10倍的。这个数据存储量变成了10年,过去是1年,现在是10年,还没有太优化,系统的优化,再看一下,我觉得这个还会更多一点。所以这是一个真实在国内搞的,我们叫历史数据差距,历史数据存到系统里面去,客户回来找的时候,哪年哪月那个钱怎么回事儿,能够在几秒钟内给他反馈,查出来,你这个系统要是只能存一年的话,我只能找到去年的,前年的就找不到。我在国内待了10年,我的国籍还是外国的,美国那边找我,你这一年的税怎么回事,那我打一个电话。

因为时间关系,影像数据,很多金融行业,他的数据不光是结构化的,还有非结构化的,过去没法处理,现在可以了,现在有很多影像数据,多美体数据。因为在银行有很多的复印件,过去是没法弄的,你要人工去找,是不行的。特别是在医疗行业,医疗行业的特点数据有图像,数据非常大,搞医疗大数据是非常复杂的,但是金融行业也是同样的,有复印件,你要存的话,你的数据处理还要快,这个也是我们在国内四大行之一搞的一个项目,影像数据用这个搞出来的,

监管我讲一个例子,这是美国的,现在在美国金融数据要求你保留7年,因为他还得有备份,这是美国的法律规定,银行要干的事情。如果你按这个想法算,这个价钱非常昂贵,7年这么多人的数据,我稍微比较了一下,你用传统的方法相比,基本结论,监管机构每年节省数亿美金,这两种方案,你用新型合度的方案,这个差异巨大的,金融行业要用数据来干事,用比较新的方案,我觉得是一个案例。举一个例子,在政府的规定,要达到技术手段,针对金融行业备份,这个是非常昂贵的,所以你要选好一个方案。

基本上讲的就这么多,时间也到了,谢谢大家!

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限