大数据在金融行业应用案例分享

2016.09.22 / View:

金融大数据客户分析的实践

大数据分析的整体框架

下图是一个比较全面的金融行业大数据业务价值框架图,也是金融业务模型图。首先我们要采集到用户各种各样的数据,这个数据有银行外部的,包括社区数据、互联网数据、外部采购数据。也有银行内部数据,包括转让信息、消费信息和财富管理信息,它的来源渠道包括网络金融平台、手机银行、ATM网点等等。我们把这些收集来以后,会利用大数据分析技术,比如日志分析、自然语言分析、网络拓扑分析,然后进行分工和画像,比如消费画像和服务画像,最后形成客户标签,为内部营销和风险控制提供支持。

 

第一个层次,数据来源。数据源的内容会非常多,第一部分比如银行业务数据。对于大数据我们可能有很多误区,觉得大数据一定是非结构化数据或者数据量非常大才叫大数据。其实不然,银行已经积累了大量数据,这些数据本身价值也是非常大的,只是以前不够重视,没有对数据进行挖掘,没有产生出应有的价值。

银行内的数据包括业务数据、运维、网站日志数据等。另外还有一些新兴的数据,比如我们通过移动互联网、微信、微博等等产生的数据。另外是第三方数据,比如通过电商、网络平台等收集到的一些数据,还有一些咨询公司和专门的数据公司收集到的数据。

 

第二层,场景应用。我们从业务价值的角度来分为4大块。1.营销支持2.产品运营:银行要开发什么样的产品满足客户的需求,产品开发出来之后,客户反馈是怎么样的,符合不符合客户的心理预期,效果怎么样,我们怎么进行优化。3.风险管控,比如我们发一些贷款,首先要看一下这个人是好人还是坏人,信用度有多高,发多大的额度,会不会存在欺诈。4.内部管理,特别是大型集团用户,涉及到几万、几十万人的规模,这个时候内部怎么管理员工,比如营销团队怎么管理、风险团队怎么管理、运维团队怎么管理,这都是非常难的问题。

第三层,数据。对于客户大数据分析,金融行业在IT方面一直走在各行业的前列。我干了20年的金融,对这个方面非常了解,当IT上每出现一个新技术,第一个试点绝对在金融。这两年实际上不管是大数据、云计算、还是互联网,银行反应非常迅速,都在积极地探索。银行的一个核心就是客户,大数据的核心就是客户分析,我们就是要分析客户各种各样的行为特征,看它能够为银行带来什么样的价值。

金融大数据客户分析的几个应用场景

1.用户标签和精准推送。这是我们画出来的一个金融标签这个标签大家在网上可能会见过类似的。大家经常上淘宝等各种购物网站,你浏览一个网站以后,浏览器就会很快地给你推荐类似的产品,它背后的支撑就是用户画像。当然金融在这一块做的,实际上原理和电商的画像是一样的,只是电商推荐的是购物产品,金融推荐的是金融产品。但是,做画像要采集的数据就和电商有很大的区别,电商是在购物网站上浏览的数据,金融的是在金融平台或者网站上浏览的数据,这是我们要采集的数据。

经过一系列的加工和统计以后,我们会统计出各种各样的用户标签。比如有人口统计学标签,包括年龄、教育程度,信用属性标签,包括资产负债、信用评分等等,评估客户是稳健型的投资客户还是财富管理型的投资客户。还有资产标签,是不是有房,房子在市中心还是在哪里,另外是不是有高档车,还有你在购买金融产品的情况等等,这个主要是大概评估出潜在客户的资产价值。右边的标签主要是兴趣爱好标签,这个和电商画像基本上是大同小异的,对于金融客户也是有用的。现在不管是银行还是其他客户,他们有时候自己也建立类似的网站。

2.用户画像和精准营销。下图是我们客户画像的原型示意图,右边是个人画像,我们采用目前比较流行的云标签的形式,这种标签五颜六色挺好看,圈也有大有小。不同颜色代表不同种类的标签,或者是投资理财专家,或者是购物消费者,圈越大代表信息越强,为我们的营销和风险评估提供了有力的依据。假如推出一款理财产品,分析出某个人是投资理财专家,就可以给他打上这种标签。

 

左边是客群画像,针对一个群体进行画像,我们可以很方便地为客户筛选出某一类人群。举一个例子,第一种方式,银行发行了一个新产品,要评估一下新产品针对哪类人群进行营销,这需要我们对各类人群进行系统的分析,找出他们的共同特征。第二种是反向的,就是要分析哪类人群有什么特征,能不能为他们量身定做一个产品,然后推销给他们。

这里我画了一个示意图,我选了金融IT人群。金融IT人群通过我们的大数据客户分析,可以发现有这些特征:第一消费自由度比较高,第二年龄大多数18到34岁,第三日常消费风险比较低,喜欢数码,营销方式喜欢微信或者APP营销。从这些特征我们就可以分析出好多内容,比如说像这类人群,我们的客户经理在营销的时候,应该向他推荐哪一类产品。我的营销方式是什么,你不能上门拜访,他可能会拒绝你。但是你用微信推送,他就比较容易能接受。

 

上图是模型的训练方法,包括分析模型的方法,当然这个模型要从数据训练、特征提取到挖掘等,这是画像的过程。

下图是我们的多维度模型的数据挖掘和精准营销,它包含5大类的模型:第一是用户特征模型,第二是用户消费模型,第三是产品关联模型,第四是内容热度模型,第五是价值核算模型。

3.用户流失数据分析。我遇见过一个案例,银行大批客户流失,但却不知道什么原因。我记得去年参与了一个房地产的研讨会,遇到一位建行的人,他们当时就很苦恼。当时建行个人房贷数据是非常可观的,在四大行里面占首位。但是这几年很多客户贷款提前还完了,然后就有很奇怪的一个现象,他们的客户在买第二套、第三套房时,基本上不在建行贷款了,而是去其它银行了,就这样莫名其妙流失了,也不知道什么原因。实际上如果做大数据分析,我们就能分析这种行为特征到底是什么原因,是建行的服务不行,还是利率太高了,还是产品的竞争力有缺陷等等。我们目前也是在做这一块的工作,也探索出很多有价值的模型。

 

这里面有一些非常有意思的事情,比如说风险程度和学历的关系,我们以前认为学历高风险低,研究生比本科生要低。但是我们拿着实际数据训练完以后才出现,主观的想象完全是错误的,实际上风险最低的是本科生,其实博士生风险度反而是偏高的。这就是大数据分析出来的一个结果和人为主观臆想的差距,具体原因我们搞不清楚,这需要社会学家研究一下,不是大数据干的事,我们只管分析出它的特征。

4.商圈分析。商圈分析主要通过银联数据或者其它的一些数据,我们可以分析出每个城市中哪些地方商圈比较集中,这样就可以为银行选址和分析网点竞争状况。我们在建行做了一个试点,做了一套叫做辅助网点选址的系统,效果非常好。

 

5.企业征信。下图是大数据企业征信,通过用户画像为企业提供很重要的数据参考。

方长青,金融IT高级专家、金融经济分析师、Hortonworks Apache Hadoop开发者认证 (HCAHD)。20年的金融行业从业经验,10多年的大型IT企业项目管理和行业管理工作经验。精通金融业务、各种IT前沿技术等。

曾创新性的研发出了国内领先的“金融风险实时预警系统”并获得“中国建设银行总行科技创新奖”、“国家创新基金”、“国家产业化推广基金”等奖项,并推广至建设银行总行及全国100多家股份制、城市商业银行等应用至今。

现任高伟达软件股份有限公司研发中心副总经理、大数据产品总监等职务。为公司规划并研发了“金融云大数据服务平台”、“大数据风险预警系统”、“大数据客户分析平台”、“金融大数据IT智能运维系统”等产品,部分产品已经开发完毕并进行推广,部分产品正在进行研发。

金融大数据日志分析的实践

其实银行客户对大数据日志分析的需求还是很强烈的,但是目前市场上确实没有一个成熟的产品。高伟达对这一块非常重视,我也是亲自带头,刚给上海浦发银行做了一个项目落地,当然产品还不是很成熟。我简单地给大家分享一下。

银行IT运维人员遇到的压力。大家都知道,银行不管是主机、服务器还是各种系统都是非常庞大的,应该说是一个天文数字,光系统就有100多个,主机就不用说了,几千台,网络设备也是几千台甚至上万台,但是银行对于可靠性和性能要求非常高。运维人员晚上睡觉都睡不着,他们的压力非常大,很多运维人员得抑郁症。这一块他们也迫切希望,能够利用大数据分析技术,自动地发现一些问题,不要等到问题发生以后他们才知道系统出问题了,最好能提前预测出来。

大数据运维体系的方法论。也叫系统画像,大概分了7个主题,大家可以了解一下。不仅是银行,我相信其它行业只要有数据中心的,都涉及到运维管理的难点难题。这里面包括趋势告警、异常处理、业务洞察、应用分析、智能评估、基线管理、安全审计。趋势告警、异常处理、业务洞察、基线管理、应用分析我们做了一部分,智能评估和安全审计还没有,可能要到更高层次。

大数据智能运维系统功能。有五大部分,第一是日志收集,我们要把各种各样的日志收集上来。第二部分是日志管理处理,第三是日志分析,包括日志的分类加工。第四部分是异常关联分析,第五是BI展现。

以下我们讲一下日志数据采集模块

1,做原始日志信息采集。原始日志是什么意思?当我们的设备或者交易系统在运行的时候,会对运行情况和交易情况实时地产生大量的日志信息,这是我们做数据工作的基础,这也要进行采集。我们分了三部分:第一采用代理,通过代理把发生的日志信息实时地采集出来。然后利用大数据的组件,把数据采集到服务器里面,最后进行处理。第二用内存数据库,主要针对实时批量的查询,我们对于实时要求非常高。第三我们可能还会提供一个Elastic Search,它可以提供很方便的跨集群分布式的查询,你输入任意的关键字,它可以把海量的日志检索出来。

2,银行的运维系统,目前银行的运维系统起码有十几套的监控系统。比如ArcSight、Splunk、OVO、Netcool等比较典型的,但是实际上银行的系统不止这么多。每个系统要做一个标准的接口,实际上这是很难做的,老外的东西就是给你提供几篇英文文档,你自己写去吧。这个时候我们自己要开发一些接口,但是有些系统相对来说比较好一点,他给你一个数据库的接口,我们可以把日志采集出来。

 

智能运维系统的的整体构架

其中,采集数据分成三大部分。第一部分是实时采集,实时采集主要是到各个主要主机上布上采集点,我把它采集,采集完之后收集到大数据集群上进行分布式的存储。第二部分是从各个监控系统上进行获取,当然这个也是实时的,可能这两个实时性不一样,这个能达到秒级,监控系统一般可能是5分钟的级别。第三部分是历史数据,历史数据我们可以直接从历史数据库抽取过来。抽取过来以后,首先第一步是数据存储架构,比如非结构化数据,原始日志数据采集完之后要做一个结构化的处理,处理完放到SDFS上面,做一个实时的在线查询。中间还要经过一系列复杂的加工,加工完之后放到数据库里面。

采集之后进行数据处理。数据处理分实时和非实时、离线和非离线的。实时是加工处理完之后,我们立马通过报表工具展现出来。非实时进行一个离线加工,加工完之后也会把结果通过数据库收集起来。之后是分析建模,主要是机器学习探索,上层是BI展现,包括智能运维。

几个典型应用场景给运维人员带来的用途

下面看一下我们做的几个比较系统比较典型的场景,它能给运维人员带来什么样的用途和价值。

第一个场景,首页。首页会进行一个指标推荐。运维人员可能压力非常大,银行里面涉及到100多个系统、几千台主机,按5个指标算也有上万个指标,运维人员一个主机一个主机地去查看,可能会看疯了也找不到问题。我们的系统会对每个指标进行实时地监控,监控之后我们经过一个特殊的算法,根据系统、指标的重要性和指标的偏离度,把用户最关键的指标推荐到首页上去,用户进入系统以后就可以看到哪个系统有异常,可以看到变化趋势是怎么样的。

第二个场景,指标波动分析。要判断某一个指标正常还是不正常,我们原来各个运营中心有十几套监控系统,虽然监控得很细,但是报警系统有缺陷。比如设到80%进行报警,这里面有一个问题,不可能每个系统都到80%才报警,那时已经来不及了。这个时候运维人员需要知道,这一天主机历史CPU的运行趋势大概是什么样的,比如大概每天的运行趋势是20%到30%之间,今天突然一下升到50%,这也是明显的异常。运维人员就需要关注为什么出现这种异常,肯定是什么地方出现了问题,或者是其它主机出现问题,然后提前进行排查原因,不能等报警系统报警之后才进行关注。

这时候我们要怎么做这个场景呢?首先要算出每个指标历史的基线,比如说算出历史一个周、一个月、一个季度甚至是一年的变化趋势。这个趋势不仅是一条线的,大家可以看一下有三条线:均线、上线、下线,当然涉及到各种各样的算法,然后再和实时的指标运行趋势进行一个比对。当它超过这个上下线的时候系统立马用黄色进行报警,严重超出历史基线值的时间,系统就进行报警,运维人员就可以对它进行强烈的关注。

第三个场景,文件系统。包括磁盘、CPU、交易量,实际上运维人员会定期对它进行关注。当我的存储要满了,达到80%了,就要进行扩容。但是不能等到存储满了以后再走采购流程,一个采购流程可能要走3个月,这就来不及了,所以运维人员需要提前预测一下。包括文件系统、CPU、主机都是这样的,需要提前进行预测。这时候我们需要拿出一部分历史数据,利用一些可能比较复杂的算法,比如时间序列、线性回归等等,算出来以后,我们可以预测出比如说未来一个月、三个月的值,这时候系统会告诉运维人员,磁盘未来一个月增长量是多少,未来三个月会达到什么程度,然后运维人员就可以提前进行准备工作。

第四个场景,关联分析。我们可以把多个指标进行对比,然后进行关联分析。举一个例子,比如CPU和交易量的关系。正常情况它们应该是正相关的关系,比如说CPU上升的时候,交易量应该也是增加的。但是不排除有一些特殊情况,交易量上升的时候,CPU反而下降,这是异常情况,我们对比分析就会找出异常情况。

第五个场景,故障分析与快速定位。实际上这是运维里面也是用户最感兴趣的场景,也是通过日志分析的最终目标。不管是从关键字、场景分析还是数据库里面,我们在多种分析后进行检测,当发生故障时可以进行快速的故障定位。拿刚才的例子来说,当我们发现异常波动,达到红色警戒线以后,我们需要快速地去查找它到底出了什么问题,如果系统在红色故障时快速地把问题找出来,运维人员就可以缩小问题定位的范围。

第六个场景,系统临界值分析。以前没有量化的分析,通过我们的系统可以抽取各种各样的指标、用户关心的指标,我们通过系统进行大数据分析以后,我们自动地生成一个值。比方说当这个值达到一定界限之后,可以提醒运维人员进行扩容等等,提前有备无患,这是运维人员比较关心的一个事情。

第七个场景,日志信息快速查询。这个功能非常实用,日志查询集成界面以后,因为系统涵盖所有的日志,我们原来查日志要进入到某个系统或者登录到某个主机上面去,现在通过大数据分析平台,我们可以登录到所有系统、主机、设备上,可以查询到各种各样的日志。

最后总结一下,大数据对IT运维带来的实际价值,分为五大部分:预测故障、发现异常、查找问题、分析性能、优化策略。

方长青,金融IT高级专家、金融经济分析师、Hortonworks Apache Hadoop开发者认证 (HCAHD)。用于20年的金融行业从业经验,10多年的大型IT企业项目管理和行业管理工作经验。精通金融业务、各种IT前沿技术等。现任高伟达软件股份有限公司研发中心副总经理、大数据产品总监等职务。为公司规划并研发了“金融云大数据服务平台”、“大数据风险预警系统”、“大数据客户分析平台”、“金融大数据IT智能运维系统”等产品,部分产品已经开发完毕并进行推广,部分产品正在进行研发。

 

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限