免费试用

富国基金数据架构规划与实践

2016.08.06 / View:

导读:我觉数据的架构建设是一个长期的过程,一旦走在这条路上,应该从公司的战略角度来看待这件事我们做数据集市做量化和数据挖掘,到最后我们会做一些更加高级的应用,这样一步步地实现富国对数据的实践和掌握。

 

难得有这个机会给大家讲基金行业的数据实践。基金行业其实是一个资本行业,它最大的特征是轻资产,说白了我们就是做数据的。大家炒股的时候看的K线,它就是数据。今天给大家讲一下从资本行业和基金行业,我们会在哪些方向用哪些数据,然后对数据有什么样的要求,用到的技术又有什么样的特点,需要哪些来支撑我们的发展。

首先简单说一下富国基金。传统来看基金行业有两类:公募基金和私募基金,私募基金主要做二级市场和PE。富国于1999年成立,主要做传统二级市场,随着不断发展,我们成立子公司以后也会做一些其他的产品。富国现在是基金行业全牌照的公司,也是国内第一次在伦敦交易所做ETF的公司。从债券到货币,我们做了非常好的产品,并且都是靠数据来做这个产品的。到2015年12月底,我们的资产规模达到1923亿,市场排名第13位,长期资产管理规模(剔除货币基金、短期理财以及联接基金的重复计算)1700.50亿,市场排名第五。

上面我们说了基金就是一个采集数据、加工数据、分析数据,并进行业务决策的行业。那么富国的投资是怎么做的,为什么决定买或者卖某支股票,对股票的投研分析和资讯分析是怎么来的呢?富国基金有大量的券商分析研究员,我们会买很多的咨询数据,加上线下实地考察。如果要做一次股票,研究一个股票,我们都会做线下的实地考察分析,通过这些采集加上自分析和数据分析来得出未来投资决策的方向。所以我们站在数据角度来看,基金公司就是做分析决策的,这也吻合了大数据实践的方向。

另外,大家现在做投资的时候有两个流行的特点:1.智能投顾。2.FOF(基金中的基金)。这两个越来越成为投资行业特别是基金行业的主流。资本投顾会用到一些数据,就是做量化投资。FOF从选股票变成选基金,需要从中国市场大量的基金里找哪类基金是现在可以操作的,哪些基金是现在可以抛的。这虽然也包含了一些个人投资喜好,但是不管做智能投顾还是FOF,还是需要大量的数据分析。

基金公司的数据分析都应用到什么方面?

第一,投研。来分析宏观的、微观的市场经济情况,另外还要做量化的收益面。第二,电子商务。在电商方面,我们要对客户做行为分析,还有外部的大数据、大众理财、价格发现等等。第三,风险管理投资有一个底线,就是风险控制,那么数据分析协助我们做事中风控和事后风控,以及合规与审计。第四,产品管理。这是指分析某支基金或某个产品的绩效,就是你赚了钱,在市场排名多少,这些钱是什么时候从哪个行业的哪支股票赚的。第五,营销绩效。这跟电商有一点类似,但是我们更多的是结合客户画像去做精准营销。这也是从业务方向来看,整个基金行业对数据的诉求。当然我们还有一个诉求就是运维数据,这里就不展开了。

用户对数据的要求是什么

以上说明了从数据角度来说,有这样五个方向的数据。那么从用户的角度来看,他对数据的要求是什么?我们来分析一下:

1.公司高管、营销部门,他们对数据的要求,就是可视化的展示。2.中台部门需要固定形式的报表及信息披露。3.投研部门需要明晰数据和资讯数据。4.产品分析设计部门需要灵活的分析。5.电商部门,他们需要能够自主分析和查询分析的数据。6.量化投研部门,他们需要海量的数据,并且对数据的计算性能要求很高,还能够在实验室做计算。所以我们未来做数据规划的时候,数据的系统架构要满足这些用户的要求。

企业如何建造数据系统架构

数据存储方面,一个是方向,一个是要求,最后是怎么存放。比如说这些都是我们要的数据,像一些结构化、半结构化、非结构化的数据,比如TA、估值、投资。企业的征信、司法、工商,还有电商、社交网络的数据也要有,网销、直销的数据也要有,生产环境应用技术日志、技术数据也要有。

在做选型和规划时,如何建造系统架构的平台呢?

首先要做的是为什么要这个东西,先去了解一下,要从公司整个的发展、运营场景以及使用要求来设计这个架构,这才是一个切实可行的实践之道,而不是盲目地赶市场潮流。

第二作为一个决策者来讲,就是人、财、物要想做好数据架构人最关键。另外是财,有多少预算可以花,比如说Hadoop不便宜,我们是一个商业型的企业,财这一块还是很重要的。最后还要考虑物,就是看数据源、数据种类和数据量,以及到底要选用什么样的数据库,是MPP架构,还是HBase?

第三就是刚才我提的问题,是不是有一个单一技术就可以解决这些问题。

第四,现在很多架构各有利弊,所以大家不要怕,要去融合。我们很看好这样的一个趋势,那就是MPP的架构跟很多的架构在未来是融合的,这个融合将是有效数据架构的主旋律。

第五,支持大规模、分布式、并行数据处理与存储,拥有良好的线性性能拓展以及丰富的数据接入能力。这是我们当初选择数据架构时思考的问题,这个市场上有这么多的产品(图示),大家都会挑花眼,我们同样如此,感觉都很好。最后经过了很多的分析,我们最终的决策遵循了一个原则:使用那些相对较低投入成本,在指定时间(容忍时间)内完成数据处理、提取、统计分析等处理,根据实际需求找到合理的分析切面、纬度,实现数据价值最大化的产品。

富国基金采用的是怎样的数据架构

在提了要求以后,我们也想了自己有多少人,有多少钱,可以在多少时间内把这件事做好。最后我们做了一个混合架构,包括源数据、数据抽取、数据处理、数据集成、数据服务、终端。另外在抽取层不要用一些传统的重量级的商业化产品。在处理层可以采用实时处理,这样可以在未来提高ETL以及汇聚的计算能力,可以考虑用Hadoop或者Storm,这样数据的汇集、加工可以做到轻量化。存储方面,它是核心架构,这时考虑自身的商业应用,比如说实时竞争营销,像我们就是用Redis做的。那么在结构化的方面,我们采用了Vertica架构。

通过这些,我们采用了一种混合模式。我们觉得从目前的现状来讲,没有一种技术或者产品可以全部都做好,那么我们就融合这些产品来混合应用,最后打造一个数据服务平台。这个服务平台可以给高管做数据展示,可以给销售做数据分析,而且这个平台还要支持Excel,并且可以用PC、手机等终端展示。

这是我们今年1月份把整个架构做完的情况,从这里可以看到我们做了自助服务的报表和数据管理。

这个是我们的四期。我们在做规划时,认为富国基金做这样一个数据架构的路线图应该是这样的。首先,传统数据架构,虽然没有什么很大的问题,但是我们用了一些比较好的产品替换掉传统不合理的东西。现在我们在做第二期时做了一些数据集市,并准备在今年下半年或者明年上半年,做量化和数据挖掘,到最后我们会做一些更加高级的应用,这样一步步地实现富国对数据的实践和掌握。

在这里,我想分享一下我们自己的经验,就是数据的完善和治理,如果是很烂的数据,做出来的结果是没有人相信的,所以数据的治理和完善是非常大的命题。另外,和业务接轨,不要说技术一定要服务于业务。我们需要以业务为目标,避免闭门造车。另外还有要有继承性和持续性。这是我给大家的一些建议。

最后,我觉得数据的架构和建设是一个长期的过程,一旦走在这条路上,就应该从公司的战略角度来看待这件事,这是一个战略性的问题。我们要坚持不懈地持续发展,而不是换一个领导一个思路。

    感谢大家的聆听,谢谢。

 

Yonghong的价值观:以卓越的数据技术为客户创造价值,实现客户成功。
免费试用