banner

阿里巴巴大数据平台“达芬奇密码”进化论

作者: 大数据观察来源: 大数据观察时间:2017-02-19 19:54:340

大数据时代,阿里巴巴集团是最有资本进行烂漫遥想的公司之一。阿里数据平台事业部服务器上,攒下了超过100PB已“清洗”的数据。

马云曾在2012年公开宣称“平台、数据、金融”是阿里集团和阿里小微集团未来的指导路线。在此前后,战略布局已渐次展开:2010年,推出重要的搜索业务“一淘”,2011年收购数据属性公司CNZZ,近期有接连收购友盟、入股新浪微博和高德,抢占数据源;在物流领域,阿里由天猫主导建设了与各大配送公司对接的“天网体系”,最近牵头成了智能骨干物流网络“菜鸟科技”,并构建物流信息数据平台。 阿里数据十年铸剑,如今还只是起手开了个局。

无论是洪七公还是车品觉,他们都说没有心思与精力去想太过务虚的“大数据美梦”到底如何炫目,他们更关注坚实的数据仓库和实在的应用场景。

十年进化

从2003年淘宝起步开始,七公就一直在与数据打交道。

他的经历勾勒出这家数据巨人的演变轨迹。最早的数据工作自2003年起步时就是出于业务需求的驱动,起初做得挺粗糙,做数据库、做IT系统,随后开始统计分析一些互联网公司都会关注的基本点,比如PV、UV等,当时的淘宝数据部门只有几名员工。

在数据的童蒙时代,淘宝“依葫芦画瓢”地学习当时最大的对手——易趣。“谁都是从什么都不懂开始,而当时ebay、亚马逊已经由成熟的BI部门了,我们就学起来,”七公说。

与易趣的竞争对阿里数据的推动颇有额外加成。据淘宝数据老人回忆,其间易趣强势地通过排他协议垄断了门户广告资源,迫使阿里将广告投放转向中小网站联盟,而由此催生的广告投放精准化分析需求,也使得淘宝的数据团队积累起了更多的流量数据分析经验。

在2004、2005年之交,淘宝逆转易趣。2003年淘宝全年交易额不过2271万元,而2004年全年则攀上了10亿元。随着业务增量和品类的快速扩张,数据量也随着跃升,淘宝开始意识到不再能拍脑袋做经营决策,实时观察掌握交易量和用户增量变化的需求正在不断爆发。

淘宝数据团队开始投入对每个类目的精准化分析。2005年,淘宝成立商业职能部门,成为当时淘宝CEO姜鹏的直属部门。

这一年,阿里拥有了第一严格意义上的数据产品“淘数据”。这是一份经营数据的报表,为各业务公司、部门提供经营报表的检索生成工具。

还是从这一年开始,阿里开始切入搜索、广告业务。这两项有着原生数据基因、天然涉及大量算法的数据属性业务推动了阿里大规模数据运营的开端。七公说,由此阿里对数据和应用场景的理解越来越清晰,目的性也更为强烈——搜索帮消费者更快找到商品,而广告让商家获得更高的ROI(投入回报率)。

到了2009年,阿里数据开始进入产品化时代。

“淘数据”从一个内部报表系统跃升为内部数据统称。2009年4月和12月,商业智能部团队又开发出可以预警的“KPI系统”和提供给业务部门使用的“数据门户”。

阿里的对外数据产品也开始浮出水面。脱胎于“雅虎统计”的工具“量子恒道”为外部的商户提供了统计、分析自有店铺中的流量、点击、购买等数据变化的工具。

与数据产品的大裂变同步,这一年阿里的数据技术架构也开始了大变革。此前一年加入阿里出任首席架构师的原微软亚洲研究院常务副院长王坚主导了阿里架构从Oracle商用系统向基于Hadoop开源平台的迁移。

Hadoop是基于google早前放出的其上一版分布式计算架构白皮书所开发出的开源平台,相比IBM、Oracle等商用系统的优点在于不仅成本低廉,且架构可扩展性极强。基于此,全球互联网企业的大规模计算体系多使用这一平台。

这使得阿里看到了处理自身庞大数据的新曙光。此前,阿里已发现传统数据库越发力不从心,越来越多业务部门的分析师发现他们早晨9点上班看数据时难以获得结果——越来越多的数据让传统商用机器难以按时计算完成,而添置设备的代价极为昂贵,更遑论因业务快速发展而及时定制更新功能。一些业务部门则开始自建部分Hadoop集群。

彼时阿里和雅虎关系仍颇为亲密屡有合作,看到雅虎基于Hadoop的平台运营良好,也确实能够支撑未来数据快速扩张的技术需求,阿里也下了这番决心。

2009年,王坚成立阿里集团研究院,将集团内各公司自行搭建的Hadoop集群统一开发出云梯1系统,以实现全集团所有数据的打通、整合的管理和共享。

这一系列变革之后,阿里集团最高层提出了对外数据开放的思维。这一年,淘宝交易规模跃上了3000亿元门槛,淘品牌开始崛起,大卖家聚集的淘宝商城(天猫前身)也已然胎动。阿里意识到了自生生态的力量。

2010年初,淘宝推出了一款划时代的产品“数据魔方”。通过这款产品,阿里第一次向市场开放了全局市场数据。这款赫赫有名的付费产品成为了众多大中型商户追捧的数据利器。

这一产品发端于阿里数据平台团队对客户的走访。当时宝洁公司提出,希望对行业数据有所了解,以帮助其经营决策。数据团队的一位员工“空无”提出了与其case by case解决,不如直接产品化的想法,“当时就强烈地感觉到,阿里数据的价值出来了!”

在此之后,阿里内部数据产品的开发开始进入井喷状态。淘宝数据部门开发出了“活动直播间”让买家更好滴参与促销运营。2011年上半年,“卖家云图”、“页面点击”接连出现,

一年后,为了配合淘宝的大促销活动,便于及时查看实时数据,这个团队又开发了“活动直播间”。为了让卖家更好地运营,2011年2月,“卖家云图”出世。2个月后,“页面点击”诞生, 这款产品可以表示每一页面中卖家点击的位置,并用不同颜色和数字加以明晰标记。

2011年,车品觉加盟支付宝。他发现了阿里数据产品仍存在的一些短板:高层有太多数据,但关联性不够,难以快速全局诊断;而另一端是一线运营曾总喊数据不够,却数据间隔严重,也无法获得关联性。

于是,他做了两款产品,一款叫“观星台”给前者,是一个高度可视化的仪表盘,选择最关键的数据以图在几秒内能明了全局运营状况;另一款叫“地动仪”,可以看到用户投诉最多的功能是什么,甚至可以获取最原始的客服电话录音。

随后,车品觉进入淘宝,也开发了两款产品。一款黄金策,能够综合700多项变量进行叠加,数秒内可以就制定人群和特定应用场景行为双向推导查询;而另一款产品“无量神针”则提供用户软件的监控,它的副标题为“倾听用户的痛”,可以以可视化图标直接提示可能存在的风险,如用户来电中退款要求的变量等,每当数据“异动”发生,他的团队就会及时发出预警。

而在七公旗下的另一支数据团队也做出了一系列产品,如能够实时显示消费者购买行为细分搜索、成交指数的可视化产品“淘宝指数”,以及去年“双11”期间推出的推测用户身份和购买场景的产品“淘宝时光机”。

一家互联网公司的数据挖掘负责人说,从淘宝数据门户到数据魔方,再到淘宝指数和淘宝时光机,阿里的数据产品从报表到数据工具,再到可视化图片甚至一组flash,看上去越来越不没有“数据味”,但对消费场景和行为的渗透和数据的掌握却越来越深了。

车品觉说,阿里数据挖掘和分析,维度正越来越多,同时也在从发现、呈现、分析现有数据,开始向更多了解用户、预测业务推演转化。

高速公路与跑车

去年阿里集团的一系列架构调整,重构了阿里数据达芬奇密码盘排序。

在这些调整中,阿里云拆分;阿里系的数据库和大规模运算资源整合为数据平台事业部,由陆兆禧亲带;同时阿里成立了虚拟组织“集团数据委员会”,车品觉出任首任会长。

王坚带领的阿里云是这套密码盘中的最底层基础,提供了最基础的运算平台。譬如继云梯1之后,阿里自行研发的云梯2体系,就是建立在阿里云的“飞天”架构之上。

在此之上,是数据平台事业部的七公团队。他们运营着阿里集团共享的数据仓库,阿里集团目前各业务公司产生的数据经清洗之后就存储在数据平台事业部的服务器集团上,并在这里进行大规模运算。

车品觉带领的淘宝网商业智能部门在数据平台事业部之上使用数据进行分析。同时,车品觉出任会长的阿里集团数据委员会的成员们分属阿里各业务公司,他们也利用七公团队的工作成果各自进行分析。

这三层架构,可以理解为阿里云是IasS(基础设施即服务)。阿里数据平台事业部是PaaS(平台即服务),而车品觉的团队则是SaaS(软件即服务)。

阿里集团内的数据大多都经过这般旅程——譬如用户在淘宝上的一个收藏动作,产生一条数据,首先在淘宝网的前端服务器上产生一条日志,这条日志随后被传送存储到七公团队的服务器上存储,其间经过淘宝团队的清洗,在数据平台事业部的服务器上,这条数据将再度被检查其日志格式是否正确等清洗过程,随后被编入数据库,接着与其他若干数据一同被分入分主题的数据集市。当数据委员会的分析师们进行数据挖掘时,它再度接受挑选是否被采用。

如此架构与流程正是为了更好的支撑大数据的愿景。

车品觉认为,在此2011年之前,阿里的数据产品还算不上大数据,大致是对现有数据的分析挖掘以及呈现。在他的认知中,大数据首先要有足够大的数据规模,同时也要有足够多的跨界维度。只有尽可能穷尽更多的维度,在相应具体应用场景下,才能做出足够精准的判断和推测。

而七公说得则更为实在,“我们就是去解决问题,只看业务发展。我们知道数据非常重要,也希望各家公司的数据用得更好。看到更多数据关联在一起,发展出更大的价值,而不是冲着虚无缥缈的东西去的。所以我们不关注外面说大数据 就是为了解决内部数据互通。”

目前,数据业务平台已整合了阿里集团的全部数据。此外,阿里小微集团中创新金融事业部(即阿里金融)的数据也与这一平台直接相连。

七公说,数据平台事业部成立的使命很简单:就是去做各家公司想做但现阶段没有时间或能力的事,搭平台、把数据整合在一块。“我们提供计算、存储平台即云梯 建模、定义、分析是前段品觉的团队做的。”

IBM大数据业务资深人士说,大数据概念有着两层结构。上一层是人们所热议的充满科幻感的分析预测能力,它似乎为大家描绘了如何触碰一个可知可感未来的方法论;而另一层则是实现这一梦想所需的处理大规模、高并发、高关联性甚至是低价值密度数据的运算能力。

车品觉做的是前者,而七公维护的是后者。

车品觉说,七公的团队是在修建高速公路,而他的团队则是在高速路上驾驶跑车,“建高速公路是一个漫长的工程,需要巨大的投入、耐心以及细致。”

七公告诉本刊,数据平台事业部的服务器上,所保有的历史数据已超过100PB,而且已经过了清洗。

“清洗”是被七公和车品觉反复提及的词,它保障了数据的质量,直接关乎大数据运营的准确性。

那么如何清洗数据?七公说,首先得让数据都能对得上,产生关联。尤其是互联网行业,发展迅速且难于规划,通常都在不断试错、快速迭代,这使得不同部门、业务之间的数据往往难于打通,甚至不少公司里业务间连用户cookie、日志格式都不同。

阿里或许是幸运的,从2004年淘宝开始统计日志之后,整个淘宝系的日志格式就已统一,使得现在的麻烦少了不少。

但这才仅仅是一个开始,正如前面所示,数据处理的链条极长,任何一个环节出错都会影响后端,而且越是错在前端,偏差越是明显。车品觉说,数据污染往往有两个原因,一是原来就采集错误,二是数据口径不同。

前者往往来自于部门协作脱节。如前端业务部门的开发人员如果改变了页面功能但未及时通知数据部门,则相关用户行为所对应的数据定义就已失真;而后者则更容易理解,譬如有的电商公司统计转化率只统计到用户点击购买,而有的公司则要考虑点击后是否付费、是否退款?“鸡同鸭讲”也显然会造成错误。

这就是数据委员会的工作。它要统一整个集团的统计口径和统计方法,制定关于质量和安全的范式。数据委员会的成员来自各个业务公司,车品觉要主持规范工作,进而影响全局。

今年年内,车品觉将数据质量和数据安全视为其最重要的课题。为此,数据委员会下设置了数据质量和数据安全两个小组。

在安全方面,他们格外小心,因为涉及用户隐私。最终他们设置的规则是不做1000人群体一下的群体购物行为的分析,而且开放多少数据有安全小组进行集体评判。

在数据质量方面,车品觉提出了要尽可能消除杂音,如用户点击统计中要去掉测试、自己员工点击等因素,同时又要尽可能地保证原始场景可还原,以防止失真。

他说,理想中,数据仓储中的数据能还原原有场景是才最好,“七公在后台,我们最希望我们需要还原的时候有足够的数据能够支持。”

“数据是科学的,但清洗中的取舍和分析时维度的选择则要靠分析师的判断修为,这部分不那么科学,而是更像是艺术,”车品觉说。

而七公要做的更多是保障数据存储和运营的技术流程规范、安全,维护系统稳定,降低系统BUG造成的错误并进行修正等。这份工作并不轻松,至今阿里集团的数据都在每年至少翻倍的速度增长。

其实,参与到阿里大数据战略中的团队还有更多。如姜鹏旗下的共享平台事业部下的搜索团队,担负着为全集团各部门清洗非结构化数据的任务。

数据平台事业部下有一个20多人的数据产品部团队,运营着“数据魔方”、“淘宝指数”、“淘宝时光机”等数据产品。根据默契的惯例,车品觉团队主要做对内数据产品,而他们则向阿里外部分享提供数据工具。

此外,各家公司的分析师也都负责这各自业务的数据清洗工作。而车品觉旗下,还有一支数据科学家团队,并不隶属于任一具体业务公司,横跨支付宝和阿里集团两大平台进行数据挖掘分析和数据产品研发。

数据新觉醒

车品觉很推崇数据界前人提出的一段“六字真言”:“对比、细分、溯源”,他说还要加上一个“趋势”。

这便是从传统BI领域跃入“大数据时代”的关键一步。

在此之前,阿里的数据产品更多还是呈现历史和当下的运营状况,仍是决策的辅助。而人们憧憬的大数据方法论则要求着推测未来、洞悉全局、引导决策的能力。

不久前,车品觉曾在一次非正式交流中说,大数据概念目前看来仍是忽悠。而这次与本刊交流时,他特意更正,说“忽悠”是指现在的基础,大数据的前提是拥有足够的数据、关联性,并具备相对应的运算能力和分析能力。

他说,今年以来自己的思维改观也很大。最近几周,他一直在跟BI团队开会,提出要重新定义BI,“今天的BI在未来未必好用了,也许并不完全适合未来的数据世界。”

数据团队的理解更新之外,阿里集团整体的姿态也决定了数据作为的新方向。

车品觉印象深刻的是,2011年时,时任阿里集团首席人力官、支付宝CEO的彭蕾(现任阿里小微集团CEO)对他说,数据团队要尝试着从数据化运营转向运营数据。

这成为了阿里系数据系统跃升的一次重要触发机制。车品觉说,“运营数据”已是大数据的方向。

去年,马云的公开表态更明确了这一点。他提出,“平台、数据、金融”是阿里集团和阿里小微集团未来的路线。眼下,平台已成,如何成为一家彻底的数据公司,如何在内外提供数据价值,成为新的攻坚战。

阿里集团已然布局深远、行动频频。

早在2005年,马云就曾在国际交流中说,阿里巴巴的交易数据都保存完整,早晚有一天会派上大用场。2010年,阿里推出重整的搜索业务一淘,2011年收购数据属性公司CNZZ,近期又接连收购友盟,入股新浪微博和高德,数据源头开始不断展开。

甚至在物流体系中,阿里先是由天猫主导建设了与各大配送公司对接的“天网体系”,如今又集团出面牵头成立了全国智能骨干物流网络“菜鸟科技”,并提供物流信息数据平台。

马云谋划的是在交易平台同位的庞大数据平台,作为信息流的精华部门它与物流、现金流结合,构建成完整闭环且不断外扩的生态体系。在提供内部数据决策支撑之外,甚至会形成数据的交易平台。

举个例子你便知阿里数据分量。去年大淘宝系交易额已超过万亿,足有一省GDP分量,而他庞大生态中实时地展现出宏观经济走势,阿里研究院每个月都会接待好几波各级政府索要数据的要求。近期不少政府官员也前来向车品觉咨询大数据在公共行政管理中的应用方法。

宏大愿景之下,车品觉说,今天的阿里数据团队态势严峻。

“我们有很多困哪要解决,数据质量和安全是今年的重头戏,制定范式我们还有很多工作要做”,他说,此外更严峻的新课题是如何让数据“落地”,在公司具体场景中帮业务、产品做得更好。

具体而言,他深感原先做得还远远不足,已经做出来的“黄金策”、“无量神针”等还不够用,不能太高估计,用户对数据的敏感度。尽管“无量神针”每个小二都能用,黄金策的权限都已经发放到中层,感觉门槛还是太高了,“可视化很重要,相关性很重要”。

这使得他们在加紧阿里内部数据的挖掘、关联力度,为数据分析、预判找出更多可靠的参考维度。最近开始,车品觉团队的数据研究广度开始从淘系延生涉及到整个阿里系,同时他们也开始考虑对阿里外部提供数据工具。

车品觉曾说,数据团队应该是CEO直属的战略级团队。之前有不少大互联网公司前来向他讨教,但一被问及“数据团队应该是运营团队还是技术团队”时便深感对方完全走错了路。

而如今,他也坦言,CEO、管理层的注视让他们逐步感到压力。“马云最厉害的是知道数据要耐心养”,但高层们频频布局数据、问及数据落地时,他感觉到团队有非常大的责任,“不能再只是讲故事了,我们到时候必须亮剑了。”

“现在做的事并非是今年要毕其功于一役,但我们要打开局面做出良性循环,”车品觉说,只有数据证明了自己的价值,才能够让人们信任、支持,持续投入,届时阿里才能成为一家数据公司。

车品觉团队今年让数据产生商业价值的意愿变得空前强烈。他们在积极主动地寻找机会,站在商业场景合作伙伴的前面,提供足以改进并指导决策的数据方案——今年以前,数据产品提供的都是诊断辅助,而现在是让数据去引导决策。

这一行动已有成果出现。车品觉团队中的一位数据科学家杨滔牵头为聚划算设计了一套预测报名商品能否成为爆款的数据工具嵌入了这家公司的系统。这款产品参考60多个变量,输出商品的是否爆款、最终销量、库存等数个关键预判数据,并直接作为商品是否能参与活动的判断标准。据分析,这一产品目前预测的准确度已达到80%以上。

这很大程度解决了阿里的管理决策困境。去年聚划算出现腐败案件震动业内,阿里集团首席风险官邵晓锋当时曾对本刊表示,未来将引入数据产品,以尽可能降低人为干预因素的比重。如今数据工具成为了决策系统的关键组成部分。

杨滔还在琢磨着参考更多维度的内外部数据,将这一系统拓展为线上下通用产品,可以帮助综合零售企业统合预测线上下销售和库存状况,直接产生经营决策。他在开发的另一款产品则有着浓烈的“人机对话学习”色彩,即通过研究淘宝上购物推荐达人的行为,分析其规则进而让淘宝系统的推荐工具学习其中规律,提高个性化推荐的能力。

而整个阿里系业务中,最为炫目就是阿里金融的小贷业务。这是一项典型的大数据成功应用,阿里金融的数据团队设计的模型综合淘宝上产生的信用记录、成交数额等结构化数据,以及用户评论等非结构化数据,加上外部采集的用电量、银行信贷等数据,可以精准决策是否放贷和放贷额度,而贷款不良率仅为0.78%堪称业内最低。

车品觉认为,今天大数据的机会来自于信息的不平衡,而数据产品可以将更多维度综合关联比照,如同在尽可能多的角度安装摄像头,才能掌握更为真实的商业动向。

目前,阿里数据分析团队们用的仍多是阿里内部的数据,因为仅仅这些他们还远没有挖掘完。但阿里的数据支撑团队已又一次提前开始为他们修路,为他们准备更多维度的外部数据。据阿里数据员工透露,七公的团队已开始接入高德等阿里投资公司的外部信息。

此外,阿里云和平台数据事业部还在致力于底层技术和运算能力给予新的支撑。

在给予Hadoop的云梯1之后,阿里又自行开发出了新的基于“飞天”体系的“云梯2”平台,成为业界除谷歌之外,几乎仅有的自行开发底层分布式计算系统的互联网公司。目前阿里金融、阿里数据科学家团队和数据平台事业部旗下的数据产品部都跑在云梯2上,这一系统更为突出实时运算能力。此前的“淘宝时光机”多是离线运算,而“淘宝指数”则跑在实时平台上。

车品觉说,阿里目前已到了大数据的海边,在国内互联网行业是“做得最狠的”,“如果阿里做不出来,中国在数据化领域上速度会减慢。”

阿里集中了目前大数据领域中国最多的数据、资源、人才,他和他的团队以及相关数据业务部门同僚都深感责任重大。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限