看上去很美, 谈谈阿里云的大数据平台「数加」

作者: afenxi来源: afenxi时间:2016-12-31 18:33:040

首先来看看阿里是如何宣传其数加平台的，爆点还是蛮多的，以下引自网上新闻：

2016年1月阿里云全球首发了可以提供一站式大数据处理能力的平台——“数加”，并全新亮相了20款新产品，覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条，据说“这些技术至少领先业界三年”。

大数据计算服务(MaxCompute)、分析型数据库(Analytic DB)、流计算(StreamCompute)共同组成了底层强大的计算引擎，速度更快，成本更低。经测算，自建Hadoop集群的成本是数加的1.5倍，国外计算厂商AWS 的EMR成本更是数加的5倍。具体说来包括：

大数据计算服务可6小时处理100PB数据，相当于1亿部高清电影。单集群规模过万台，并支持多集群联合计算。做到了速度更快，成本更低。经测算，自建Hadoop集群的成本是数加的1.5倍，国外计算厂商AWS 的EMR成本更是数加的5倍。阿里云当天还宣布，大数据计算服务再降价50%。分析型数据库可实现对数据的实时多维分析，百亿量级多维查询只需100毫秒。流计算擅长对实时流式数据进行分析，具有低延时、高性能的特点。每秒查询率可以达到千万级，日均处理万亿条消息、PB量级的数据。

计算引擎之上，数加提供了最丰富的云端数据开发套件，开发者可一站式完成数据加工。这些产品包含：数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控。

在数据分析方面，数加提供了3款产品供开发者使用，移动数据分析产品、数加BI报表产品、数据可视化产品DataV。

其它还包括图形化机器学习工具（包括特征工程、大规模机器学习、深度学习），同时提供了规则引擎、推荐引擎、文字识别、智能语音交互等数据应用产品。

看到数加这个开放产品，在惊讶的同时也很佩服，阿里的确做了了不起的事情，无论实际效果如何，推出数加这样的大数据服务产品，无疑让国内很多相关企业有了更明确的思考方向和技术参考，因为近些年太多的大数据PaaS平台的忽悠导致已经审美疲劳了，但能落地的数家算是第一个吧。但冷静下来，在数加平台还没有足够的客户和运营数据之前，还是要谈谈我的一些看法，这里共有8个疑惑：

01 数加的封闭性

数加自成一派，在阿里内部自己玩可以玩的很好，但对于外部客户来讲，不开放意味着什么都要受制，有新的东西和想法也很难加载上去，当然阿里也可以与时俱进，但这么大的平台数据类的工具能有多快的响应周期，如果大家有过开发经验，就知道数据类组件总是在迭代中逐步去完善直至可用，不知道阿里关于这点后续如何考虑。

另笔者感觉封闭性系统在起步阶段如果没有达到一个较高的KEY点很难引爆市场，阿里的很多数据能力的确领先，但还没到遥遥领先程度，当前可替代的开放性组件也不少，数加的大数据计算服务(MaxCompute)、分析型数据库(Analytic DB)、流计算(StreamCompute)，开发生态中有对应的Hadoop、Impala，stream等开放组件与之对应，为什么要采用封闭的系统，同时这类核武器级别的打蚊子似乎也重了点。

02 目标市场问题

对于大中型的企业，往往是有能力自主进行大数据平台建设的，由于数家太重，因此基本不会全盘考虑，数加有些组件应该是有特点的，很多企业也需要，但由于其封闭性，大型企业很难只采用其中一个组件，比如分析型数据库(Analytic DB)，开发套件能否用自己的或第三方的，第三方展现组件能否接入，因为阿里的部分组件有优势，但如元数据，数据质量，数据调度，数据展现等方面的的配套组件，其实很难说有优势，更别提体验了，这个是阿里特别需要考虑解决的。

对于小型企业或者创业公司，一开始估计数据量不会很大，同时市场会变化非常快，这种PaaS级的核武器能否有市场，是否适应小快灵也值得怀疑。

03 成本是问题吗

阿里称，经测算自建Hadoop集群的成本是数加的1.5倍，是不是阿里测算错了，加上运维等好歹要有量级上的差距啊，姑且不说这是个并不大的差距，但自建Hadoop集群带来的安全性、自主性、灵活性、快速性等优势，并不是能忽略的因素。况且大数据还是个蓝海，远未到红海的地步，这点差距算啥呢。

另国内租用文化感觉还有很长的路走，我们习惯买房子，不习惯租房子，因为感觉没归属感，即使知道也许租用更为经济，1.5倍还远远达不到那个爆发的KEY点，个人认为起码5倍以上吧。

04 存量接入问题

任何企业建数据仓库或大数据平台，其与业务源系统有千丝万缕的联系，而且由于大数据平台往往是后台系统，会为了业务源系统做大量的定制化改造，比如我所在的公司，大数据平台的采集组件，虽然选用的是产品化的东西，但为了适应本地源系统做了大量的改造，才能真正使用，同时在网络等各类配套设施方面也做了很多优化，假如要采用数家组件，感觉是很难完成的，因此数加的适用场景是否会大幅受限？其开放性到底如何？比如其采集组件有多强的接入能力？

05 数据分析巨坑

大量的咨询公司在画大数据平台架构的时候，总喜欢搞个服务封装，然后上面罗列了一堆如客户洞察的标准化数据分析功能，但这个也只是内部用用，实际很难实现通用的开放数据分析服务。

当前的SOA等系列概念，基本都是从OLTP系统的基础上演化而来的，本质上就是能力内部封装实现，对外提供标准化服务，从而降低开发成本，迅速扩大规模，这个概念用在OLTP系统上，的确比较适用，即我们一般所说的“功能”能够封装，因为这个功能是可枚举的，就好比C语言它搞了很多标准化函数，方便大家调用编程，提升效率。

大数据分析的特点是数据量大，类型丰富，速度快，更关键的是通过大数据的组合使得呈现出来的新数据形式无穷无尽，也就是说所谓的数据分析功能是很难穷尽的，因此打造数据分析组件，通过配置方式统一对外提供标准数据服务实际非常困难。

比如搞数据可视化服务，肯定是百花齐放，没有一种可视化工具可以独打天下，甚至是出现几个寡头也越来越难，为什么，满足不了特定的数据分析展现要求，数据体现方式太多了，这次阿里发布的数加BI报表产品、数据可视化产品DataV，我完全不看好，基本是废材的节奏。

不知道数加的图形化机器学习工具是基于什么计算引擎，而且机器学习图形化，这个坑有点大，一笑了之。

06 使用是个问题

我申请了账户，登录进去，好少的功能，只有3-4个，本来期待有很丰富的介绍文档及大量的系统演示，但实际是很少，太少的文档，DEMO演示也没有，感觉无法理解这个系统的使用，这种体验如何才能让客户产生信任感并决定掏钱包呢。我觉得数加虽然推出了，但大量的准备工作还没做好，可能过于仓促吧。比如笔者研究了老半天规则引擎，硬是没看懂，可能愚笨吧，感觉产品说明书是技术人员写得？

07 全链条太困难

数加有万丈雄心，号称支撑数据全链条，但这句话过于狂妄，任何PaaS平台都是基于业务需求的驱动积累到一定程度后抽象出来的公共基础组件，也就是说，业务需求是第一驱动力，相信阿里的这些数据组件都是基于阿里的业务场景抽象出来的，但阿里的业务场景能多大程度代表整个行业，它能代表互联网行业吗，不能，很多业务场景它都没碰到过，即使在电商行业，它对于业务的覆盖也不能说完整，更不用说面向全社会了，可能阿里的客户会非常局限在特定的电商行业领域，因为其他领域它业务不清楚，很难支持。当然有些数据组件非常底层，因此它可以支持，比如数据抽取，因为这个业界已经有一定标准，数据仓库玩这个已经太多了，通用性可以提炼，但即使这样，估计阿里的数据抽取工具，也很难适应比如我公司OGG的一些特定要求，一些跟业务相关性非常高的组件，比如元数据，数据质量管理，可视化，数据分析、机器学习、数据应用，里面的细分场景太多了。

08 缺失一些信息

作为客户，我不仅仅担心能力方面的问题，我更担心数据安全问题，高可用等问题，但这些方面数加似乎对外未予以澄清，数加如何确保企业的数据接入后获得足够的保护，如何确保工具本身的透明性，如何防止非企业客户对于数据的非法接触，是否提供了足够的数据安全和加密手段，确保数据不被泄露和偷窥。关于高可用性，数加的SLA有没有，能达到什么程度，因为一旦企业将其作为生产系统，这些能力往往比计算等能力要求更高。

谈了这么多，很多属于有感而发，由于没有完整的机会接触数加各个组件，因此很多理解肯定不到位，心存很多疑惑，据说数加平台仅用了1年就完成了对内到对外支撑的转身，这是火箭的速度，因为从专业到通用，从通用到有商业价值，这个很难，不仅仅要考虑功能，更要考虑开放性，安全性，可用性等更多的问题，同时希望数加更多从客户的角度去考虑问题，而不是炫耀其能力，核弹打蚊子虽然夸张了点，但也有一定的道理，据说EMR卖的不好。最后希望阿里的数加能克服这些困难，继续进步，用运营的数据来证明其成功吧。

来源：与数据同行作者：傅一平博士毕业于浙江大学从事电信行业工作，专注于大数据采集、处理、建模、管理、变现及产业等研究

看过还想看

可能还想看

热点推荐