迎接大数据，这里的黎明真热闹（SAP篇）

作者: 大数据观察来源: 大数据观察时间:2017-02-04 18:24:480

SAP不久前才收了Sybase，实力充盈了不少。经过几轮收购整合，BI场上的真正玩家越来越少了。不知道那些产品线单一的刺客们还能独行多久。一个新的时代已然披红挂彩鞭炮齐鸣地揭开了序幕。

这里的黎明真热闹

信息时代圆满落幕，智能时代破晓而出。宽带通信、智能终端、社交网络、量化分析重新定义了生产商、分销商和消费者之间的关系。数据在容量、种类、速度方面的增长带来了新的挑战，而这挑战中蕴藏着巨大的商机。

信息的获取、分析和管理是智能时代的主要任务。那些还在沉睡的组织，它们可能马上就会被数据压住，然后从噩梦中惊醒，不堪重负，气喘吁吁。而那些天还没亮就行动起来的勤劳小鸟，不仅能抓住数据，还会进化出量化分析能力，并由此做出正确决策，取得竞争优势。在又一次商业大潮来临之际占得先机，有效分配资源，进行可持续、安全的管理，为自己的社区提供更好的产品或服务。

大数据的动力

为什么是现在？它有什么新鲜玩意儿？

商业和公共组织要在全业务流程上投资大数据解决方案有各种各样的原因。尽管在各种大数据会议和与大数据相关的文章中最引人注目的是社交网站产生的数据，但经过调查，业务数据分析才是推动组织采用大数据解决方案的根本原因。

图1 使用BI、量化分析和大数据技术主要动力的调查反馈占比

然而，不管上图中反馈结果的评级如何，我们都必须意识到，大数据所涉及的业务流程、技术和专业知识范围都很广泛。正因如此，大数据几乎带来了无限的机遇，但因为天地太过广阔，指望着大有可为的青年们也会觉得有点找不着北。

大数据解决方案的终极目标，是为组织中所有层面的决策者提供更强大、更快速、更全面的洞察力，从而让他们做出更好的决策。

IDC 决策管理框架

IDC 决策管理框架是一个评估这些机遇的工具。这个框架可以应用到大数据用例上，并能描绘三种决策类型和每种决策类型的四个主要变量，如图所示：

图2 IDC 决策管理框架

战略决策因为其周期长，未知因素多，所以范围最广、风险最高。战略决策的数量相对来说也很少；它们要求内部决策者和外部决策者之间要有较高的协作水平，而且实现自动化的可能性也很低。而另一端的战术决策可能是由一线员工或系统完成的。在一个时间周期内会有很多这种决策，并且所有决策几乎都没什么风险，也易于自动化。这些决定都是在现场，在工作流当中做出的，因此决策过程中发生协作的可能性很小。在IDC 决策管理框架中，运营决策介于两者之间。

每个决策类型相关的人群也不同。运营决策是由业务分析师或定量分析师跟管理层一起做的，战略决策是高管做的，战术决策是一线员工或自动化系统、应用程序或机器做的。某一级决策的输出会变成下一级决策的输入。除了要考虑人员、资金和业务流程之外，理解组织的决策需求是迈向创建业务分析战略的重要一步，而业务分析战略是考虑所有相关技术的根本。

最后，不同的决策类型和决策者可能会要求不同的数据和数据技术支持。这些技术包括数据收集、数据监测、数据管理、数据分析和数据传播等。战术决策通常都是基于对实时数据流的监测，所采取的行动也是遵照预先定义好的规则。运营决策可能需要对海量的多种结构数据进行深入分析。战略决策可能需要对即时系统根据情景所作出的响应进行快速评估，以便能够改善风险管理。

满足所有决策者的需求是一项艰巨的任务，不可能仅凭一种技术或一个项目就可以完成。

大数据的挑战

决定哪些数据相关是个难题。

2012年初IDC发起的一项调查表明，被提到最多的困难是决定哪些数据相关。IT和业务部门都声称他们需要重新评估组织内部为支持决策过程所评测的数据。很多组织都在重新思考如何分析现有数据和新的数据源，以改变或改善决策支持、决策自动化和绩效管理流程。量化的思想或许会对解决这个难题有所帮助。

此外，技术基础设施的成本，缺乏合适的分析人员和IT人员，缺乏业务支持，或理解不了大数据所能带来的好处，这些挑战都在阻碍着他们抓住智能时代带来的机遇。

这些挑战表明许多大数据应用都缺乏公认的最佳实践。你有数据可以收集、分析，并按分析结果所做的决策采取行动。然而能否实现目标却取决于：

组织是否具备确定新指标的能力；组织雇佣的员工是否有称职的分析技能、信息管理和系统管理技能；组织的文化是否由分析驱动，能把分析结果当做可信的输入来做出决策；组织是否有合适的技术可用。大数据对技术的需求什么是大数据

IDC对大数据技术的定义：为了能用经济有效的办法从各式各样的海量数据里提炼价值而开发出来的新技术，包括硬件、软件，和服务。它们能高速地完成数据捕获，发现和分析任务，对符合“4V”特性的数据进行整合、组织、管理、分析和呈现。

4V指数据量（volume）, 数据种类（variety）,数据产生和处理的速度（ velocity）, 数据的价值（value）

数据量：大小并不是特别重要

尽管大数据里的“大”暗指数据的量大，但我们必须明白“大”是一个相对的概念。某些行业和组织可能连GB或TB的数据都很少见，而社交网站的数据则动辄就达到了PB或EB的级别。不管怎样，那些看起来不大的应用程序进行信息处理和分析的紧张复杂程度可能完全符合我们对大数据应用的定义。金融服务业就能很好地说明这个问题。在某些大数据处理活动中，所涉及的记录数可能有上百万甚至上亿行，但每条记录的长度可能只有几个字节（比如股票行情信息）。相反，email归档累计起来可能有几个PB的数据，其中包含着高端客户的建议或抱怨，项目的记录，法务记录，合同和提案等各种数据。邮件归档通常能最准确地反映出未决的及当前的业务状况，但只有经过排序和挖掘之后，才能发现其中的价值。产品设计制造也是这样，比如在汽车和航空公司里，要对成百上千个虚拟原型进行评估，以便找出最佳的车辆(飞行器)设计。还有大型科学实验，每天要产生PB级的混合数据，作为复杂的模拟数据输入计算模型中。

数据种类：重要的是数据源和数据格式

多样性是大数据的关键属性。是否从多种数据源对多种格式的数据进行整合，是判断一个应用程序能否被称为大数据应用的决定性条件。

大数据应用通常都会从多个数据源（既有内部数据源，也有外部数据源）抽取类型不同的数据（结构化、半结构化和非结构化）。无论从技术上，还是从潜在影响来看，这都是大数据中很重要的一个方面。对不同类型的信息进行组合是一个复杂的技术难题：一条客户记录跟一条微博哪个比较重要？怎么才能把大量不断变化的病人记录跟公开发表的医疗研究报告和基因组数据结合起来，以便为某个病人找出最佳治疗方案？

把来自于ERP系统的内部运营数据，来自于web日志文件的半结构化数据（识别客户在线行为），以及来自客户评论的非结构化文本情感分析数据混搭在一起就是这种情况。先进的天气/气候模型也属于这种情况，借鉴100多年的天气数据和新的海水行为物理模型，CO水平变化，结合卫星数据进行实时天气状况模拟。

速度：信息到达、分析和交付的速度

组织内部有各种不同的系统，数据移动的速度可以分为批量整合定期加载和实时数据流两种。传统的数据仓库，也是现在使用Hadoop的主流数据处理方法用的就是批量整合、定期加载。而采用实时数据流的技术领域一般包括复杂事件处理（ECP），规则引擎，文本分析和搜索，推理，机器学习和基于事件的架构。

评估大数据速度需求的关键是搞懂业务流程和最终用户的需求。比如说，对于应急响应组织或证券交易公司而言，每一秒（甚至毫秒）产生的数据都很宝贵。还有机场，为了在罪犯进入机场时就能发现，需要进行实时的面部识别。然而作为MapReduce和Hadoop发祥地的搜索引擎，为确定算法的准确性或广告的匹配度时而对十几亿的查询数据进行处理和挖掘时，并不需要实时分析。换句话说，用恰当的时间获取准确度合适的恰当信息才是我们所需要的。

不同的用例适用的技术架构也不同。在架构界流传着一句老话，“只要扔进去足够多的硬件，任何问题都能解决”。业界已经为解决特定问题搭建过大型超级计算机和大规模集群了，这句话的正确性毋庸置疑。

然而现在需要用专门的硬件来满足的高性能需求越来越少了。高可用集群，可扩展的文件系统，多CPU，多核处理器的出现意味着利用现成的商业组件进行组合就能轻松满足性能要求。现在社会化应用甚至大多选择部署在云服务上，根本就不专门考虑硬件。

价值：资金，运营，业务优势一个都不能少

在大数据里谈到价值，既指使用大数据所需技术成本的降低，也指使用大数据创造的价值。成本是大数据问题在智能时代得以解决的决定性因素。在金融服务，电信，零售，研发和政府组织中的大型数据仓库已经存在好多年了。在交易、天气监测或欺诈检测应用里的实时数据管理也存在好多年了。以文本挖掘的形式出现的非结构化内容分析也存在好多年了。用于科学研究的高性能计算系统也存在好多年了。然而自从进入智能时代，那些曾经只有政府机构或某些行业少数几个大公司才负担得起的系统，现在也摆上了“寻常百姓家”的餐桌。更多可用软件的出现和不断降价的硬件，让更多的组织可以在预算中hold住这些大数据技术。

从大数据项目中得到的好处大致可以分为：

资金成本降低：软硬件和其它基础设施的成本降低了运营效率提高：由于数据整合、管理、分析和交付的方法更加高效，人力成本也降低了业务流程改进 : 因为采用新办法（或更好的办法）来开展业务，包括商业交易的改善，社区的可持续管理，社会资源、医疗保健和教育服务的恰当分配，使回报或者说利润得到了增长。

大数据所代表的并不是企业范围内单一、同质的需求。然而大多数人并没有认识到这一点，普遍的看法是只有那些要用Hadoop处理的海量数据才是大数据。比如在IDC得到的调查反馈报告中，40％的受访者认为大数据是指海量数据，26％认为是指各种各样的数据，24％认为是指实时流数据，10％认为它是指高性能计算。

对大数据的误解

大数据技术所呈现出来的机遇持续增长，越来越大。改善现有业务流程和大数据技术有关，推出新业务和大数据技术有关，改变跟客户的交互方式跟大数据技术有关，为了支持范围更加广泛的决策过程，要对为什么分析数据，以及怎么分析数据进行重新评估，这还和大数据技术有关。

哪里有需求，哪里就有市场。大数据解决方案的市场雏形刚具，各路英雄豪杰各显其能，打破了头也想要挤上这趟车，场面一片混乱。对于什么是大数据，以及大数据技术能干什么，无论用户还是供应商，都有诸多误解。

大数据分析就是用最新开发出来的技术做些新颖的，不同以往的事情。大数据就是做些新东西的思想是错的。大数据的概念已经出现几年了。真正发生变化的，是现在的经济条件允许我们使用大数据了，是我们现在有能力用计算机辅助发现那些从各种数据源汇聚而成的超大数据集之间的关系了，是我们已经意识到，如果能用正确的工具在正确的时间向正确的决策者提供正确的信息，量化分析是可以形成竞争优势的。大数据技术就是跟Hadoop环境（广义上说是MapReduce环境）有关的技术，和工作负载或应用无关。我们产生这种误解的原因可能是因为觉得关系型数据库不能扩展到超大规模数据容量上，所以不能算大数据技术，或者说范式化的DBMS已经过时了，范式数据库只是大数据部署中的数据源之一。另外一种常见的误解是大数据是一种技术，比如Hadoop，能满足所有的大数据处理需求。而事实是完成这项任务的技术必须经过精挑细选。就像没有一把钥匙能开所有的锁，没有哪种大数据技术可以满足所有的大数据需求。尽管NoSQL数据库在大数据应用中越来越流行，关系型数据库也仍然在发挥着重要作用。尽管Hadoop在市场上越来越受青睐，但它既不是数据管理的唯一之选，也不是仅有MapReduce的实现。大数据仅仅跟超大量的数据有关，引申来说，主要是跟数据有关。大数据集肯定是大数据市场趋势的关键部分。实际上，40%的组织认为大数据就是超大量的数据。但它还有其他特性，比如实时或流数据、类型或格式繁多的数据。有些大数据技术针对的是三种特性的其中之一，有些针对其中两个或全部三个特性。大数据就是数据挖掘的时髦叫法。数据挖掘是指可以用来分析大数据集的一组分析技术。其中的一些技术已经用了几个世纪了；也有一些是最近才出现的。然而，大数据，按照IDC和大多数市场观察和参与者的定义，是个范围更广泛的主题，包括数据收集，数据管理和组织，数据分析，信息访问以及运营负载，还有用到一些新的和已有的大数据技术的应用。大数据是个挑战。可能现在对大数据最严重的误解就是只要采用了大数据技术，就能解决业务问题，就能增加收入，降低成本，还能吸引客户。把大量数据保存下来，不管是在关系型数据库中还是在Hadoop集群中，都不是最终的目的。搭上就好的技术部署方式从来就没有成功过，在大数据这儿也不灵。分析数据也不是最终目的。到不了决策者手里，或被决策者忽略的分析结果非常多，其中不乏由鼎鼎大名的数据科学家做出来的伟大的、有见地的，并且及时的分析，还有些分析因为没考虑到人类在交互过程中的行为变化而适得其反。最近就有个非常有名的例子，一家大型零售商为确定客户群开发了一套非常精确的分值预测系统，但在向选定客户进行营销时却失败了，因为它对受众对个人隐私保护的敏感程度考虑的不够充分。

理解这些误解非常重要，不然你很可能会陷入毫无意义的技术对比优劣之争。实际上，对于大多数有一定规模的组织来说，为了对工作负载和应用进行改善，需要多种大数据技术共存。

大数据技术

根据所处理数据的不同，IDC认为大数据技术可以分为两类：处理运动中的大数据，处理空闲期的大数据。

运动中的大数据

运动的大数据是指快速流动的大量数据，这些数据一经收到就要马上处理。这样的数据包括股票交易数据，智能电表数据，实时库存管理系统中的RFID数据等等。与数据相关的操作可以分为三类。

对于运动中的大数据，在收到之后会对它们进行过滤，并做正规化处理（变成统一的或可读的格式）。这通常是由接收程序完成的。系统会决定是否需要进行响应。这可能会牵涉到一个复杂的事件处理引擎，得到新数据，根据保留的数据（包括来自数据流的缓存数据和保存在快速存储【一般是内存】数据库中的数据）应用新的数据，并确定发生的是否为已定义的事件。如果发生的是已定义的事件，CEP引擎会触发一个动作，也就是程序对该事件的响应。

运动中的大数据对技术的要求是数据接收，格式化和响应的速度能跟上数据到达的速度。相关的技术包括智能高速数据迁移和转换技术，内存数据库和CEP技术。

空闲期的大数据

目前所讨论的大数据大部分是指空闲期的大数据，处于空闲期的大数据包括“机构化”和“非结构化”的数据。后来，很多专家对这些术语提出了异议，指出我们所说的“非结构化”数据实际上也有结构，只是它们的结构不是由范式或程序代码确定的。要处理这个问题，我们可以考虑下表中的分类：

对于空闲期的大数据，相应的技术应该具备尽快采集数据的能力，整理和转换数据的能力，分析数据的能力，还有将数据置于待处理状态的能力，从而可以对它们进行有意义的搜索、挖掘、探索、查询，和产生报告。

NoSQL和SQL数据库技术在大数据中都有重要作用。NoSQL数据库非常善于支持大数据的“多样性”，能够接受来自多种数据源的多种格式的数据，然后程序代码可以对这些数据进行筛选，过滤，和组织。很多Hadoop程序都是这么干的。SQL数据库非常善于处理大量结构一致的数据，可以在这样的数据上产生常规报告、挖掘和重复进行分析。

具备动态扩展能力的RDBMS能处理非常大的数据库，而且作为大数据SQL DBMS能快速处理这种数据库请求。

NoSQL是另一回事。这个随处可见的词实际上是很多种DBMS的统称，每种DBMS都有特殊的用途，而且多种数据库可能会一起出现在同一系统中，作为大数据操作流的有效组成部分。如下表所示：

大数据应用

大数据解决方案的使用范围非常广泛。目前市面上能见到的基本如下图所示：

我们可以从活动、业务流程和行业三个维度来对这些用例进行评估。

活动

并不是所有使用大数据技术的应用都是为了分析数据。有一些是为了部署社交网站或游戏应用，还有一些是为了存储大型内容，提供海量文档的信息访问。

分析（比如数据挖掘，多维分析，数据可视化）运营（比如运行网站，处理在线订单）信息访问（比如基于搜索的信息访问，规范化，以及跨内容和数据源的访问）

业务流程

大数据技术被部署在商业组织、非盈利组织和政府组织内部以支持他们的工作流程。组织所面临的问题和困难不是大数据挑战，而是受大数据影响的业务或组织问题。部署大数据技术的业务流程有：

客户关系管理（销售，营销，客服等）供应链和运营管理（集中在财务及会计，人力资源，法务等方面）研发信息技术管理风险管理行业

除了财务、营销和信息技术管理这样跨行业的业务流程，还有多种特定行业的应用。这样的例子包括：

运输行业中的物流优化零售行业的价格优化媒体和娱乐行业的知识产权管理石油和天然气行业的自然资源勘探制造业的质保期管理当地执法部门的预防犯罪和调查保险行业的预测性损失评估银行业的欺诈检测医疗保健行业的病人治疗和欺诈检测

面对如此广阔的市场前景，提供大数据技术解决方案的供应商既有小型的专业化公司，也有产品线丰富，生态系统完备的大型公司。SAP属于后者。

这篇文字的主要内容译自IDC的白皮书， Carl W. Olofson和Dan Vesset 发表于2012年8月的《Big Data: Trends, Strategies, and SAP Technology》

看过还想看

可能还想看

热点推荐