大数据分析，利用向外扩展技术深入挖掘商业价值

作者: 大数据观察来源: 大数据观察时间:2017-02-17 10:46:040

导语：大数据分析技术的价值在企业领域已经非常明确。充分利用良好信息的能力一直是摆在IT部门面前的重要难题与挑战。现在我们已经拥有了足以解决这一难题的工具，接下来要做的就是想办法使其为自己服务了。

方方面面的发展改进已经让从半结构化数据中获取有价值信息成为可能。以Hadoop为代表的新型解决方案在构建层面就充分考虑到了要如何适应跨商用服务器集群的分布式运行环境。

大数据：以需求为导向的审视角度

新型分析工具与极大丰富的处理能力为我们敞开了一道大门，如今企业已经能够借此对庞大的业务及外部数据加以审视并获取有价值结论。

从数据池当中挖掘有价值信息，从而实现知识提升的能力早已不算什么新鲜事。事实上，早在一个多世纪以前，这样的处理方式就已经成为科学与商务领域的支柱性机制——其诞生时间甚至远早于计算机、数据库以及其它主流技术成果。

举例来说，来自伦敦的医师John Snow曾在1854年记录下霍乱疫情在伦敦苏活区的具体病例爆发位置。他根据这些数据所绘制的疫情分布图帮助医护人员建立起霍乱与水源之间的病理性联系，并确定宽待的一处公共水泵正是此次疾病的源头。政府方面立即依数据指引采取了行动，从拆除该水泵开始一步步控制住了疾病的继续蔓延。

Snow在十九世纪的研究成果可能被普遍视为“小数据”分析的胜利。当然，时至今日，万众瞩目的焦点其实是“大数据”，这一新兴词汇指的是两类数量庞大的数据集合——其一为由传统数据库负责打理的结构化数据，其二则是以日志文件、位置数据、社交媒体内容以及富媒体信息为代表的半结构化数据。

Gartner公司对大数据进行了更为准确的规范性定义，大家可以将其概括为“3V”概念，即：“高容量（volume）、高速率（velocity）以及/或者多类别（variety）信息，需要通过新型处理机制才能借此对决策制定、结论发现以及处理优化起到辅助作用。”在这里，“速率”指的是数据会以极高节奏进行内容更新，而“类别”则代表大数据会显示出多种格式及结构层级。

大数据时代的救世主：向外扩展计算

最终，大数据已经成为IT部门不可忽视的一类沉重负担——其数据存储规模开始成倍扩大。如果不解决这一首要难题，企业根本无法从中提取到具备指导意义的实际价值。

大约十年之前，对如此规模的庞大数量集合、特别是半结构化数据进行分析处理简直可以说是痴人说梦——即使是财力最为雄厚的企业也无从下手。能够保存、整理并分析这类数据的工具根本不存在; 换言之，即使真实存在，其高昂的购买、部署与维护成本也会令企业望而却步。

不过时至今日，方方面面的发展改进已经让从半结构化数据中获取有价值信息成为可能。以Hadoop为代表的新型解决方案在构建层面就充分考虑到了要如何适应跨商用服务器集群的分布式运行环境。包括MongoDB、Cassandra、Couchbase、Neo4j在内的多种开源NoSQL数据库带来了类似于规模经济的扩展机制：要添加更多计算与存储容量，用户只需在整套架构当中纳入新的商用服务器即可——该架构能够在面临个别节点故障的情况下保证数据不致丢失。

大数据解决方案既能够运行在内部环境当中，又可以栖身在公有云平台之上——后者也正是众多大数据解决方案的主要指向目标。像Amazon EC2（全称为弹性计算云，即Elastic Compute Cloud）这样的商业云能够根据实际需求提供成千上万颗处理器计算核心以及几乎不设上限的数据存储容量。目前，只需一套网络浏览器、一根网线外加一张个人信用卡，每位用户都能以每小时1.70美元的实惠价格享受到具备32个虚拟CPU、60GB内存以及600GB存储容量的云基础设施服务。

向外扩展计算允许数据科学家们通过分而治之的方式处理大数据计算难题，这种分布式处理几乎能够在瞬间从庞大的数据集中返回对应结果。与此同时，先进的分析与数据可视化技术则让庞大而复杂的数据集变得易于理解，足以供不同领域的专家据此探寻更深层次的趋势与规律。

大数据技术的市场规模近年来呈现出陡峭的上升曲线。根据IDC公布的2014预测报告显示，大数据技术与服务市场将保持26%的年复合增长率、并于2018年达到415亿美元的整体估值——这一速度基本相当于信息技术整体市场增幅的六倍。A.T.Kearney公司则预计，全球市场在大数据硬件、软件以及服务领域所投入的开销截至2018年将始终保持30%的年复合增长率。而到2018年，大数据服务与技术的整体市场规模将达到1140亿美元。根据Wikkbon的统计，2014年大数据市场总体价值为285亿美元，而这一数字在2015年将增长至501亿美元。

商业案例：老数据中蕴藏新机遇

大数据给企业业务带来的助益可以说显而易见。一方面，企业能够从数据中获取到原本只能经由应用程序服务器或者（时间更久远的）备份磁带乃至文件柜提供的重要信息。最直观的例子就是网站点击流数据、系统事件日志以及其它一些重要记录。这些数据随后即可被全新的垂直应用程序体系所使用。

配合适当的数据可视化工具之后，大数据就能够帮助各个领域的专业人士与有价值信息建立起更为直观的联系，并从中获取到分析师们有可能忽略的重要模式。

不夸张地说，大数据所蕴藏的力量将只受到我们想象力的约束。下面举几个实例：

• 零售商已经开始应用这项新技术

举例来说，苹果的iBeacon会对客户的活动轨迹进行追踪，而且追踪对象并非哪些客户进入了直营店、而是这些客户在经过店内各检测位置时正在做什么。其中包括他们在哪些产品或者演示内容前驻足，具体驻足时间有多长等等。将这些数据整理起来，再结合他们最终所购买的产品，苹果就能发现如何更加有效地对直营店组织以及产品的标注与销售作出改革。

• 快捷脚本

快捷脚本每年能够帮助医生开具14亿份处方。它会利用来自医生办公室、药店、医院以及实验室的数据分析结果来诊断哪些病患有可能拒绝服药或者不同药品之间可能产生的副作用。

• 航班信息收集

在2013年进行的一次试点活动中，通用电气公司对来自25条不同航线的15000次航班进行了完整的飞行信息收集，每次飞行产生的各项指标数据高达14GB。通用电气最终将这些TB级别的飞行数据集整理起来，从而实现高达十倍的成本节约效果。到2015年，通用电气计划每年对100万次航班进行监控，其完整飞行操作数据总量将达到1500TB。

数据分析机制的应用已经相当高效且演变速度极快，这甚至让FTC（即美国联邦贸易委员会）被迫向部分企业发出警告、称大数据分析技术有可能给某些实施目标带来公平性违反或导致特定群体受到损害。他们还特别强调了原本一直被认为是安全无害的某些常见数据，例如电费单、点击流数据、信用卡交易信息甚至是收费站记录——这些如今都能够在大数据分析的处理下得出新型结论，且极有可能令隐私受到侵犯。

向云敞开怀抱

目前大数据领域最令人兴奋的要素就是找寻那些与业务紧密相关、但却一直未被划入收集范畴或者受到保存的数据源。从简单层面讲，这可能需要大家将现有销售趋势与关键性经济数据进行混合——或者采用时下最为流行的方式，在社区网络站点上获取与趋势性议题相关的数据。这样的处理机制让个人隐私关注者们变得非常紧张。由外部数据供应商所提供的数据可能会描绘出细致程度惊人的隐私信息详情。

随着云计算变得愈发流行，能够与数据分析机制相对接的可用数据源的数量也呈现出爆发式增长。其中包括对社交媒体数据、财务数据以及医疗数据的挖掘能力，这些数据通常都由经过充分定义的API加以访问，并能够通过互联网进行交付。尽管本身并不具备什么实际价值，但这类数据往往会在与其它时间序列型数据结合后带来极具意义的关键性信息。举例来说，我们可以通过对个人完整履历的深入分析来推断此人在未来几年中犯罪入狱的可能性，预测某款新型产品线到底是疯狂大卖还是无人问津，甚至检测到某人或某个群体所携带的未确诊健康问题将给人寿保险赔付成本带来的显著影响。

各供应商现在开始专门在企业商务智能体系内提供这种按需数据服务，其中包括以谷歌及AWS为代表的大型IaaS以及PaaS云计算供应商。甚至政府机构也着手提供按需数据，正如世界各地不断涌现的数据供应商根据需求为企业用户提供关键性商务智能服务支持一样。事实上，经营大数据分析服务的数据供应商群体的不断扩大也反映出商务智能专家以及企业股东对于大数据分析中所蕴含潜在价值的肯定。

换句话来说，大数据分析并不属于利基业务。它实际是一块复杂的区域，在这里用户可以从大量平台当中作出选择，而每种平台都拥有着自己的优势与不足。事实上，大多数企业用户在现有传统数据库之外，最终都会同时使用多种不同类型及品牌的新型数据库方案。

最后，如今我们也拥有了能够实现这一系列分析任务的能力。越来越多的自动化系统足以将大数据分析与业务流程结合在一起，从而允许运营系统以近实时方式对多种阈值设定作出响应。技术业界将这种机制称为嵌入式分析，其中可能还引入了可编程、针对性配置方案或者足以支持此类服务的相关工具等。这些技术方案在业务环境下的作用实例包括分析实时交付的各项指标、将订单路由至拥有更出色追踪记录的供应商或者利用已知的关键性预测数据整理出销售趋势展望、并借此以自动化方式制定生产计划。

平台数量增长

Hadoop可以说是目前处理大规模结构化与非结构数据的首选平台。该技术方案采用分布式处理框架与开发环境，通常来讲只有借助特定的应用程序开发技能才能对其加以高效利用。

数据处理流程与大数据分析即服务的崛起同样起到了巨大而深远的颠覆性作用。Amazon目前将其Kineses平台作为数据处理流程方案，而谷歌则将数据处理流程引入了其BigQuery——也就是该公司打造的基于云的大数据产品。利用这种数据处理流技术，开发人员能够每秒发送高达10万行实时数据，并以近实时方式对这些数据加以分析。这种能力对于那些要求使用实时信息的商务智能应用程序来说显然至关重要。

现在最大的问题在于，专用型大数据分析工具到底能否在已经具备商务分析基础设施的企业当中确切起效。很多企业已经制定了数据仓储策略，而新型大数据解决方案则公然对其业已部署的传统机制发起挑衅。与此同时，向新型数据分析基础设施转移意味着我们将面临大量设计与实施方面的挑战，其中包括数据整合、数据安保、数据治理、数据可视化以及解决数据复杂性等等。

商务智能不断膨胀

传统商务智能的设计思路在于对结构化数据加以分析，从而提取出具备实用性的结论性信息。然而由于相关数据集往往太过陈旧或者规模有限，因此分析得出的结论也经常存在局限性。此外，结构化数据仅仅是企业掌握的业务数据中的一小部分。不少分析人士估计，结构化数据在企业整体数据总量中的占比恐怕只有5%左右。

大数据技术的兴起让商务智能迎来了一系列关键性发展趋势，相关方案包括以下几种能力：

同时利用结构化与非结构化数据，并将数据汇聚成单一的信息逻辑集、进而加以可视化处理。在分析时引导结构变化，因此能够通过对结构化或者非结构化物理数据的底层结构进行去耦来实现灵活性。利用现有或者近实时数据，允许关键性应用程序、业务流程以及相关人员查看到每分钟进行更新的当前数据。在云环境下访问来自外部的数据源，因此能够让商务智能分析工具获取到企业之外的数据、进而实现数据分析流程的强化或者改进。

甚至政府机构也着手提供按需数据，正如世界各地不断涌现的数据供应商根据需求为企业用户提供关键性商务智能服务支持一样。

将数据分析与业务流程及应用程序加以绑定，从而允许三者以无需人为干预的自动化方式实现问题处理。

大数据分析能够通过将规模庞大且在复杂程度、格式以及时间线方面有所不同的数据整合成单一的结构化输出结果，从而实现更出色的分析效果。大数据分析机制可以把文本、语音、流数据以及非结构化数据分析结合成统一结构，进而帮助企业通过动态分析模式从相关信息中获取到不同角度的审视结论。这些模式能够获取一切适用于分析机制的数据形式，其中包括多维、单维、面向对象以及实时流程等等。

请大家记住，最为通行的趋势在于最大程度汇聚结构化与非结构化数据。其中非结构化数据可能来自多种数据源类型，包括：

网络页面视频与音频文件文档来自设备或者其它数据库的流数据

商务智能工具仍然在不断演变，旨在进一步提升对大数据分析任务的支持能力。它们能够提供更出色的数据可视化处理功能，从而对近实时信息以及类型更为广泛的结构化与非结构化数据加以利用。简单来说，只要数据本身拥有任何一种形式的电子格式，我们就有机会对其加以分析。

大数据分析机制可以把文本、语音、流数据以及非结构化数据分析结合成统一结构，进而帮助企业通过动态分析模式从相关信息中获取到不同角度的审视结论。

更多数据源，更多可能性

大数据分析所面临的关键性挑战在于，规模日益庞大的数据源本身可能并不具备固有结构。我们将这些数据源汇聚至一套较为模糊且专为数据查询所打造的结构周边，而后将整体结构交付至数据分析API、服务或者商务智能工具，由后者负责处理数据可视化或者其它类型的交互式分析任务（详见图一）。

能够提供趋势性数据的社交媒体API或者服务以公共数据服务为代表的外部数据源传统非结构化数据，例如基于文本的早期数据库

那么这一切到底是如何运作的？首先，非结构化与结构化数据会被收集到一套文件系统当中。在这里，我们考虑使用一套Hadoop分布式文件系统（简称HDFS）。

从理论层面讲，HDFS的功能与其它大数据数据库技术方案并没有什么区别，不过我们可以在数据库内部利用多种不同机制对数据加以处理。或者，大家可能会发现自己的大数据架构内部使用多种数据库技术。总而言之，我们的具体需求决定了这一结构的实际状况。

为数据赋予意义

当利用Hadoop进行大数据分析时，包括结构化与非结构化两类数据，这套分析引擎能够在数秒之内即向商务智能工具返回处理结果。大家可以利用商务智能工具来分析可视化数据、在企业应用程序内部使用嵌入式分析机制或者利用数据分析API或服务分析业务流程。

在Hadoop当中，数据以块的形式被保存在Hadoop集群当中的不同节点内部（见图一）。这套文件系统会为这些数据块创建多套副本，并通过可靠的方式将其发布至整个集群、旨在实现理想的检索速度。数据块的大小可谓多种多样，但一般来说HDFS的典型数据块大小为128MB，且会被复制到集群内的多个节点之上。

我们人类用户只处理文件，这就意味着在其进入文件系统之前、相关内容往往并不属于严格意义上的结构化形式。接下来数据映射机制开始起效，通过对这些非结构化内容的处理为其定义出与内容相关的核心元数据。由于分析工具或者其它数据使用方可能会对元数据提出不同类型的要求，因此这些非结构化数据往往会被不断重复映射、从而调整至最理想的分析状态。

在某些情况下，我们还需要Hadoop Hive的协助。Hive是一套数据仓库系统，能够对保存在Hadoop集群当中的大型数据集进行数据汇总、临时性查询以及分析。Hive提供的机制允许我们根据数据进行结构规划，并利用一款名为HiveQL的类似于SQL的语言进行数据查询。其接口取决于大家的实际需求以及所使用商务智能工具的数据整合能力。

另一套选项则是Apache Pig。Pig是一款面向Hadoop的高层平台，用于创建MapReduce规划。它会对来自MapReduce引擎的规划方案进行抽象化处理。与Hive类似，Pig同样利用自己的独特语言与数据进行交互。

总体而言，当我们通过一款商务智能工具执行查询时，整个过程将分为以下步骤：

商务智能工具将与集群相对接，从而获取到对应的文件元数据信息。通常情况下，商务智能工具会直接处理已经存在于分析用例或者模型当中的数据结构（详见图二）。大家应该将这种结构视为底层结构化或者非结构化数据的一种抽象性表现形式。从这里开始，该系统将从数据存储节点中获取到真正的数据块并将其带回至自身结构当中。实际运作当中，相关物理以及逻辑节点的具体数量是随机的，这取决于该系统的实际要求以及架构设计方式。 MapReduce并行规模模式会从Hadoop集群当中收集数据。这套系统负责处理细节操作信息、管理跨多种可用服务器资源的流程载入机制。请求所指向的结果集会被返回至商务智能工具处，用于后续可视化处理或者其它处理方式，这通常与特定数据结构相关。商务智能工具能够将数据分层交付至定义模型，其中包括直接从结果集中将数据加载至维度模型以实现复杂分析处理、或者将其交付至图形表现流程。在重复上述流程时，这部分数据将迎来增量式更新。

运转中的结构

商务智能工具所使用的结构可以专门针对数据分析目的所创建。相关信息存在于文件系统集群当中，而元数据则根据用例所需要的支持方式被映射至对应内容。这就为用户带来了一类更具动态以及灵活特性的商务智能解决方案。

这是一类非常常见的场景，而大家所选择的商务智能工具当中可能包含多种不同类型的具体方案。很多商务智能工具使用的映射机制能够使数据拥有如存储在传统关系型数据库中的效果。此类工具还能发挥大数据技术的大量原生性功能优势，其中包括在对象利用等分析模型中以不同方式对结构化与非结构化数据加以处理的能力。

某些商务智能工具能够将经过总结或者汇聚的数据载入至一套临时性多维“立方（cube）”结构当中（详见图三）。这就允许分析人员以最具实用性的方式对来自大数据系统的信息进行可视化处理。

这种模式的差异之处在于，现在结构化与非结构化两类数据都能进行可视化处理。此外，新型与经过扩展的分析机制也能够借助这类可用性数据的交付而成为现实，例如：

报告或者描述性分析建模或者预测性分析集群化关联性分组

在大数据分析领域，最重要的一点在于新型思维方式正在不断兴起。如今数据已经可以由任何有意对其加以审视的人进行探索。我们的视野已经不再局限于有限的自有业务数据范畴，惟一束缚我们实现数据整理及编辑的因素就只有想象力这一项。除此之外，我们的分析模式，例如预测性模式，在数据完整性的不断提升之下足以提供更为理想的处理结果。

大数据可视化与分析用例

对于大数据的高度关注可以说贯穿于整个垂直业界当中，但专业知识与投资额度却呈现出广泛而且差异化显著的分散态势（详见图四）。教育、医疗以及交通行业在2012年成为最为积极的大数据技术受众。

到如今的2014年，我们的关注重点开始转向将数据交付给在业务流程中扮演操作角色的工作人员，或者利用数据在分析机制与应用程序或业务流程之间建立起直接关联。这意味着在正确的时间将正确的数据交给正确的使用者。对于大数据分析系统的构建者——通常采用我们之前所提到的各类技术方案——这意味着大家需要从原本企业领导者所关注的商务智能角度转向实际操作人员更为关注的功能性层面。

数据维度

商务智能工具利用大量分析模型与结构对大数据加以分析。在这种情况下，数据将被载入至一套多维临时性模型当中，并在这里以多种方式进行可视化处理。

您所在的企业是否已经在相关技术方案领域进行投资，旨在通过特殊设计

看过还想看

可能还想看

热点推荐