banner

为什么大数据至关重要?

作者: 大数据观察来源: 大数据观察时间:2017-07-27 12:31:530

术语大数据可通过许多不同的方式来解释,这正是我们在第1章中将大数据定义为具有数量、速度和种类(V3) 属性特征的原因。注意,大数据解决方案无法取代您现有的仓库解决方案,而且根据我们的经验,任何建议这种取代的供应商可能都没有全面的经验策略或理解您在传统信息管理方面的投资。在列出一些有关何时使用大数据技术的考虑因素之前,我们认为本节最好首先给出我们希望您记住的两条重要的大数据原则,也就是:

大数据解决方案是分析来自各种不同来源的原始结构化数据、半结构化和非结构化数据的理想选择。• 需要分析所有或大部分数据而不只是一个数据抽样时,或者对一个数据抽样执行分析没有对更大的数据集进行分析更有效时,大数据解决方案是理想的选择。• 大数据解决方案是在未预先确定数据的业务度量指标时,执行迭代式和探索式分析的理想选择。谈到使用大数据技术解决信息管理挑战,我们建议您考虑以下问题:• 传统分析模式的反向模式是否适合您遇到的业务任务?换句话说,您能否找到一个大数据平台可为您当前的分析工具提供补充并实现与现有解决方案的协调一致,以实现更好的业务成果?例如,通常放在分析仓库中的数据必须经过清理、记录并且值得信赖,才能规范地放在严格的仓库模式中(当然,如果无法用传统的行和列格式存储它,它在大部分情况下甚至无法放在仓库中)。相反,大数据解决方案不仅会利用通常不适合传统仓库环境且数量庞大的数据,而且它将放弃数据的一些形式和“严格性”。好处是您可保留数据的真实性并能够访问海量的信息,在对信息采取您熟悉的适当行动之前探索和发现业务洞察;该数据可包含在一个循环的系统中,以充实仓库中的模型。•对于不能使用传统关系型数据库方法处理手头问题的方式来解决的信息挑战,大数据非常适合。您一定要认识到传统数据库技术是整体分析解决方案中一个重要且相关的部分。事实上,它们在与您的大数据平台结合使用时会变得更加重要。

为什么大数据至关重要?

17此处一个不错的类比就是您的左手和右手;每只手对于手头的任务具有各自的优势并进行了优化。例如,如果您打过棒球,您就知道一只手更擅长抛球,另一只手更擅长接球。就像这样一种情形,每只手可以尝试执行它天生不适合的任务,但会非常笨拙(试一下,录制下您尝试的视频,您就会明白我们的意思)。而且,您不会看到棒球运动员使用一只手接球,停下来,丢掉他们的手套,然后使用同一只手抛球。棒球运动员的左手和右手会协同实现最佳的结果。这是传统数据库和大数据技术的一个简单类比:没有这两个重要实体的协同工作,您的信息平台不会得到进一步发展,因为就像您协调双手来抛接棒球一样,一个团结一致的分析生态系统才能实现最佳的结果。有些类型的问题不是本来就属于传统数据库的,至少在最初不是。而且我们不确定我们是否希望将一些数据放在仓库中,因为可能我们不知道它是否拥有较高的价值、它是否是非结构化的,或者它是否太庞大了。在许多情形下,我们在投入精力和金钱来将数据放在仓库之后,才能发现数据每字节的价值;但我们希望在投资之前确保该数据值得保存并拥有较高的每字节价值。

用于IT 部门的IT 日志分析

日志分析是所创立的大数据项目的一个常见用例。我们喜欢将IT 解决方案操作所生成的所有日志和跟踪数据称为数据废气(data exhaust)。企业拥有大量数据废气,如果仅在紧急情况下存在一两个小时或一两天,然后就被简单地清除,那么它几乎就是污染物。

为什么?因为我们认为数据废气具有浓缩的价值,IT 部门需要找到一种方式来存储它并从中提取价值。一些来自数据废气的价值显而易见,并已转换为能够记录网站操作(如每个手势、单击和移动)的增值点击流数据。一些数据废气的价值不那么明显。在多伦多(加拿大安大略湖)的DB2 开发实验室,工程师使用BigInsights 执行性能优化分析,获得了极高的价值。例如,考虑一个大型、集群化的、基于事务的数据库系统,尝试主动找到跨不同服务器的关联活动中何处可能稍加优化。从大量的跨服务器堆栈跟踪日志中寻找性能优化点犹如大海捞针。尝试找到每个核心堆栈跟踪信息的数十GB 数据之间的关联,这确实是一项艰巨的任务,但大数据平台可以帮助您识别以前未报告的性能优化调试区域。简言之,IT 部门需要可自由使用的日志,但如今他们无法以经济高效的方式存储足够的日志并分析它们,所以日志通常仅在紧急情况下保留并尽快丢弃。IT 部门在日志中保留大量数据的另一个目的是查找少见的问题。最常见的问题常常已知并很容易处理,但“偶尔”发生的问题通常更加难以诊断和防止再次发生。

我们认为IT 部门渴望(或应该渴望)日志长期保存。我们还认为业务和IT 部门都知道这些日志中存在价值,因此我们也看到各个业务部门都会对日志进行复制,但最终却漫无目的地保留,并形成了许多在团队之间差别巨大的非标准(或重复性)分析系统。这不仅会产生很高的费用(需要存储更多的聚合数据——通常在昂贵的系统中),而且因为只有一些数据片段可用,所以根据这些保留时期和视图极其有限的信息来确定整体趋势和问题几乎是不可能的。

如今这些日志历史可以保留,但在大部分情况下,一次仅保留几天或几星期,因为传统系统难以存储如此巨大的数据,这无疑会让您无法根据这些有限保留时期的数据来确定趋势和问题。但除了它的大容量性质,日志分析是一个大数据问题还有更多原因。这些日志是半结构化和原始的,所以它们并不总是适合传统数据库处理。此外,由于硬件和软件升级,日志格式在不断变化,所以它们不能禁锢在严格、僵硬的分析模式中。最后,您不仅需要对长期存在的日志执行分析来确定趋势和模式、查明故障,还需要确保分析是对所有数据执行的。日志分析实际上是IBM 在与众多公司(包括一些大型的金融服务领域(FSS) 公司)合作之后建立的一种模式。从那以来,我们已在许多客户中看到此用例。出于此原因,我们将此模式称为用于IT 的IT。如果您可以联系起来,我们就无需再说什么了。如果您不熟悉此使用模式,可能会想谁对这种用于IT 的IT大数据解决方案感兴趣,您应该知道这是一家组织内的内部用例。例如,非IT 的企业常常希望以一种服务部门的形式向他们提供此数据。用于IT 的IT方案非常适合具有较大数据中心的组织,尤其是它相对比较复杂时。例如,具有大量移动部件的面向服务的架构(SOA) 应用、连锁的数据中心等都存在着本节列出的相同问题。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限