banner

管理到大数据的过渡

作者: 大数据观察来源: 大数据观察时间:2017-04-09 11:51:350

了解你的数据(仓库)

一般来说,存储和分析大数据要么在企业数据仓库(EDW)中,要么与它合作。整合大数据解决方案的所有部分将需要接口到数据仓库流程的每个部分。以下是数据仓库主要子系统的概要。随后,我们将讨论他们是如何受到大数据的影响,以及实施前如何规划。

数据的采集和收集

企业数据仓库(EDW)存储来自原始源系统。它们是典型的实时处理业务数据的系统。例如客户接口系统,如自动取款机(ATM)和银行出纳员, 在线订单输入、客户档案管理、会计系统,等等。

数据转换和移动

虽然大多数业务数据在其原来的形式是可用的,有一些却需要转换,或“清洗”。典型的例子包括无效的日期(如02-31-2013、99-99-9999、或空格), 缺失数据 (一个不存在的客户订单), 未知的数据 (当前开户帐号的关闭帐户日期)等。企业数据仓库(EDW)的转换流程处理源数据的清洗将它以可用的形式存储在数据库中。

这个子流程的另一部分是从源系统移动数据到企业数据仓库(EDW)。可能性包括文件传输、消息传递,甚至高速硬件链接。

数据暂存和设置主键

企业数据仓库中常见在一个暂存区域存储最初获取的数据, 通常是临时文件或DB2表。在加载到企业数据仓库(EDW)之前在那里进行数据积累和相互参照。

键控是一个流程, 企业数据仓库(EDW)中的实体被分配一个代理键。为什么不使用数据的自然键, 如账户号码或客户编号? 企业数据仓库(EDW)是来自多个业务系统的实体积累。为了跨系统比较,键必须有共同的属性。比如“帐号”,企业可能支持该数据的许多不同格式, 每个都有不同的数据类型和长度。指定一个代理键允许分析使用一个共同的键比较这些实体。

数据的访问和分析

有了企业数据仓库(EDW)中存储的数据,现在可以开始分析了。大多数IT企业为用户提供软件包执行详细的分析。有时被称为商业智能分析。一些软件包直接访问数据仓库数据, 而一些为局部分析提取数据的子集。

数据归档

最终数据仓库中的数据老化或变得无关紧要。从仓库中删除旧数据并存档。重要的是仓库人员与业务部门协调做分析, 确定归档数据可以是否简单地存储(比如,在磁带上), 或是否它必须保留,看法规和业务需要以后会重新加载。

大数据如何影响数据仓库

业务处理的大数据将涉及以下一种或多种:

●从数据源捕获大量数据

●数据高速到达存储

●半结构化或非结构化数据。

这就提出了一个有趣的问题: 如果还没有分析,你如何知道什么大数据要存储? 或者, 没有收集和存储,你怎么能分析大数据?

这个问题是大数据实现的重点。甚至涉及大数据分析的一个小测试或试验项目都要求数据必须是获取和存储的。为了在一个分析解决方案中确定的风险和投资回报,必须首先通过数据仓库的采集、清洗、分段和键控步骤处理大数据;否则,能够比较和加入到数据仓库是极其困难的。

下一步是确定每个进程在企业级数据仓库中是如何受影响的。

数据采集和收集

大数据通常就意味着:大量的数据。你必须为数据分配硬件、软件和存储媒介。包括应急存储数据, 直到它可以移动到数据仓库, 以防止由于硬件减速有延误。也要确定这些新资产和过程将如何影响你的灾难恢复计划。

最初的大数据实现将最有可能意味着绕过企业级数据仓库流程,就地在源大数据上测试你的新分析软件。任何方案的成功都应该考虑的是新的分析属于数据仓库的数据访问和分析过程的整合。

数据转换和移动

一些大数据的实施包括非结构化数据。像音频、图像和视频文件,文档图像、传真等等。(虽然从技术上讲,这数据是结构化的,这样它就可以听到或看到,大数据中语境下结构这个词意味着数据实体、属性和关系。换句话说, 存储在DB2表中的记录、字段和键。)

另一个选择是半结构化的数据,最常见的例子是一种可扩展标记语言(XML)流。很多业务应用程序使用XML作为数据的编码方法的常用格式。该数据可以读取、存储、和由多个应用程序处理。

当前版本的DB2允许在本地格式存储XML数据,不要任何预处理或解码进入DB2表。这个特性使得存储、检索和分析XML数据更加容易。

数据移动引出另一个问题。快速移动大量数据可能需要额外的资源,甚至特殊的软件。

数据分级和设置主键

分级大数据需要额外的硬件,软件,存储媒介。存储前为了执行任何转换或清洁,作为临时区域分级是必要的。此外, 数据仓库, 现在加上大数据, 随着时间而积累数据。这样的数据必然是由日期或时间为主键。人们也普遍在数据仓库获取业务数据, 并将它按日期分区存储在DB2表中。如果这些表中的数据以日期为主键,这些主键也必须被添加到大数据。

另一个问题是纯粹的数据量。为了帮助解决这一问题,多数大型数据分析解决方案都包括某种形式的数据压缩的或专有的数据存储机制。

数据访问和分析

最后我们将数据整合到数据仓库。此时,用户可以对合并后的大数据和当前数据仓库执行分析软件。这就是你最后感觉该实施是否值得投资的时候。

数据归档

最后我们考虑数据档案。随着大量的数据被分析,庞大数据量可能会占用宝贵的存储媒体并让一些流程运行缓慢。IT和业务合作伙伴必须决定旧的或失效的大数据如何以及何时需要归档,以及是否必须保留下来供以后使用。这是另一个要考虑的成本因素。

总结

分析大数据增加业务价值的概念听起来美妙。然而, 实现过程中有几个步骤,他们会影响企业数据仓库流程的方方面面。看看你的整个的企业级数据仓库流程、硬件和软件来确定您的实施将影响的每一个区域。只有这样,你才能准备好过渡到大数据。

还想了解更多的BI商业智能软件知识?那就快快加入我们的“绿色BI社区”,与我们共同学习成长!

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限