banner

技术精华:云中的大数据 解释大数据分析背后的基本概念

作者: 大数据观察来源: 大数据观察时间:2017-07-10 19:56:430

本文重点介绍使用大数据的应用程序,解释大数据分析背后的基本概念,以及如何将这些概念与商业智能 (BI) 应用程序和并行技术相结合,比如 “云扩展” 系列第 3 部分中介绍的计算机视觉 (CV) 和机器学习方法。

大数据分析与视频分析的区别在于所处理数据类型的广度上,而且与所使用的数据挖掘或 MapReduce 方法相比,所提供的交互式分析和搜索工具可能更加复杂,而且比 Google BigQuery 的运行时间长得多。例如,Google BigQuery 使用列式搜索来压缩和加速海量非结构化数据的交互式搜索。事实上,在 “An Inside Look at Google BigQuery”中,Google 解释说只需数十秒,BigQuery 即可在包含大约 350 亿行、20TB 的庞大日志表上执行正则表达式文本匹配。该工具的 MapReduce 功能的运行时间更长,但提供了复杂的数据精减。

任何拥有 Google 帐户的人都可使用 BigQuery。或者,要快速了解典型的大数据搜索,可下载我的照片并上传到 Google Images。您应获得所有包含我的图像的相同页面(来自 IBM、科罗拉多州大学博尔德分校等),包括至少一次错误肯定。我使用此示例主要是为了确保下载的图像拥有合适的照片信誉并授予了重用权限。与这里分析的其他示例一样,此示例展示了大数据的实质,那就是在一个非结构化的数据堆(实际上更可能是数百万个数据堆)中寻找一条有用信息。

定义大数据

大数据 的从广义上来说定义为采集、管理和分析超出典型结构化数据范围的数据,这些数据可通过关系数据库管理系统查询 — 查询来源常常是非结构化文件、数字视频、图像、传感器数据、日志文件,以及几乎未包含在具有明显可搜索字段的记录中的任何数据。从某种意义上说,非结构化数据是一种有趣的数据,但如果不与结构化数据相关联,则难以合成到 BI 中或从中得出结论。

大数据还拥有新的来源,比如机器生成的文件(日志文件或传感器网络)、移动设备(视频、照片和文本消息),以及机器到机器传输的数据,通过这种数据,物联网报告状态来进行车队或飞机群的维护规划,或一般遥测监视等。分析此数据的一种方式是分析数据量 的特征。IBM 估计,现在每天会创建 2.5 万兆 (quintillion) (2,500,000,000,000,000,000) 字节的数据。第二是速度,由于网络带宽增大(如今通常为 GB 级速率,比如 gigE、10G、40G、100G,而不是 MB 级速率),数据速率也在不断增长。第三是种类,现在包含更多非结构化数据类型,比如数字视频流和传感器数据,以及日志文件。最后是数据的真实性,或者在需要依赖这些高速收集的大量数据而制定关键决策时,对数据的信任程度有多高。知道数据实际上没有假冒,没有损坏或来自预期的来源并不容易 — 举例而言,数据可能来自数千个安全照相机中的一个,每个照相机每小时生成数千帧视频。所以,让我们列出一些大数据的关键方面、应用程序和系统,以便更好地理解它们。

大数据来自何处?

大数据的产生主要源于移动设备的进步,这些设备现在包含数字视频、照片、音频和高级的电子邮件及文本特性。用户收集的数据量比 10 年前多得多;同样,Google Translate 等新应用程序提供了大数据服务器特性 — 向移动设备说出或键入的短语的自然语言翻译。在 2013 年的全球技术展望中,IBM 认为大数据受移动优先战略的推动,而且通过数据量、种类、速度和真实性来描绘大数据。这些数据自然远远没有关系数据库记录那么结构化,但可与这些数据相关联。本文详细介绍大数据的构成。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限