免费试用
  • Languuage
banner
大数据平台>大数据分析>大数据的产生及分析方法

大数据的产生、特点及其数据分析方法

作者: admin来源: 未知时间:2017-07-12 18:50:320

大数据产生背景 

进入2012年以来大数据(Big Data)一词越来越多地被人们提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数据,它已经出现过在《纽约时报》、《华尔街时报》的专栏封面、进入过美国白宫网的新闻、现身在国内外一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国君证劵、国泰君安、银河证劵等写进了投资推荐报告。有人说21世纪是数据信息时代,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域,我们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么食物,几点出去遛弯,几点回窝睡觉。 

我们不得不接受这个现实,每个人从互联网进入到大数据时代,都将是透明性存在。各种数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。 

大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力 “大数据”提供了前所未有的空间与潜力。 

正如《纽约时报》2012 年 2 月的一篇专栏中所称,大数据时代已经降临,在商业、经济及其他领域中,各种决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。 

大数据的四大特点  

海量性:例如,IDC 最近的报告预测称,到2020 年,全球数据量将扩大50 倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1 PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。 

多样性:一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。 
高速性:高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据 IMS Research 关于数据创建速度的调查,据预测,到 2020 年全球将拥有 220 亿部互联网连接设备。 
易变性:大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。 
 
大数据三大特征 
第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求 。 
第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 
第三个特征是处理速度快、时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。 
 
大数据主要分析技术 
我们要想从急剧增长的数据资源中充分挖掘并分析出有价值的信息,就需要以先进的分析技术作为支撑。从宏观上来看,大数据分析技术的发展所面临的问题均包含以下三个主要特征: 
(1)数据结构与种类多样化,并以非结构化和半结构化的数据为主; (2)数据量庞大并且正以惊人的速度持续增长; (3)必须具备及时、快速的分析速度,即实时分析; 
这些特征使得传统的数据分析技术很难满足要求,更加先进和优化的数据分析平台才是大数据时代更好的选择。目前以及未来一段时期内,将主要通过分布式数据库或者分布式计算集群来对存储于其内的海量数据进行由浅入深的分析和分类汇总来更加有效的应对大数据时代数据分析问题的三个主要特征以及满足大数据时代分析的基本要求。例如,为了满足实时分析的需求通常会用Qracle的Exadata 和EMC的 GreenPlum。但目前分析处理大数据的应用的最广泛的核心技术为Hadoop( Hadoop是由Apache基金会所开发的一个基于Java的分布式数据分析和处理的软件基础架构,在这种架构下用户可以在不了解分布式底层细节的情况下开发分布式程序)。Hadoop能够将数量庞大的数据集分解成规模较小的易访问的数据集并发送到多台服务器上进行分析,该架构主要由文件系统以及数据处理两部分功能模块组成,因而获得高效的分析速率。 
 
传统的数学分析方法 
(1)柱状图法:柱状图会将所有数据展现在一个面上,各项目的具体数值可以直接在图上找到,使得在处理数据时既可以可到走势,又能找到具体值,从而更加方便。 
(2)直方图法:一种二维统计图表:两个坐标轴分别代表统计样本和该样本对应的某个属性的度量。正常情况下的直方图呈现中间高、两边低且近似对称的状态,而对于出现的异常状态如孤岛形(中间有断点)、双峰形(出现两个峰)、陡壁形(像高山的陡壁 向一边倾斜)、平顶形(没有突出的顶峰,呈平顶型)等,每种形态都反映了数据的不正常,继而反映事件的不正常。如陡壁形就说明研究 的产品的质量较差,这时我们就要对数据进行更深入的整理。 
(3)折线图法:它是数据走向的最直观的表示,线的曲折变化对于评估各阶段数据的发展有极大的优势。在折线图上还可以将各个相关因素聚集起来,根据图形形状也能更好的比较各个因素之间的主次。 
(4)回归分析法:就是在拥有大量数据的基础上利用数学统计方法,建立起自变量与因变量之间的回归方程。由此来预测自变量与因变量之间的关系。前面的柱状图、折线图、以及直方图都只能展现数据发展趋势,而回归分析中得到的回归方程可以将这些相关性量化,从而使之具有实用价值。回归分析的假定、统计和回归诊断对于线性回归极具优势。另外,对于非线性关系回归分析也能通过虚拟变量、交互作用、辅助回归、条件函数回归等方式找到隐藏的信息。 
 
基于大数据的数学分析方法 
基于大数据的高维问题需要研究降维和分解的方法。探讨压缩大数据的方法,直接对压缩的数据核进行传输、运算和操作。除了常规的统计分析方法(包括高维矩阵、降维方法、变量选择)之外,还需要研究大数据的实时分析、数据流算法( data stream computing)。不用保存数据仅扫描一遍数据的数据流算法,考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何最大的无信息或无统计信息损失地分解大数据集,并行独立地在分布计算机环境进行推断,各个计算机的中间计算结果能相互联系和沟通,从而构造全局统计结果,研究多个数据资源融合的算法。研究和发现利用数据流寻找模型变化时间点的动态变化模型。 针对多种不同的数据库环境,利用关系数据库技术根据关键字( 如:身份证等) 将很多小的数据库连接成一个大的数据库。另一方面,能无信息损失的将大数据库拆分为若干个小数据库。组合多数据库的不同数据集合可以做出有创意的东西。 
大数据环境下,很多数据集不再具有标识个体的关键字,传统的关系数据库的连接方法不再适用,探讨需要利用数据库之间的重叠项目来结合不同的数据 库;利用变量间的条件独立性整合多个不同变量集的数据为一个完整变量集的大数据库的方法;探索不必经过整合的多数据库,来直接利用局部数据进行推断和各推断结果传播的方法;另一方面,利用统计方法无信息损失地分解和压缩大数据。在多源和多专题的数据库环境中,各个数据集的获取条件不同、项目不同又有所重叠。在这种情况下,一种分析方法是分别利用各个数据集得到各自的统计结论,然后整合来自这些数据集的统计结论( 如荟萃分析方法)。曾经提出的“中间变量悖论”就指出统计结论不具备传递性。例如,三个变量A、B、C,变量 A 对变量B有正作用,且变量B对变量C有正作用,但是变量 A 对变量C可能有负作用。为了避免类似“中间变量悖论”现象的发生,可以先整合数据集再利用整合的数据进行分析和推断。 
 
总结:现在的时代大数据早已不是什么新鲜的词,我们要有敏锐的目光,不断学习的心态,了解和掌握最前沿的大数据讯息和方法。 
 
banner
看过还想看
可能还想看
热点推荐
Yonghong的价值观:以卓越的数据技术为客户创造价值,实现客户成功。