banner

大数据不是泡沫 是历史发展的必然

作者: 大数据观察来源: 大数据观察时间:2017-03-10 15:22:490

2013年11月7日,由IT商业新闻网主办,IT时代周刊和全国CIO/CTO俱乐部协办的“探索*发现”2013大数据暨移动应用高峰论坛在北京新世纪日航饭店三层隆重举办。

本次大会以探索大数据为基础的IT解决方案为宗旨,以发现由大数据应用带来的商业价值为目的。邀请了国家企事业单位CIO、知名互联网企业CTO、全国高新技术园区代表、第三方市场研究机构代表、协同办公领域、APP开发者代表、信息化专家等业界知名人士参与话题,共同探讨大数据、移动互联网的生态系统构建。

                              SAS赛仕软件中国公司总经理刘政

SAS赛仕软件中国公司总经理刘政在会上发表了名为“大数据与大数据分析技术”的演讲,全文如下:

大家下午好,非常感谢主办方的邀请,今天演讲大数据与大数据分析技术。大数据这两年非常火,但是他的是商业方面的应用,宏观谈的比较多,具体技术方面谈的非常少,所以今天从技术角度给大家讲讲大数据的话题。

大数据并不像大家听到的,或者某些人说的是泡沫,其实它是历史发展的必然。可以看一下IT技术整体发展,最开始有PC,有基础软件,后来发展到互联网,有数据库,ERP,管理的自动化,所有这些技术不断的发展,最后可以看到发展结果就是积累大量的数据。所以到现在这个阶段各个方面都很成熟了,现在就是到了这个阶段。

另外我们现在的一些技术也能够处理大量的数据,这应该说大数据来的是实实在在的,并不是一个口号。

比较早的大家对这个有一个争议,有人说是谷歌提出来的这个概念,不管谁提出来的概念,现在大数据是实实在在的了,现在数据量全球大概有1.8BP,牵扯行业方方面面。我们过去学政治经济学的时候都知道生产要素包括生产资料、人力、资金,现在也可以说数据和生产资料等同价值的看做一个生产要素。巴非特是一个投资大师,但是从来不投资技术行业,他投资他比较了解的传统型的行业,比如麦当劳、可口可乐这些,但是最近他投了10亿美元在技术上。他说了一句话,要小心懂得数据技术的这些极客。

今年上半年我去美国开会的时候,有一个人介绍说美国有20家公司都在申请大数据,大数据分析在美国发展还是比较成熟的。去年11月24日,谈到IBM把美国500家零售业企业数据集中在一块做了一个分析,我们不管他去分析什么,但是看到了这样的一个需求,他能够把这么多的数据集中在一起做分析,可见数据样本量比过去要大得多。

在一个就是棱镜计划,大家知道的比较多了,这里有一个比较详细的介绍就是如何跟进一些关键点,根据这些关键点做一些不同的色彩,表示警戒信号的级别。做的这个东西点像Facbook做的有情关系网的可视化的感觉,我们可以看出热点在什么地方。可视化在大数据里是非常重要的。

这个计划的曝光必然会引起数据方面的竞争。大家可以看到数据分析确实是很有价值的,包括国家安全方面。数据分析技术和数据分析人员水平在某种程度上将决定国家之间竞争的优势,是国家的战略问题。

同时也看到这个机会和我们在互联网或者是计算机时代一样,会产生大量的工作机会。

谈到技术更多的还是技术层次方面的内容,一个是分析的模式,我们要做一个很复杂的模型,通过复杂的计算得到一些模拟性的结果,由此做一些推算分析。现在样本量越来越大,越来越多,虽然不是全样本,但是样本明显大得多。

分析速度:过去分析的软件速度确实很慢,到了1000万行数据可能要跑好几个小时,现在用不了这么长时间,现在到10亿行数据几秒钟就可以分析出来,这是新技术的发展的结果。随着时代的变化,随着处理数据技术的能力,可以说大数据是一个相对的概念。现在能做的分析就是格式化数据分析的比较溜,非格式化的文本性的就差一些,不是那么很准确,很精确。但是我们对音频、视频这方面的分析还是几乎起步阶段还比较弱。将来有更多的数据样本让我们去分析,如何把这些混合起来做分析,这是一个很大的挑战。

另外就是法律条款。比如说通过公用数据分析出来你的隐私,国家安全性的问题,这算不算违法?还有数据所有权的问题,很多都应该由立法解决。

数据安全性:如果数据被篡改了,分析出来的结果肯定会有偏差,有一些问题。美国辅岛核电站建的时候发现那个地方没有地震,实际上几年前就知道有地震,没有把关键数据加进去而已。

物流数据分析,是物联网的数据分析,把数据收集来以后进行实时分析得出结果,能够给使用人员及时提供帮助。

数据关联性:现在大数据有这么多,相关联的有用的数据还是比较少量的。另外一个大数据是不是能引出一个概率论?大数据是不是能够帮助我们解决过去比较难解决的一些科学性的问题?我们其实知道,比如说有一个太阳系的行星就可以通过数据找到。

10大趋势:技术方面来说一个是高性能计算;可视化分析;与云计算结合,将来的模式是数据时代你的软件也是带云的,你用的云上的软件和数据最好能再一个地方,这样用起来更方便。其他的包括管理科学会被普遍的使用,包括政府军队和企业决策方式的变化。大数据改变人的思维方式,大家可以看一下剑桥教授写的一本书大数据关于对人的思维的影响。再一个就是商业模式和检索结合起来。我们把搜索引擎和数据分析结合起来,能够找到确实需要的内容这就是精确搜索。

另外一个就是军队的变革。将来决策的速度,决策的准确性需要通过数据分析,需要一些软件达到。将来能够达到定量化的自动化的判断,这是军队发展的方向。政府可以更好的控制趋势,了解民意,通过信息对民众进行一个引导。前面我们讲了大数据,下面讲一下大数据技术。

传统的分析技术会带来哪些困惑?过去分析手段限制,数据大会带来很多问题。现在新的大数据时代,我们的分析软件、硬件平台和数据都发生了变化,所以我们在做数据分析的时候跟过去不一样,其实是过去那种商业模式也过时了,大家可以想想将来应该是一种新的商业模式,这种商业模式是什么?大家可以想一下。数据不是过去那种结构性的数据,有限量的数据了而是大量的,结果性的,半结构性、非结构性的数据,存储在不同的地方,怎么样去做数据的结合和分布这些是需要考虑的。

再一个就是软件,要能够适合去分析大量的数据,另外要支持比如内存计算,支持网格计算。

数据分析发展进化图:从基础文件到Flash文件,到现在的数据分析和云计算。从最开始时单线程的,后来是多线程的网格计算的发展。

要有大数据分析必须有高性能的计算,高性能的分析才可以支持这项工作的发展。

整体架构模式:我们在做大数据分析软件的时候,一定要能够支持这些。进入高性能分析以后,可以看一下速度提高多少,过去10亿行数据做分析的时候,根据硬件提供的方式可以10几个小时到20个小时,现在4妙钟可以完成。

分析模型:在分析数据的时候要把数据从库里取出来,分析完了显示结果,现在数据的传输确实是受到网络带宽的影响,如果不把数据取出来,直接把分析数据放到库里面,只要发起,库里就可以对数据进行分析,这个要比把数据传来传去快很多。

过去做一个工作花大约有1分钟的时间,现在我们做96个工作,把这96个工作分到48个去做,一个一个做的话,大概需要96分钟,现在把它们分到不同的地方做,96个不同的工作完成只需要2、3分钟。所以分布式计算对计算率的提高非常大。

当你打开一个Word文档把数据从硬盘里提出来的时候,速度会很慢。但是在内存里不断的改Word为文档的时候,根本感觉不到数据的计算,这是在内核里的及。当我们把网格分布式计算与内核分析结合在一起做数据分析的时候,会极大的提高数据分析的速度。

可视化工具能够帮助你了解更复杂的数据,同时现在其实可以引申出可视化数据可视化的东西可以做一个模式,对所有的数据挖掘,数据分析,和其他的方案完全可以以这个为基础这就是一个核心平的台。

现在可视化分析可以做到对数据的准备,我们把数据从硬盘里全部放进来,达到内存以后以非常快的速度,以秒的级别去计算。

而且这个东西做好以后可以设计成一个报告,这个报告在世界各地通过网页可以看,而且支持Mobile。

数据分析技术还应该有数据管理方面的技术,我们要把数据分析和云计算结合起来,这是将来的模式。现在技术方式确实是有一定的局限性。将来分析软件可以云上,这种模式在将来应该是会朝这方面发展的。

在美国开会的时候大家提出一个概念关于数据分析的版本,1.0、2.0、3.0现在我们做了一个结构化的分析,认为是1.0,大数据我们认为是2.0,将来多种数据混合式的分析可以被看作是3.0。

最后的思考:我们应该抓住这个机会,利用大数据为商业,为各个方面提供服务。谢谢大家!

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限