banner

大数据应该是为人服务的

作者: 大数据观察来源: 大数据观察时间:2017-04-19 12:29:260

王晓阳/复旦大学计算机学院院长

大数据应用思路其实很简单,就是要注重数据,注重采集、管理、利用。采集、管理、利用以后要干什么,要做到虚拟化,就是把事物虚拟化,把过程虚拟化,把任何的东西都虚拟化了,才能做到所谓的了如指掌,才能做到精准的理解、精准的预测、精准的控制。

了如指掌的大数据

技术是为人服务的,人占主导地位,就是说人类的需求其实是另外一个驱动。“了如指掌”是哪里来的?是《论语》里的,《论语》里有人问孔子,皇帝的礼义是怎么回事?孔夫子就说我也不知道,他指指自己的手说,知道的人就等于像知道手掌一样知道天下了。 (注:“孔子谓或人言知褅礼之说者,于天下之事,如指示掌中之物,言其易了。 ”出自《论语·八佾》何晏集解)这就是后人所谓的了如指掌。这其实是我们对了解世界有这样一个需求。比方说在商业运营的时候,想知道这个商业怎么运营、物流怎么流的、哪里被卡住了等。掌握这整个的交易流程就像了如指掌的话,怎么能做到这一点?如果想要对物理世界达到这样一个了如指掌的效果,我们怎么做?有一个办法,也就是虚拟化。把它转化成数字的过程,用数字的过程来描述物理的过程、逻辑的过程、化学的过程等等,使它们虚拟化了以后我们就能够做到或者说能够接近于做到了如指掌。其实我们老祖宗就想要了如指掌,现在我们想要能做到、真正能做到,是一个非常大的进步。

大数据预测,要先了解客户

我们都知道所谓的power law(注:幂律分布)在哪里都适用,就是富的更富,穷的更穷。苹果手机就是一个power law,做手机的人有很多,不光是华为、小米,光我们上海就有好多做手机的,这些就是穷人,他们做的产值1亿、2亿就高兴得不得了。苹果做到几十亿、几百亿这样的还觉得不够,这就是一个所谓穷人和富人的差别。那个穷人是在哪里呢?把他们放在所谓的长尾理论里面,就是大部分的人其实是在统计数据的尾巴里面,在统计数据尾巴里其实隐藏了非常多的所谓的零散需求,海量的零散需求其实可以做出一种新的模式出来。这个在数据采集到一定程度以后完全可以做出一些大的分析使我们能够做到这一点,如果没有一个技术支撑的话,海量的零散需求我们找不到、没法找。所以这是一个新的效益,在数据当中可以挖掘出来,这是从商业角度来看这个新的应用。

传统的数据也可以很大,但一般比较清晰,清晰是好事,但也是坏事,清晰有的时候并不能表达全意,因为在很多情况下模糊其实是表达了全部的意思,而不是清晰。这是我们中国人的思维方式,模糊一点其实更表达全部,清晰反而更注重于局部。大数据的应用其实是可以分成几类,一个是关于人、关于物,还有其它。关于人是什么呢?其实关于人这个大数据用得非常多,就是我们在协助搜索推荐的时候其实是预测兴趣度,就是我怎么知道我的用户他兴趣在哪里,怎么样去预测,这是一个例子。社会现象的预测,比方总统选举,奥斯卡得奖的情况。还有人群现象的预测,比方流感的预测、交通流量的预测。然后商业应用其实也很多,很大的一个方面是它对人群的理解,对人、对用户理解了才能做好生意。

怎样利用大数据来预测所谓的流感流行?美国的疾病控制中心也有数据,是到医院里去调查,一般这个调查数据出来以后做了统计,然后就告诉大家说哪里流感来了,这一般要有个延迟,就是几个星期之后才知道两个星期前流感在这里发生了。谷歌这个公司非常有意思,有一个人突发奇想说能不能用搜索的关键字来预测流感在哪里发生?因为谷歌是被人用得很多的引擎。有一个基本假设是,流感发生的时候用户就会去查症状是不是流感、药从哪里买、哪的医生比较好等等。怎么样来用这个假设得到一个模型呢?如果这种关键字搜索多的话,可不可以就可以反过来说,流感就在这里发生了?用这样一个非常简单的东西来做这个预测,结果发现很好。跟美国疾病控制中心的预测没什么大区别。第二个好处是快,非常快,是实时把所有人进行搜索的关键词统计一下,做一些分析就出来了,随时可以做这件事情。所以谷歌流感预测现在有个网站,可以告诉你哪里有流感等等。中国数据没有,因为中国人不用谷歌搜索。百度给中国也做了同样的一个东西,好坏我就不知道了。

注重数据是创新的关键因素

大数据应用思路其实很简单,就是要注重数据。数据是今后所有的革新、创新一个很关键的因素。注重采集、管理、利用。采集、管理、利用以后是要干什么,要做到虚拟化,就是把事物虚拟化,把过程虚拟化,把任何的东西都虚拟化了,才能做到所谓的了如指掌,才能做到精准的理解、精准的预测、精准的控制。

还有一个就是说快速,快速实验。它思考快使得我们各种各样的试验可以不断地进行,能够使我们的创新得到很高的效率。所以从这个角度来讲,大数据的应用思路其实重点在数据,技术也很重要,但数据是一个根本的东西。所以以后会不会出现数据市场,就是买卖数据。数据其实是最难得到的东西,买卖数据可能是一个好的商业。但大数据有一些问题,不是全部是好的地方。就是因为样本不是在控制的情况下采集的时候,样本的Bias(注:乖离率,是测量股价偏离均线大小程度的指标。 )其实会很大,这个怎么处理其实是一个问题。这个很重要的。它有很多的错误,很多的乖离、很片面、很模糊、很多的噪音、很多的错误,这个怎么把它去掉,不能闭着眼睛用大数据,这个绝对不行。

还有一个问题是隐私问题,怎么保护人们的隐私,在大数据应用时,隐私的问题怎么来保护,什么情况下需要保护等等。在大数据应用的情况下其实人的作用非常大,越来越大,并不是说我们有了机器以后就可以自动地把什么事情都做出来了。其实不然,因为有各种各样的问题,我们人的作用非常重要,我们的所谓教育的作用非常的重要。怎么样让人们理解大数据有什么好处,有什么问题,我们怎么样来解决,我们人的辨识能力在大数据应用里面非常重要,我们需要有一整代的所谓的数据科学家。数据科学家的意思是说他知道这个数据应该怎么去用,这个是非常重要的。

大数据可以总结一下,虚拟化、数字化的需求,这是我们所需要的,由于我们的数据分析能力的提升使得我们的精准的科学、精准的医学、精准的商业都是可以做到的,这是不是一场革命呢?我不知道,有人说是,有人说不是,我们就拭目以待。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限