banner

谈谈大数据思维

作者: 大数据观察来源: 大数据观察时间:2017-06-23 19:01:250

非常高兴能够有机会到鸿儒论道跟大家谈一下我个人的学习体会。主要想讲几个方面,一个是大数据能够干什么;另外一个是大数据时代有哪些可能是不能干的,甚至可能存在风险;最后如果我们有机遇、有风险,那么在遇到系统性危机的时候,如何能够增加我们的恢复力。

先讲大数据时代有哪些能做,哪些不能做?有一个很有名的科幻作家叫做阿西莫夫,写过《银河帝国》,也就是“基地系列”。据说本·拉登就是看了他这本小说,把他自己的组织起名叫“基地组织”。阿西莫夫在书中提到,未来有一个银河帝国,在银河帝国最繁荣的时候,国内最才华的数学家谢顿说他能够预知未来历史的变化以及潜在的危机,只要数据量足够大。当时的人口已经是上万亿,足够他准确预测未来的变化。所以谢顿悄悄建了一个“基地组织”,还有“第二基地组织”。当出现所谓的“谢顿危机”时候,大家就把他事先录好的录像调出来,他在录像里会阐述已经预测到的此次危机以及其99%的可能性,并告知人们要怎么做。

为什么要说阿西莫夫的这个小说呢?因为阿西莫夫是一个天才科学家,但我觉得他对大数据时代的预测是完全错的。他认为大数据时代,我们就能够预测未来,但是我们预测不出每个人的行为。实际上在大数据时代,我们能够预测出来的恰恰是每个人的行为,当然还是按照概率论来预测,而我们仍然预测不出来的却是未来。所以尽管我们现在提到大数据很多,好像一个非常新潮的词,但是从根本上来讲大数据方法论的历史是非常漫长的。说实话,它就是统计学。大家最早是从自然科学、医学慢慢知道统计学,明白统计学是一个非常重要的规律。

比如说公共卫生领域,研究传染病是很难的,因为发病快,病人马上就死了,很难像癌症那样,去看它的病理学是什么?那么最后是怎么发现传染方式的呢?以霍乱为例,实际上就是最后拿两张地图,一张是得霍乱病人的分布图,另外一个是伦敦水井的分布图。最后发现这里头有一些大概的规律,所以觉得可能跟饮水有关。后来当物理学发展到量子力学时,出现了海森堡测不准定理。爱因斯坦说过, “我不相信上帝是掷色子的”,但上帝真的是掷色子的。也就是说在自然科学里,统计学方法论很重要的一个基础。

社会科学更是如此,从本质上讲一切的社会现象都是统计现象,并不像实验室里的试验那样有明确的因果关系。所以本质上来讲我们说的经济学供求定理等等,就是一个统计规律,但是我们认知能力中最差的也是统计思维。诺贝尔奖心理学得主的心理学家卡里曼曾经讲过,我们头脑中有两套思维,一套思维是本能的,比如我们的语言能力、模仿能力、第六感等等都是与生俱来的。麻省理工学院的语言学家乔姆斯基说过,小孩子为什么到3岁就能学会说话,而要到10几岁才能学会微积分呢?语言学得这么快,不是小孩子自己能学会的,是小孩子出生的时候大脑中就预装了一套系统,要不然就不能解释为什么这么快能学会。此外察言观色的能力也不用特意学或教,小孩子就已经会了。所以这是人类的第一套系统,也是能够让我们快速反应的系统。

另外一套系统,是当我们做数学推理,尤其是统计分析时需要用到的。第二系统运转很慢,因为占的内存太大,往往我们犯错误是因为决策太快,所以在统计判断的方面会出现问题。所以说大数据是一个新的现象吗?当然是。但它方法论的历史是非常悠久的。那为什么现在大家突然讲到大数据了呢?主要是因为现在的数据越来越多,一方面随着IT的革命,存储和计算的能力在不断提高,未来可能会出现无限存储、瞬间计算的新时代;另一方面同时能够被数据化的东西也越来越多,过去只有数字,而会计制度出来后,经济活动开始可以通过记账被数据化。现在大家拿的pad、电子书中的文字、图象也可以被数字化。

所以才会出现美国医院的丑闻,说美国有一个医生不干活,下班之后把拍的片子传到印度,然后他就睡觉了。印度那边两个在美国上过医学院的哥们,替他把报告都写好。等美国的这个医生早上醒来,印度那边的报告就传过来了。为什么作弊能够成功呢?因为现在图象的传输也可以完全实现数字化,而且越来越高清。方位可以实现数字化,你不知道自己在哪,打开高德地图,它就会告诉你你在哪里,还会发给别人。社会关系也可以越来越数字化,你的朋友圈、facebook、微信群都能够被当成数据进行分析。

所以现在能够变成数据的东西越来越多,计算和处理数据的能力越来越强,所以大家突然发现这个东西很有意思。一旦把统计学和现在大规模的数据融合在一起,将会颠覆很多我们原来的思维。

所以我们先来讲大数据能干啥?能干很多很有意思的事情。比如说传统的品酒要品酒大师去品,这些大师经过常年训练,有特质,舌头就是跟普通人长得不一样,所以他们可以品出92年的酒比93年的好,所以过去都靠天赋来品酒。普林斯顿大学有一个英语学教授,他也很喜欢喝酒,喜欢储藏葡萄酒。所以他就像是否可以分析到底哪年酒的品质好。然后他就找了很多数据,比如说降雨量、平均气温、土壤成分等等。然后他做回归,最后他说把参数都找出来,做了个网站,告诉大家秘诀是什么。当他研究的成果公布的时候,引起了业界的轩然大波。因为他做预测做地很提前,因为今年的葡萄收获后要经过一段的时间发酵,酒的味道才会好。所以其实在一开始,很多品酒师品的不是葡萄酒,那时候葡萄酒还没有真正的做成,他们品的是发烂的葡萄。因此在那个时间点就预测当年葡萄酒的品质是比较冒险的。而且人的心理的因素是会影响他做的这个预测,比如说地位越高的品酒师,在做预测时会越保守;而刚出道的品酒师往往会“语不惊人死不休的”。这就好像有一些专家说北京的房价会涨到50万每平方米,这种专家一看就是没有到达一定水平。要是去问林毅夫老师,你说“林老师,请问今年的中国股市会怎么样?”他肯定会告诉你“有50%的可能性会涨,但是也有50%的可能性会跌。”因为什么呢?因为他一旦预测错了,要损失的名誉代价是很大的。所以顶级的品酒大师一般都不敢贸然说今年的酒特别好,或者是特别差。但这个教授有一年突然预测说今年的酒是世纪最好的酒。大家说怎么敢这么说,太疯狂了。更疯狂的是到了第二年,他预测今年的酒比去年的酒更好,连续两次预测说是百年最好的酒,但他真的预测对了。然后他说我把我自己的声誉也砸了,因为品酒师在做评判之前,要先到他的网站上看看他的预测,然后再做出自己的判断。有很多的规律我们不知道,但是它潜伏在这些数字里头。

另外推荐一部电影,叫《点球成金》,也获了奖。这个电影讲怎么找到潜在的棒球运动员?最初也是靠经验,到处去看谁有可能的潜质,要把一场场赛季的球赛都看完,然后决定这个人是否有潜质。但你怎么知道谁打得好呢?所以很多的时候也是靠瞎蒙。电影里面有一个场景,一帮球探在评价到底某个球员好不好。有一个球探说他不好,因为女朋友长得太难看。那女朋友长得好坏和打球好坏有什么关系呢?球探就说“如果女朋友长得很难看的话,说明他的自信心不行,所以打球不会很猛。”这个等于就是胡扯。在《点球成金》的电影里头,讲到一个原来没有名气的球队,突然找到一个另类的经济学的硕士。经济学硕士说我能找到好的运动员,只要把数据给我。这也颠覆了整个行业里头的规则,大家觉得你都没有看过别人打球,就根据他原来的记录,怎么可能知道他是不是合适,这是完全超过人的直觉的。但居然最后出现了一个新的领域,用计量经济学来找新的可能的棒球明星。

这两个案例,我们能够推出来什么呢?在大数据时代,因为数据很多,很可能可以找到相关的关系,但是因为数据太多,你不一定能够理解为什么是这样。但是你只要能先找到相关关系,就已经很不错了,如果运气再好的话,你可能会找到内在的因果关系。在大数据时代,你不一定会知其所以然,但更方便大家知其然。

比如说,一个连锁商店,专门有一个铺卖婴幼儿产品的。因为客户信息很多,就发现当人怀孕之后,行为会出现改变。比如会更多选择没有香味的洗发水,买营养品的时候口味也和怀孕前有不同。商店便可以根据客人购买行为的变化,预测是否可能怀孕了,然后给可能怀孕的客人寄婴幼儿产品广告,说买我的尿布吧,买我的奶粉吧。一天,一个父亲很愤怒地过来说“我女儿还在高中,你们现在天天给她寄婴儿尿布,奶粉的广告,什么意思?你鼓励未婚怀孕啊?”然后商场说“对不起,我们搞错了!”过了一个星期,这个爸爸又回来,说“对不起,我搞错了,我女儿已经向我坦白了,她真的怀孕了。”

大数据中一个经典故事,沃尔玛最早发现尿布和啤酒的销售是有相关关系的。一开始不明白这两东西为什么会有相关关系?后来发现当家里面有了小孩子之后,买尿布的任务往往是让新爸爸去干的。其实爸爸对孩子的出生贡献并不大,但是他觉得自己做出了很大的成绩。所以他买完尿布的时候,会想顺便买一瓶啤酒犒劳自己。所以后来沃尔玛就把啤酒和尿布放在一块儿,啤酒的销售量一下子就增加了,这是一个很经典的案例。当然也很有争议,因为统计学里头最基本的一个概念就是,相关关系不一定是因果关系。所以很强的相关关系也很有可能是伪相关。但在大数据时代,原来找不到的相关关系现在找得到了。

为什么能够找出这些相关关系?为什么能够找出行为规律?一个更深层的概念是人和人是一样的。如果是一个人特列出来,可能很有个性,但当人口样本数量足够大时,就会发现其实每个人都是一模一样的。

有个例子,在一个赌场,你去赌博的时候要在门口先要办一个电子磁卡,其实你在办这个电子磁卡的时候,相关的信息已经被赌场获取了。比如说第几次来、大概年龄、种族、职业等等。赌场有一个庞大的数据库,拿到数据后就做预测。人跟人的确是不一样的,有的人到赌场输了10块钱就心疼的睡不着觉;有的人输几百万也面不改色心不跳。但不管是谁,都会有一个痛苦点。当在这个赌场里输的钱超过了痛苦点之后,这个人会从此再也不踏进这家赌场一步。因为已经输得恶心了,会觉得这个地方太背,以后也不再来了。从赌场的角度,最好的选择是当赌客快要达到痛苦点时,让赌客住手。赌场里面有很多摄像头,可以看到客人大概现在输了多少。比如你一进去,赌场根据它的数字预测,像你这样中国人、男性、35岁、土豪,大概痛苦点比如说是1万美金。当你输到9800美元的时候,奇迹发生了,你旁边会突然出现一个年轻貌美的公关经理说“先生玩得很累了吧,我们的赌场刚请了一个法国名厨,会做世界一流的法国大餐。恭喜你,你被选为幸运顾客。要不带着家人去享受法国大餐,休息一下吧。”为什么服务这么好?因为你的最后一分钱已经被它榨完了。为什么赌场能够精准预测你的行为?因为你的行为和别人的行为是一样。

这彻底颠覆了原来经济学教科书告诉我们的道理,没有办法进行价格歧视。因为消费者之间的信息会互相沟通。比如一件衣服到底卖什么价格。不同人的心里底价是不一样的,特别喜欢这件衣服的人花1万元钱也愿意买,不太喜欢的人5千块钱可能是他的价格极限。但是商家必须要统一标价,不能来一个顾客换一种价钱。尽管有很多消费者是懒惰的,不管多少钱,他过去拿了就走。但是也有精明的消费者,为了买一把椅子,把全北京的家具商场都跑遍了,最后发现这张椅子比那张椅子便宜5块钱。一个懒惰的消费者只要跟着精明的消费者,就能知道哪里的价格是最低的。商家是没有办法进行价格的歧视,没有办法把这些信息垄断。但是在互联网大数据的时代,商家最后很可能可以针对每一个顾客进行精准的价格歧视。我们现在很多的行为都是比较粗放的,航空公司会给我们里程卡。根据飞行公里数来累计里程,但其实不同顾客所飞行的不同里程对航空公司的利润贡献是不一样的。所以有一天某位顾客可能会收到一封信,“恭喜先生,您已经被我们选为幸运顾客,我们提前把您升级到白金卡。”这说明这个顾客对航空公司的贡献已经够多了。有一天银行说“恭喜您,您的额度又被提高了,”就说明钱花得已经太多了。正因为在大数据规律面前,每个人的行为都跟别人一样,没有本质变化。所以商家会比消费者更了消费者的行为。也许你正在想,工作了一年很辛苦,要不要去哪里度假?打开email,就有航空公司、旅行社的邮件。或者说,在你还不知道的情况下,体检公司、医院建议你赶紧去做检查,可能会得某些病。商家比你更了解你自己,以及你这样的人在某种情况下会出现的可能变化。

第三个案例,美剧《豪斯医生》,它跟大数据没直接关系,但这个电视剧的医学顾问是一个有名的循证医学顾问。最初的医学按照病理学寻找治疗办法。但其实医学很多时候也是瞎蒙。比如在某一发展中国家,医生因为不满报酬罢工,之后死亡率明显下降了,说明大部分人是被误诊治死的。循证医学很早就存在,但一直属于一个异端。在细菌还没有被发现的时候,就有一个医生就发现医生从停尸房回来后直接做接生手术,产妇的死亡率会明显的提高。因此他建议医生从停尸房回来后用肥皂洗手。虽然我们现在觉得这很正常,但当时的人们没有细菌的概念。洗手跟死亡率有什么关系呢?那位医生就说“我也不知道有什么关系,反正听我的就行,洗完手之后再去接生。”为什么现在医院里开始推动循证医学,因为虽然不知道是怎么回事,但按照大数据显示的关系去做,效果是很明显的。某种程度上,是模仿航空公司的经验,飞行员的违规操作会引起事故从而导致整架飞机坠毁,因此一切都要严格按照操作手册。但医生在过去的时候并没有做得这么严格,按照循证医学,现在治病的第一件事情不是去研究病理学,而是拿过去的数据去研究,相同情况下是如何治疗的。

这导致专家和普通人之间的信息优势没有了。其实在第一个案例里头,我们可以看到,品酒专家和门外汉之间的信息优势没有了。原来我相信医生,因为医生知道的多,但现在我可以到谷歌上查一下,知道自己得了什么病。专家和普通人之间原来的信息优势就没有了,以后专家就没有饭碗。谷歌有一个机器翻译的团队,最开始的时候翻译之后的文字根本看不懂,但是现在60%的内容都能读得懂。谷歌机器翻译团队里头有一个笑话,说从团队每离开一个语言学家,翻译质量就会提高。越是专家越搞不明白,但打破常规让数据说话,得到真理的速度反而更快。

我们说中国的教育太繁琐,都是填鸭式的。但其实美国现在的教育也逐渐开始向标准化靠拢。美国拍的儿童节目,从《芝麻街》到《天线宝宝》,感觉都很弱智。它之所以用这么白痴的办法来拍儿童娱乐节目,是经过数据分析的。美国是最早用数据分析来做儿童节目的,当它放一个新的《芝麻街》大鸟动画片,在旁边随机出现卡通图案。看孩子啥时候分神,如果小孩在看这段动画片的时候,老是去看卡通图案,那说明他没有看懂,或者不吸引人。当然你不知道他为什么看不懂,因为好多小孩子话都还不会说,但你知道他不喜欢这一段。为什么《天线宝宝》语速要很慢,然后要不断重复?因为发现孩子的学习其实就是重复。对孩子来说,他的学习、娱乐,就要不断重复。

有一个讽刺小布什的美国的纪录片《华氏9·11》。纪录片中9·11袭击消息传来的时候,小布什在一个小学教室里头跟老师读“一个小羊去喝水,一个小羊去喝水”。小布什为什么要坐在教室里面读这个呢?这是美国教育界的一个争议,这种教育是直接教导法,也就是填鸭式教育。即写好教案,按照教案到3分05秒的时候,你要开始教这句话,然后重复15遍,再开始教这句,一步步来。按照我们的常规想法,会觉得这样扼杀了孩子的天才。但实际上这样是符合小孩的认知规律的。这种直接教导法会缩小成绩的差距,原来那些学习成绩差的孩子是受益的,他学起来更容易,自信心也会提高。

在大数据时代,无论是商家还是信息的搜集者,会比我们自己更知道你可能会想干什么。但是也有风险!大数据时代得到的信息越多,就意味着更多的个人隐私权要让渡出来。而让渡出来之后,会有很多意想不到的结果。现在的数据挖掘还没有真正在挖掘,如果真正挖掘的话,通过信用卡消费的记录,可以成功预测未来5年内的离婚率?那你愿不愿意知道这个概率呢?如果到时候告诉你,你有68%的概率会在5年之内离婚,你心里会怎么想?

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限