大数据在工业界流行的黑暗真相

作者: 大数据观察来源: 大数据观察时间:2017-05-17 13:04:450

这两天在faculty版上灌水纠结大数据概念，让我突然想明白了大数据在工业界兴起的

原因：很多规律在数据量大了以后都会变得很显然，算法再傻B，在超大量数据作用下效果也会变得很好。因为开发牛B算法开销很大风险很高，而获取数据对不少公司而言很容易。所以会出现一个大数据潮流，大家都指着数据变成救命法宝。

比如大数据的源头Google，Pagerank其实就是个幌子，真正优化Google搜索结果的其实是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression，数据量小用atlab三五行就写出来了。数据量大了就得上Hadoop, Spark，支持运算的平台比真正的算法要复杂得多得多。但真相果真如此吗?做过machine learning的人都知道，数据量增大对于结果改善的边际效应是递减的，而且往往是指数递减的。需要获得10个百分点的提高，可能需要成千上万，甚至亿万倍的数据量。真是有点愚公移山的感觉了。

大数据的驱动力背后还有更黑暗的真相：提高barrier to entry。这世上聪明人很多。工业界忽悠算法其实是最危险的。因为算法的发明往往是单枪匹马干的。如果一个大公司建立在一个算法的基础之上，岂不是有被但强匹马干掉的危险?特别是学术界虽然不济，几百年才出一个牛顿爱因斯坦这样的人物，但方法论一直是正确的，难保不出一两个真正管用的新算法。现在告诉你，你没个一千台机器就没法做研究，把智力门槛转换成资本门槛，并且搞一个虚无飘渺的概念，把funding标准从科研水准转换成忽悠水准。以此打击真正的科学研究，试图多维持几年大公司的盈利。其用心不可不谓险恶。

此计一出，大合那些脑子已经使不动了的学霸的心意，于是大数据一夜之间就火了。

看过还想看

可能还想看

热点推荐