大数据被媒体和一帮理工文盲玩坏了

作者: 大数据观察来源: 大数据观察时间:2016-12-09 19:24:380

现在大数据被媒体一帮理工文盲玩坏了。。。觉得数据量大就是大数据，或者甚至里面数字大也是大数据。。。。唉

请问统计个搜索量跟大数据有什么关系......

所谓Big Data其实是有两部分组成的。一部分是海量运算存储能力，一部分是数据建模算法。

第二部分其实是一个蛮久的学科了。20年前我们叫做statistical analysis，10年前叫data mining，5年前叫machine learning，最近叫big data。其实就是用数学建模的方法对过去的数据建模，以期可以预测未来的行为。比如netflix用你的历史评分来猜你喜欢的电影，yelp用你历史喜好来预测你的口味。。。

但是在之前人们发现虽然模型看起来不错，但是第一海量的数据不好存储，第二是超大型矩阵运算要很长时间，这对于一个需要快速响应的系统显然是不行的。

最直接的方式就是提高硬盘和CPU的capacity，但是后来发现远远赶不上需求。于是大量的研究聚集到了并行计算的架构上。感谢google带来的 mapreduce和hadoop，码农们有了一个标准化和广泛接受的并行存储计算框架。之前的bottleneck在近几年突然被突破了，人们发现可以实时运算数据量瞬间达到了PB级别。面对这样的海量数据人们提出了Big Data的概念。

另外一点就是互联网的急速发展，一方面大带宽促进了并行计算发展，一方面人们越来越多的在网络发布自己的信息。这使得挖掘数据越来越成为一个有商业前景的技术。

大数据到底牛不牛?

就并行计算来讲确实很牛。但原理很简单，就是把一个巨型的矩阵切片分给一个个小的机器来处理(Map)，然后把计算结果汇总处理(Reduce)。这样不用提高单个核心的运算频率的条件下，通过并行运算来达到速度加倍的效果。虽然说起来很简单，但其中牵扯到的数据存储方式、计算负荷分配等技术确实到近几年才突飞猛进的发展完善。吐槽一下....看到有人说hadoop被sql虐。这很正常好嘛....能一台机器上解决的事情你分一堆机器做，网络不要时间么....

但是这些后台的东西，我们普罗大众是感受不到的。我们能感受到是处理以后的结果，也就是模型的质量。这部分牛不牛，个人觉得其实一般般。

大数据应用比较广泛的一个领域就是推荐系统(Recommander System)。其中很有名的事件是在2009年，netflix举办了一个奖金一百万美金的比赛。netflix开放了一部分数据库的用户数据，要求每个参赛者根据这些数据预测这些用户未来对影视作品的打分。但是结果如何呢?

这是当时的leaderboard，第一名的得分是0.86左右。什么意思呢?就是他对用户打分的预测有平均0.86的误差。也就是说如果你给一个电影评分 3.5，表示你还算满意，结果预测是2.7，表示不满意....而且最悲催的是netflix花了一百万之后的来的模型，他们决定不用了，因为太复杂，运算起来不划算。当时他们自己的误差是0.9以上。

值得注意的是这里面没有冷启动问题。什么意思呢?就是在test set里面没有出现新用户。Yelp在去年举办了类似的比赛，其中就涉及了冷启动的问题。就是要求模型在已知用户基本信息(性别，地理位置，年龄...)而没有历史评分的情况下预测他们对饭店的打分。

看到了吧。结果更加差强人意。。。

这个结论最直观的表现就是，我们在电商网站上经常会被推送一些莫名其妙的东西....

还有一个很火的概念是利用社交网站的sentimental data来预测市场走势。我来给大家看一个利用社交网站数据来预测每分钟股票价格的比赛....

这是比赛的结果，看上去不错哈。

...这是简单用上分钟的收盘价来预测的结果。是不是很打击.....

这方面反而不如简单统计google关键词搜索量来的表现好

与其把大数据看作处理很大数据集的技术，我更倾向于这样描述「大数据」：

当数据增长速度超过了计算机处理能力的增长速度，这时就产生了「大数据」问题，好比马车怎么也赶不上汽车，更别看汽车后备箱里面装了什么东西。当前流行的Hadoop等工具集、MapReduce等方法有效地形成一套可以灵活扩展的解决方案，允许用空间(集群规模)换取时间(运算时间)，通过良好地管理，集群的处理能力能够跟得上数据的增长速度，由此允许人们处理更大的数据(赶上汽车)，从中提取出小数据所无法获得的信息与价值(发现汽车后备箱里面藏的东西)。

然而，集群可不是那么好管理的，其中涉及到大量的技术问题，比如如何存放这些数据?我们如果关心数据安全，就要考虑如何管理和处理数据冗余，如何让集群的协同运行更加高效等等。事实上，这整套工具集仍然在不断地发展、扩充，可以看看社区的进展，新的工具层出不穷，这就在技术上为人们处理增长速度这么快的数据提供了可能性。

但是光有这种技术保证是不够的，就好像你也开了一辆车追上了那辆汽车，但不代表你就能发现那辆车后备箱里面藏的东西。「大数据」真正发挥作用的，是数据中的信息，这些信息才是有价值的，难点就在于，在有技术能力的前提下，如何能够更「科学地」提取出这么大堆数据中的信息?统计模型?数据挖掘?工具的使用，往往伴随着滥用，得出似是而非的结论，导致做出错误的决策。这些都是人们需要解决的问题，而计算机目前是不会自动去解决这些问题的。

很多行业都在谈大数据，认为我们正在迎接大数据时代的到来：我们每个人未来都可把自己的健康状况24小时传送到监测系统中，包括我们的血压、心跳、睡眠状况、运动状况等。我们从大数据的规律中，随时可以得到建议，今天该多吃点什么，该注意什么问题。同时，大数据可以从癌症患者或者心脏病人发病过程中得到规律，找出共性，可以提前几天给我们发出预警，让我们防患于未然或者提早得到治疗。很多公司也通过大数据分析获得了意想不到的成功，找对象 (OKCupid, EHarmony)、预测选举结果(Nate Silver)、甚至帮女性选用最适合的内衣(Trueco)等等。

我们希望把这样的构想也可以应用在房地产上。

现在市场上最常见的购房者，都是通过朋友的推荐或者自身有限的经验，在找房的时候并没有好好做通盘比较而通常只花时间研究一两个区域。花个几个周末看房，经历几次照片诈骗，最后看累了迫不得已做出一个选择。

我们知道，房产往往是我们每个人一生中最大的投资。每一个买房的人，肯定都经过千挑万选，权衡利弊，对楼盘地点学区等多方位细心研究，最后做出选择。他们花了很多心思找房，最终的买卖背后隐含了大量的有价值的信息。如果我们能把这些过来人的信息利用起来，就可以集思广益，从大数据中挖掘出每个房产的优缺点。这是我们在房地产的构想，也是我们的实践。简单的说，我们搜集了北京，上海，纽约，首尔，新加坡几个大城市的数年的所有房地产交易信息，以每个小区为圆心画出一个10分钟生活圈，用大数据分析每个生活圈的好坏。再利用统计模型拆解得出每个小区的地点分(十分钟生活圈质量)，楼宇分(小区设施)和学区分(学校好坏)。这种评分完全是数量化的，除了收集整理数据外不加入任何主观判断，完全反映之前所有买家对该处的房产的评价。同时，我们还邀请用户来评价自己了解的小区，确保评价的真实，将这些评价也进一步融入我们的大数据模型中。我们的想法是，租房或者买房的朋友，都可以根据这些分数，来筛选自己的住所，我们还研发了算法计算这些城市点到点的通勤时间计算，我们希望买房从此开始进入大数据时代，也就是人们只要设定自己的预算、目的地，通勤时间，我们就能给出所有满足需求的小区，因为所有小区都有分数，就可以轻松比较哪个小区是最优选择。

下面通过展示大数据模型对纽约地点分的算法来看看大数据的魅力：

地点分数主要根据两个要素。第一是可支配所得的在地消费。如果一个地段的居民愿意在住家附近消费(例如餐厅或是服饰店)，如此就会吸引好的商家进驻，这个区域也比较有可能成为好的地段。这些商家也会进一步透过缴税、投资让这个十分钟生活圈更棒。这样的良性循环来自于所得在地消费的驱动。我们将纽约市每一栋楼都连结到它所属的人口普查街区(Census Tract)，并循此从美国社区调查(American Community Survey)获得该普查街区居民的年收入。

第二是每个十分钟生活圈的房产价格。如果居民倾向在地消费，附近楼房的价值也会跟着水涨船高。这些房产价格经过特色差异性的调整后(例如共有式住宅 vs. 集体式住宅，或是二战前 vs. 二战后)，便能呈现出每个微生活圈的优劣。

一些有趣的发现

第一点，在地消费与当地居民富裕与否并不相同。

举例来说，根据普查街区的数据，Sutton Place的居民非常富有，但是它并没有非常高的地点分数。Sutton Place有大约32%的家户年收入超过20万美元，远高于西边紧邻着的Turtle Bay。在图四中，Sutton Place是联合国总部以北的长方形区域，每栋楼都是以红色标示。位于西边的Turtle Bay大楼标示为黄色。

图一：Sutton Place与Turtle Bay当地居民收入

然而，图二中我们可以看到Sutton Place跟Turtle Bay的大楼地点分数也就是十分钟生活圈质量几乎不相上下。

图二：Sutton Place与Turtle Bay地点分数

这个现象的原因是Sutton Place的居民高收入并没有体现在高房价上。在2013年，Sutton Place共有式住宅(condo)成交价格的中位数是每平方英尺$898，而Turtle Bay的中位数是$981。整个曼哈顿的数字是$1174。因为地点分数同时取决于人口普查区段的平均收入及房地产价格，Sutton Place在前者远超出Turtle Bay然而在后者却略逊一筹。这两个作用相抵消之后，Sutton Place与Turtle Bay在地点分数上就相去不远了。

那为什麽Sutton Place那麽有钱但是当地的房地产价格却不高呢?其中一个原因是Sutton Place有曼哈顿最顶级的独栋房(如上图)，不少俱有独一无二的历史价值，而且它们的主人通常有自己的司机跟厨师。打个比方，他们就像是英剧「唐顿庄园」的贵族。这边的居民有钱到不必在Sutton Place的商家消费：他们可以直接把五星级餐厅搬回家裡，或是直接搭私家车到不同的地方而且不需要大众交通工具。因此，住在Sutton Place公寓大楼，经济实力不错但没那麽富有的邻居们也因此就无法享受到金字塔顶端居民在当地消费的周边效应。Sutton Place当地餐厅或是购物地点的选择也的确不多。

第二点，单位房价高也并不代表生活圈质量一定就好。

我们用Battery Park City这个地方为例。这个区域2013年的房地产单价与金融区很接近，但是任何人只要去过Battery Park City就会知道当地的生活条件比金融区好太多了。有图有真相，瞧瞧下面这张照片，想像一下这是你每天慢跑时会看到的景色。是不是很赞?

Battery Park City的房地产价格不高是因为土地租赁的问题。Battery Park City实际上是填海获得的土地，因此当地的房子因为税上的原因而只是表面上看起来很便宜。

房地产单价隐含了一些讯息，但是同时也可以严重误导判断。曼哈顿的每栋楼都有它的特色，比如说房租管控、产权设计、土地分区补偿等等。这些因素都会影响房价但是跟附近区段的好坏关系较小。另外，有些小区可能被过份炒作，价格也因此被过分高估。结合收入和房价的大数据分析，就能真正知道每个十分钟生活圈的质量。

以上这些就是我们通过大数据做出的跟房地产相关的一些研究，希望能够与大家多探讨大数据的问题。

看过还想看

可能还想看

热点推荐