banner

大数据未必能改变社交,但它了解社交

作者: 大数据观察来源: 大数据观察时间:2017-08-31 16:27:310

先讲两个小故事——

工科生小A君毕业后赋闲在家,平时酷爱编程的他经常泡专业论坛。一天,他突然收到一家大型互联网公司的面试通知。原来,算法帮企业找到了他,它不管小A君是不是重点院校出身、也不在乎他是否有牛掰的实习经历,只计算他编的程序获得了多少同行好评、是否被业内人士重视。

剁手党小B君在淘宝上买了一个锤子,真的那种。之后一个礼拜,无论他逛哪个网站都会看到铺天盖地的锤子广告。不过,短时间内他不大可能再买一个,于是他心想,连快消品和耐用品都傻傻分不清楚,真是要被大数据蠢哭了。

这不过是大数据印象两个窄小的横截面,“拜大数据教”的人觉得它无所不能,反大数据者则认为它不过是被IT企业夸大的神话。对什么都略懂一点的壹读君今天打算跟你聊一聊,大数据的“行”与“不行”。

大数据未必能改变社交,但它了解社交

《纽约时报》曾发表过一篇叫《大数据做不到什么》的文章,记者David Brooks认为大数据首先不擅长的是社交,因为数据侧重社会交往的“量”而非“质”。

但是,大数据在社交媒体上的应用程度已经今非昔比了。就近举个例子,这次世界杯上IBM和腾讯进行了一次合作,由IBM在社交媒体平台上挖掘信息,然后由腾讯策划报道。

球迷们每天发那么多消息,而且大多是文字信息而非数字,他们是怎么挖掘和分析的呢?壹读君摘几个他们的技术让大家感受一下。

首先是“命名实体识别”,不管球迷是用手机还是电脑发消息,都会有一些文字没有标点符号,这个技术可以把人名啦、球队名等等先识别出来,来辨别不同短语的不同含义。

然后是“话题检测”,也就是识别球迷们讨论的是什么话题。对于球迷来说,这个技术的好处在于,媒体会针对他们所关心的话题来报道赛事。

最后是“语义情感分析”,也就是搞清楚球迷在讨论什么话题后,再判断球迷的立场。这样一来,比赛之后,球迷们对球赛或者队员的看法就一目了然了。

所以说,以前技术可能只擅长挖掘大……数据,也就是数据本身,而现在,它还能判断你们在聊什么。

未来不可预测,大数据:怪我咯?

反大数据思潮中另一个重要观点是,大数据只是基于对历史信息的梳理,无法预测未来。

2008年,谷歌公司建立了一个预测流感趋势的网站,用统计网络搜索关键词的方法来计算流感在某地区发生的可能性。这个网站当即被作为大数据预测未来的经典案例,然而,这个系统却没预测到2009年H1N1禽流感的爆发。虽然外界没说什么,但谷歌内部憋了一口气,立即对预测算法做了调整。新的算法引起了另一个问题,他们的预测工具变得比更年期女性还敏感,动不动就发布疫情预报。

到了2013年2月,《自然》杂志实在忍不住发表文章说,你们谷歌的不靠谱预测导致1月份流感疫苗都脱销了可还行?!

有人拿大数据这种“测不准”的尴尬跟地质学的“均变论”类比,因为以古论今的观点容易忽略了那些不可预知的事件,积累了再多过去的信息,也没有办法知道接下来会发生什么突变。

不过,大数据服务商们可没打算改行去算命,至少现在没有。回到文章最开始的剁手党案例,你以为电商们真的笨到以为这种广告投放能百分之百达到效果吗?图样图森破,他们选择这种推荐方式只不过是因为它容错率高而已。就算推荐的商品用户没相中,大不了再推荐就是了。目前,他们并没有对大数据预测抱有高度的信心,在那些不允许大误差、严重关切企业利益的商业活动中,是不会仅凭大数据预测来做决策的。

话说回来,预测未来是个高深的概率问题,大数据可能不行,但目前也没有其他工具行。

不管你信不信,机器只会变得越来越聪明

David的文章还提到数据分析不懂叙事,也不懂思维的浮现过程。然而,今年7月,美联社宣布今后将采用一种软件产品来撰写企业财报消息,这种机器人就是依靠大数据来抓取信息,根据算法来撰写新闻,它们甚至可以完美模拟人类作者的语调和风格。

2011年IBM造了个叫“沃森”的计算机出来挑战人类,在美国智力竞赛节目《危险边缘》(Jeopardy!)中夺冠。这一次,它已经可以识别人类语言,分析断句、词义,甚至连双关语、反语都不在话下。它通过数据对比和模拟人类联想得出答案,再用人类语言回答上来。壹读君看了一下节目,他答对的问题从欧盟2010年文化之都、电影《百万宝贝》到印度的吠陀梵语,五花八门。重要的是,这些问题都是在互联网断开的情况下回答上来的,不用度娘就这么博学,真是给跪了。

所以说,在David写完文章之后,大数据世界的变革仍在继续,工程师们需要专注的只是算法,算法,还是算法。

当然了,反大数据的人们关注的问题还有,在进一步发展大数据应用时,如何保护用户的隐私?人们不仅要为黑客担心,还不希望看到企业为了利益而侵犯大众隐私。反过来,使用大数据工具的企业们其实也在为数据的真实性而担心,比如招聘时抓取的简历信息会不会有造假成分、抽样来的微博用户是不是雇佣水军炒作话题。

但是,这些与其说是科学问题,不如说是道德问题。

说了这么多,壹读君只不过想要说明一个寡淡的真理,任何新兴事物出现的时候必然带有一定泡沫,重要的是在泡沫被拂去之前,你是不是已然醉了

banner

看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限