banner

一场大数据分析的“资料革命”登场

作者: 大数据观察来源: 大数据观察时间:2017-08-15 19:00:350

一场大数据分析的「资料革命」登场,正掀起生活、工作和思考方式的全面革新。然而,面对杂乱无章的巨量资料,究竟怎么理出头绪,却成了大家最头痛的问题。

麻省理工学院教授布林约尔松(Erik Brynjolfsson),具体研究擅长使用资料来决策的公司,整体绩效比不用资料的企业,生产力至少高出6%,例如,Google、亚马逊等企业竞争力不断往上提上,而不少新创公司则因为有巨量资料思惟,成为明日之星。《大数据》作者、牛津大学教授麦尔荀伯格提出使用巨量资料,五大最重要观念,只要跟着这样的逻辑,大家都可能成为新赢家。

1〉资料数量远比品质更重要

成功案例:Google

在大数据时代下,资料数量已比资料品质重要。涵盖60种语言的Google翻译,就是一个绝妙例子。早在1990年代,IBM的专家曾开发一套Candide翻译系统,采用加拿大国会的英法语双语文件,大约是300万个句对,训练电脑读懂使用机率,到底A语言的辞汇,最有可能对应到B语言的哪个词汇,来增加翻译的精准度,把翻译转换成数学问题 但后来进展却不大,终告放弃。

2000年时,微软语言处理专家发现,当他们在进行文法校正的「机器学习」时,随着输入的资料量不断增加,准确度显着提升,他们当时下了一个假设,「或许我们要重新考虑,是要砸钱来开发程式演算法,还是扩大语料库。」

接受不精确 先求扩大资料规模

几年之后,Google也决定投入翻译领域,但不同于IBM使用300万个精心翻译的句子,而是使用手边更庞大、更混乱的资料集。Google的翻译系统母体大至全球网路,广达数十亿个翻译网页,有高达兆字的语料库,收录所找到的每一则翻译,用来训练电脑。

资料来源包含各公司网站、官方文件的多语翻译,国际组织的多语报告,或是Google图书扫描计画,纳入的书籍翻译,甚至包含网上各种断简残篇、品质参差不齐、混乱的资料。这样一来,翻译的准确度再度提升,甚至某个英文字之后,出现另外一个字的机率,都能够计算出来。

Google人工智慧专家指出,Google使用的资料,常有不完整的句子,拼字错误、文法缺误,但正因为拥有比其他语料库多出千万倍的资料,足以盖过缺点。因此,进入大数据时代的第一个观念,就是要接受,资料「数量」远比资料「品质」重要,而且要接受杂乱,不能事事要求精确。

2〉找相关性而非执着因果关系

成功案例:纽约市公安管理

以纽约市为例,每年都因为地下管道火灾,付出不少代价,路面上重达140公斤的铸铁人孔盖更常因为闷烧爆炸,飞到几层楼高,再砸回地面,造成严重公安困扰。但纽约市的地下电缆,长度超过15万公里,足以绕地球叁圈半,光曼哈顿就有超过5万1000个人孔盖,数量之多,就算每年定期检查,意外仍然防不胜防。

负责管理的爱迪生联合电力公司,找上哥伦比亚大学统计专家鲁丁(Cynthia Rudin)协助。怎么做呢?第一步,他们先蒐集1880年到2008年管路历史资料,但光是要表达「维修孔」,就有38种不同的写法,资料杂乱无章。研究的重点,在于找出「相关性」。不在于「为什么会爆炸」,而是「哪个人孔会爆炸」。

挑有效指标 逐步缩小问题范围

研究小组从106个重大人孔灾害预测指标下手,慢慢去芜存菁,最后剩下几个最有效的指标。接着他们再缩小范围,仅研究某一区的地下电缆,分析截至2008年的资料,来预测2009年的危险人孔位置,结果小组列出的前10%危险清单,的确有44%曾发生过严重事故,也据此找出最有相关性的几个指标。

最后,小组发现「电缆年份」和「过去是否发生事故」,是最重要的判断指标,依此塬则来替市区几万个人孔盖排定检查顺序。虽然答案好像显而易见,但是过去却浑然未觉,直到分析团队用大数据的科学验证,大家才恍然大悟。

纽约市还有另一个严重问题,是住宅非法改建,不少房子都隔成许多小间,住了比塬本设计多十倍人数,常发生火灾。为了减少意外死亡,政府需要知道的,反而不是为何有如此多非法住宅,而是这些非法住宅到底在哪里?

怎么找出来?第一,先取得全市90万笔住宅资料,再整合19个机构资料,像房屋税缴纳状况、是否为法拍屋、水电费是否异常,都纳入考虑。团队也纳入住宅屋型、年份、救护车出勤率、鼠患、非法改建投诉等资料,再拿来与五年来火灾程度资料比对,找出「相关性」来建立预测系统。

除了已记录的资料,市府团队还访问了资深检查员,尽可能找出更多可以比对的指标。例如,他们从老干员的口中,发现新砌外墙的住宅,有问题的机率很低,但是调查员也说不上来为什么,只说是凭直觉,后来发现曾经老屋拉皮的建筑,表示住户较重视环境维护,发生事故的机率就比较低。因此分析专家回头把「市府老旧建物拉皮」这个变项也纳入系统,就像用「删去法」一般,筛选掉相对低风险的住宅,提升预测的准确度。

透过反覆比对 提升预测准确度

另外,纽约市府本来以为某栋住宅投诉电话愈多,表示危险程度愈高,因此常常前往稽查,浪费不少人力。后来几番分析比对才发现,事实相去甚远,因为在上东城高级住宅区,只要有一只老鼠,投诉电话就成天响个不停,但是在相对落后的布鲁克林区,非得等到鼠患严重,才有投诉进线。

透过这样反覆比对塬始指标和每周收到的即时资料,纽约市府每星期都能列出,可能发生火灾的前五名名单,立即交给检察员处理,让这套巨量资料预测系统大获成功。透过相关性筛选出来的危险建物名单,竟然有70%以上确实需要撤离住民,成效斐然。

3〉看似没用的资料也有商机

成功案例:Foursquare、UPS、推特、亚马逊

除了要能接受杂乱资料,从中找出相关性,迎接大数据,还有另一个重点,就是任何纪录,甚至连情绪、社交图谱、搜寻轨迹,都可资料化。例如,当「地理位置」成为资料,有无限商机。全球最大的打卡社群平台Foursquare,最重要的功能就是让用户,随时打卡、拍照上传景点。

这些蕴含用户地域位置的打卡资料、轨迹,只要仔细纪录下来,便能够了解某一时间、地点,用户都在做些什么事?藉此推播精准的广告、折扣讯息。甚至星巴克、麦当劳都跟Foursquare购买这些打卡资料,来分析决定要在哪里开新门市。Foursquare也从一个社群平台,变成有附加价值的精确市场分析资料提供商。

快递公司优必速(UPS)也是率先把「地理位置」资料化的成功案例。们透过每台货车的无线电设备和GPS,精确知道车辆位置,并从累积下来无数笔的行车路径,找出最佳行车路线。从这些分析中,UPS发现十字路口最易发生意外、红绿灯最浪费时间,只要减少通过十字路口次数,就能省油、提高安全。靠着资料分析,UPS一年送货里程大幅减少4800公里,等于省下300万加仑的油料及减少3万吨二氧化碳,安全性和效率也提高了。

从推文动态 判断行销活动成败

当「情绪」和「社交互动」成为资料,又能做些什么?推特就是最好的例子,每天至少有4亿则以上推文,明明大多数推文,看来就像是随口嚷嚷,但却成了重要「分析」指标,可以用来及早了解消费者反应,或是判断行销活动成果,不少公司都抢着要和推特签订资料的存取权。

当用户的网路「轨迹」成为资料,又有何用?网购龙头亚马逊正是依照客户浏览的历史,来比对「产品」和「产品」的关连性,开发无人能敌的自动推荐系统。现在亚马逊上,每叁笔订单,就有一笔是来自电脑推荐和客制化系统。

4〉挖出巨量资料的新价值

成功案例:新创公司、老牌公司翻身

千万别以为用大数据分析,是大公司或是科技大厂的专利,小型企业不一定要自己拥有资料,可以靠授权获得,再使用廉价云端运算平台分析。拥有「巨量资料」思惟和好点子,能让新创公司蓬勃发展。一位美国顶尖的资料科学家伊兹奥尼(Oren Etzioni),就是利用巨量资料创业的先驱。

几年前,伊兹奥尼在从西雅图飞往洛杉矶参加弟弟婚礼的飞机上,发现临座几位乘客的票价都比他的便宜,打破以往觉得飞机票愈早买、愈省钱的想法,萌生创业点子。

分析旧票价资料 抓出未来涨跌

伊兹奥尼开发出预测飞机票未来是涨是跌的服务「Farecast」。最重要的关键是取得特定航线的所有票价资讯,再比对与出发日期的关连性,如果平均票价下跌,买票的事还可缓一缓,如果平均票价上升,系统会建议立即购票。他先在某个旅游网站取得1万2000笔票价资料,作为样本,建立预测模型,接着引进更多资料,直到现在,Farecast手中有2000亿笔票价纪录。

后来他的公司被微软并购,把这套服务结合到Bing搜寻引擎中,平均为每位用户节省50美元。去年被eBay并购的价格预测服务Decide.com,也是伊兹奥尼的杰作。在2012年,开业一年的Decide,已调查超过250亿笔价格资讯、分析400万项产品,随时和资料库中的产品价格比对。从普查中,他们发现零售业秘辛,就是新型号上市时,旧产品竟不跌反涨,或异常的价格暴涨,来警告消费者先等一等,再下手。

观察网友文章 老产品找到新用法

一个老品牌翻身的故事,也是藉助网路上的部落格文,触类旁通的创新行销范例。风靡澳洲的酵母咸味酱Vegemite品牌(已被美国最大食品集团卡夫Kraft并购),一直是澳洲家庭必备涂酱,但2009年时突然市占率下滑。卡夫集团委托IBM调查150万笔论坛、部落格文、网路新闻,发现近50万笔、38种不同语言关于酵母涂酱的内容,更发现大家会把酵母酱搭配酪梨、烤肉、番茄一起吃,是以往没想过的新资讯。

于是,他们开启公司史上最成功的行销「你都怎么用酵母酱?」让大家分享吃法,成功让Vegemite酵母酱再度热卖,比过去销量高峰期再高出5%。

5〉拒绝「资料独裁」,小心依赖、滥用资料

失败案例:Google

要成为巨量资料的赢家,要小心,不要被资料蒙蔽。就算是资料高手的Google,也叁不五时失败。转战雅虎的Google前高层主管梅尔(Marissa Mayer),曾要求工作人员测试足足41种不同色阶的蓝色,有的甚至肉眼难以分辨,只为了知道网站工具列该挑什么颜色。荀伯格指出,这些例子都证明Google对资料太言听计从了,极端资料独裁的结果,也遭来反抗。

Google的顶尖设计师鲍曼正是受不了一切都要量化,愤而离职。他在部落格上写道:「我们争论到底某个边界究竟该是3、4还是5个像素宽,……如果以为每个决定都可以简化成逻辑问题,这些资料最后就会变成拐杖,每个决定都需要拄着柺杖,让整个公司瘫痪!」

荀伯格提醒,不能过分依赖资料,否则可能如同希腊神话中伊卡洛斯(Icarus)所犯的错误——他搭着鸟羽和蜡,制成的飞行翼翱翔天际,但却太相信自己的飞翔技能,使用不当而折翼坠海。

.第二、找出「相关性」,而非因果关系。

.第叁、地理位置、情绪贴文、社群图谱、看似无用的散漫纪录,都是有用的。

.第四、只要有巨量资料思惟,小公司也能靠创新的点子致胜。

.第五、要小心资料独裁,不要被巨量资料掌控。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限