banner

十大企业的大数据实践——探寻大数据先行者的足迹

作者: 大数据观察来源: 大数据观察时间:2017-05-13 15:45:020

最近,有一条关于苹果同IBM合作的新闻,“把IBM的大数据和分析能力带给iPhone和iPad平板电脑”,从而“创造一种新类别的商务应用”。“大数据”这一词语在另一个新的角度又一次的引起了人们的注意。“大数据”一词最早可以追溯到apache org的开源项目Nutch。当时,大数据仅用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着技术的发展如今的“大数据”有了更多的含义,并不仅仅局限于网络中的信息,也涵盖到日常生活的方方面面。

不过,每一次概念或工具的履新,尤其是商业层面,其有确定意义或意义的确定的前提,都是为企业客户降低了成本,也使普遍的消费者获得了更好的服务。

尽管“大数据”在最近几年才引起人们的关注,但许多互联网公司走在了时代的前面,他们作为大数据时代的先行者,为如今的“大数据”的兴起奠定了基础,并在历史的经历中卓有成效,有时也成为追逆或效仿的对象。以下,希望从IBM、SAP、Oracle、Facebook、亚马逊、百度、阿里巴巴、腾讯、京东这十家大数据的先行践行者们,看看他们都在各自的领域创造了哪些有关大数据的基础与标准,以便让更多的B和C再进一步了解一下“大数据”应用的逻辑。

IBM、SAP、Oracle:我们只是大数据的搬运工

前段时间IBM卖掉了自己的芯片业务,这表明了IBM对自己的未来有着一些清晰的规划——减少硬件业务,将精力投入云计算、分析以及智慧地球的项目之上。IBM全球副总裁Eric Sall说,“IBM不能装作这世界一成不变,这世界当然在随时变化”。IBM此举也恰巧说明了一个行业的趋势,即数据在未来的发展至关重要,而分析数据的能力则显得尤为突出。从信息时代到数据时代,是一种抽象的简化。

作为一个以大数据为基础为各行业提供解决方案的企业来说,硬件业务的多少与好坏似乎已并不能衡量自身的实力,自身的软件服务才更可能决定一些根本性的东西。在今年,IBM宣布以10亿元组建新部门,目的是发展公司最新的电脑系统Watson,它将据客户过往的历史记录,帮助企业更好地认识客户,随时随地以客户选择的方式进行接洽,并在需要行动时提供强大支持。因此它将大大节省企业/客户的人工成本,以便更好地做出决策,更快的实现业务成效,而在去年,这一系统已经开始应用于医疗以及零售领域,帮助行业实现转型。

尽管如此,IBM仍然是到了一个艰难的时刻,尽管投入了较大资金发展全球数据中心,比如以20亿美元收购云计算基础架构服务提供商SoftLayer,但其在云计算领域取得的收入应属是杯水车薪,面对来势汹汹的后起之秀,IBM这个蓝色巨人可能需要放下过去的慢热,虽然大象和蚂蚁转身需要的能级不同。

说到IBM就不得不提SAP,这个由前IBM员工成立的软件公司如今已经发展为全球最大的企业应用软件供应商。然而,SAP所涉及的领域不仅于此,他已经将自己的触角伸及到了体育界。相信大家对2014巴西世界杯德国队的夺冠记忆犹新,在这背后或有“大数据”的力量,可谓是德国队的“第十二人”。早在此次世界杯之前,德国足协便与SAP公司合作,定制名为“Match In-sights”的足球解决方案,用以迅速收集、处理分析球员和球队的技术数据,基于“数字和事实”优化球队配置,从而提升球队作战能力,并通过分析对手技术数据。通过此种方式,德国队在战术制定上的时间成本大大缩短,这可以算所是“大数据”的一种胜利,同时也是未来体育发展的一种趋势,即引入当今世界最发达的技术,提高自身比赛水平,借助大数据强有力的分析处理能力制定合理的训练计划与比赛战术,而非像以前那样单纯的依靠球队的不断操练来实现。我们可以相信,在未来,不只是体育届,任何范畴内的决策都会要借助“大数据”的分析结果来完成,因为它可以既便捷又准确。

这就是“大数据”的力量。百度李明远有一句话:“大数据的特点就是发现人们原来看不到的数据,将这些数据应用于商业,改变认知的核心工具。”由此才产生了诸多在接入“大数据”业务后,发展迅猛的公司,Oracle就是其中之一。

Oracle最初的业务仅是数据库,这也是他存在的基础,直到1987他才成立了一个仅有7人的软件开发部门,管理也十分成松散,而这个部门成立的理由只是因为Oracle公司需要一个财务管理系统。就在这种偶然下Oracle开始了“大数据”业务的发展,至1996年,Oracle赢得了华为的合作,稍后又拿到了美的、中兴的订单,直到1998年,他们已经拥有了1300位客户。仅用了6年时间,Oracle就超越了诸多前辈一跃成为应用软件业的第二,虽然同SAP仍有很大差距,但已经是一个不小的成绩。

Oracle应用软件的创始人杰夫·沃克说过:“尽管SAP有R/3,但在应用软件市场上,他们并没有达到高不可及的程度,他们并没有真正做到象Oracle那样成功。”到目前为止Orcale已经成为了应用软件业仅次于SAP的公司,为戴尔公司、苏格兰皇家银行等业界巨头提供服务。其中,波士顿医学中心在使用了Orcale的应用服务以优化其临床及数据存储环境之后,不仅消减了存储成本并且使其性能也提高了74%。

不论是IBM、SAP还是Oracle,都是依靠应用软件服务来创造盈利,他们在“大数据”的数据服务上已经取得了成功,其占据的市场份额是后起之秀们难以企及的。其实他们所做的并不复杂,可他们发现了前任未曾发现的信息。国内外的企业中,做应用软件的不少,意图涉足大数据领域更多,可是却仍在低端市场中苦苦挣扎,这并非管理水平偏低的原因,而是因为太过看重自身的利益而忽略了“大数据”业务发展的必然条件,成本的降低与服务的提高,只有针对这些不变的点,才能真正走上“大数据”的发展道路,成为下一代领导者。

百度、google:不要再把我们看做搜索引擎,我们正在做些别的事情

“新一代的数据收集不仅是数据工具,数据本身会有很大的发展。”李彦宏如是说。

同样是2014巴西世界杯期间,百度“世界杯预测”上线,尽管足球是一件不确定性级高的事情,可在比赛结束后发现,百度这次的预测无一错误。想想世界杯时无数走上天台的小伙伴们,若是知道百度有此神器,应该是有些感想的吧。

在其赛事预测的产品说明中写到“百度大数据部收集了2010-2013年全世界范围内所有国家队及俱乐部的赛事数据,构建了现在的赛事预测模型”,这是其利用“大数据”在传统领域的又一次尝试,并且他们希望在建立起成熟的模型之后,在球队训练、体彩等方面发挥商业价值。可以推断,百度应该在“大数据”上有着极大的野心。

球赛预测的结果是可喜的,不过百度在另一项事情的预测上则栽了跟头。在《黄金时代》上映之前,百度发布会上宣布电影《黄金时代》的票房预期可达2.0—2.3亿,当时的媒体都认为这个数字估计的太过于保守,然而截止到10月16日,《黄金时代》的累计票房为4698万,如此成绩对于片方、媒体和公众而言都是出乎意料,2.0亿的票房估计竟然已经算是十分乐观。这并不是百度第一次做票房预测了,早在7月14日爱奇艺就透露在内部,百度票房的预测已经有了百分之八十的准确率。百度也因为此次的预测失败而推迟了票房预测产品的上线,我们可以看到在百度预测中,电影票房预测那一项仍是灰色,标注着“即将上线,敬请期待”的字样。对此,可能的原因是类似《黄金时代》的文艺类影片样本较少,不确定性大。

同百度这次失败同样的,他的竞争对手Google也有马失前蹄的时候。在2008年Google推出了他的Google Flu Trends流感预测服务,在这之后的几年时间中,预测的结果都是准确的。这也帮助各国对即将到来的流感进行了有效的预防,避免了更大的损失。直到2013年2月,Nature上出现文章,表示GFT预测的全国范围的流感样疾病(占全国人口的比例)近乎是实际值的2倍,这是由于Google所抓取的数据是直接从搜索引擎中来,这就使得真正的流感患者同跟风搜索流感的人混淆在一起,最终夸大了流感人口的比例。

可见,“大数据”中最重要的不是分析数据而恰恰是数据本身,如果数据本身存在着问题,那么不论算法如何正确出来的结果也是失之千里。

当然这仅仅是两个微小的错误,并不能就此否定这两家公司在“大数据”上做出的努力,毕竟以搜索引擎起家的他们天生就具有“大数据”应用研究与实践的优势。如今百度已经有了一套看起来更完整的“大数据”引擎系统,共三个部分:开放云,百度的大规模分布式计算和超大规模存储云,对应到Google则是他举世闻名的数据中心以及基于Colossus的云;数据工厂,百度将海量数据组织起来的软件能力,对应到Google,其近年来为迎接大数据时代不断改造核心技术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel。百度大脑,能够应用这些数据的算法,对应到Google,Google提供的大数据分析智能应用包括多个方面,技术有Big Query、趋势图等。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。可以说二者在如和发展“大数据”上思路及其一致。在百度预测的界面我们可以看到已经能够看到一个预测开放平台,为每一个用户提供平台化的预测服务。借助这种服务,应该能够更准确地预见未来的趋势,趋利避害。譬如通过“疾病预测”,可以知道同类疾病全国哪家医院最好,同城医院中,哪家医院现在排队人数较少,或者当前天气需要预防那种流行病;通过“景点预测”,我们能够有效地规划出游行程,只能看人不能看景的情况,而景区也能够据此作出正确的判断而非依靠以往模糊的经验。对于企业来说,能够有效地规避风险,调整战略,进而减低成本,缩减开支,最终达到效率与收益的提高。

在如今搜索引擎市场已经不能为他们带来更多盈利的情况下,百度与Google将目光同时转向了“大数据”开发与研究。曾经有一个这样的问题,问百度能够依靠大数据做些什么,答可以分析网上卖假药的情况。这固然是针对百度搜索中侧边经常显示的广告的调侃,但也反映了百度所面临的尴尬,搜索业务所能提供的利润已经接近饱和,盈利模式的更新已经迫不及待,而通过“大数据”变现,在目前是一条最有希望的道路。有消息称,Google每年通过“大数据”可获得约80亿美元的收入,这一数字远远超过了百度。若百度能通过“百度预测”这一系列产品获得成功,那么他所能获得的不仅仅是更加海量的数据,更是源源不断的现金流。

亚马逊、京东、阿里巴巴:当你们在浏览商品时。。。

眼下随着日子的临近,一年一度的双十一又要来了,在那些网页弹出的广告中,不难注意到那些推荐的产品,正是曾经搜索过或者浏览过的,这正是基于“大数据”的结果。而这种智能推荐的服务是“大数据”应用商业化中较为成功的例子。

说道电商中“大数据”方面做得最成功的无疑是亚马逊了,亚马逊是云计算的奠基者,他在用户偏好、商业领域等方面的“大数据”能力可以说甚至超过了Google。他从每一位客户上捕捉大量数据,如购买记录、浏览记录、浏览时间等,从这些杂乱的数据中找到产品的关联性,从而产生最适合推荐给用户的产品。亚马逊不对人进行分类,而是对用户的需求分类,从而产生了亚马逊的推荐系统,而此举它带去30%的销售收入。反映在网页上,我们可以看到亚马逊会将智能推荐的过程贯穿购物的始终。此外,亚马逊也会向用户发送邮件,推荐少量的商品,甚至是你未来可能会用到的商品。更为重要的是这一系列过程并不会令人产生反感,用户体验也随之提高。

对应到国内,不得不提的是阿里巴巴,作为国内最早运作云的部门,他的推荐系统同样优秀。在淘宝首页你会很容易看到一个名为“发现·好货”的浏览框,其中的物品全部都同你最近浏览购买或搜索的类似。

淘宝作为一个拥有海量用户数据的平台,每天都有上千万交易发生,数据从手机端、电脑中上传,为阿里提供了一个数据库。自去年3月起阿里上线了自己的云服务平台——御膳房,旨在为第三方软件服务商和品牌商提供大数据计算、挖掘、存储的云环境开发平台,构建阿里数据生态。这也是其在以“云计算、大数据”为核心的DT战略上迈出的一步。截止到目前,仅一年多的时间,就同300多家第三方软件服务商形成了合作,提供了包含流量推广、商品管理、数据分析、CRM、ERP、广告精准投放等多个支撑工具,覆盖了180万天猫、淘宝商家,为他们带去了利润。例如,通过“日报单品分析”服务能够使得运营人员方便的进行单品优化、页面调整,分析人员能够清晰地进行业务分析;通过“财务对账”服务能够使得线上付款、线下交易更加融合,节省了中间周转的成本。阿里数据平台事业部王贲表示:“我们就像一个厨房,提供了最优质的原材料、最锋利的工具,让开发者、服务商这样的大厨能够快速实现大数据应用的各种idea。”

同样的还有京东,虽然目前在云计算领域还远远达不到阿里的高度,但仍有着自己的努力。作为一个直接为用户提供产品的电商,供应量变得十分关键,京东通过销售情况、市场预期、时间日期的综合数据,形成一个预测系统,最后自动形成订单发送给供应商,避免缺货情况的存在。另外,在我们搜索商品时,出现的标签往往并不是商品的分类而是来自于商品的评价,这让我们能够更为准确的找到自己想要的商品。这一服务源自京东对于后台搜索数据分析的结果,他们发现在京东商城进行购买的用户往往对商品的分类并不清楚,而经常以商品的功能或作用来进行寻找,因此在他们看来,更重要的是在搜索栏中出现商品的评价而非分类,而主动将此类标签加入搜索系统中能使用户更好的找到自己想要的商品,加强了对用户的服务,使得购物体验大为提升,而这一举措更是使自身的赢利大为增加。

然而这三家电商所收集的数据较多的为非结构化数据,在理解与分析上较为困难,因此偶有推荐系统向客户并不需要的商品的情况的发生。

马云在卸任演讲上说:“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联网的时候,大数据时代又来了。”“大数据”为平台提供了更好的信息支持,创造出更优质的服务,更优质地服务又能带来更多的数据,更多的数据样本使分析结果更为精确,为用户提供更佳的体验,如此则有更多的人投入使用中来,这样便形成了一个数据的良性循环。如此,“大数据”可以说是未来电商们发展的基础资源及优势所在,透过“大数据”的支撑,能够提高用户数量,提供优质服务,降低运营成本,提升总体盈利。

腾讯、facebook:交流的是情感,看到的是数据

还记得今年情人节时Facebook发表的那份关于恋爱的数据么,通过“大数据”他能知道你们何时会恋爱,何时可能分手,甚至你本身尚未意识到时,他就已经察觉了。这是基于2.7亿活跃用户的统计结果。

同传统的恋爱过程类似,社交网络中的爱情也有一段“追求”的阶段,在这一阶段中,每位用户每日会至少推送一条消息,而在关系确定之后推送的频率则会直线下降。另一个趋势是在找到伴侣后,由于爱意的增加,情侣间互动的内容会越来越甜蜜,正能量的传递也会随之增多。不仅如此,Facebook甚至能够推算出这段感情能够维持多长时间,最长的可达4年以上,以及最容易分手的时间,通常是在5-7月。也许,Facebook应当基于此推出一项恋爱预测的服务,来帮助广大单身青年们“脱团”,使他们的“双十一”不再孤单。

早在2012年,Facebook就开始了用户“大数据”的收集,主要是收集用户在Facebook上公开的感情数据,并尝试着让用户发表自己收听习惯,并得到了有趣的结果。根据这些数据,他们制作出了“恋爱歌曲TOP10”以及“失恋歌曲TOP10”以此来慰藉那些坠入爱河以及伤心不已的用户。可这并不是出于一时的好奇心或仅为好玩,最终的目的是将这些数据用于用户推荐服务上,他们根据统计得到的数据,建立了“看心听曲”服务,即根据用户的心情,推荐不同的曲目,如此贴心的服务,不仅使用户们感到暖心,同时也让Facebook的用户忠实度有了上升。

国内的腾讯在公司还在很小的时候就通过后台记录、分析用户的每一个习惯,时至今日已经拥有了广大的用户数据,而正是这种对数据的重视,使得腾讯建立了今天的企鹅王国。

如今,腾讯云服务已经有了包括计算与网络、存储与CDN、监控与安全、数据分析等多项服务,并投入到清华大学微信建站,糗事百科、365日历应用软件运行等项目之中,为他们提供了多样化的服务。DNSPod CEO吴洪声说:“接入腾讯云之后,极大地减少了我们运维成本,特别是使用了云数据库和CDN之后,我们的服务响应更快了,运营产品变得更简单了。”其中,腾讯的数据分析平台已经接入了100过个产品的各类数据,涵盖数据数据管理、数据监控、数据分析、数据可视化、数据挖掘等多个方面,而推出的云分析服务,则是其“大数据”战略的重点所在,从公布的信息中来看,从微信到微博,腾讯为云分析提供了全面的平台支撑,达到了统计全面上报详细的目的。

小小比如,腾讯基于“大数据”的产品“广点通”,在腾讯大社交平台海量用户积累的基础上,进行以人为核心的数据挖掘,实现精准的广告推荐,形成用户、物品和推荐位之间的交叉效应,其中最成功的就是同万科联手,使万科投入了3万的广告费用,获得了400万元的销售额。

然而腾讯现在需要做的除了开发“大数据”与云,还要打通自己的后台数据,使其形成一个完整的生态圈,等待后期完全成熟的技术,加以借鉴,更深层次的挖掘自己的“大数据”。

基于社交网络的公司统计分析“大数据”的一个特点就是侧重于呈现人的行为以及社会关系的信息,从这些数据中,可以分析人们的日常生活与行为,从而从中挖掘社会、政治、商业等信息,甚至能够预测未来。在这两点上,腾讯与Facebook都做到了不少,也许我们如今不应将它们狭义地视为一个SNS社交软件,而是进行重新的定义,如今它们的核心竞争力已不再是社交领域,而转移到数据业务上,而SNS只是更好地完成其“大数据”战略的一种应用,产生、收集、挖掘海量数据的一个工具。正如投资人Federated Media的约翰·巴特利(John Battelle)对Facebook的展望那样,“该公司正尝试着对自身进行重新定义,不满足于做狭义方面的社交网站,而这恰是外界对它的理解”。

以上这些,算案例吗?应该算吧。如果不是案例,就不是在讲大数据。

一般而言,国外的公司起步早发展快,如今已经成为全球“大数据”领域的领导者,他们懂得如何将开发出的“大数据”服务快速变现,通过这种方式源源不断的为自己的“大数据”开发及数据获取提供资源,已经形成了一个成熟的生态体系。虽然IBM处于财务困境,但我们相信他只是到了一个继续转型的时期,丢掉沉重的硬件包袱,他必将重新崛起。而SAP虽然面临众多后起之秀的竞争的巨大压力,可业界第一的位置仍然难以撼动。对于Oracle来说,想要和SAP一搏,仅靠不断的收购是行不通的。

不论“大数据”这个概念是否仅是互联网行业制造出的一个噱头,越来越多的信息被映射到网上,数字世界正逐渐转为虚拟世界,互联网企业坐拥海量数据并将其应用于自身服务中已是一个不争的事实。当然,未来没有一家企业不是互联网企业。

很喜欢这样一句话:“我们从来没想过这是一个大数据项目,而是想着要解决问题。”这个永久的问题的核心是帮助客户降低成本,提高绩效。

对“大数据”的挖掘也可能是对世界的第二次发现。

周刊

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限