作者: 大数据观察来源: 大数据观察时间:2017-03-09 16:47:440
大数据时代兴趣图谱和社交图谱融合豆瓣网首席科学家兼副总裁王守崑表示,大数据具有以下的几个特性:(1)大数据应该是超线性增长的。(2)大数据需要有非常复杂的数据结构,或者说是相对复杂的内部结构。(3)低成本。大数据时代豆瓣是怎么做兴趣图谱的?王守崑给出了这样的总结:逐步把兴趣图谱的信息和社交图谱的信息融合在一起。抓住时效性、系数性,通过各种各样的特性来衡量这种推荐效果。使用各种各样的模型,通过Boosting去分析问题。社交图谱在语义上也是有非常高的复杂性,整个自然元素的领域对于语义也非常好,因为语义的复杂性更增加了这样的困难程度。另外,数据太大是一个很大的问题,豆瓣把IO Bound转化成CPUBound,相对完美的解决了数据太大所带来的问题。王守崑在演讲结尾时说,个性化推荐是前所未有的好机会,有成熟的技术准备,接触大数据的成本非常低,有非常好的数据源和基础服务。除此之外,移动互联网让用户有更大的兴趣分享私人数据,所以从技术和数据的准备上来说都是非常成熟的。淘宝广告算法负责人王勇睿为大家分析了解决算法问题的细节,从产品的主要的特点来说包括这样几个主要的信息源:创意的信息,创意指的是广告或者我们推荐的商品。浏览者的信息,就是谁在看这个网页,构成了个人在站内留下的所有行为信息。场景的信息,这个场景在淘宝的矩阵里面比较丰富,目的是给用户推荐恰当有序的结构。王勇睿讲到,定向的技术包含不同的定向维度,还有不同的技术。而定向技术中为何采用多种维度来分析数据呢?原因不外乎以下几点:1)非搜索场景的意图模糊。2)意图选择路径并不唯一。3)意图稀疏的时候需要多种维度的补充。4)疲劳问题等等。
图为定向算法架构最后他还说到,因为没有负反馈的产品和数据,所以在未来的设计里要增加负反馈。人为的控制正反馈负反馈的数据比例,这是难度很大的工程。网易通用搜索优化之道——系统实现与数据分析吴一男表示这个产品经过了通用搜索、云服务和数据应用这几个历程。通用搜索系统主要的关注目标是系统的实现功能。云服务关注的点是整个产品在使用和运维过程的应用型式和运维成本。接着就是关注搜索数据,这主要是为了满足真正的产品业务的要求。网易内部的互联网产品其实各个产品有自己的一些独立的需求,或者业务上的一些不同,内部有一个专门的通用搜索这块的东西,能够支撑网易的其他的互联网产品。相关的产品像开源Solr Elastic Search。亚马逊和阿里也都有了云搜索,通用搜索淘宝近期也推出了TSearcher搜索技术,和网易的Solr Elastic Search差不多。
吴一男最后透露,网易通用搜索在未来的发展方向和目标是:完善服务化/云平台建设。数据可视化,基于数据驱动的改进。搜索个性化,与用户数据的结合。加强移动端搜索应用。扩展应用领域,提高用户体验标准。腾讯个性化推荐系统设计及实现肖磊说,腾讯去年的个性化推荐主要在两个领域,一个是搜索广告的推荐,另外一个是微博上的推荐。另外在电商方面也做了推荐。他还表示,腾讯不管做视频的推荐、广告的推荐还是电商的推荐,本质上都是基于用户做的推荐。他说,推荐实际上主要涉及三个元素(称之为3P):用户、ITEM和场景。这三个元素和用户的反馈数据之间的关系是非常紧密的。(用户的反馈数据包括用户的点击数据和曝光数据。)解决的办法(称之为3S)从三方面入手:数据、系统和算法。肖磊最后总结说,腾讯个性化推荐系统的设计基于两大核心平台:腾讯分布式数据仓库(TDW)、实时推荐平台(APOLLO)。这两个平台主要服务于不同的推荐,分类完成推荐任务。支付宝风控BI模型的发展之路BI模型的发展之路是从2009年T+1的时候开始的,当时针对机器码注册现象,就做了识别。后来模型发展起来的时候,整个防控是以规则为主,模型为辅。到了2011年的时候,严奉华团队在线上做了模型平台。BI模型大规模布置之后,对整个模型平台的运转起到了很大的作用。 未来的目标是模型为主,规则为辅。
支付安全和用户体验之间是有冲突的,业务增长和运维增长也是有冲突的。为了解决模型上的弊端,实现业务上的增长,化解冲突的办法就是加入一层可信体系,这样的话用户体验也好了,运维上的困难也解决了。
永洪科技
致力于打造全球领先的数据技术厂商