大数据应用（下）：应用驱动技术，DaaS创造价值

作者: 大数据观察来源: 大数据观察时间:2017-08-10 13:54:380

中国最具影响、规模最大的大数据领域盛会—— 2013中国大数据技术大会(Big Data Technology Conference，BDTC)于2013年12月5-6日在北京举行。数十家领军企业，近七十场主题演讲，不仅覆盖Hadoop生态系统与流式计算，实时计算与NoSQL、NewSQL等技术方向，还对互联网、金融、电信、交通、医疗等创新案例，大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

大数据应用主题论坛中，来自搜狐、海尔、奇虎360、小米、数据堂和阿里巴巴的技术人员分享了各自平台的大数据实践经验，涉及推荐引擎、网络攻击检测、HBase技术、科研数据的应用等方面。

首先，来自搜狐移动研发部的负责人蔡明军带来了“构建移动场景下的个性化推荐引擎”的分享，介绍了大数据场景下，移动端个性化内容推荐的基本情况。

内容推荐引擎主要是为了在爆发信息过程当中，建立一个信息的路由，让合适的资讯在合适的时间，以合适的方式正确地传递给用户。个性化内容推荐的原理是：

对词的统计和分析来理解内容，即内容建模；

对用户行为的分析来理解意图，即用户建模；

利用推荐算法，让合适的内容遇见合适的用户。

基于移动端的资讯获取，搜狐提供了四套引擎做支撑：

热点引擎，每个人获取信息的时候，都不希望把热点忽视掉。

信息引擎，每个用户有自己特征信息，这样才能匹配他的个性化。

探索引擎，基于计算挖掘跟用户的兴趣和人际关系，把类似的事情试探性地发送给用户，挖掘用户未知的兴趣点。

LBS引擎，基于用户的位置和所在的场景挖掘相关信息。

在实战方面，蔡明军介绍了搜狐的系统框架，整个推荐引擎是后台系统。后台有实时日志流，对用户的行为进行实时关注，中间做的是实时的计算。底层会有搜狐基础的云平台，旁边有监测运维效果平台。最前端会有推荐服务的网关，我们在这个过程不断进行算法的替代，不断的进行切换，跟产品进行有效的脱离，这是详细细化的结构。这是大致的流程，第一个用户识别，然后进行用户推荐计算，最后推送出去。比如说对用户的识别，对内容的分组。

提到大数据，大家想到的都是大型互联网公司，其实在很多传统行业也在进行大数据方面的工作，来自海尔集团电子商务有限公司CTO盛国军进行了“数据拼图演绎按需定制”的分享。

海尔希望发展自己的交易平台，而不是依赖苏宁、京东等别的平台，第一步要解决的问题是通过有效的手段获取用户，然后根据自己的记录比较精确的观察用户如何和我们交互。第二步要得到和用户交互的数据。有了这些数据之后，要对用户做各种各样维度行为的总结。最后要解决两个问题：一个是强关系，落实到购买行为上；另一个是弱关系，要引导分享这些信息。

在技术架构方面，海尔电商大数据平台借鉴了阿里的基本架构，是刊登在《程序员》杂志上的一篇文章。海尔做了一些改良，其中一个改良就是传统的业务有一些特征比较复杂，节点比较长，整个的日志或者数据元的采集没有纯互联网企业或者新兴企业那么容易。各个应用之间，通过统一的格式把这些数据发出来，专门有一个收集。数据存储起来之后，第一步解决量化的指标，第二解决实质性，第三解决个性化，第四解决自动化的问题。

接下来，奇虎360高级软件工程师肖康的演讲题目是“Storm在实时网络攻击检测和分析的应用与改进”。肖康介绍360之所以采用Storm平台基于以下几个原因：

它是实时的数据平台，流式处理，数据都是在内存中，不经过磁盘。

Storm是一个分布式平台，可扩展性强，需求增加时，增加机器，增加并发即可。

分布式系统的容错性强。

Storm平台比较灵活的，它的计算模型是DAG，可以针对需求组合出很多流程。

肖康接下来介绍了在利用Storm解决业务需求的过程中，遇到的问题及解决方案，主要问题包括：storm程序资源（如内存）占用过多导致系统不稳定、流量大时storm程序出现OOM等问题、内存队列没有大小限制、worker程序异常退出后需要等超时才能重启恢复、worker间通信的组件ZMQ使用了JNI，异常时导致JVM直接退出，且无日志可查、增加JVM的stdout stderr日志等。

看过还想看

可能还想看

热点推荐