banner

爱奇艺在Hadoop生态中大数据平台实践

作者: 大数据观察来源: 大数据观察时间:2017-03-05 15:14:310

2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理(数据治理)、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。

 

第五届中国数据库技术大会

自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix两大技术社区,已经连续举办了四届中国数据库技术大会,每届大会与会规模超千人,大会云集了国内水平最高的数据架构师、数据库管理和运维工程师、数据库开发工程师、研发总监和IT经理等技术人群,是目前国内最受欢迎、人气最高的的数据库技术交流盛会。今年是中国数据库技术大会五周年,大会将继续秉承分享IT最佳应用实践的宗旨,围绕传统数据库和大数据两条技术主线,在目前IT技术和管理快速的大背景下,更加深入地探讨数据库技术的现状和未来的发展方向,以及我们在这个转型过程中的实践经验和教训。

在4月10日下午举行的《Hadoop技术实战和应用》专场演讲中,来自爱奇艺技术产品中心的专家孙琦老师为我们分享了关于《爱奇艺在Hadoop生态中大数据平台架构与实践》的相关话题。

 

爱奇艺技术产品中心的专家孙琦老师

根据孙琦老师介绍,自2014年1月以来,爱奇艺PPS已经连续2月日均覆盖、月度覆盖、月度时长和人均月度时长均排名第1。在Hadoop生态建设方面,爱奇艺目前的状况是:

· 与2010年8月开始搭建,最初只有50台机器;

· 目前已经具有一定规模,且在迅速扩容;

· 多机房部署,专线互联;

· 涵盖Apache Hadoop生态的所有主要组件;

· 物理机集群与虚机集群共存的部署模式;

· 公共集群和专属集群共存的运营模式。

 

据了解,爱奇艺Hadoop目前处理的数据量为20PB左右,日处理Job数达到了100000+,服务包括搜索、广告、推荐、日志分析、BI等等。尽管爱奇艺在应用Hadoop方面已经取得了一系列的成就,但孙琦老师表示,目前爱奇艺还没完全进入Hadoop 2.0时代。

爱奇艺Hadoop生态图

· 数据格式:ProtoBuf、JSON为主,统一数据定义,以便数据共享

· 批处理以Hive作业为主

· Storm、Spark实时计算资源托管在Mesos或Openstack虚机之上

· 大部分HBase应用是为离线计算服务

· 作业提交管理:入口机 + 专用提交系统

· 系统监控:传统监控 (Nagios, Zabbix) + Metrics数据聚合

· 成本审计:货币化度量项目组开销

 

最后,针对爱奇艺Hadoop生态系统,孙琦老师也进行了功能方面的回顾。包括已经跨机房在多个HBase集群之间配置;数据延迟在毫秒级;为业务组提供了跨机房数据共享的条件;几次的网络故障已经证明了该机制的可靠性。

对于未来的计划,孙琦老师表示,未来将增加HDFS Erasure Code的支持、支持Kerberos;进入Hadoop 2.0,实现多框架对资源的共享;统一MR/Spark/Storm作业提交界面,以及深度整合Openstack、Mesos与Hadoop生态。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限