banner
大数据平台>新闻与活动>AI时代的大数据(下)

腾讯云有话对你说:AI时代的大数据(下)

作者: admin来源: 未知时间:2018-12-10 18:01:40

 

 

 

 

上回说到,数据仓库虽然发展这么多年,但是也积累了一些问题……今天就以此展开,说一说大数据技术未来的发展趋势。

 

回顾精彩内容,领略大师风采

 

堵俊平

 腾讯云大数据产品首席架构师

 腾讯云数仓与数据湖产品负责人

 10余年云与大数据产品研发经验

 原Hortonworks美国YARN团队负责人

 

大数据技术发展趋势

未来发展趋势

数据仓库虽然发展这么多年,但是也积累了一些问题。第一个问题就是对于很多的行业,都积累了一些数仓建设经验,这些经验是很好的,被时代验证过了的。但是面向未来的时候,我们会发现现在更多在业界,包括国内以及海外,大家都在提一个概念叫数据湖。数据湖是什么?在我看来数据湖算是数据仓库发展的高级阶段,数据仓库我们知道它是从数据库脱胎而生的,所以它很多建模的思想,都是从早期的关系模型延伸过来的,所以它对于数据仓库管理数据本身的格式化以及数据模型规范化的要求很高。其好处在于通过层层建模、ETL的过程,构建数据仓库,你很清楚数仓的数据以及数据类型,有一个统一的数据事实,便于管理。不会像早期数据库阶段,很多个数据表,相互之间对不上,数仓是一个很重要的数据治理、数据规范的产品,但是也会对业务提出更高的要求,你的业务或者分析要非常了解所有的数据,而将来一旦模型定型之后,后面做一个调整也比较困难,所以既带来了好处也带来了约束。现在说的数据湖,所谓数仓的高级阶段,更多是说不要求层层ETL来约束你的数据,可以让你的数据以各种形式,包括非结构化的、半结构化的、结构化的形式存在很多地方,在这个地方可以做统一的全局的管理,包括元数据管理,同时做分析的时候也可以跨越之前数仓建模种种的约束,可以针对业务需求去做联合的分析和查询。对上层应用来说除了对接传统SQL,BI工具等等,也会对接新型应用比如AI等。对上层数据应用所提供的接口更像是一个统一的界面,屏蔽了底层异构数据源的差异。我们认为这个是大数据发展未来的重要趋势。

 

构建数据湖第一件重要的事情就是需要存储各种各样的数据,包括结构化的、半结构的和非结构化的数据,传统来说要通过hadoop来构建,hadoop下边会有一个分布式文件系统叫HDFS。但实际上HDFS来应付数据湖存储有很多技术上的难点和挑战,比如说所有的元数据都会放在单个的NameNode节点上,如果应用需要存储海量的小数据,就不合适。下一代基于hadoop的对象存储Ozone的开发,就在设计中巧妙的规避了这一点,除了提供文件接口,为了跟云去做对接,还提供了对象存储,这样你可以在云上部署类似的系统,对数据访问进行无缝的集成,而且相比传统的云端对象存储还可以做高性能的拓扑感知。

这些都是腾讯云在大数据生态圈里跟Apache Hadoop社区一起去协力推动的开源项目和产品。

 

 

腾讯云的产品实践

腾讯云Sparkling数仓

最后,介绍一下腾讯云产品相关的实践。刚才提到了数据仓库,我们最近也发布一款新型的面向未来数据湖分析的产品叫“腾讯云Sparkling数仓”。这个产品的特点:

第一,刚才说到了云原生数据仓库特点,不要求你对数据平台做一次性的投入,你一开始根据数据规模有一个比较小的配置和部署,然后根据业务量、尤其是数据的增长以及业务的需求,来做动态的弹性伸缩,在这个过程中首先它是一个非常敏捷的扩展;

第二,它是基于高性能的数仓引擎去打造的;

第三,对于刚才提到的数据湖,Sparkling可以用来构建数据湖,包括对各种数据源,SQL的、NoSQL的,包括对象存储都可以很好的集成,而上层应用方面除了对接传统的报表以及BI应用之外,还可以对接机器学习、深度学习等应用,可以说是连接过去,面向未来的数据分析产品。

 

Sparkling云数仓的参考架构

下面这张图展示了Sparkling云数仓的参考架构。

首先它会跟腾讯云的云基础设施深入的对接和优化,本身有一个高性能的SQL执行引擎,所有SQL的任务都是通过这个引擎优化和执行的,具体而言,通过层次化的方式,层层优化之后的执行计划会推到下面实际的计算结点上去执行,同时它还有一个强大的元数据管理平台来管理你的数据。在它上面会有一个面向数据开发者的平台,我们叫DB IDE服务,同时重要的是它可以把不同的任务做串行,或者组成一些DAG做数据驱动的触发。在部署模式上,它完全是云原生的部署模式,这一点很重要,要去实现所谓的弹性部署。我们怎么做到弹性部署?我们知道数据是有重力的,如果你的弹性涉及到数据的搬迁或者损伤数据的有效性,这样的弹性是得不偿失的。为了规避这一点,我们做的第一件事就是存储和计算分离,在系统里面有三种节点,主节点、核心节点,还有弹性节点,弹性节点部署在核心结点周边,需要的时候可以做快速的扩张,不需要的时候可以做极速收缩。对弹性和核心节点我们有拓扑感知的功能,这样有什么好处?能提高性能,因为最大限度的利用了数据本地性。很多号称计算存储分离的场景或者一些产品,可能是没有办法做到高性能的,因为所有的计算和存储之间的连通都是通过网络去做的,没有任何拓扑感知的能力,在这块我们是一个比较大的特点。我们还在研究一些硬件新的趋势,包括最近一些新的技术比如非易失性内存,能够通过内存和SSD中间加入一个新的层次,来优化整个计算的性能,还有包括对整个集群优化调度,也做了一些相应的优化并与传统的计算调度有所区别。

 

从计算引擎层面我们选择业界最流行的SparkSQL引擎,也加上了一些企业安全功能支持,让整个数仓引擎更加安全。另外我们加强了自适应执行的引擎优化查询,在查询的过程中可以根据之前执行的代价做动态调整,同时对于数仓底下的列式存储做了很大的改进,这个改进能够加上比如bloomfilter机制,让它支持更快的数据扫描。通过实现这些功能,能实现更快速的数据扫描,数据越多,对查询执行性的提高就会越明显。除此之外,对于大数据基础设施和平台运维,大家很头疼的事情就是这里面涉及到的相关的参数大概有成百上千个,把相关的参数调好调对对绝大多数人是很大的挑战。我们基于腾讯多年对大数据的理解和探索,对相关的参数做了细粒度的调优,大家基于我们的平台可以不用再去做二次调参,从而克服了很多挑战,把精力投放在更为重要的地方。

 

我们还提供更多的企业级特性支持,包括Serverless化,对于一些数仓或数据平台轻度用户,不用花额外的钱来独占/维护一个单独的数仓集群,需要的数据分析或产生报表的时候直接发SQL请求就可以了。这里面涉及到企业级安全支持,包括提供基于MVCC/ACID的服务,以及对AI和数据科学的支持都有所增强。

 

SaaS BI 8.0

最后谈一下SaaS BI,它是腾讯云上的敏捷BI产品,这个也是我们跟合作伙伴永洪科技一起联合打造的产品,这个产品的特点也是敏捷高性能,自服务一体化的特点,不需要客户干预,轻松实现拖拉拽式的数据分析。

它可以与包括刚才提到的Sparkling数仓做无缝的集成。SaaS BI可以为我们提供非常强大的业务可视化分析能力,对于我们洞察数据,了解数据所蕴含的趋势,能起到关键性的作用。

 

我的演讲就到这里,感谢大家,谢谢。

 

 

 

 

banner
看过还想看
可能还想看
热点推荐
Yonghong的价值观:以卓越的数据技术为客户创造价值,实现客户成功。