Hadoop+GPU强强联手的性能探索

作者: 大数据观察来源: 大数据观察时间:2017-01-17 10:54:240

Hadoop并行处理可以成倍地提高性能。现在的问题是如果将一部分计算工作从CPU迁移到GPU会怎么样？能否更快理论上，这些处理如果经过了并行计算的优化，在GPU上执行会比CPU快50-100倍。作为大数据专家和PaaS的推动者，Altoros Systems研发团队一直致力于探索Hadoop+GPU的可能性，以及在实际的大规模系统中的实现，这篇文章就是他们的部分研究成果。作者 Vladimir Starostenkov是Altoros Systems的资深研发工程师，他在实现复杂软件架构（包括数据密集型系统和Hadoop驱动的应用程序）方面有五年经验，而且对人工智能和机器学习算法也很感兴趣。技术现状：多年来，有很多将Hadoop或MapReduce应用到GPU的科研项目。 Mars可能是第一个成功的GPU的MapReduce框架。采用Mars技术，分析WEB数据（搜索和日志）和处理WEB文档的性能提高了1.5-1.6倍。根据Mars的基本原理，很多科研机构都开发了类似的工具，提高自己数据密集型系统的性能。相关案例包括分子动力学、数学建模（如Monte Carlo）、基于块的矩阵乘法、财务分析、图像处理等。还有针对网格计算的 BOING系统，它是一个快速发展、志愿者驱动的中间件系统。尽管没有使用Hadoop，BOINC已经成为许多科研项目加速的基础。例如， GPUGRID是一个基于BOINC的GPU和分布式计算的项目，它通过执行分子模拟，帮助我们了解蛋白质在健康和疾病情况下的不同作用。多数关于医药、物理、数学、生物等的 BOINC项目也可以使用Hadoop+GPU技术。因此，使用GPU加速并行计算系统的需求是存在的。这些机构会投资GPU的超级计算机或开发自己的解决方案。硬件厂商，如Cray，已经发布了配置GPU和预装了Hadoop的机器。Amazon也推出了 EMR（Amazon Elastic MapReduce），用户可以在其配置了GPU的服务器上使用Hadoop。超级计算机性能很高，但是成本达数百万美元；Amazon EMR也仅适用于延续几个月的项目。对于一些更大的科研项目（两到三年），投资自己的硬件更划算。即使在Hadoop集群内使用GPU能提高计算速度，数据传输也会造成一定的性能瓶颈。以下会详细介绍相关问题。工作原理数据处理过程中，HDD、DRAM、CPU和GPU必然会有数据交换。下图显示了CPU和GPU共同执行计算时，数据的传输。

图：数据处理时，各组件之间的数据交换 banner

看过还想看

可能还想看

热点推荐