最近在 2014 年的 Spark 峰会上发布了Hadoop 内存片内加速技术,可以为 Hadoop 应用带来内存片内计算的相关收益。
该技术包括两个单元:和 Hadoop HDFS 兼容的内存片内文件系统,以及为内存片内处理而优化的 MapReduce 实现。这两个单元对基于磁盘的 HDFS 和传统的 MapReduce 进行了扩展,为大数据处理情况提供了更好的性能。
内存片内加速技术消除了在传统 Hadoop 架构模型中与作业追踪者(job tracker)、任务追踪者(task tracker)相关的系统开销,它可以和现有的 MapReduce 应用一起工作而无需改动任何原有的 MapReduce、HDFS 和 YARN 环境的代码。
下面是 InfoQ 对 GridGain 的 CTO Nikita Ivanov 关于 Hadoop 内存片内加速技术和架构细节的访谈。
InfoQ: Hadoop 内存片内 加速技术的关键特性在于 GridGain 的 内存片内 文件系统和 内存片内 MapReduce ,你能描述一下这两个组件是如何协同工作的吗?
如何对这两种组合做一下比较,一种是内存片内 HDFS 和内存片内 MapReduce 的组合,另一种是基于磁盘的 HDFS 和传统的 MapReduce 的组合?
:你能描述一下这个在 Hadoop 内存片内加速技术背后的双模、高性能的内存片内文件系统是如何工作的?它与传统的文件系统又有何不同呢?
:如何比较 GridGain 的内存片内 MapReduce 方案和其它的一些实时流解决方案,比如 Storm 或者 Apache Spark?
:什么情况下需要使用 Hadoop 内存片内加速技术呢?
:你能谈谈 GridGain 的 Visor 和基于图形界面的文件系统分析工具吗,以及他们如何帮助监视和管理 Hadoop 工作(Hadoop jobs)的?
:后面的产品路标是怎么样的呢?
Taneja Group 也有相关报道(Memory is the Hidden Secret to Success with Big>关于被访问者
Nikita Ivanov 是 GridGain 系统公司的发起人和 CTO,GridGain 成立于 2007 年,投资者包括 RTP Ventures 和 Almaz Capital。Nikita 领导 GridGain 开发了领先的分布式内存片内数据处理技术 - 领先的 Java 内存片内计算平台,今天在全世界每 10 秒它就会启动运行一次。Nikita 有超过 20 年的软件应用开发经验,创建了 HPC 和中间件平台,并在一些创业公司和知名企业都做出过贡献,包括 Adaptec, Visa 和 BEA Systems。Nikita 也是使用 Java 技术作为服务器端开发应用的先驱者,1996 年他在为欧洲大型系统做集成工作时他就进行了相关实践。
查看参考原文: Nikita Ivanov on GridGain’s In-Memory Accelerator for Hadoop
感谢侯伯薇对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博()或者腾讯微博()关注我们,并与我们的编辑和其他读者朋友交流。