如何在3秒内分析1PB数据 EMC颜开分析Dremel原理 (如何在3秒内脱颖而出)

如何在3秒内分析1PB数据 EMC颜开分析Dremel原理 (如何在3秒内脱颖而出)

上周,InfoQ 中文站对Google 的大数据分析工具 PowerDrill做了简单介绍。今天,我们来看看服务于 EMC 的大数据专家颜开在博客文章中对 Dremel 的分析。

在这篇文章中,颜开首先提到了 Dremel 的 5 个主要特点:

颜开提到了一个 Dremel 的应用场景。

接下来,颜开详细分析了 Dremel 的列存储和嵌套数据模型,并得出结论:

对于 Dremel 的查询方式,颜开指出:

颜开还在博客中列出了对 Dremel 的测试结果,包括列存测试、和 MapReduce 的对比测试、树状计算 Server 测试、扩展性测试、容错测试等等。

对于 Dremel 和 Hadoop 的关系,颜开指出:

颜开接下来提到几个与 Dremel 类似的开源实现:

目前 Drill 包括四个组件:

颜开在文中提到:伯克利分校的教授 Armando Fox 说过一句话——“如果你曾事先告诉我 Dremel 声称其将可做些什么,那么我不会相信你能开发出这种工具”。

读者如果希望了解更多 Dremel 的实现细节,请到颜开的博客上去看这篇文章。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。