短短半个月,大数据领域新一代领军企业>
11 月 2 日,Databricks 在其官方博客发布声明,表示其数据湖仓(lake house)技术创下 TPC-DS 基准测试新记录,并强调第三方研究表明实际性能可达 Snowflake 的 2.5 倍。
在博客中,Databricks 声称这是一件大事,有助于证明数据仓库在未来十年要么不复存在,要么会大变样,“从长远来看,所有数据仓库都将被纳入数据湖仓”。
11 月 12 日,Snowflake 做出回应,发布了自己的测试结果,同时称>
11 月 15 日,Databricks 的创始人再次在其公司博客上给予回应,指责 Snowflake 为了测试结果竟然改了 TPC-DS 的输入数据,表示有些人不仅作弊还是“酸葡萄”。
这场战斗,双方的企业创始人纷纷亲自下场,可谓招招致命刀刀见血。大多数软件供应商永远不会满足于第二名,这也意味着 Snowflake 和>
事情经过
第一回合:Databricks 出击
Databricks 正着力推动一种名为“数据湖仓”的新型架构,支持者称这种架构甚至能够消除对于数据仓库的直接需求、颠覆几十年来的行业标准,其意义堪比出现了一款能够直接干掉谷歌 Chrome 的新型浏览器设计方案。
信心满满的>
11 月 2 日,Databricks 宣布经过事务处理性能委员会(简称 TPC)这家独立行业组织的验证确认,Databricks 的系统性能可达行业内最接近的其他数据仓库竞争对手的 2.2 倍。
Databricks 在博客中声称,在经典提取 - 转换 - 加载(ETL)流程的过滤与处理方面,其智能湖仓方案取得了超越 Snowflake 数据仓库方案的性能表现。此次比较采用了 TPC-DS 的基准测试并得到审计认证,其中>
Databricks 还宣布巴塞罗那超级计算中心(BSC)的研究团队运行了另外一项不同的基准性能比较,并发现>
公司 CEO Ali Ghodsi 在采访中表示, “我们基本上已经成功证明在数据湖仓的技术对抗中击败了 Snowflake。”
第二回合:Snowflake 还手
Snowflake 公司创始人 Benoit Dageville 与 Thierry Cruanes 很快做出回应,发表了一篇《行业标杆 诚信竞争》的博客文章。文中表示>
TPC-DS 基准测试会对体量为 100 TB 的 TPC-DS 数据库运行 99 次查询。
Snowflake 对由巴塞罗那研究团队测得的上述>
“配置全部为默认,所有查询都在一套 4XL 数据仓库上运行,总时长为 3760 秒;连续运行两轮,取最佳运行时间。可以看到,Snowflake 的实际结果达到>
虽然结果有所变化,但>
Databricks 公司还强调,巴塞罗那研究团队公布的结果证明其产品性价比远高于 Snowflake:
Snowflake 这边的两位创始人当然也不认可>
下图所示为>
所以跟性能的情况类似, Databricks 的表现确实比 Snowflake 更好 ,但好不了那么多。
而 Snowflake 创始人们认为,“如果使用标准版定价,Snowflake 与>
他们还鼓励感兴趣的朋友自己尝试运行 Snowflake TPC-DS 基准测试,验证到底是谁在信口雌黄。只需点击几下鼠标再等上一个小时左右,就能得出靠谱的结论。Snowflake 本身“不会发布综合行业基准,因为这些结果起不到任何有益客户的作用。”
第三回合:Databricks 再次回喷
几天后,Databricks 的创始人又亲自下场撕 Snowflake,表示自己做的就是“客户至上”的基准测试,并且认为 Snowflake 准备的 TPC-DS 数据集有问题。Databricks 利用官方的数据集、同样的硬件,发现测试的速度慢了一倍,和巴塞罗那研究团队的测试速度差不多。
总之,“我们将官方 TPC-DS 数据集加载到 Snowflake 中,对运行功率测试所需的时间进行计时,结果比 Snowflake 在他们的博客中报告的时间长 1.9 倍”。
基准测试的意义有多大?
Snowflake 公司创始人在回击中强调他们不愿意参与这种“与现实体验完全脱节、只为打压竞争对手而存在的基准测试之争,这种行为不符合我们客户至上的核心价值观。”
他们表示:“二十年前,数据库行业里每隔几个月就会有一次破基准测试记录的事情发生。这在当时是大家的首要任务… 但现在数据库行业停止发布新结果也是有原因的。”
“任何拥有一定从业经历的朋友都有相同的体会,基准性能竞赛只会分散企业为客户打造优质产品时的专注度。”再说回>
卡耐基梅隆大学副教授 Andy Pavlo 对此也表示,“在企业层面,也许有些 CIO 会关心产品在性能委员会那边的官方排名,但排名结果对实际销售的影响并不大。”
虽然事务处理性能委员会的影响力近年来一直不断下降,但在行业内的号召力仍然不容小觑。该委员会建立于上世纪八十年代,旨在为数据库性能评估提供中立的裁定指导。性能委员会会首先发布供各家数据库厂商运行的系统基准,之后再对结果进行小组审议与官方认证。
但随着整个行业的爆发式增长与竞争烈化,这些性能基准不但没有降低人们的认知门槛、反而加剧了混乱与争吵。例如,部分供应商开始大肆宣扬并未得到性能委员会正式认证的测试结果。Databricks 表示,他们发布的最新结果已经得到性能委员会的“审计与公布”。性能提升比例相当可观,足以让一部分仍在犹豫的潜在客户下定决心。
颠覆和变革是一场持久战
关注大数据和数据仓库领域动态的朋友可能有印象,本轮只是>
这场冲突势必会加剧数据仓库和湖仓一体技术之间的战斗。
Databricks 最初主要是一家数据湖公司,但一直在添加数仓功能,最终走向湖仓一体。Snowflake 则是反过来的,作为一家数仓起家的公司,却一直忙于拥抱数据湖功能。湖仓一体作为一个新兴架构,很多企业目前还在早期探索阶段。
虽然基准测试没有二十年前那么有影响力,但>
“从长远来看,所有数据仓库都将被纳入数据湖仓,”Databricks 的联合创始人兼首席执行官 Ali Ghodsi 说。“这不会在一夜之间发生——这些东西会共存一段时间——但这个官方的世界纪录清楚地证明,在价格和性能上,数据湖仓完胜数据仓库。”
而大数据平台领域专家关涛在回复 InfoQ 的采访中也曾讲道:“现在大多数企业都还没有用到湖仓一体的新架构,他们要么选择了数据湖方案,要么选择了数仓方案。但大方向之下,业内对湖仓一体的整体大方向是高度达成一致的。
湖仓一体的兴起本质上是由用户诉求推动的,大家希望得到更好的数据治理和管理能力,同时又希望有更好的灵活性,特别是随着 AI 的兴起,完全纯数仓的二维关系表已经无法承接半 / 非结构化数据的处理,AI 引擎不可能只跑在纯数仓模型上。所以湖仓一体一定是未来的发展趋势。做数仓的会有更多数据湖属性,做数据湖的也会有更多的数仓属性,最后根据实际需求去找到中间的平衡。”
另外,Databricks 已经从投资者手中筹得 35 亿美元,专门用于聘请顶尖人才、打造竞争产品,可谓与 Snowflake 势不两立。Michalis Petropoulos 于今年 6 月加盟>
这还只是新阵容中很小的一部分,过去一年来已经有十几名前亚马逊、谷歌、Snowflake 以及 IBM 员工加入到>
Databricks 公司联合创始人 Reynold Xin 宣称,“我们的核心数据仓库团队……在实际规模上可能已经超越了 Snowflake 那边。”
在最近的几轮融资、性能委员会的认可以及众多新员工加入的利好加持之下,Databricks 的发展势头无疑颇为强劲。截至 8 月 31 日,该公司年经常性收入已经超过 6 亿美元,由此也能看出人们对>
但前路仍然艰难。虽然 Ghodsi 言之凿凿,认为数据湖仓将给整个数据仓库市场带来颠覆性、甚至毁灭性的变革,但要想真的干掉领域内的头部厂商之一,并全盘取代他们长期受到欢迎的技术方案,单凭性能委员会的一份认证显然还远远不够。至少过去二十年来,无数企业级技术的迭起兴衰已经反复证明了这一点。
延伸阅读:
采访:现在是采用湖仓一体的好时机吗?