黄金时代 展望2022年大数据趋势 上云短期不会是ClickHouse社区目标 现在仍是 (黄金时代展望图片)

黄金时代 展望2022年大数据趋势 上云短期不会是ClickHouse社区目标 现在仍是 (黄金时代展望图片)

大数据如果从 Google 对外发布 MapReduce 论文算起,已经前后跨越近二十年。如今的大数据领域还像从前那么火热吗?过去一年,大数据领域都有哪些技术创新需要关注?它又将走向怎样的 2022 年?

在 12 月 28 日晚上的 InfoQ 年度技术展望大数据专场直播中,我们邀请到了蚂蚁集团计算智能部资深技术专家周家英,跟大家畅谈大数据领域在2021年的重要进展和 2022 年的发展趋势,希望能帮助你准确把握 2021 年大数据领域的核心发展脉络,在行业内始终保持足够的技术敏锐度。本文由直播内容整理而成,你也可以点击这里查看完整视频回放。

InfoQ:家英老师现在是蚂蚁集团在线计算、虚拟数仓和特征平台三个数据平台的负责人,或许您可以先跟我们聊聊在线计算的过去一年的进展。两年前在 QCon 上我就跟您聊过分布式计算引擎 Ray,当时 Ray 还是一个非常新的项目,过去一年 Ray 有什么新的动态吗?现在 Ray 在蚂蚁集团内部和业界使用情况怎么样?

周家英:

InfoQ:听起来 Ray 相比两年前已经有了挺多新进展,2022 年,您觉得 Ray 将会有什么样的发展?

周家英:

InfoQ:所以作为大数据领域的从业者,2022 年大家还是很有必要多了解一下 Ray 这个引擎。过去一年跟很多领域内专家老师交流的时候,有很多人认为 Ray 未来的发展潜力非常大。

周家英:

InfoQ:下一个问题,想请家英老师从全局一些的视角,跟我们分享一下,您所观察到的过去一年大数据领域有哪些比较重要的变化和趋势?

周家英:

InfoQ:刚才您提到实时化,确实可以感觉到这几年大家对于数据的实时性确实越来越重视了。不过我们同时也听到另一种说法是,未来可能会兴起近实时化架构,介于离线处理和实时处理之间的这么一种架构,它会比离线计算实时性更好,但是比实时计算成本低,大部分应用会使用这个近实时化架构,因为没有那么多工作非要用实时计算不可。您对此怎么看?离线、实时和近实时,未来分别将会如何发展?

周家英:

InfoQ:既然聊到实时化 OLAP,就不得不提今年非常火爆的 ClickHouse,它也是实时架构里面非常重要的一个开源组件。ClickHouse 其实在 16 年就已经开源了,但似乎直到去年热度和关注度才一下子变得特别高,您觉得这背后可能是因为什么原因?

周家英:

InfoQ:不过业界一直也有一些唱衰 ClickHouse 的声音,上云一直是 ClickHouse 的痛点,因为它为了追求极致性能,没有选择存算分离、弹性扩展的技术方案,但现在又是云原生的时代。您认为云原生对于大数据来讲是必选项吗?所有的大数据技术都必须具备云原生能力吗?上云这个痛点是否会影响 ClickHouse 在 2022 年的发展?

周家英:

InfoQ:除了实时化,前面您其实也有提到大数据智能化的趋势,包括经常说的 BI 和 AI 相结合,您觉得 2022 年这个方向上可能会有哪些新的趋势,BI+AI 结合会产生哪些具体的技术价值及应用价值?

周家英:

InfoQ:前面我们聊了实时化、聊了 OLAP,也聊了大数据智能化,基本上对大数据领域比较重要的一些方向和趋势都做了探讨。正好最近我看到了一篇 文章 ,是 dbt 的 CEO-Trisan Handy 写的,他在文章里讨论了现代数据技术栈的过去现在和未来,并总结了未来可能会出现的一些创新点。其中有一些创新点跟我们前面聊的不谋而合,也有一些方向目前在国内大家讨论和关注的还不太多。

比如数据技术栈的易用性是很多人都觉得非常重要的一点。组件太多太复杂其实是大数据开源生态被诟病了很久的问题,当前业界很多企业都在沿着“融合”的方向做一些工作,在您看来,未来可能会出现什么都能做的统一数据平台/引擎吗?还是会继续保持现在这样各种引擎百花齐放、各有所长的局面?

周家英:

InfoQ:前面聊了很多技术和趋势,最后我们收个尾,早几年我们经常会听到“现在是大数据的黄金时代”这类说法,在您看来现在还是“黄金时代”吗?

周家英:

InfoQ:那您觉得 2021 年大数据领域技术发展的速度算是快的吗?

周家英:

InfoQ:感觉跟我最近从另一位老师交流中听到的想法不谋而合。现在大数据领域可能发展到了一个相对稳定的阶段,已经有了很多不同的组件,基本可以解决大部分问题,但是每一个不同的细分方向依然有很多可以创新的机会。从引擎的角度来讲,就只是能用、但未必好用。

周家英:

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。