但中外发展现状存在明显差异 大数据管理工具走向更易用与专精 (中外发展对比)

但中外发展现状存在明显差异 大数据管理工具走向更易用与专精 (中外发展对比)

作者:王宇飞,字节跳动数据平台开发套件技术负责人

以云数仓为中心的数据架构开始形成

数仓的发展历程

纵观整个数仓的发展历程,笔者认为大体上可以分为 4 个阶段:

尽管在当下,第 2、3、4 阶段的数仓产品仍处于共存状态——它们仍旧分别被各类企业所使用,但在企业数字化转型和企业上云的整体趋势背景下,我们有理由相信,未来处于第 4 阶段的云数仓,将会被越来越多的企业采用。

云数仓架构的核心优势

在笔者看来,云数仓架构最显著的优势在于易用性进一步提升、成本进一步降低。尤其是新一代云数仓采用 shared everything 架构,所有节点共享底层云存储资源池,计算与存储分离,让存储及计算节点都具备灵活弹性扩展的能力。此外,可以以集中化的方式解决安全信任和数据共享等方面问题。

相比基于 Hadoop 生态的数仓架构,用户不用再维护管理自己的集群,而是可以根据业务发展需要动态扩缩容。综合考虑硬件及自身维护数仓架构的研发等成本来看,云数仓也更有优势。

云数仓开始成为企业的 single source of truth

随着过往数据生态系统的发展,企业其实已经积累了非常多的数据源,包括各种数据库、SaaS 服务等。尤其在海外,SaaS 发展更成熟,多源数据问题更加凸显。

多源数据会给企业带来两方面的困扰:

因为云数仓的存储计算成本优势,以及随着现代数据堆栈的发展,让数据汇聚到云数仓及加工都更加便捷,这些都是企业选择云数仓作为中心存储的优势。

当云数仓成为企业的 single source of truth 后,可以帮助企业基于整合后的数据更好地做出业务决策。

数据工具更加易用与专精

数据管理成为企业基础设施增长最快的领域之一

A16Z 今年发布了世界排名前 50 的数据创业公司,文章中指出:数据管理已经成为企业基础设施中增长最快的领域之一,价值预计超过 700 亿美元,2021 年数据管理支出占企业所有基础设施支出的五分之一以上。这 50 家创业公司的估值总计超过千亿美元,总融资额约 145 亿美元,其中 20 家在 2021 年晋级独角兽行列。

笔者认为,背后最主要的原因是数据使用的民主化对帮助企业快速成长起到了愈发关键的作用。这里面包括增长营销、业务诊断、结合机器学习赋能业务过程自动化等等,早已不再只是单纯的报表统计需求。

而海外云数仓的发展,尤其像 Snowflake 的发展与崛起,进一步带动了整个大数据管理工具的生态发展,形成了目前的 Modern top="2699.453125">更多细分创新领域涌现,下一代行业标准正在悄然建立

新一代数据集成系统:ETL 向 EL(T)转变

过去,整个数据开发的基础核心链路是 ETL,即数据抽取加工后导入数仓。随着硬件成本的降低与云的发展,处理模型开始向 EL(T)的方式转变。

EL(T)的优势在于把数据抽取和转换解耦,也就是 EL 和 T,各自由独立组件完成,使得抽取过程可以更自动化,大大降低了数据导入这步的使用门槛。同时,由于 EL(T)可以让数据源更低成本地集成进来,进一步加速了云数仓成为 single source of truth 的进程。

而做好一个数据集成系统主要的挑战有三点:

从行业发展来看,数据集成领域涌现了一些优秀的开源项目,每款产品都有着自身的特点,并聚焦解决其中一部分问题,以下是几种常见的解法:

字节基于内部的复杂场景和海量数据传输等需求,自研了一套提供离线、实时、增量场景下全域数据集成解决方案引擎,在架构及功能层面的优化包括:

今年 11 月,我们已经把这套数据集成引擎 BitSail 正式开源出来(),希望可以把内部沉淀的经验提供给更多外部企业,同时援引社区力量,大家共同解决好数据入仓第一步的问题。

数据可观测性:概念骤热背后,数据质量和 SLA 重要性日益凸显

数据可观测性的核心是帮助企业解决更好地监控和改善企业内可交付的数据质量和效率等问题。通过持续监控、跟踪、警报、分析和故障排除事件来减少和防止数据错误或停机时间,同时能帮助用户了解组织的数据环境、数据管道和数据基础设施的健康状况。

目前,Monte Carlo 等厂商正在大力推广“数据可观测性”这一概念。

在笔者看来,数据可观测性概念背后要解决的问题——即数据质量和 SLA 治理问题,并不是全新场景问题,但其重要性正在不断提升。

核心驱动力来自两个方面:

反向 ETL:数据进一步深入业务场景实现提效

反向 ETL 指的是将数据仓库加工好的数据同步到业务系统中,它处于数据集成(EL)的另一端,解决的是数据如何在消费端更好地发挥价值的问题。这种细分场景的出现,也是以云数仓为中心的场景扩展,意味着数据使用深度增强。

数据从之前的更多用于报表决策、分析等应用场景,开始过渡到更多地输出到企业的 CRM 等系统,帮助优化业务流程和自动化决策等场景能力。这也是数据对业务重要性提升的一个表现。反向 ETL 让用户能够以无代码、自动化等低成本的方式提升业务场景的决策效率。典型的代表公司有 Hightouch、Census 等。

DataOps 兴起,但行业标准尚未成型

图注:Gartner 2022 数据管理成熟度模型

Gartner 对>

简单来说,DataOps 结合了软件工程 DevOps 理念,来解决数据端到端交付过程中的质量与效率问题,它是一套方法论,而不是单指某项技术或工具。2018 年,Gartner 开始推>

在笔者看来,DataOps 出现的核心驱动力还是数据对业务的影响和价值越来越大,所以需要更科学、更精细化的方式融入到整个数据开发、生产到交付的全链路中。而 DevOps 已经发展多年,里面很多成熟的理念可以迁移到数据的开发交付链路中,比如持续集成、持续测试、持续监控等等。

但行业整体还处于发展初期,大家对这个概念本身的理解也有差别,还没有真正形成基于普遍认可的业务实践达成的行业标准。从 Gartner 的 Hype Cycle 曲线也可以看出,DataOps 仍需要 2-5 年才能发展得相对成熟。如何在>

这方面的痛点包括如何把口头研发规范应用到开发平台、如何降低由于代码问题或误操作等带来的数据事故,以及如何保障数据 SLA 链路的可观测性等问题。随着一个个场景的问题被解决,沉淀到产品上的能力一定程度上就是软件工程实践的场景迁移。比如,基于数据开发场景结合好 CICD、数据测试、版本管理等。

一方面是要制定合理的 top="5581.453125">AI 能力进一步融入,释放更多人力

数据管理工具结合 AI 能力,在笔者看来是必然趋势。究其原因,一方面是人力成本日益攀升,而 AI 可以释放人力,让人力聚焦到更复杂的业务问题上、做更能激发创造力的事情;另一方面是随着数据的民主化,企业收集和处理的数据量远超之前,尤其大型互联网公司的数据规模通常都能达到 EB 级,这种规模的数据管理运维复杂度也急剧攀升,完全靠人来处理好是比较难的,而 AI 可以完全托管或协助管理。

对于数据管理领域,AI 可以在很多方面发挥作用。比如在数据治理方向,自动检测相似任务、利用 NLP 技术生成数据质量规则、冷热数据分级等;在数据开发方向,自动推断 Join 字段及代码片段等;在安全合规方向,智能审批及异常访问检测等。

从发展阶段来说,AI 在数据管理领域的应用还处于偏早期,大多数场景起到的是锦上添花的作用,仍有很大空间等待探索和挖掘。

结 语

当前国内外大数据管理工具的发展现状还存在明显差异,具体体现在:

核心原因是国内外云的发展阶段不同,云的渗透率相差比较大,这也导致国内数据工具生态还没有发展起来。而现阶段国内企业做数字化转型,需要有 all in one 的产品解决方案来支持。未来随着国内云的进一步发展,尤其是云数仓的崛起,笔者相信会有更多优秀的细分领域>

这给我们带来的挑战和机遇是如何加速企业上云和数字化转型的过程,让企业有机会跳过工具能用的阶段,直接到好用。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。