美国时间 2021 年 12 月 9 日, (原名 Waterdrop) 正式通过 Apache 软件基金会的投票决议,以全票通过的优秀表现正式成为 Apache 孵化器项目。
邮件列表 显示,在包含 14 个约束性投票 (binding votes) 和 9 个无约束性投票(non-binding votes) 的投票,评委全部持赞同意见,无弃权票和反对票。这也是 Apache 基金会中诞生的第一个来自中国的数据集成平台项目。
SeaTunnel 的前世今生
SeaTunnel 是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台,架构于 Apache Spark和Apache Flink 之上,支持海量数据的实时同步与转换。
SeaTunnel 原名 Waterdrop,于 2017 年由乐视创建,并于同年在 GitHub 上开源,2021 年 10 月改名为 SeaTunnel。
之所以要研发 SeaTunnel ,主要是因为当时市面上没有很好的、简单易用的、支持每天数百亿条数据同步的开源软件,SeaTunnel 的使命就是要将海量数据同步的能力传播到全世界,同时大大降低用户利用 Spark、Flink 等技术做数据集成的门槛。
从技术维度来谈,SeaTunnel 的目标可以归纳为:
SeaTunnel 系统架构、工作流程与特性
在团队的努力下,SeaTunnel 的系统架构逐渐成型,2017 年对外开源后,SeaTunnel 很快获得了开发人员的认可。迄今为止,SeaTunnel 已经发布了 31 个版本 (目前推荐使用 1.5.6),在新浪、水滴筹、搜狗、趣头条、唯品会等公司的生产实践中发挥着关键作用。
SeaTunnel 系统架构图
Input/Source[数据源输入] -> Filter/Transform[数据处理] -> Output/Sink[结果输出]
SeaTunnel 工作流程图
上图为 SeaTunnel 的整个工作流程,数据处理流水线由多个过滤器构成,以满足多种数据处理需求。如果用户习惯了 SQL,也可以直接使用 SQL 构建数据处理管道,更加简单高效。目前,SeaTunnel 支持的过滤器列表也在扩展中。
在这样的易拓展架构设计下,SeaTunnel 具有以下核心特性:
使用场景
海量数据集成、数据 ETL、数据聚合以及多源数据处理等。 如今,SeaTunnel 已应用于数十家企业生产环境,日均可稳定高效地同步数百亿条数据。
比如, SeaTunnel 解决了唯品会数据仓库入仓出仓、人群计算等场景中的难题;作为 B 站数据平台离线出入仓核心工具,SeaTunnel 在 B 站每天完成千亿级记录、百 T 级数据的出入仓,解决了我们电商、直播、创作中心等场景核心任务出入仓难题;微博一直播内部使用 SeaTunnel 的魔改定制源码搭建了实时的直播数仓入仓工具;趣头条数据中心使用 SeaTunnel 作为 Hive 到 Clickhouse 的离线同步工具;永辉云创科技旗下的新零售品牌永辉生活使用 SeaTunnel 进行电子商务用户行为数据的实时流式和离线 SQL 计算。
“Welcome to Apache incubator,SeaTunnel!”
从 2017 年创立,到如今进入 Apache 孵化器,SeaTunnel 正在进入一个全新的发展阶段。SeaTunnel 一进入孵化器就得到众多开源社区大咖们的祝福,包括 Apache 基金会董事吴晟、Apache 基金会成员 JiangNing, Ted Liu, GuoWei、腾讯开源联盟主席单致豪,PingCAP 联合创始人 & CTO 黄东旭、涛思数据 TDengine 创始人陶建辉、SphereEx 联合创始人 & CTO 潘娟、Apache HAWQ PMC 主席常雷、Apache Hudi PMC 李少峰、DataStax(Apache Cassandra 社区)中国总经理卢东明、Apache Doris PPMC 陈明雨、Apache RocketMQ PMC 杜恒, Elastic 中文社区创始人曾勇、巨杉数据库技术生态资深总监萧少聪等诸多开源数据生态大咖的联名祝贺。
其实 SeaTunnel 在孵化器讨论阶段就曾引起全球 Apache 孵化器导师的关注,“导师”报名数量远超过普通孵化项目,以至于 Apache 孵化器负责人 Justin 邮件提醒“导师不能过多”。也有导师在全球 Apache 孵化器讨论邮件列表里表示遗憾 —— Apache 孵化器项目 “旱的旱死,涝的涝死”,形容有的项目还要四处寻求导师才可以进入孵化器,有的项目则需要大家争抢导师职位,而 SeaTunnel 无疑是后者。
SeaTunnel 社区 PPMC 们表示:“始终以开放的心态,致力于让全球所有优秀的数据存储和计算引擎高效、准确、快速地进行跨数据源的同步、转化数据,让人们在多数据源场景下,可以快速、简单的完成自己的目标。我们相信在「The Apache Way」的指导下,社区将秉持更加开放包容的心态,欢迎更多贡献者加入,共同为中国开源事业添砖加瓦!”
感谢每一位贡献者!
SeaTunnel 凝聚了贡献者的智慧和心血,感谢项目的 Mentor 和 Committer 给予项目的指导,以及所有贡献者的参与!
贡献者
garyelephant 、、、 CalvinKirs 、、、、、、 zhongjiajie 、、、、 huangdeheng 、 kezhenxu94 、、、、、、、、、 zhuangchong 、
项目详情
目前 SeaTunnel 的所有源代码和所有相关文档已捐赠给 Apache Software Foundation。这些代码已经在 Apache License Version 2.0 下:
仓库地址: 网址: : 以祝福和希望为翼,直冲云霄!(以收到寄语时间为序)
—— 腾讯开源联盟主席 单致豪
—— 涛思数据 TDengine 创始人陶建辉
—— 巨杉数据库 技术生态资深总监 萧少聪
—— 马红伟 百度开源办公室产品运营经理
—— Greenplum 中国开源社区发起人,四维纵横创始人 姚延栋
— Elastic 中文社区创始人、INFINI Labs 创始人 曾勇
—— 白鲸开源联合创始人 & Apache DolphinScheduler VP 代立冬,SeaTunnel Mentor
在加入孵化器之际,社区也收到了来自用户代表的祝福。
用户代表
—— 唯品会 Olap 团队负责人 王玉
—— 哔哩哔哩资深开发工程师 张宗耀
衷心欢迎更多人加入!
能够进入 Apache 孵化器,SeaTunnel 新的路程才刚刚开始,但社区的发展壮大需要更多人的加入。我们相信,在「 Community Over Code 」(社区大于代码)、「 Open and Cooperation 」(开放协作)、「 Meritocracy 」(精英管理)、以及「多样性与共识决策」等 The Apache Way 的指引下,我们将迎来更加多元化和包容的社区生态,共建开源精神带来的技术进步!
我们诚邀各位有志于让本土开源立足全球的伙伴加入 SeaTunnel 贡献者大家庭,一起共建开源!
联系我们:
加入 Slack: ~ppbinD0oKpGeoo_dAw
关注 Twitter: 秉持开源精神,乐视、白鲸开源科技与开源社区一起致力于 SeaTunnel 的发展完善及与 Apache 等生态圈的融合。目前,SeaTunnel 已经与多个 Apache 项目完成整合,包括 Apache DolphinScheduler,Apache Spark, Apache Flink, Apache Hadoop, Apache Hudi,Apache HBase ,Apache Kudu 等等。
成立四年以来,SeaTunnel 已通过组织不同形式的活动,如 Meetup 收获了无数开发者、运营和布道者人才加入,用户群体目前已超过 2000 人。
未来,我们欢迎有更多志同道合的人加入开源共建,在遵循 Apache 原则的基础上,共同让 SeaTunnel 在众多开源项目中成为一颗耀眼的新星!