数据库

依赖重 Atlas 字节跳动是如何优化Apache 实时消息同步的扩展差 (依赖重归)

admin 2025-01-09 次阅读

字节数据中台 top="1033">背景

动机

字节数据中台 top="1387">需求定义

使用下面的表格将具体场景定义清楚。

设计

概念说明

框架架构

整个框架主要由 MQ Consumer, Message Processor 和 State Manager 组成。

实现

线程模型

每个 Task 可以运行在一台或多台实例，建议部署到多台机器，以获得更好的性能和容错能力。

每台实例中，存在两组线程池：

两类 Thread 的性质分别如下：

StateManager

在 State Manager 中，会为每个 Partition 维护一个优先队列（最小堆），队列中的信息是 Offset，两个优先队列的职责如下：

MQ Consumer 会周期性的检查当前可以 Commit 的 Offset，情况枚举如下：

KeyBy 与 Delay Processing 的支持

因源头的 Topic 和消息格式有可能不可控制，所以 MQ Consumer 的职责之一是将消息统一封装为 Event。根据需求，会从原始消息中拼装出 Event Key，对 Key 取 Hash 后，相同结果的 Event 会进入同一个队列，可以保证分区内的此类事件处理顺序的稳定，同时将消息的消费与处理解耦，支持增大内部队列数量来增加吞吐。

Event 中也支持设置是否延迟处理属性，可以根据 Event Time 延迟固定时间后处理，需要被延迟处理的事件会被发送到有界延迟队列中，有界延迟队列的实现继承了 DelayQueue，限制 DelayQueue 长度, 达到限定值入队会被阻塞。

异常处理

Processor 在消息处理过程中，可能遇到各种异常情况，设计框架的动机之一就是为业务逻辑的编写者屏蔽掉这种复杂度。Processor 相关框架的逻辑会与 State Manager 协作，处理异常并充分暴露状态。比较典型的异常情况以及处理策略如下：

监控

为了方便运维，在框架层面暴露了一组监控指标，并支持用户自定义 Metrics。其中默认支持的 Metrics 如下表所示：

线上运维 Case 举例

实际生产环境运行时，偶尔需要做些运维操作，其中最常见的是消息堆积和消息重放。对于 Conusmer Lag 这类问题的处理步骤大致如下：

消息重放被触发的原因通常有两种，要么是业务上需要重放部分数据做补全，要么是遇到了事故需要修复数据。为了应对这种需求，我们在框架层面支持了根据时间戳重置 Offset 的能力。具体操作时的步骤如下：

总结

为了解决>

开源 Flink 框架大数据 Kafka Processor 实时计算消费支持字节跳动性能优化队列 Event 语言最佳实践架构 Consume

声明：本文来自用户分享和网络收集，仅供学习与参考，测试请备份。

依赖重 Atlas 字节跳动是如何优化Apache 实时消息同步的扩展差 (依赖重归)

数据库

有了石墨烯芯片中国就可以不要光刻机了 (有了石墨烯芯片怎么办)

2025-01-09 438次阅读

下一篇文章

依赖重 Atlas 字节跳动是如何优化Apache 实时消息同步的扩展差 (依赖重归)

动机

相关工作

设计

概念说明

框架架构

实现

线程模型

StateManager

KeyBy 与 Delay Processing 的支持

异常处理

监控

线上运维 Case 举例

总结

有了石墨烯芯片中国就可以不要光刻机了 (有了石墨烯芯片怎么办)

没有了！

动机

相关工作

设计

概念说明

框架架构

实现

线程模型

StateManager

KeyBy 与 Delay Processing 的支持

异常处理

监控

线上运维 Case 举例

总结

相关文章

有了石墨烯芯片 中国就可以不要光刻机了 (有了石墨烯芯片怎么办)

没有了！

有了石墨烯芯片中国就可以不要光刻机了 (有了石墨烯芯片怎么办)