10 月 18 日,在 QCon 全球软件开发大会 2024(上海站),火山引擎边缘云资深架构师徐广治围绕 火山引擎边缘计算产品背后的算力底座 - 边缘云原生操作系统 ,探讨如何实现算力服务的混合部署和跨区域弹性调度,以及在小型化、集成化、轻量化基础上的技术创新,并展开介绍了边缘云原生操作系统的研发动因、面临挑战、架构设计和未来演进方向。
演讲内容主要包括了五部分:边缘云行业现状和发展历程,边缘场景的技术挑战,边缘云原生操作系统,业务应用实践,演进和未来思考。
以下是演讲实录:
大家好,很高兴有机会和大家分享火山引擎边缘云在边缘计算场景架构设计上的思考和实践,我今天分享的主题是《边缘云原生操作系统设计与思考》。分享分为五个部分:
1.边缘云行业现状和发展历程
从 06 年 AWS 推出 EC2 、S3 到今天已经过去了 18 年,云计算早已不是一个新鲜词汇,从当前业务来看,我们能看到云计算从中心到中心+边缘的发展趋势,为什么会有这样的变化呢?在业务角度有三个关键的诱因:
这三个业务诱因,驱动云计算向边缘迈进。
除了业务诱因,我们也观察到了业务驱动力之外的技术演进背景。从应用架构的角度来看,当前应用将看到三类资源:
传统的中心部署架构,已经不能充分利用云、边、端这三者的资源,不能充分发挥三者的组合优势,因此我们观察到应用正在从集中部署迈向云边端混合部署的新架构。
同时,云计算也开启了边缘时代。据 IDC 预估,到 2024 年底,全球在边缘计算上的开支将达到 2320 亿美元,另外,据 Gartner 预估,到 2025 年底,全球 75% 的企业生成数据将会在边缘产生和处理。另外,从市场发展上看,IDC 预估到 2026 年中国边缘云的市场增速年复合增长率可达到 40% 。在这样的蓬勃发展背后是越来越多业务和边缘的结合,这些业务的发展可分为三个阶段:萌芽期、爆发期、成熟期。随着时间的推移,像 vCDN、直播这类业务会趋于成熟,而像自动驾驶、AR 等业务将迎来爆发,共同推动边缘云的进一步扩张。
这里也跟大家简单介绍一下边缘云的发展历程。
2.边缘场景的技术挑战
了解了整个边缘云业务状态和发展历程之后,再来聊聊发展背后对技术上的挑战。从整体看,边缘场景有四个挑战,分别是海量节点管控、小型化约束、弱网环境、复合场景。
2.1 管理广域分布的边缘算力资源
首先,我们来看看如何纳管、调度广域分布的算力资源?两个非常关键的因素: 抽象、编排 。抽象意味着标准化,从资源维度出发,足够好的抽象和标准化才能形成统一的资源池,不同的 CPU 型号也可以通过抽象和统一的指令集来提供。从服务维度出发,基于多数量节点,每个节点部署着不同异构服务,好的服务抽象可以将服务原子化,从而为部署和运维提供便利。基于良好的抽象和编排能力,就能实现资源和服务的标准、统一,以及服务的灵活组合,从而达到为客户提供差异化算力的目的。因此在管控关于分布的算力资源,好的抽象和编排能力很重要。
2.2 在节点内实现资源的最大化利用
小型化是边缘场景特有的问题,相较于传统中心云环境,单个边缘节点的资源有限,如何在这个背景下为客户最大化提供可售卖资源就成了一个问题。要解决这个问题,有两个同时要做的事情:
2.3 弱网环境下的服务连续性
边缘节点之间、边缘节点与中心节点之间大多数采用公网连接。然而,公网链路上存在很多传输的不确定性,有可能存在传输链路抖动、机房故障、区域断网等情况,怎么在弱网环境下保证服务的连续性?依靠边缘的两个核心要点:
2.4 边缘业务场景的多形态算力需求
为了支持边缘泛 CDN、云游戏、车联网、AIGC 等广泛应用场景,边缘侧需要提供虚拟机/裸金属/容器/函数多种算力形态,叠加底层异构算力资源,这也要求技术架构具备足够广的覆盖面和较高的灵活性。
上述技术挑战促使着边缘技术架构的持续演进,大体可以分为三个阶段:
3.边缘云原生操作系统
边缘云原生操作系统,统一纳管了字节跳动边缘计算硬件资源,在小型化、集成化、轻量化的基础上,为业务就近提供虚拟机、裸金属、容器等多形态算力,实现算力服务混合部署、跨区域弹性调度。
边缘云原生操作系统拥有 4 个核心特点:
从架构上来看,边缘云原生操作系统有八个组成部分:
在八大能力之下是底层的资源池,包括现场边缘、近场边缘、云边缘的硬件资源,在这之上是对外提供的不同形态的算力产品,包括边缘计算节点(虚拟机/裸金属)、边缘容器、边缘函数及周边服务,这些共同构成了 小型化、集成化、轻量化 的边缘云原生操作系统。
3.1 纳管边缘异构硬件,统一在离线资源调度
前述介绍边缘云原生操作系统的一大特点是建立在资源池之上的统一调度。调度面向资源交付场景,为客户和内部服务统一交付计算、存储、网络等资源,同时保障资源交付的效率和稳定性,持续优化碎片率并提供对应运营能力。
在统一资源交付背后,是在线调度和离线调度两大核心能力,在线调度负责实时为业务提供资源,离线调度负责资源运营以及为在线调度提供调度推荐。目前支持的调度域覆盖全局、区域、节点内三个维度,针对客户弹性需求,可以提供跨节点的算力资源交付。在线调度、离线调度之下是为调度提供数据支撑的库存中心系统,这里维护了线上的实时资源情况,支持对应的审计、规划和资源流转,同时为了支撑离线调度,库存中心也维护了离线计算所依赖的数据仓库,包含客户、业务画像及从实时库同步的离线信息。
3.2 充分利用硬件资源,算力 &服务按需混部
为应对边缘小型化约束,边缘云原生操作系统通过运维中心和编排中心的配合实现算力和服务的按需混部,其有两个关键实现:
3.3 降低边缘资源开销,实现云边分层轻量管控
为实现轻边缘,边缘云原生操作系统在各个细分管控均引入了分层设计。通过将管控拆分为中心控制、区域、边缘管控,边缘仅保留最必要的处理逻辑,其他数据处理、持久化和业务逻辑上移至中心或区域管控,以此实现了边缘的极致轻量化。图里举了一个例子,在 IaaS 管控这一侧,拆分出中心控制器和边缘管控,裸金属的持久化数据放在中心管控维护,边缘维护的仅仅是缓存的元数据信息。
3.4 云原生 laaS 管控,虚拟机生命周期与容器解耦
这里针对 IaaS 管控再进行一下延展。我们自研了一套 IaaS 的云原生管控,针对虚拟机,结合了云原生运维上的便利性和调度能力,以及传统虚拟化的实现,实现了数据面在容器之外,虚拟机生命周期与容器解耦,通过自研 Resource Manager 来管理单机资源,并实现和统一调度对接;针对裸金属,我们把数据持久化和处理尽量上移至中心管控,实现了边缘裸金属管控的轻量化。结合了分层管控和自研管控,真正在管控这一侧做到了轻边缘。
3.5 降低弱网影响,支持云边 &边边协同
为了应对弱网环境带来的挑战,边缘云原生操作系统在中间件维度建设了云边通道方案,通过云边通道,在高可用维度,提供了机房容灾,网络容灾的能力;在安全性维度,提供了必要的鉴权和隔离支持。云边通道覆盖了边缘不同的协同场景,包含编排的协同、服务间的协同、运维协同和数据协同。通过云边通道的整体解决方案,我们实现了在边缘网络环境下对客户及内部业务间通信的有效保障。
3.6 全面一站式观测,及时掌握系统 &应用状态
在边缘云原生操作系统内,我们提供了资源、服务、产品的全面一站式观测,通过数据采集、治理、到标准化观测,到业务能力打通,可观测这一侧支撑了边缘云操作系统的自身运维、稳定性建设,也支撑了上层服务的质量保障。
3.7 海量节点统一运维界面,稳定支撑边缘业务要求
最后是支撑边缘云操作系统系统运行的关键子系统 - 运维中心,运维中心覆盖场景包括服务和资源交付、运营分析、稳定性保障等。运维能力的建设搭建在其他基础能力之上,比如基于编排中心,实现了集群编排和多集群管理。运维中心的原子能力还包括 CMDB 、软件包管理、配置单元、作业管理等,通过原子能力、服务能力打造出来的整体运维能力,支撑了边缘云操作系统和其上应用/服务的稳定运行和日常发布。
有了对边缘云原生操作系统特性、架构和子系统的了解,下面来看看边缘云原生操作系统实际落地的业务场景 - 火山引擎边缘云。
4.业务应用实践
4.1 火山引擎边缘云
首先来总体了解一下火山引擎边缘云。火山引擎边缘云,融合异构算力和边缘网络,构建在大规模边缘基础设施之上的云计算服务,覆盖了现场边缘到云边缘,形成了以边缘位置的计算、分发、网络、存储、安全、智能为核心能力的新一代分布式云计算平台,这个平台的底座就是边缘云原生操作系统,目前,火山引擎边缘云在全球覆盖了 2500+ 节点,拥有 150T+ 的储备带宽。
4.2 火山引擎边缘云产品矩阵
火山引擎边缘云基于覆盖现场边缘、近场边缘、云边缘的基础设施,在核心底座边缘云原生操作系统之上,提供计算服务和网络服务。计算服务分为通用化计算服务和场景化计算服务,通用化计算服务又包括边缘计算节点,虚拟机、裸金属、x86 各种各样的 IaaS 算力、包括安全容器和普通容器在内的边缘容器实例,以及边缘函数;场景化计算服务则包括支持面向 AI 场景的边缘智能。在网络服务这一侧,我们也支持两类服务,一类是全球一体化内容分发与加速服务,包括火山引擎 CDN 、 BytePlus CDN 和多云 CDN,第二类是基于边缘网络原生的全域联网加速解决方案类,包括全站加速 DCDN、全球加速 GA、边缘联网 ECW。在计算服务和网络服务之上,构建了我们的行业解决方案,涵盖音视频、应用分发、云游戏、智慧城市等等。
4.3 火山引擎边缘云行业应用
目前,火山引擎边缘云已在多个行业领域实现应用落地,包括但不限于:泛互联网领域的视频直播、实时音视频、影视娱乐、移动终端、在线教育、电商零售和媒资信息处理;汽车行业的辅助驾驶和车联网技术;媒体行业的数字人和影视渲染;游戏行业的游戏加速、AR/VR 体验;以及金融行业的税票政务本地化和分布式计算等。
5.演进和未来思考
面向未来,我们将从以下三个维度持续提升产品与服务能力:
同时,边缘云原生操作系统针对追求极致轻量化、提供高性价比边缘算力的目标,未来将在持续优化基础设施成本的基础上,构建更轻量基础环境,叠加细粒度资源管理、轻量化管控、按需混合部署的持续建设,结合资源调度优化,实现物理资源的最大化利用及客户业务资源的最优配比。