最近,宣布推出下一代用于人工智能训练的硬件平台Grand Teton,与前代相比有多项优化,包括两倍的网络带宽及四倍的主机到 CPU 带宽升级。
Meta 公司工程副总裁Alex Bjorlin于近期的开放计算项目(OCP)全球峰会的主题演讲中宣布了这一消息。Grand Teton 的开放硬件设计是 Meta 对数据中心人工智能工作负载的最新迭代贡献,与前一代由三个“盒子”组成的 Zion-EX 不同,Grand Teton 的集成机箱让它可以更快、更容易地部署。Meta 还为 Grand Teton 设计了一个新的数据中心机架和冷却系统,用于支撑大型人工智能模型训练所需要的服务集群电力需求。Bjorlin 称:
Meta 训练并部署了许多大型人工智能模型,其中不乏包含数万亿参数,需要等量规模数据集训练的模型,这也意味着他们会需要大量与 GPU 互联的服务器。Meta 自 2016 年起便开源了他们的人工智能硬件设计,且推出了Big Sur平台。去年,InfoQ 同步报道了 Meta 的最新迭代平台,该迭代是由数千计算节点组成集群,其中每个节点都含有四个 CPU 插座和八个 GPU。
图源:然而,Zion 平台的每个节点都需要外部布线才能整合三个不同的组件:CPU“头部”、GPU 系统,以及一个交换系统。全新的 Grand Teton 则将这些组件全部整合到一个机箱之中,且该机箱也包括了电源、计算和网络接口,“以实现更好的整体性能、信号完整性和散热性能”。英伟达称,Grand Teton 还拥有英伟达基于Hopper架构的H100 Tensor核心GPU。Meta 还更新了他们的底层存储平台:新版本的Grand Canyon在前代 Bryce Canyon 架构的基础上进行了改进,让 Meta 公司“达到驱动器的极限水平”。
在 Grand Teton 的设计之外,Meta 公司还发布了一款数据中心机架设计:开放式机架v3(ORV3)。与其他将电源架直连母线的机甲不同,ORV3 的电源架可以安装在任何位置,设计更加灵活。改进后的备用电源与前代仅支持 90 秒的供电相比,可提供长达四分钟的供电。ORV3 还支持多个电源架和 48 VDC 的输出,可部署处理高达 30 kW 的机架。Meta 还为这代更高的功率容量设计了新的冷却策略:ORV3 支持空气辅助液冷,设施水冷,以及“可选盲配液体冷却接口设计”。
Meta 公司设计的可互动 3D 模型可在这个官网找到。
原文链接:
Meta Announces Next Generation AI Hardware Platform Grand Teton