Meta宣布推出新一代AI硬件平台Grand Hopper Teton 架构引入数据中心将英伟达 (Meta宣布再裁员上万人)

admin 2025-01-10 次阅读

最近，宣布推出下一代用于人工智能训练的硬件平台Grand Teton，与前代相比有多项优化，包括两倍的网络带宽及四倍的主机到 CPU 带宽升级。

Meta 公司工程副总裁Alex Bjorlin于近期的开放计算项目（OCP）全球峰会的主题演讲中宣布了这一消息。Grand Teton 的开放硬件设计是 Meta 对数据中心人工智能工作负载的最新迭代贡献，与前一代由三个“盒子”组成的 Zion-EX 不同，Grand Teton 的集成机箱让它可以更快、更容易地部署。Meta 还为 Grand Teton 设计了一个新的数据中心机架和冷却系统，用于支撑大型人工智能模型训练所需要的服务集群电力需求。Bjorlin 称：

Meta 训练并部署了许多大型人工智能模型，其中不乏包含数万亿参数，需要等量规模数据集训练的模型，这也意味着他们会需要大量与 GPU 互联的服务器。Meta 自 2016 年起便开源了他们的人工智能硬件设计，且推出了Big Sur平台。去年，InfoQ 同步报道了 Meta 的最新迭代平台，该迭代是由数千计算节点组成集群，其中每个节点都含有四个 CPU 插座和八个 GPU。

图源：然而，Zion 平台的每个节点都需要外部布线才能整合三个不同的组件：CPU“头部”、GPU 系统，以及一个交换系统。全新的 Grand Teton 则将这些组件全部整合到一个机箱之中，且该机箱也包括了电源、计算和网络接口，“以实现更好的整体性能、信号完整性和散热性能”。英伟达称，Grand Teton 还拥有英伟达基于Hopper架构的H100 Tensor核心GPU。Meta 还更新了他们的底层存储平台：新版本的Grand Canyon在前代 Bryce Canyon 架构的基础上进行了改进，让 Meta 公司“达到驱动器的极限水平”。

在 Grand Teton 的设计之外，Meta 公司还发布了一款数据中心机架设计：开放式机架v3（ORV3）。与其他将电源架直连母线的机甲不同，ORV3 的电源架可以安装在任何位置，设计更加灵活。改进后的备用电源与前代仅支持 90 秒的供电相比，可提供长达四分钟的供电。ORV3 还支持多个电源架和 48 VDC 的输出，可部署处理高达 30 kW 的机架。Meta 还为这代更高的功率容量设计了新的冷却策略：ORV3 支持空气辅助液冷，设施水冷，以及“可选盲配液体冷却接口设计”。

Meta 公司设计的可互动 3D 模型可在这个官网找到。

原文链接：

Meta Announces Next Generation AI Hardware Platform Grand Teton