正在掣肘企业应用落地 算力浪费 云上 (正在掣肘企业怎么办)

正在掣肘企业应用落地 算力浪费 云上 (正在掣肘企业怎么办)

投入算力,真的能换来利润吗? 这是每个想“入局”大模型的企业都会思考的问题。

人工智能行业一直困于成本,无论从模型训练到推理,都充满了“烧钱”的气息。无法避免的高昂算力,成为企业入局大模型的“铁门槛”。

据多方数据统计,训练 GPT-4 这样的前沿模型系统,其成本预估在 7800 万美元;而在推理层面,企业私有化部署大模型,成本仍高达数百万元;基于开源大模型进行微调+RAG 策略尽管更便宜,但安全性难以保障,更别提在后续使用中还会涉及的持续算力消耗。

而与高昂算力同时存在的,是算力利用率极低的行业现状。

据相关消息,OpenAI 在 GPT-4 的训练中,其算力利用率只有 32%至 36%,大模型训练的算力有效利用率不足 50%。这是因为在训练周期内,GPU 卡并不能随时实现高资源利用,在一些训练任务比较小的阶段,还会有资源闲置状态。而在模型部署阶段,由于业务波动和需求预测不准确,许多服务器往往处于待机或低负载状态。 算力浪费现象极为严重。

困局背后,是云计算基础设施建设存在的滞后性: 传统的云基础设施,并不完全适配当今大模型训练及推理的需求 。所以过去两年,主流云计算服务商一直将产品与算力更新当做重点,这种“错位”导致了相当量级的资源浪费,以及成本的增加。

一方面,训练 AI 模型所需的算力,还正在以高达每年 10 倍的速度增长;另一方面,云计算的发展速度不仅受制于摩尔定律,还牵扯到从底层到顶层的整个服务架构,并不能靠简单地堆砌 GPU 实现。

面对这些冲突,云厂商们试图通过跨界合作来完成创新,其中 火山引擎与英特尔的联手 便是一个典型案例。

英特尔握手火山引擎,终于拿出了“杀手锏”

英特尔作为 x86 的王者,多年来深耕通用处理器,几乎从底层定义了 PC 时代。在人工智能热潮来临之前,英特尔预见了传统单一计算架构已达到性能和功耗的瓶颈,而将异构计算作为应对 AI 时代算力挑战的关键战略。英特尔提出的 XPU 战略,便是希望整合 CPU、GPU、ASIC、FPGA 等领域的产品线,使 CPU 中不同核心负责不同工作负载, 让计算架构能更有效地应对场景化数据。

在 2024 火山引擎 FORCE 原动力大会•冬上, 英特尔 介绍了 至强® 6 性能核处理器 ,并携手火山引擎共同发布了搭载该处理器的 火山引擎第四代通用计算实例 g4il ,希望通过优化云服务的底层架构,帮助用户应对多样化的需求。

对比上一代,通用计算实例 g4il 搭载英特尔® 至强® 6 性能核处理器(代号 Granite Rapids,简称 GNR),计算密度大幅提升;同时,得益于采用了双单路架构,使得“爆炸半径”大幅降低,有力保障稳定性;此外,基于火山引擎自研 DPU 板卡和 Hypervisor 等组件,g4il 也实现了软硬一体的深度协同。

g4il 支持多种云盘类型,包括高效型云盘、极速型 SSD PL0,极速型 SSD FlexPL,吞吐型 SSD TL0;在网络层面,g4il 支持采用 jumbo frame(巨型帧)来进行大包传输,可有效减少网络传输耗时和提升网络效率。

为应对 AI 业务的固有特点,g4il 也全面提升了 I/O 能力,整机网络带宽提升 100%,整机存储带宽提升 100%,整机 IOPS 提升 66%,整机 PPS 提升 38%;在 CPU 方面,内存通道为 12CH,支持高达 6400 MT/s 的 DDR5 内存,L3 缓存提升了 60%。此外,g4il 在 AMX int8 和 bf16 的基础上新增支持 fp16 指令集,可以满足更多精度的 AI 运算需求,相比 AVX512 有多达 5 倍算力提升。

综合来看,通用计算实例 g4il 能以更为流畅、高效、稳定的计算体验,有效帮助用户应对 AI 场景及传统复杂运算作业,尤其在数据库应用、Web 应用和视频转码等场景下,可实现最高 20%的性能提升。

据英特尔提供数据显示,镜像平台提供开源大模型在 g4il 实例验证,以及大模型与 embedding、向量数据库等组合验证,并为 g4il 实例提供企业知识库检索、视频检索分析、数据分析助手、智能体/工作流编排等一键式部署方案,一杯咖啡的时间可以让一个知识库助手应用就绪。

用户无需额外购买高性能计算产品,仅需极低的成本即可上手大模型,并且能够轻松部署到多个使用场景中,大幅降低了 AI 开发的门槛。

此外,为了进一步提供高性价比弹性算力,火山引擎基于与字节跳动内外复用的百万核潮汐资源池,推出了 业界首创的“弹性预约实例”售卖模式 。这种模式支持免费提前预约,到点资源自动交付,在为弹性需求提供资源确定性保障的同时,相较于常规的按量计费实例,还能够节省 33%以上的算力成本。从内外并池到机型统一,这背后也有英特尔® 至强® 系列处理器的强劲助力。

英特尔全方位赋能,做新时代“幕后功臣”

英特尔针对 AI 模型训练、推理等应用场景,以及在硬件增强的安全特性方面,推出了很多自研技术,并内置于英特尔® 至强® 6 中,如 英特尔® 高级矩阵扩展(英特尔 ® AMX)和英特尔® 信任域扩展(英特尔® TDX)。

英特尔® AMX 通过在 CPU 中加入专门用于矩阵运算的硬件单元,以增强对大模型的支持。包括了一组二维寄存器(称为 TILES),以及一个能够对这些寄存器进行操作的加速器 TMUL(Tile Matrix Multiply Unit)。TILES 寄存器可以存储二维矩阵数据,并且 TMUL 负责执行高效的矩阵乘法运算,可以在单个时钟周期内完成大量 INT8、BF16、FP16 精度的操作,极大地提升了每秒浮点运算次数。在文生图和 LLM 场景下,火山引擎成功验证了基于 AMX 的火山引擎通用云服务器在 AI 推理性能上的显著提升。

生成式 AI 兴起后,安全问题再次回归大众视野,用户担心 Gen AI 对骇客行为的升级, 英特尔® 信任域扩展(英特尔® TDX) 对用户的数据和应用提供端到端的保护。其核心在于创建一个称为受信任域(TD, Trusted Domain)的环境,这是一个被硬件严格隔离的虚拟机实例。

与传统的虚拟机(VM)不同,TD 不仅能够抵御来自同一物理主机上其他 VM 或应用程序的攻击,还可以防止虚拟机管理器(VMM)/虚拟机管理程序以及平台上的任何非 TD 软件对其造成的影响。这意味着即使云服务商本身也无法访问 TD 内部的数据,极大地提升了隐私性和安全性。

TDX 的另外一个特性是提供远程认证功能,使工作负载所有者能够验证服务器的可信状态,增强对虚拟化环境的信任。

这些技术特点意味着,在云多租户的环境中,TDX 可以保障不同租户之间严格隔离,简化安全部署。

在 AI 推理方面,英特尔还推出了 基于 GNR+MRDIMM 内存优化的全新方案, 这种方案是火山引擎对英特尔® 至强® 6 性能核处理器进行了深度调优,带来更大内存带宽和更强 CPU 算力,并在测试中显示,可以大幅提升 LLM 性能。

至强® 6 性能核处理器采用 Intel 3 制程工艺,其特点在于采用单元架构,拥有独立的 IO 单元和内核单元。这种设计使其能够与 GPU 或专用的 AI 加速器高效协作, 真正发挥出作为数据中心的“指挥官”,也就是就是机头(head-node)CPU 或主控 CPU 的优势, 对比上一代处理器,至强® 6 可以提供更强的 CPU 算力。

MRDIMM 是通过使用高速多路复用器或数据缓冲区,同时读取内存 Bank 并将数据传输到 CPU。 更大的内存带宽,使它特别适用于人工智能、高性能计算和实时分析等应用场景。

纵观 2024 火山引擎 FORCE 原动力大会•冬的这次发布,从通用计算实例 g4il 降低 AI 应用的开发门槛,到“弹性预约实例”售卖模式降低算力成本。面对当下全新的算力需求,英特尔的至强® 6 性能核处理,AMX、TDX 等内置加速器、以及目前“独占”的 MRDIMM 技术,正在为大模型落地带来强力的支持。

作为头部芯片厂商,英特尔正在上浮逐步进入业务场景,赋能千行百业实现业务革新。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。