大模型 o1 OpenAI 大模型基础设施与算力优化拿捏! 有 有大模型推理技术实践 QCon (大模型o1)

大模型 o1 OpenAI 大模型基础设施与算力优化拿捏! 有 有大模型推理技术实践 QCon (大模型o1)

刚刚,OpenAI 震撼发布 o1 大模型!新模型可以实现复杂推理,强得可怕!!!在即将于10 月 18-19 日召开的 QCon 上海站,月之暗面、微软亚洲研究院、商汤科技等企业的资深技术专家也将分享推理相关话题, Mooncake 分离式推理、长文本 LLMs 推理优化、异构分布式大模型推理技术 ……简直是会圈天菜!大模型基础设施与算力优化实践轻松拿捏!

精彩内容速递

Mooncake 分离式推理架构创新与实践

随着大型语言模型的社会影响力日益增强,相应的人工智能产品用户基数也在迅速扩大。目前,AI 产品发展的一个主要挑战是如何在有限的计算资源下,有效应对日益增长的用户需求。本议题从实际业务出发,探讨在固定集群资源的条件下,通过采用单点和分布式推理架构,提升集群处理大规模请求的能力,过程中遇到的挑战以及我们的解决策略,希望能给大家带来一些帮助和思考。

演讲提纲

1. 大规模推理挑战

2. 单点性能优化

3. 分离式架构 Mooncake

4. 未来展望 - 硬件能力展望

实践痛点

演讲亮点

听众收益

长文本 LLMs 推理优化:动态稀疏性算法的应用实践

Long-context LLMs Inference 的 prefilling 阶段由于 Computation bottleneck 造成的长时延 (单卡 A100,1M 8B 约 30 分钟) 给 Long-context LLMs 的应用造成了困难。而 Attention 尤其是 Long-context Attention 实际上是非常稀疏且动态的。利用这种动态稀疏性,我们将 Long-context Attention 存在的动态稀疏归纳成三种 Pattern,通过离线搜索出每个 Head 最优的稀疏 Pattern,并利用很小的 overhead 在线确定动态稀疏 index,再结合动态稀疏编译器 PIT 和 Triton 进行高效的动态稀疏 GPU 运算,产生实际加速比。我们对市面上主流的 Long-context LLMs , like LLaMA-3-1M, GLM-4-1M, Yi-200K, Phi-3-128K, Qwen2-128K 在 RULER,InfiniteBench,Needle Test,LM 等任务中进行了测试,结果显示其具有几乎相同的性能。

本次演讲将主要跟大家分享 LLMs 推理算法侧优化方法,包括量化,剪枝,模型架构优化,FFN 动态稀疏计算等方面的研究和实践。

演讲提纲

1. LLMs 推理算法侧优化方法讨论 :如量化,剪枝,模型架构优化,FFN 动态稀疏计算等

2. 长文本 LLMs Inference 遇到的一些挑战

3. 研究思考

4. 解决方案

5. 总结和未来展望

实践痛点

演讲亮点

听众收益

异构分布式大模型推理技术实践

随着人工智能领域的发展,越来越复杂的大型语言模型正在被广泛应用于各个行业,这些模型的推理需求也随之大幅提升。鉴于国际供应链的持续不确定性,我们或将面临因依赖英伟达芯片而产生的潜在风险与挑战。为此,我们采用了英伟达和国产化芯片混合的异构分布式推理方案,该方案将充分发挥两种芯片的优势,确保系统的高效性和稳定性,同时减少对单一供应链的依赖,提升推理能力和自主控制能力。

推理优化已经不局限于算子层面,需要站在系统全局的角度分析并解决问题,需要设计者有全面的技术积累(分布式、算法、算子优化、量化),需要站在异构大集群的背景下思考问题。本次演讲将分享商汤高性能计算与推理团队自研的异构分布式大模型推理系统遇到的挑战以及实现,希望能给大家带来一些帮助和思考。

演讲提纲

1. 异构分布式大模型推理系统优化

2. 多元算力芯片推理优化

3. MOE 的推理优化

4. 大规模异构推理集群的未来展望

实践痛点

演讲亮点

听众收益

更多精彩内容,敬请关注 QCon 上海站,锁定「 大模型基础设施与算力优化 」专题,届时还会有 小红书 基于 PPO 的多模态大模型 RLHF 系统的设计与优化、 华为 昇腾万卡集群大模型性能提升实践等精彩内容。

会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说,QCon 还是太全面了。现在报名可以享受 9 折优惠,详情请联系票务经理 17310043226 咨询。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。