训练推理加速在阿里巴巴的实践 LLM 分享 QCon 阿里巴巴高级技术专家杨斯然确认出席上海 (训练推理加速库)

admin 2025-01-10 次阅读

QCon 全球软件开发大会，将于 12 月在上海召开。美国五百强公司高级数据科学家王元将发表题为《LLM 训练推理加速在阿里巴巴的实践》主题分享，探讨基于 TensorRT LLM， Maga Transformer 框架和 LLM 推理平台产品，该系统支持各种量化和剪枝方法，以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法，可以进一步提高推理效率并降低存储和计算需求。

杨斯然，目前是爱橙科技智能引擎事业部大模型训练团队负责人。自 2017 年开始在阿里从事深度学习训练系统的开发，工作包括图学习系统 Euler、稀疏模型训练系统 XDL、高性能稀疏模型训练、大语言模型训练系统等。他在本次会议的演讲内容如下：

演讲：LLM 训练推理加速在阿里巴巴的实践

在大规模语言模型 (LLM) 的训练和推理实践中，工程和算法需求间存在许多需要细心权衡的问题。这些问题涉及到从软硬件协同优化，到分布式处理，以及至算法工程 Co-design 等多个领域。为了解决这些挑战，我们深入研究了不同的应用场景和流量特性，并因此对我们的系统进行了全面优化。

尽管从 HuggingFace 上可以拿到 LLaMA 等模型的代码，但用自己的数据训练一个 LLaMA 模型对个人用户或中小型组织并不是一件低成本且简单的工作。Megatron-LLaMA 框架基于有着成熟社区的 Megatron-LM 项目，充分降低了 LLaMA 等开源模型的训练成本和门槛。

Megatron-LLaMA 中包含了：

在推理方面，基于 TensorRT LLM，我们进一步研发了 Maga Transformer 框架和 LLM 推理平台产品。这个系统通过应用一套统一的框架和多种不同的策略，成功地优化了不同推理场景下的成本和用户体验。我们全面支持各种开源和内部 LLM 模型，以 LLaMA 7B 和 Falcon 180B 为例，我们的系统达到了 xxx 的性能水平，这一结果充分证明了我们的系统在处理大规模数据时的卓越性能。

此外，我们的系统还广泛支持各种量化和剪枝方法，以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法，这可以进一步提高推理效率并降低存储和计算需求。这一系列的特性使得我们的系统在处理大规模语言模型推理时表现出强大的竞争力。

除上述演讲外，QCon 上海还将围绕GenAI和通用大模型应用探索、AIAgent与行业融合应用的前景、LLM时代的性能优化、智能化信创软件IDE、面向人工智能时代的架构、性能工程：提升效率和创新的新方法等专题进行交流。

QCon 上海 2023，相约 12 月！现在购票，享 8 折优惠，立减￥1360！咨询购票请联系：18514549229（微信同手机号）。