在今年 9 月份,MLCommons 协会发布最新 MLPerf™ Storage v1.0 AI 存储基准测试成绩。浪潮信息分布式存储平台 AS13000G7 表现出众,在 3D-UNet 和 CosmoFlow 两个模型共计 8 项测试中,斩获 5 项最佳成绩。
MLPerf™ Storage v1.0 AI 存储基准测试背景
MLPerf™是影响力最广的国际 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立。2023 年推出 MLPerf™ 存储基准性能测试(v0.5),是全球首个且唯一的 AI/ML 存储基准测试,旨在以架构中立、具有代表性和可重复的方式衡量机器学习(ML)工作负载的存储系统性能。本次 MLPerf™ 存储基准评测(v1.0)吸引了全球 13 家领先存储厂商和研究机构参与。该评测围绕医学影像分割、图像分类、宇宙学参数预测三大 AI 存储应用场景,采用主流的 3D-UNet、ResNet50、CosmoFlow 三类模型,在 GPU 利用率高达 90%或 70%的条件下,以带宽和支持的模拟 GPU (模拟加速器)数量为关键性能指标,评估单客户端或集群模式下存储系统的性能表现。这些模型在业界具有广泛的应用,能够更好地代表实际工作负载。
浪潮信息 AS13000G7 获 MLPerf™ AI 存储基准评测多项最佳成绩!
浪潮信息分布式存储方案架构师 Lance Sun 博士介绍,本次测试,浪潮信息采用 3 台 AS13000G7 搭建分布式存储集群,搭载 ICFS 自研分布式文件系统,在 3D-UNet 和 CosmoFlow 两大评测任务中共获得五项最佳成绩。其中,在图像分割 3D-UNet 多客户端 2 评测任务中,服务于 10 个客户端 264 个加速器,集群聚合带宽达到 360GB/s,单个存储节点的带宽高达 120GB/s;在宇宙学分析 CosmoFlow 单客户端 2 和多客户端 2 评测任务中,分别提供了 18 GB/s 和 52 GB/s 的带宽最佳成绩。
3D-UNet 是图像分割领域最具影响力的 AI 模型,3D-UNet 模型参数量在 800 万到 3000 万之间,由于数据是海量的图像类非结构化数据,参数量越少代表计算速度越快,这对存储提出了更高的挑战,存储要高带宽、低时延,才能保证 GPU 使用处于高速运转状态,一旦存储性能不足,将导致 GPU 利用率严重下降,浪费大量算力。3D-UNet 工作负载每 FLOPS 算力所需存储带宽最高,且数据需要从存储节点读取,不允许提前在主机上缓存,能够真实体现存储系统性能,实际体现大模型存储体验。
CosmoFlow 是一个宇宙学模拟的深度学习基准,是 AI for Science 领域的代表性模型,其参数量在 10 万到 20 万之间,越小的模型,时延要求越高,在 CosmoFlow 模型下,其每个样本读取速度不超过 380 微秒,才能达到 GPU 利用率 70%以上。然而对于宇宙模拟来讲,数据量相较于图像音频等领域更加庞大,这对存储系统的时延提出了更大的挑战。和 3D-UNet 一样,他们都是典型的数据密集型应用。
AI 存储挑战来临,浪潮信息交出最佳答卷
生成式 AI 由基础大模型向行业大模型转变,并向场景大模型演进,“千模大战”接近尾声,行业应用 AI 持续涌现,数据成为智能革命的核心动力。
浪潮信息存储产品线副总经理刘希猛在采访中提到,人工智能正在赋能千行百业,数据扮演着重要的角色。在智慧金融,通过采集内外部大规模数据,提取千亿级风险特征库,训练出防欺诈模型,助力金融机构防范欺诈风险,让交易更安全。在自动驾驶领域,L4 级自动驾驶车每天可以产生 60TB 数据,同时这些数据必须得到快速的处理和转化,以保证车辆在各种复杂环境中都能稳定、安全地运行。制造业也在进行智能化改造,比如产线产品智能质检,利用传感器、工业相机采集大量数据,单条产线年数据量可达 PB 级,使用这些数据监控产品质量、识别潜在问题,提高质检效率、降低生产成本,这些数据的保存周期长达 10 年以上。AI for Science 也是人工智能非常典型的应用,传统需要 10 个博士花 5 年时间完成的生物结构蛋白分析,现在一个学生借助 AI,基于亿级文件数据,两周时间就可以完成,彻底改变一些学科的研究范式,使得科研更加高效。
总的来说,人工智能赋能千行百业,背后离不开数据这个关键要素,数据连接了物理世界和数字世界,而数据存储作为数据的载体,是人工智能落地的关键支撑之一。
Gen AI 时代面对万卡算力集群、万亿参数规模的大模型训练,需要存储提供 TB 级带宽、百万级 IOPS 的性能表现,同时对数据跨域调度、数据安全、数据可持续性访问提出了更高的要求。
Gen AI 时代的存储挑战,我们可以按照三个阶段进行总结。首先是模型训练阶段,大模型爆发初期,国内有超过 100 家的大模型公司开始迅速进行市场布局。在这个阶段,模型训练追求的就是“快”,通过 IT 基础设施的方案优化,有效地提升 GPU 效率,加速模型的训练并得到市场认可,即可抢占市场先机。模型训练的数据加载、模型训练过程中的断点续训要尽可能地降低对计算时间的占用,在万卡算力集群万亿参数的大模型的快速训练时,小于 1 分钟断点续训, 需要存储提供 TB 级的带宽 ,同时小模型的训练推理则对 IOPS 提出更高要求,存储系统 需提供超过百万级的 IOPS 。
随着模型在各行业落地的需求,在很多的行业场景里,专业化的数据缺少积累,过去分散在各终端、地域数据的夸协议、夸地域高效率共享整合。这就 要求存储具备数据跨域调度 ,通过异构纳管实现全局命名空间管理,提升数据汇集、分析的效率。大模型的行业化落地过程中,为了提升通用模型的专业化能力,训练出精度更高的模型, 要求有更高质量的数据集 。为得到高质量数据,原始数据要经过粗加工、精加工等多个作业环节。比如某媒资用户,需要讲 30PB 的图书、新闻等原始数据生成 2PB 的高精数据,在这个阶段对 数据的安全存储 提出了要求。而形成的高质量数据可根据需求进行重复利用, 数据可持续性访问 也提出了更高的要求。
浪潮信息积极布局面向人工智能时代的高性能、高效率、高韧性的存储平台,以数据为中心,覆盖数据全生命周期,多协议数据融合,多样系统协作与集成,构建人工智能下完善的存储解决方案,以统一视图管理为客户提供完善的数据服务。
浪潮信息存储平台主要有软件定义存储和阵列存储两大类系统组成。首先是 软件定义存储 ,主要面向 AI 大模型中的海量、多模态非结构化数据,追求极致的性价比。采用融合的架构设计理念,用一套架构支持文件、块、对象、大数据四种服务,后台一份数据对应前台多种服务,帮助客户降低采购和维护的成本。然后是 集中式存储平台 ,面向 AI 推理及生产应用中的极致可靠和极低时延的存储需求。优化闪存的资源调度算法,充分利用更多的 CPU 核心和线程来并行处理更多的存储进程,通过盘控协同,进一步提升存储系统性能。
在 AI 场景,浪潮信息存储主要的技术方向包含三个方面: 一是高性能 ,以解决混合 AI 负载对存储读写带宽、IOPS,以及低时延的要求。 二是高效率 ,通过存储支持文件、对象、大数据等非结构化协议融合互通,全局命名空间等,减少多份数据重复存储,以及数据夸协议、夸区域、夸系统调度检索的问题。 三是高韧性 ,一方面通过故障的快速恢复、故障前的精准预测降低系统异常时的性能影响,以及服务的连续性,同时强化数据保护与安全防护能力,保证数据的完整、一致、持续可访问。
浪潮信息存储核心技术支撑
近年来,模型参数量,训练数据量、GPU 算力,网卡性能,GPU 规模均在飞速增长,原有的存储不足以应对 AI 这类新质生产力的快速发展,存力底座面临了前所未有的压力。无论是海量训练数据加载,PB 级检查点断点续训,还是高并发推理问答等,存储性能直接决定了整个训练/推理过程 GPU 利用率。特别在万卡集群规模下,较差的存储性能,会严重增加 GPU 闲置时间,导致模型落地困难,业务成本剧增。因此,现代存储已经由传统的数据载体和数据仓储,转化成 AI 发展的关键组件。存储系统提供更高的吞吐量,更低的时延,更高效的数据管理,是加快数据价值释放,推动 AI 产业化向产业 AI 化发展的核心动力。
为了满足 AI 训练对存储高带宽和低时延的双需求,浪潮信息一直加大研发投入,聚焦 AI 训练阶段,致力于文件场景存储性能的突破,创新性地提出以下技术:
浪潮信息存储平台的未来技术演进方向
刘希猛在采访的时候也介绍说,针对存储需求,浪潮信息定义了三个技术方向。第一是性能优化,解决大模型前端的高吞吐率、高 IOPS 和低时延问题。第二是数据流转效率,通过协议融合和全局命名空间实现数据免拷贝共享和全局检索。第三是系统韧性,重点提升数据的安全性、系统稳定性和服务的连续性,以确保业务持续在线。在性能方面,浪潮信息通过数控分离架构提升了 60%的带宽,单节点带宽超过 100GB/s;通过小 IO 聚合技术和预读算法提升了五倍小 IO 性能,训练数据加载速度提高十倍;通过无锁机制发挥多核处理器的作用,进一步降低了 40%的时延,极大提升了 AI 场景中的数据加载效率。
浪潮信息通过多项技术创新提升了数据流动效率。首先是多协议融合技术,通过整合文件、对象、大数据、视频等不同的数据存储协议,避免了不必要的数据拷贝,最多可以节省 75%的存储空间,通常情况下节省 50%。这项技术有效解决了 AI 应用中多种数据格式的问题,极大提升了数据共享效率。其次是全球元数据管理系统,通过全局命名空间实现数据的全局访问和检索,尤其在大规模数据处理和语料生产中,能对海量数据进行快速检索,支持十亿级文件在一秒内返回结果。
浪潮信息在韧性方面的创新集中在保障业务连续性和故障恢复能力。首先,通过数据预处理和算法检测,实现了 TB 级数据在五分钟内的快速恢复,比传统 15 到 30 分钟的恢复速度大幅提升。其次,通过故障预测机制,能够在故障发生前进行预测,避免影响业务。硬盘故障预测准确率达 98%,误报率为 0.007%,有效减少了业务中断的风险。此外,浪潮信息还加强了数据安全防护,特别是与华中科技大学合作,针对勒索病毒的检测与防护取得了领先的漏检率和误检率表现。
大模型训练过程中存储的重要性
在 2023 年,大多数企业在建设大模型训练时,主要聚焦在增加算力,往往忽视了存储的重要性。然而,随着项目的推进,许多企业发现存储性能的不足会直接影响 GPU 的利用率,进而影响业务效率。通过浪潮信息的存储方案优化后,业务效率显著提高,切割方案的时间降低了一个数量级,提升了整体性能和价值。这一成果在某国内领先的大模型训练客户的项目中得到了验证,并且该客户正计划进一步扩展,浪潮信息正在与其合作建设联合实验室,准备在未来的千台节点和万卡集群中实施联合方案。
除了自建大模型的企业外,国内还有一些企业专注于将算力租赁给其他客户。这类企业的需求主要围绕多租户管理、算力调度的高效性、数据隔离与安全等方面。浪潮信息通过提供满足这些需求的产品功能与接口,尤其是在防病毒与防勒索方面的能力,帮助这些客户优化了存储系统。在后续的扩展计划中,这些客户也将继续与浪潮信息展开合作。
在 AI 时代,存储的需求相比传统数据中心发生了显著变化。传统上,存储的关注点在于性能、容量和可靠性。然而,在 AI 应用场景中,数据流动、数据共享以及数据的统一管理变得愈加重要。因此,未来的数据中心必须通过软硬件的按需组合,提供统一的视图,来满足 AI 驱动的多样化负载需求。浪潮信息存储将持续利用现有的研发资源,结合与客户和技术合作伙伴的协作,推动产品技术的创新,以满足未来 AI 应用的需求。
刘希猛还提到了 AI 对存储市场的推动作用, 过去一年,浪潮信息感受到存储的增量市场几乎完全来自于 AI 的需求。虽然国内整体经济环境不佳,但 AI 相关的市场规模已经显现。浪潮信息将 AI 市场分为两类:一类是 AI 产业化,包括模型训练、语料生产和算法优化,这些领域带来的存储需求主要集中在大模型和语料的处理上,尤其是语料市场,预计从今年开始将出现快速增长的趋势。虽然算力市场可能趋于平稳,但总体来看,AI 的崛起已经对存储市场产生了积极的促进作用。
另一类主要市场是 AI 在各行业中的应用,也就是“产业 AI 化”。具体表现为 AI 技术在金融、科研、制造等行业中的落地应用。这些行业已经开始通过 AI 技术创造实际价值。例如,金融领域的证券交易和量化交易、科研领域的辅助研究、以及制造业中的智能化转型,都在推动 AI 存储需求的增长。这些领域的发展速度较快,浪潮信息已经在这些市场中进行布局,预计未来会有较大的增量。