百度工程师首次现场演示文心千帆微调技术 企业如何实际应用文心一言大模型 (百度工程师首页官网)

百度工程师首次现场演示文心千帆微调技术 企业如何实际应用文心一言大模型 (百度工程师首页官网)

5 月 9 日,百度智能云在文心大模型技术交流会上,公布了文心大模型在产品技术、场景研发、生态建设等领域的最新进展。

“文心千帆大模型平台”,为企业提供文心一言等大模型服务

大模型引发的 AI 再造产业趋势已经势不可挡。但当下企业最大的难题是,如何高效、低成本得获取大模型能力,如何挑选到最合适的大模型服务。

百度智能云表示,正在内测的“文心千帆大模型平台”,是全球首个一站式的企业级大模型生产平台, 不但提供包括文心一言在内的大模型服务及第三方大模型服务,还提供大模型开发和应用的整套工具链

未来,文心千帆将提供两种服务:第一,未来,文心千帆将以文心一言为核心,提供大模型服务,帮助客户改造产品和生产流程。第二,作为一个大模型生产平台,企业可以在文心千帆上基于任何开源或闭源的大模型,开发自己的专属大模型。

百度集团副总裁侯震宇表示,大模型时代下,企业的创新要脱颖而出,不但需要智能的算力、灵活的框架平台、丰富的大模型体系以及优质的应用方案,还需要这四者之间端到端的适配与优化,这是一个“既要、又要、还要”的端到端创新工程。

现场,百度智能云与联想集团、用友、宝兰德等 14 家文心千帆生态伙伴举行签约仪式。

用友网络副总裁、用友研究院院长吕建伟表示,中国企业关注大模型的落地能力,一个简单的智能问答背后有着非常复杂的加工过程。我们期望和百度智能云一起,把微调、性能调优等工具简化,推动大模型应用。

北京宝兰德软件董事长易存道表示,如何把大模型在垂直行业做好,是目前各个企业都要考虑的问题,多数企业无法像百度一样有能力建设大模型。怎么能够把百度的大模型能力和企业业务有效结合起来,创造更强的价值,是企业非常好的弯道超车机会。

百度工程师现场演示大模型微调全过程

事实上,目前企业应用大模型面临诸多难点:模型体积大,训练难度高;算力规模大,性能要求高;数据规模大,数据质量参差不齐。大模型产业化需要云计算厂商将模型开发、训练、调优、运营等复杂过程封装起来,通过低门槛、高效率的企业级服务平台深入产业,为千行百业提供服务。

侯震宇表示,文心千帆大模型平台是全球首个一站式的企业级大模型平台。之所以称为全球首个一站式平台,是因为它不但提供包括文心一言在内的大模型服务,还提供大模型开发和应用的整套工具链。此外,该平台还支持各类第三方大模型,未来将成为大模型生产和分发的集散地。

目前,文 心千帆大模型平台提供公有云服务、私有化部署两大交付模式。

在公有云服务方面,将提供:推理(直接调用大模型的推理能力)、微调(通过高质量精标业务数据,高效训练出特定行业的大模型)、托管(将模型发布在百度智能云,以实现更加稳定高效的运行)三种服务,大幅降低企业部署大模型的门槛。

百度智能云 AI 与大数据平台总经理忻舟 在现场演示了如何微调大模型 ,这也是国内首次演示如何微调行业专属大模型的全过程。

音量
网页全屏
全屏

文心千帆大模型平台提供了可视化开发工具链,提供了数据生成、标注、回流的数据闭环管理功能。企业用户以少量数据即可发起模型微调,最快几分钟就可获得自己的专属大模型。

在私有化部署方面,文心千帆大模型平台支持软件授权(提供在企业环境中运行的大模型服务)、软硬一体(提供整套大模型服务及对应的硬件基础设施),租赁服务(提供机器和平台的租赁满足客户低频需求)三种方式。私有化部属能够满足对数据监管有严格要求的企业客户需求。

忻舟总结,文心千帆大模型平台有六大特点:更易用,开箱即用,节约客户机会成本;更全面,提供覆盖全生命周期的工具链;更高效,可以端到端的全流程优化;更安全;更开放;更集成,更多插件拓展模型能力边界。

“快且收敛,是大模型应用训练中一个非常重要的指标。”忻舟说,“只快不收敛,大模型的训练是没有用的。文心千帆在多机多卡训练性能方面,可以更快达到收敛的状态,在全球权威 AI 基准评测 MLPerf 榜单中排名世界第一。”

已有 300 家企业参与文心一言内测

据了解,百度内部产品正在基于文心一言升级。

比如,在百度员工内部的智能工作平台“如流”上,很多程序员会就一些产品或技术难题询问产品经理、研发同事,数量多,频次高。过去获得一个答案平均时间约 5 分钟,现在如流有了一个文心千帆 AI 小助手,可以代替同事自动回答各种问题,平均 5 秒就可以解答一个难题,大幅提升了工作效率。

同时,百度智能云的金融行业应用、政务行业应用、智能创作平台、智能客服、企业知识管理、数字人直播平台等六大智能产品系列,将基于文心大模型全面升级,未来将在安全评估完成后上线。

此外, 文心千帆大模型平台面向首批企业客户内测以来,正在与不同领域客户联合研发,在智能办公、旅行服务、电商直播、政务服务、金融服务五大领域打造行业样板间。

金山办公助理总裁田然表示,文心千帆在安全合规、模型深度、迭代速度、推理性能等多个方面都有一定的优势,在意图理解、PPT 大纲生成、范文书写、生成待办列表、文生图等多模态生成的场景上,目前双方的联合开发已经取得了进展,会进一步推动大模型在办公领域的应用和快速落地”。

百度集团副总裁袁佛玉表示:“截止目前,已有超过 300 家生态伙伴参与文心一言内测,在 400 多个企业内部场景取得测试成效。”

企业该如何选择大模型?除了算力还要看三个指标

国内大公司纷纷推出大模型,对于企业来说,如何挑选一个合适的大模型成为新难题。

实际上,企业选择大模型可以从三个标准评判:大模型本身的能力、大模型企业服务的能力、全栈技术积累程度。

侯震宇表示,百度在芯片、框架、模型和应用这四层都进行全栈布局。正因为可以实现全栈端到端的优化,文心一言自 3 月启动内测不到 2 个月,已完成 4 次技术版本升级,大模型推理成本降为原来的十分之一。

此外,大模型的大计算、大参数、高成本,也对大模型时代的 AI 基础设施提出新的要求。基于四层框架优势,百度智能云打造了国内首个全栈自研的 AI 基础设施“百度 AI 大底座”,面向企业 AI 开发提供端到端的解决方案。尤其是在框架层和模型层之间,AI 大底座有很强的协同作用,可以帮助企业构建更高效的模型,持续调优性能,并显著降低成本。

百度智能云云计算产品解决方案和运营部总经理宋飞举例:“大家可能会觉得堆积算力、写好代码、然后进行模型训练,把它跑起来就行了。实际上在训练过程中会遇到各种各样的挑战,很少有人能够使得一个大模型训练过程能够在连续一两天内不出问题。百度 AI 大底座可以为大模型提供高效、稳定的训练和有效的收敛。千卡加速比达到 90%,资源利用率 70%,开发效率提升 100%。这是 AI 大底座为大模型的开发和应用带来的价值。”

文心一言如何实际落地到各企业、各行业?

侯震宇在接受 InfoQ 等媒体采访时,谈到了一些焦点话题,包括文心一言如何为企业提供服务,大模型如何与领域结合、企业如何轻量化部署大模型以降低成本等。

作为标准化的平台提供企业服务

侯震宇表示,百度将大模型服务放在公有云上,做成一个标准化的产品。文心千帆大模型平台是一个标准化平台,这个平台为企业提供了更好的工具,让 AI 落地更加容易。

以前,企业需要拿各种各样的数据训练模型,需要大量的数据,才能训练出一个模型,数据本身成本很高,还要经过大量的调优工作。现在借助文心千帆平台,在一个已经训练好的预训练大模型基础上再操作,不再需要那么多数据。此外,以前的企业场景十分碎片化、且分散。现在千帆大模型平台提供的各种工具可以低门槛地解决碎片化场景的问题。

大模型如何与垂直领域相互结合?

侯震宇强调,这次现场演示与之前不同,在之前的演示中,百度更多强调文心一言大模型的能力。这一次演示案例强调微调,这是因为,百度智能云在和企业深入接触中发现,很多企业希望直接调用基础大模型的能力,企业还希望将自己内部以及所在领域内的数据“灌进”大模型,获得在领域应用的效果。

因此,在为企业提供直接调用文心一言大模型的基础能力外,文心千帆平台还提供一整套基于大模型的工具运营,包括微调、再训练等,提供了大量数据准备工具,包括模型管理等。例如,有一些企业有合规方面的要求,它们希望私有化的部署大模型,文心千帆也支持私有化交付。

开放给企业用户后,企业无需担心算力成本

大模型依赖庞大的算力作支撑。像 ChatGPT 这样级别的深层次 AI 的计算运营的成本远远大过以前常用到的计算工具。

“最终能让大模型服务推广开来,只有两个原因:一是模型效果要好,第二是成本”,侯震宇说道。

据介绍,文心一言大模型自开始企业内测以后一直在迭代,在一个月时间里,文心一言已迭代了四轮。对于百度来说,用的人越多,AI 速度也会更快,会有更好的效果表现。另外,整个成本也在大幅下降,调用百度的大模型的成本相对较低,绝大多数企业都可以支付。据不久前百度对外公开的数据,文心一言的推理成本已经下降到原来的十分之一,价格对企业更友好。

与从零开始训练一个大模型动辄花费几千万美元、两三个月时间相比,直接调用大模型服务所使用的数据规模,处理数据所耗费的算力、时间成本等已经下降了很多量级。

侯震宇表示,在接下来几个月,文心千帆大模型还会继续大幅度降低成本,包括推理成本、模型使用,模型微调、模型再训练等环节的成本,让大模型服务的价格降低到更多企业能接受,不让价格成为企业使用、拥抱大模型的瓶颈。

开源模型更优?

现在有不少企业直接采用开源大模型的方案,一个问题是,企业采用开源大模型更便宜吗?

对此,侯震宇表示,开源模型绕不开大量的 GPU,开源并不代表成本更低。整体端到端的优化才会带来使用成本更低,包括调用成本、运营成本等的优化。

训练出一个大模型训练非常之难,要搭上千张、上万张 GPU 卡的集群规模做训练,一般企业很少能用得起两三千张集群卡。另一方面,它们不一定能够用得好,这自上而下整个链路都有非常高的技术含量,且极耗成本。在这么大的集群规模中,如果出现了 BUG 将很难调整,需要有整体的调优服务能力。大模型之所以贵,是因为量大且训练时间长,在成本这方面,最终要看是否有整体端到端的成本控制能力,只有这样,才比纯粹购买成本低。

文心一言发布以来一直在迭代,进行效果迭代、性能迭代。文心千帆大模型平台既提供文心一言的模型服务,同时也支持第三方模型服务,包括第三方的开源模型,有的是从头开始做模型,更多的是基于开源模型做再训练。“我一直觉得最终能给业务带来实际竞争力和变化的是模型的能力,但每一个企业不必自己搭一个模型,比如我想开车,不需要自己造车”,侯震宇表示。

大模型实际应用过程中的安全问题

不论是在研究还是在实际应用阶段,大模型都应该考虑安全问题。大模型服务的提供者要能够提供更加安全的、有边界的服务,大模型的使用者应该了解如何使用是安全的。

在安全方面,企业借助文心千帆大模型平台,基于自有数据产生自己的模型版本,再做微调提升对应版本的文心一言大模型的能力,避免企业将数据“灌入”大模型后发生泄露风险。此外,即便有的企业愿意将数据与大模型分享,百度方面也不一定都将数据注入,会加入各种限制措施。

百度算力充足

值得一提的是,侯震宇在采访中还谈到了百度的算力储备问题。他提到,文心一言很耗算力,但百度有充足的算力储备,储备量庞大。“在整个 AI 算力供给上,目前行业仍然比较紧张,对于百度来说,现阶段算力并不会制约百度文心一言迭代,由于百度的智能算力储备充足,在某种层面上,至少在当下还算是一个优势”。

几天前,媒体报道,ChatGPT 背后公司 OpenAI 去年亏损额大约翻了一番,达到 5.4 亿美元左右(约合人民币 37 亿元)。对此,侯震宇发表了自己的看法,他表示,OpenAI 的亏损是特定的场景以及在更早期的时候花费在“探路”的成本更高。大模型应用不论在研发还是在应用阶段,效果和成本是最重要的,文心一言从一开始就注重在成本和性能上的优化,百度目前拥有全国最大的 IB 网络(无限带宽技术),同时也有国内最大的单个 GPU 集群,从多个方面优化成本、提高性能

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。