微软、谷歌、百度等科技大厂都在全面发力 AI Agent,全球许多大企业也都在使用 AIAgent。那么,AI Agent 到底能为企业带来什么新机遇?它在实际应用中会遇到哪些挑战?
近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了数势科技 AI 负责人李飞、小米大模型负责人栾剑和京东技术专家王译堃,在 AICon 全球人工智能开发与应用大会 2024 北京站召开之际,共同探讨 AI Agent 在企业的应用与落地。
以下内容基于直播速记整理,经 InfoQ 删减。
top="1485"> AI Agent 的最新动态与应用趋势
李飞:大家在 AI Agent 领域关注了哪些动态?有没有一些新的观察和体会?
栾剑: Agent(代理)技术的应用越来越广泛,之前主要是语言模态的代理系统,现在多模态系统增多,接入的工具也更加丰富,不仅有搜索引擎,还有内部知识库等。行业内也出现了许多与音视频相关的框架和平台,虽然标准尚未统一,但呈现百花齐放的态势。此外,随着 O1 发布,强化学习成为了热门话题,代理如何通过强化学习自我进化,成为了重要的研究方向。
李飞:在小米内部,是否有类似的无代码化代理平台?或者在日常应用和尝试中,您是否通过这样的代理平台搭建过一些应用,并且从中获得了哪些便利?
栾剑: 我们内部有一个基于自研大模型的平台,应用广泛,包括数据分析、招聘流程优化和文档处理等。平台非常灵活,可以将传统工作流与大模型能力结合,创建新的代理系统。
王译堃: AI 代理领域的交叉性不断增加,例如,Web 3 和区块链的结合不再局限于智能客服和 AI Ops 等传统应用,甚至包括法律文书等工作。另外,AI 代理与具身智能的结合也是一个值得关注的方向。
李飞:京东目前有尝试将机器人与代理结合吗?
王译堃: 目前京东有几个战略项目,尤其是物流方面,正在结合机械臂和具身工具进行应用。与代理结合的主要方向是具身代理和具身交互,具体来说,我们将一些复杂任务拆解,利用代理的能力进行高级规划,然后通过具身机器人和多模态感知来实施这些策略。另外,还有具身问答(EQA)系统,根据环境或特定问题,进行类似问答的交互。
李飞: 我比较关注国内外的代理平台。例如,像 MarketOn 这样的公司通过无代码化平台,利用代理技术为个人打造私人助理,帮助完成订票、点外卖等任务,逐步替代传统助理。此外,我也在使用无代码平台,快速构建个人应用。比如,关注股票和研报时,通过代理平台连接外部数据,自动获取研报和上市公司数据,帮助我分析企业状况和股市波动,代理在其中起到连接数据和应用的作用。
李飞:微软、谷歌、Meta、百度等科技巨头纷纷发力 AI Agent,甚至 SaaS 行业也在追赶。大家怎么看 AI Agent 目前的发展趋势?有哪些方向或潜力是特别看好的?
王译堃: 未来的发展趋势总体来说是技术在增强多模态能力,特别是在一些细分领域和垂直行业,代理技术将发挥更大作用,尤其在人机协作方面。我认为现在比较成熟的方向,如智能客服,未来会有很大发展,特别是赋能企业工具。另一个方向是虚拟助手,无论是在自动驾驶的智能座舱还是作为个人助理,都是很有潜力的。
李飞:您认为真人客服和 agent 客服是一种什么样的关系呢?
王译堃: 是从协作到逐步取代的过程。初期,机器与人工并行,机器在并发量和标准化方面有优势。随着发展,大模型解决大部分问题,人工仅用于兜底。最终,在简单场景中,机器会逐步替代人工。
栾剑: 现在单智能体应用越来越多,尤其是无代码平台让每个人都能轻松搭建工作流。但从单智能体到多智能体,能力的提升是指数级的,带来了无限可能。未来不仅是协作型智能体,还有可能出现博弈和对抗型智能体,帮助我们研究更复杂的问题。同时,数据的枯竭让我们需要新的知识创造方式。通过多个顶级大模型扮演不同专家角色进行交互,可能会创造出新的、有价值的数据。对于像小米这样的硬件公司,把每个设备视为智能体,通过协同感知和执行,可以带来全新的用户体验。
李飞:大家以前常听到“物联网”这个词,您觉得代理与物联网之间有什么关系?未来,小米的所有硬件设备是否可能通过智能体来驱动和使用呢?
栾剑: 每个设备可以是一个独立的智能体,未来它们可能搭载轻量级的端侧模型,具备感知和执行能力。对于需求较低的设备,端侧可以完成任务;而更复杂的任务则交由云端或边缘计算处理。设备通过联网形成多智能体系统,上级智能体负责宏观协调,底层智能体专注于局部任务。这种方式类似于公司层级架构。
未来的多智能体是中心化还是去中心化
李飞:未来的多智能体系统是中心化的,意味着一个大脑控制多个智能体?还是像分布式去中心化的概念?
栾剑: 两种情况都有可能。如果是模拟社区或公司这样的结构,去中心化或中心化都会适用。如果是去中心化的社区,大家平等交流;如果是有层级的组织,如公司,则需要中心化。目前一种有趣的实现是,智能体共享一个信息池,信息按权限共享,这样比点对点的沟通效率更高。
李飞:王老师您觉得我们最终会实现去中心化吗?还是说这是一个逐步推进的过程?
王译堃: 这两种架构各有优劣,关键在于场景。中心化架构实现简单、成本低,适合简单系统;去中心化则更灵活,但容易产生冲突,通信问题也较复杂。一种折中方式是将中心化和去中心化结合,主要以中心化为主,其他智能体去中心化,确保全局策略的优化。
李飞: 我们看到一些公司已经在尝试多智能体协作,例如产品经理、项目管理、前端开发等各自作为独立的智能体,共同完成需求,从设计、PRD、原型到代码实现和上线。我也在思考,这种协作模式中的中心化到底来自哪里?需求是如何驱动的?
栾剑: 这种多智能体工作流已经比较成熟,类似传统的团队合作流程,每个角色的任务和信息流是固定的。优点是高效,但缺点是缺乏灵活性,面对新任务时可能需要重新设计工作流,效果会下降。我更看好的是通过上级智能体来自动规划工作流。这个工作流不是预设的,而是根据任务动态调整,并在执行中逐步优化,提升灵活性和效果。
李飞: 最开始,我们也希望大模型能作为“大脑”来编排工作流,因为它的灵活性很高。我只需告诉它有哪些节点,工作流的顺序和构建则由大模型的规划能力决定。但随着推进,我们发现大模型在实际落地时也有瓶颈,过于灵活的工作流有时会出现不可解释性问题。
现在我们发现, 实际应用中,部分工作流通过意图路由完成,剩余的则通过大模型进行自由编排。两位老师在做这方面有什么经验可以分享吗?
栾剑: 目前来看,人工设计的工作流应用最为稳定可靠。对于一个固定类型的任务,人工设计的工作流可以非常完善,避免不稳定的问题。让大模型自我规划工作流,虽然具有潜力,但大模型的推理和规划能力仍然有限。从实际应用角度出发,我们目前还是依赖经过验证的人工设计工作流,但在一些特定场景下(如娱乐场景),全自动规划的工作流可能也能发挥作用。这是一种探索性质的尝试。
李飞: 王老师能分享一下如何在销售助手领域落地 agent 吗?
王译堃: 销售助手是一个多智能体协作的场景,它通常集中在精细的领域内。主要通过企业 IM 软件来运营销售,利用文本信息进行智能编排,完成任务。通常通过意图路由来控制流程的走向。为了避免问题,也可以结合中心化和去中心化的架构,同时引入监督员角色,对关键环节进行质检和流程评估。
李飞: 目前大多数 AI Agent 仍依赖于大模型,但大模型训练成本高、缺乏针对特定行业的深入理解等问题依然存在。能否结合特定行业案例聊聊,您认为要如何克服这些技术障碍?以及,是否有一些新的技术进展或方法能有效解决这些问题?
王译堃: 前期我们通过小样本学习和数据增强,低成本地探索通路,利用大模型的泛化能力解决简单任务。随着项目推进,数据收集和标注变得关键,能显著提升模型效果。此外,针对销售助手中的 QA 场景,我们计划通过实体关联(如 Graph RAG)来进一步优化模型表现。
李飞: 刚才提到,我们可能通过 Prompt 或微调来优化大模型的效果。不同人对大模型的应用有不同观点:有些认为应该对大模型进行领域数据的微调,而另一些则主张通过工程化手段纠正大模型偏差。在实际落地时,我们应该如何权衡?是通过工程化手段解决问题,还是通过适当的数据标注和微调来应对?
王译堃: 从收益最大化的角度出发,首先不要盲目使用大模型。工程化手段如果能解决大部分问题,就应该优先考虑。只有在一些特殊场景下,如客户外呼和产品签约等,传统方法难以应对时,才考虑使用大模型。整体上,先尝试工程化优化,再根据需要引入大模型。
李飞: 我们的策略也是先通过工程化手段,包括软件优化和 Prompt 构建,尽量发挥大模型的能力。如果这些方法无法解决领域问题,再通过数据标注微调,帮助模型适应特定需求,特别是在语义对不齐的情况下。
栾剑老师,您在小米的经验如何?如何平衡工程化和微调,以确保 ROI?
栾剑: 我同意两位的看法,快速添加规则能解决短期问题,但过多规则会增加维护难度。长期来看,规则和微调应并行,特别是对于专业术语,可能需要扩展语料库,帮助大模型更好地理解行业知识。此外,外部知识库(如 KG,知识图谱)能灵活补充大模型不足的领域知识,避免微调后的模型忘记已学内容。微调、KG 和 Prompt 各有优势,灵活结合应用是大模型落地的关键。
李飞: 我们可以通过加规则来帮助模型落地并确保成功。对于规则和大模型的关系,虽然大模型的能力会随着训练和迭代不断提升,但规则似乎像是束缚模型的“绳子”,限制了其潜力。在实际应用中,如何在使用规则确保落地的同时,又不限制大模型的能力迭代?
栾剑: 我们需要保持一个更新的测试集,用来评估每次迭代后的效果。每次添加或删除规则时,都需要通过测试集进行评测,确保规则的有效性和模型的能力提升。规则通常是为了应对大模型能力不足时的临时手段,随着模型能力的提升,规则应该逐步减少,让模型在学习中掌握这些规则,而不是单纯依赖外部规则。因此,我认为规则应当随着时间逐步减少,让大模型能够自动学习并应对更复杂的场景。
李飞: 测试和评测集非常重要,需要频繁更新,以便跟进新的应用场景和变化。
栾剑: 是的,为了避免工程师走捷径,测试集必须持续更新,根据线上新情况不断调整,这样才能确保大模型在真实应用中的适应性。
李飞:王老师您在实际落地时,测试部分是如何协作的,尤其是涉及大模型和工程能力的测试?
王译堃: 我们搭建了一个平台,依赖评测集而非 A/B 测试来进行模型迭代和大模型选型。平台会收集线上大模型的中间指标和关键数据,人工进行复检。比如,我们的外呼系统会抽取部分数据进行标注,销售助手会检查工作流。通过对比自动化和人工标注的准确率,发现差异时会进行复检。每天我们都会动态更新评测数据,并且新模型上线前都需要通过评测集测试。
李飞:评测数据的维护通常由哪些角色来完成?
王译堃: 我们有专门的运营同学来维护评测集,但研发也会参与在线标注,帮助发现问题。运营人员的技术背景可能较弱,虽然能发现问题,但不一定能定位到底层原因,研发则能更深入地了解问题。因此,技术人员也会参与线上标注工作。
李飞:目前 AI Agent 的市场接受度如何?在实际应用中,企业在采纳 AI Agent 时面临哪些具体的技术难题或业务挑战?
栾剑: 目前 AI Agent 的接受度挺高的,特别是在一些成熟的工作流中,通过大语言模型替代人工,能够显著提高自动化程度和效率。然而,仍然存在一些质疑。与人类完成的工作相比,AI Agent 在灵活性和创造性上仍有所欠缺,处理复杂情况时的能力有限。另外,人类工作可以追责,但大模型的结果很难确保每次都正确。即便是小概率的错误,可能也会导致用户的不信任,尤其是在财务等重要领域,AI 目前仍然只是辅助工具,无法完全替代人工。社会上也有担心,AI 是否会取代更多人的工作岗位,带来就业压力。对此,我持乐观态度。就像汽车取代马车时,虽然一些岗位消失了,但新的岗位和需求也随之增加,最终带来了更多的工作机会和创新可能。
李飞:在实际应用中,什么时候应该快,什么时候应该慢?
栾剑: 如果是全自动的工作流,AI Agent 的效率肯定高于人工,因为它不需要人为干预,可以 24 小时不间断运行,处理速度可以通过增加服务器并行化来提高。如果工作流需要人参与,瓶颈通常在于人,而不是 AI Agent 本身。在这种场景下,AI 的慢或效率低主要体现在用户体验上,尤其是 C 端用户可能不愿意等待太久。不过,如果 AI 的回答过快,超过正常人类对话的节奏,反而可能让人怀疑回答的可靠性,甚至觉得不够真诚。因此,AI 的节奏应该与人类的交互节奏相匹配,才能提供更自然的体验。
李飞:关于 AI Agent 与人的交互,未来是否会是 AI 主动引导用户,而不仅仅是被动响应?
栾剑: 这是一个重要方向。当前,AI Agent 大多是被动响应,等待用户提问。未来,我们希望 AI 能有“主动智能”,主动记住用户习惯,在合适的时候提醒用户。例如,如果 AI 感知到某些环境变化,它可能会主动提醒用户某些事情。当用户提问不全时,AI 应该主动询问更多细节,完善信息,而不是盲目回答。
李飞:那这种“图谱化”的交互方式,是不是比简单的直问直答更合适?
栾剑: 对,图谱化能帮助 AI 更有逻辑地引导用户,尤其在需要用户填写表格等场景中,AI 可以通过图谱引导用户逐步完成。而在更复杂的对话中,AI 通过不断提问、澄清和补充信息,最终给出更完整、准确的答案。
李飞:王老师,在京东的实际应用中,AI Agent 面临哪些技术难题和业务挑战?
王译堃: 整体上,市场接受度有了显著提升。技术发展迅速,资金注入不断,AI Agent 的应用场景变得丰富,尤其是 B 端企业在抓住这波技术机会时,C 端用户也在逐渐感受到智能化的提升。
主要挑战在于交互效果的稳定性。特别是在电商和物流行业,价格、路径等方面的容错率要求非常高。同时,TTS 技术的欠缺也影响了对话的自然度,导致用户感受到生硬的机器人语音,降低了体验。不仅是客户的信任,内部员工也存在质疑,特别是历史上没有大模型时,分类器做的工作给人的印象不佳,导致对 AI 的信任难以建立。此外,初期投资往往难以衡量回报,这增加了业务方面的挑战。
李飞:您如何平衡 AI 和人的协作?尤其是在容错率低的场景下,什么时候引入人工协助?
王译堃: 人机协作可以并行也可以串行。我们会先在关键节点部署大模型,验证其效果。如果成功,再逐步扩展到全链路。关于主动智能,AI 不仅依赖模型,还可以结合环境感知来主动采取行动,提升协同效率。
对于容错率低的场景,如数据分析等,AI 可能会先执行,但当遇到不稳定性时,需要人工确认。我们通过“human in the loop”方式,在关键环节引入人工干预,确保系统的稳定性和准确性。
李飞:关于 AI 的可信任性,尤其是在大模型的应用中,如何增强用户对其信任?因为用户往往不知道 AI 是如何作出回答的。
栾剑: 最简单的方法是通过引入人类监督,确保质量和责任可追溯。通过人为干预,大家会对 AI 结果更有信心,因为能追责,确保输出是正确的。还使用多个智能体来监督和评判一个智能体的工作。如果实时性要求不高,可以在多个环节加入这种监督机制,通过综合评判和打分提升准确度和可靠性。AI 系统可以通过强化学习或对比学习不断改进和迭代,逐步提高准确性和智能度。如果能搭建起这种自动化的进化过程,AI 将变得更加高效。
李飞:AI 模型在做评判时,效果是否会比仅仅生成的效果更好?
栾剑: 确实如此。人类写文章时,通过反复修改会变得更好,同样,如果 AI 模型能对其生成的内容进行评判、反馈和修改,最终效果会更加精准。比如,AI 可以扮演作文批改的角色,帮助发现生成内容中的问题并进行优化。
李飞:对于大模型在 agent 工作流中的自我进化是如何思考的呢?
王译堃: 关于这个问题,我之前也提到过,我们这边主要依靠多肢体来进行质检和监督,尤其是在各个环节中进行监控。特别是因为我们面向的是 B 端客户,可能会出现一些不准确的情况,这可能带来法务上的风险。所以,重点是在风控方面,我们专门开发了一些单独的 agent,收集不良案例。如果在这些案例中出现了一些典型的情况,我们会反过来进行微调。
另外,我们也希望能够将更多的不确定场景转化为确定的情况。举个例子,在我们开发企业内部的问答类工具时,初期我们可能会采用 RAG(检索增强生成)来进行信息检索。但每次召回的语料可能不同,即使是相同的语料,给出的答案也不一定稳定。为了提高稳定性,我们会让大模型聚焦在一些高频问题上,提取固定答案,将更多的不确定因素转化为确定答案,从而减少线上风险。
栾剑: 我们也做过一些思考。对于 C 端用户来说,我认为个性化最好在本地实现,无论是通过本地记忆或微调本地模型。端侧大模型的优势在于此,但目前端侧训练仍面临算力和数据清洗的挑战。数据清洗不当可能导致模型迭代效果变差。因此,目前的成熟做法是将用户历史信息清洗并存储在本地知识库中,用户有相关需求时再从中提取记忆,加入模型输入中。这种方式在目前看来比较稳定可靠。
李飞: 我也有类似的尝试。我们做企业智能分析产品,个性化方面主要通过员工标签来实现。例如,通过部门和关注的分析领域(如经营分析、门店分析等)来主动推送分析场景,帮助用户冷启动。另外,我们也用记忆型个性化。用户执行任务时,任务状态和结果会通过 RAG 或知识库存储。当用户第二天登录时,系统会根据前一天的任务情况主动询问任务是否完成,效果如何。这样做有助于个性化与实际场景的结合。
李飞:AI Agent 的发展是否会对未来的企业组织结构和员工角色产生影响?如果有,具体会怎样改变我们的工作方式和企业文化?
王译堃: 肯定的。某些职位可能会被高效、低成本的大模型取代,但也会有新部门或新角色出现,组织架构会受到影响。大模型带来的降本增效效果非常明显,这与当前企业文化非常契合。
李飞:未来是否会出现从集体化的工作方式转变为类似工作坊、小作坊式的办公模式?
王译堃: 我不认为会完全转变。大模型的引入,虽然能提升某些特定角色的效率,但也会带来新的角色或工作岗位的出现。人力并不会越来越少,而是从数量向质量转化的过程。也就是说,工作方式可能会优化,但人数不会大幅减少。
栾剑: 随着智能体的日益强大,管理者的比例可能会上升,因为很多一线工作可以由智能体完成。这意味着产品经理和技术管理者将变得更加重要,更多地承担设计和协调的角色。未来,智能体可能发展到足够成熟,以至于公司只需一个 CEO,其他职位都由智能体担任。这是一个极端的设想,但如果人人都能轻松创建公司,社会的创造力将得到充分释放,进而加速社会的进步和变革。
李飞:曾有人说,如果生产力提升了百倍,生产关系将发生根本性变化。虽然现在的大模型和 AI 还未达到这种提升幅度,但它们正朝着这个方向发展。
李飞:如果大模型和 AI agent 发展到极致,我们与技术或产品的交互方式会是什么样的?
王译堃: 还是刚刚提到的智能驾驶,它将深刻影响我们的日常生活和交通方式。
栾剑: 我有些悲观。如果 AGI 或大模型的智能超过人类,我们可能不再需要与其交互,只需接受它给出的答案。现在我们需要大模型给出理由,是因为我们对结果缺乏信任。但如果每次模型的结果都比我们的判断更准确,可能就不再关心理由,只要相信它的答案,就像我们信任一个非常聪明的朋友一样。终极形态下,智能体可能会成为我们极度依赖的工具。
但我认为智能体不会颠覆人类社会。就像机械设备早已超越人类的力量,但它们依然是人类的工具。智能体也应如此,除非它们发展出自我意识,那时可能会带来一些风险。
李飞: 机器人看起来像人类一样,虽然这种情况可能还很远,但若能发展到那种水平,确实会给人类社会带来变革。