一家公司只需要一个 CEO 智能体的未来 (一家公司只需要一个人)

一家公司只需要一个 CEO 智能体的未来 (一家公司只需要一个人)

微软、谷歌、百度等科技大厂都在全面发力 AI Agent,全球许多大企业也都在使用 AIAgent。那么,AI Agent 到底能为企业带来什么新机遇?它在实际应用中会遇到哪些挑战?

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了数势科技 AI 负责人李飞、小米大模型负责人栾剑和京东技术专家王译堃,在 AICon 全球人工智能开发与应用大会 2024 北京站召开之际,共同探讨 AI Agent 在企业的应用与落地。

以下内容基于直播速记整理,经 InfoQ 删减。

top="1485"> AI Agent 的最新动态与应用趋势

李飞:大家在 AI Agent 领域关注了哪些动态?有没有一些新的观察和体会?

栾剑: Agent(代理)技术的应用越来越广泛,之前主要是语言模态的代理系统,现在多模态系统增多,接入的工具也更加丰富,不仅有搜索引擎,还有内部知识库等。行业内也出现了许多与音视频相关的框架和平台,虽然标准尚未统一,但呈现百花齐放的态势。此外,随着 O1 发布,强化学习成为了热门话题,代理如何通过强化学习自我进化,成为了重要的研究方向。

李飞:在小米内部,是否有类似的无代码化代理平台?或者在日常应用和尝试中,您是否通过这样的代理平台搭建过一些应用,并且从中获得了哪些便利?

栾剑: 我们内部有一个基于自研大模型的平台,应用广泛,包括数据分析、招聘流程优化和文档处理等。平台非常灵活,可以将传统工作流与大模型能力结合,创建新的代理系统。

王译堃: AI 代理领域的交叉性不断增加,例如,Web 3 和区块链的结合不再局限于智能客服和 AI Ops 等传统应用,甚至包括法律文书等工作。另外,AI 代理与具身智能的结合也是一个值得关注的方向。

李飞:京东目前有尝试将机器人与代理结合吗?

王译堃: 目前京东有几个战略项目,尤其是物流方面,正在结合机械臂和具身工具进行应用。与代理结合的主要方向是具身代理和具身交互,具体来说,我们将一些复杂任务拆解,利用代理的能力进行高级规划,然后通过具身机器人和多模态感知来实施这些策略。另外,还有具身问答(EQA)系统,根据环境或特定问题,进行类似问答的交互。

李飞: 我比较关注国内外的代理平台。例如,像 MarketOn 这样的公司通过无代码化平台,利用代理技术为个人打造私人助理,帮助完成订票、点外卖等任务,逐步替代传统助理。此外,我也在使用无代码平台,快速构建个人应用。比如,关注股票和研报时,通过代理平台连接外部数据,自动获取研报和上市公司数据,帮助我分析企业状况和股市波动,代理在其中起到连接数据和应用的作用。

李飞:微软、谷歌、Meta、百度等科技巨头纷纷发力 AI Agent,甚至 SaaS 行业也在追赶。大家怎么看 AI Agent 目前的发展趋势?有哪些方向或潜力是特别看好的?

王译堃: 未来的发展趋势总体来说是技术在增强多模态能力,特别是在一些细分领域和垂直行业,代理技术将发挥更大作用,尤其在人机协作方面。我认为现在比较成熟的方向,如智能客服,未来会有很大发展,特别是赋能企业工具。另一个方向是虚拟助手,无论是在自动驾驶的智能座舱还是作为个人助理,都是很有潜力的。

李飞:您认为真人客服和 agent 客服是一种什么样的关系呢?

王译堃: 是从协作到逐步取代的过程。初期,机器与人工并行,机器在并发量和标准化方面有优势。随着发展,大模型解决大部分问题,人工仅用于兜底。最终,在简单场景中,机器会逐步替代人工。

栾剑: 现在单智能体应用越来越多,尤其是无代码平台让每个人都能轻松搭建工作流。但从单智能体到多智能体,能力的提升是指数级的,带来了无限可能。未来不仅是协作型智能体,还有可能出现博弈和对抗型智能体,帮助我们研究更复杂的问题。同时,数据的枯竭让我们需要新的知识创造方式。通过多个顶级大模型扮演不同专家角色进行交互,可能会创造出新的、有价值的数据。对于像小米这样的硬件公司,把每个设备视为智能体,通过协同感知和执行,可以带来全新的用户体验。

李飞:大家以前常听到“物联网”这个词,您觉得代理与物联网之间有什么关系?未来,小米的所有硬件设备是否可能通过智能体来驱动和使用呢?

栾剑: 每个设备可以是一个独立的智能体,未来它们可能搭载轻量级的端侧模型,具备感知和执行能力。对于需求较低的设备,端侧可以完成任务;而更复杂的任务则交由云端或边缘计算处理。设备通过联网形成多智能体系统,上级智能体负责宏观协调,底层智能体专注于局部任务。这种方式类似于公司层级架构。

未来的多智能体是中心化还是去中心化

李飞:未来的多智能体系统是中心化的,意味着一个大脑控制多个智能体?还是像分布式去中心化的概念?

栾剑: 两种情况都有可能。如果是模拟社区或公司这样的结构,去中心化或中心化都会适用。如果是去中心化的社区,大家平等交流;如果是有层级的组织,如公司,则需要中心化。目前一种有趣的实现是,智能体共享一个信息池,信息按权限共享,这样比点对点的沟通效率更高。

李飞:王老师您觉得我们最终会实现去中心化吗?还是说这是一个逐步推进的过程?

王译堃: 这两种架构各有优劣,关键在于场景。中心化架构实现简单、成本低,适合简单系统;去中心化则更灵活,但容易产生冲突,通信问题也较复杂。一种折中方式是将中心化和去中心化结合,主要以中心化为主,其他智能体去中心化,确保全局策略的优化。

李飞: 我们看到一些公司已经在尝试多智能体协作,例如产品经理、项目管理、前端开发等各自作为独立的智能体,共同完成需求,从设计、PRD、原型到代码实现和上线。我也在思考,这种协作模式中的中心化到底来自哪里?需求是如何驱动的?

栾剑: 这种多智能体工作流已经比较成熟,类似传统的团队合作流程,每个角色的任务和信息流是固定的。优点是高效,但缺点是缺乏灵活性,面对新任务时可能需要重新设计工作流,效果会下降。我更看好的是通过上级智能体来自动规划工作流。这个工作流不是预设的,而是根据任务动态调整,并在执行中逐步优化,提升灵活性和效果。

李飞: 最开始,我们也希望大模型能作为“大脑”来编排工作流,因为它的灵活性很高。我只需告诉它有哪些节点,工作流的顺序和构建则由大模型的规划能力决定。但随着推进,我们发现大模型在实际落地时也有瓶颈,过于灵活的工作流有时会出现不可解释性问题。

现在我们发现, 实际应用中,部分工作流通过意图路由完成,剩余的则通过大模型进行自由编排。两位老师在做这方面有什么经验可以分享吗?

栾剑: 目前来看,人工设计的工作流应用最为稳定可靠。对于一个固定类型的任务,人工设计的工作流可以非常完善,避免不稳定的问题。让大模型自我规划工作流,虽然具有潜力,但大模型的推理和规划能力仍然有限。从实际应用角度出发,我们目前还是依赖经过验证的人工设计工作流,但在一些特定场景下(如娱乐场景),全自动规划的工作流可能也能发挥作用。这是一种探索性质的尝试。

李飞: 王老师能分享一下如何在销售助手领域落地 agent 吗?

王译堃: 销售助手是一个多智能体协作的场景,它通常集中在精细的领域内。主要通过企业 IM 软件来运营销售,利用文本信息进行智能编排,完成任务。通常通过意图路由来控制流程的走向。为了避免问题,也可以结合中心化和去中心化的架构,同时引入监督员角色,对关键环节进行质检和流程评估。

李飞: 目前大多数 AI Agent 仍依赖于大模型,但大模型训练成本高、缺乏针对特定行业的深入理解等问题依然存在。能否结合特定行业案例聊聊,您认为要如何克服这些技术障碍?以及,是否有一些新的技术进展或方法能有效解决这些问题?

王译堃: 前期我们通过小样本学习和数据增强,低成本地探索通路,利用大模型的泛化能力解决简单任务。随着项目推进,数据收集和标注变得关键,能显著提升模型效果。此外,针对销售助手中的 QA 场景,我们计划通过实体关联(如 Graph RAG)来进一步优化模型表现。

李飞: 刚才提到,我们可能通过 Prompt 或微调来优化大模型的效果。不同人对大模型的应用有不同观点:有些认为应该对大模型进行领域数据的微调,而另一些则主张通过工程化手段纠正大模型偏差。在实际落地时,我们应该如何权衡?是通过工程化手段解决问题,还是通过适当的数据标注和微调来应对?

王译堃: 从收益最大化的角度出发,首先不要盲目使用大模型。工程化手段如果能解决大部分问题,就应该优先考虑。只有在一些特殊场景下,如客户外呼和产品签约等,传统方法难以应对时,才考虑使用大模型。整体上,先尝试工程化优化,再根据需要引入大模型。

李飞: 我们的策略也是先通过工程化手段,包括软件优化和 Prompt 构建,尽量发挥大模型的能力。如果这些方法无法解决领域问题,再通过数据标注微调,帮助模型适应特定需求,特别是在语义对不齐的情况下。

栾剑老师,您在小米的经验如何?如何平衡工程化和微调,以确保 ROI?

栾剑: 我同意两位的看法,快速添加规则能解决短期问题,但过多规则会增加维护难度。长期来看,规则和微调应并行,特别是对于专业术语,可能需要扩展语料库,帮助大模型更好地理解行业知识。此外,外部知识库(如 KG,知识图谱)能灵活补充大模型不足的领域知识,避免微调后的模型忘记已学内容。微调、KG 和 Prompt 各有优势,灵活结合应用是大模型落地的关键。

李飞: 我们可以通过加规则来帮助模型落地并确保成功。对于规则和大模型的关系,虽然大模型的能力会随着训练和迭代不断提升,但规则似乎像是束缚模型的“绳子”,限制了其潜力。在实际应用中,如何在使用规则确保落地的同时,又不限制大模型的能力迭代?

栾剑: 我们需要保持一个更新的测试集,用来评估每次迭代后的效果。每次添加或删除规则时,都需要通过测试集进行评测,确保规则的有效性和模型的能力提升。规则通常是为了应对大模型能力不足时的临时手段,随着模型能力的提升,规则应该逐步减少,让模型在学习中掌握这些规则,而不是单纯依赖外部规则。因此,我认为规则应当随着时间逐步减少,让大模型能够自动学习并应对更复杂的场景。

李飞: 测试和评测集非常重要,需要频繁更新,以便跟进新的应用场景和变化。

栾剑: 是的,为了避免工程师走捷径,测试集必须持续更新,根据线上新情况不断调整,这样才能确保大模型在真实应用中的适应性。

李飞:王老师您在实际落地时,测试部分是如何协作的,尤其是涉及大模型和工程能力的测试?

王译堃: 我们搭建了一个平台,依赖评测集而非 A/B 测试来进行模型迭代和大模型选型。平台会收集线上大模型的中间指标和关键数据,人工进行复检。比如,我们的外呼系统会抽取部分数据进行标注,销售助手会检查工作流。通过对比自动化和人工标注的准确率,发现差异时会进行复检。每天我们都会动态更新评测数据,并且新模型上线前都需要通过评测集测试。

李飞:评测数据的维护通常由哪些角色来完成?

王译堃: 我们有专门的运营同学来维护评测集,但研发也会参与在线标注,帮助发现问题。运营人员的技术背景可能较弱,虽然能发现问题,但不一定能定位到底层原因,研发则能更深入地了解问题。因此,技术人员也会参与线上标注工作。

李飞:目前 AI Agent 的市场接受度如何?在实际应用中,企业在采纳 AI Agent 时面临哪些具体的技术难题或业务挑战?

栾剑: 目前 AI Agent 的接受度挺高的,特别是在一些成熟的工作流中,通过大语言模型替代人工,能够显著提高自动化程度和效率。然而,仍然存在一些质疑。与人类完成的工作相比,AI Agent 在灵活性和创造性上仍有所欠缺,处理复杂情况时的能力有限。另外,人类工作可以追责,但大模型的结果很难确保每次都正确。即便是小概率的错误,可能也会导致用户的不信任,尤其是在财务等重要领域,AI 目前仍然只是辅助工具,无法完全替代人工。社会上也有担心,AI 是否会取代更多人的工作岗位,带来就业压力。对此,我持乐观态度。就像汽车取代马车时,虽然一些岗位消失了,但新的岗位和需求也随之增加,最终带来了更多的工作机会和创新可能。

李飞:在实际应用中,什么时候应该快,什么时候应该慢?

栾剑: 如果是全自动的工作流,AI Agent 的效率肯定高于人工,因为它不需要人为干预,可以 24 小时不间断运行,处理速度可以通过增加服务器并行化来提高。如果工作流需要人参与,瓶颈通常在于人,而不是 AI Agent 本身。在这种场景下,AI 的慢或效率低主要体现在用户体验上,尤其是 C 端用户可能不愿意等待太久。不过,如果 AI 的回答过快,超过正常人类对话的节奏,反而可能让人怀疑回答的可靠性,甚至觉得不够真诚。因此,AI 的节奏应该与人类的交互节奏相匹配,才能提供更自然的体验。

李飞:关于 AI Agent 与人的交互,未来是否会是 AI 主动引导用户,而不仅仅是被动响应?

栾剑: 这是一个重要方向。当前,AI Agent 大多是被动响应,等待用户提问。未来,我们希望 AI 能有“主动智能”,主动记住用户习惯,在合适的时候提醒用户。例如,如果 AI 感知到某些环境变化,它可能会主动提醒用户某些事情。当用户提问不全时,AI 应该主动询问更多细节,完善信息,而不是盲目回答。

李飞:那这种“图谱化”的交互方式,是不是比简单的直问直答更合适?

栾剑: 对,图谱化能帮助 AI 更有逻辑地引导用户,尤其在需要用户填写表格等场景中,AI 可以通过图谱引导用户逐步完成。而在更复杂的对话中,AI 通过不断提问、澄清和补充信息,最终给出更完整、准确的答案。

李飞:王老师,在京东的实际应用中,AI Agent 面临哪些技术难题和业务挑战?

王译堃: 整体上,市场接受度有了显著提升。技术发展迅速,资金注入不断,AI Agent 的应用场景变得丰富,尤其是 B 端企业在抓住这波技术机会时,C 端用户也在逐渐感受到智能化的提升。

主要挑战在于交互效果的稳定性。特别是在电商和物流行业,价格、路径等方面的容错率要求非常高。同时,TTS 技术的欠缺也影响了对话的自然度,导致用户感受到生硬的机器人语音,降低了体验。不仅是客户的信任,内部员工也存在质疑,特别是历史上没有大模型时,分类器做的工作给人的印象不佳,导致对 AI 的信任难以建立。此外,初期投资往往难以衡量回报,这增加了业务方面的挑战。

李飞:您如何平衡 AI 和人的协作?尤其是在容错率低的场景下,什么时候引入人工协助?

王译堃: 人机协作可以并行也可以串行。我们会先在关键节点部署大模型,验证其效果。如果成功,再逐步扩展到全链路。关于主动智能,AI 不仅依赖模型,还可以结合环境感知来主动采取行动,提升协同效率。

对于容错率低的场景,如数据分析等,AI 可能会先执行,但当遇到不稳定性时,需要人工确认。我们通过“human in the loop”方式,在关键环节引入人工干预,确保系统的稳定性和准确性。

李飞:关于 AI 的可信任性,尤其是在大模型的应用中,如何增强用户对其信任?因为用户往往不知道 AI 是如何作出回答的。

栾剑: 最简单的方法是通过引入人类监督,确保质量和责任可追溯。通过人为干预,大家会对 AI 结果更有信心,因为能追责,确保输出是正确的。还使用多个智能体来监督和评判一个智能体的工作。如果实时性要求不高,可以在多个环节加入这种监督机制,通过综合评判和打分提升准确度和可靠性。AI 系统可以通过强化学习或对比学习不断改进和迭代,逐步提高准确性和智能度。如果能搭建起这种自动化的进化过程,AI 将变得更加高效。

李飞:AI 模型在做评判时,效果是否会比仅仅生成的效果更好?

栾剑: 确实如此。人类写文章时,通过反复修改会变得更好,同样,如果 AI 模型能对其生成的内容进行评判、反馈和修改,最终效果会更加精准。比如,AI 可以扮演作文批改的角色,帮助发现生成内容中的问题并进行优化。

李飞:对于大模型在 agent 工作流中的自我进化是如何思考的呢?

王译堃: 关于这个问题,我之前也提到过,我们这边主要依靠多肢体来进行质检和监督,尤其是在各个环节中进行监控。特别是因为我们面向的是 B 端客户,可能会出现一些不准确的情况,这可能带来法务上的风险。所以,重点是在风控方面,我们专门开发了一些单独的 agent,收集不良案例。如果在这些案例中出现了一些典型的情况,我们会反过来进行微调。

另外,我们也希望能够将更多的不确定场景转化为确定的情况。举个例子,在我们开发企业内部的问答类工具时,初期我们可能会采用 RAG(检索增强生成)来进行信息检索。但每次召回的语料可能不同,即使是相同的语料,给出的答案也不一定稳定。为了提高稳定性,我们会让大模型聚焦在一些高频问题上,提取固定答案,将更多的不确定因素转化为确定答案,从而减少线上风险。

栾剑: 我们也做过一些思考。对于 C 端用户来说,我认为个性化最好在本地实现,无论是通过本地记忆或微调本地模型。端侧大模型的优势在于此,但目前端侧训练仍面临算力和数据清洗的挑战。数据清洗不当可能导致模型迭代效果变差。因此,目前的成熟做法是将用户历史信息清洗并存储在本地知识库中,用户有相关需求时再从中提取记忆,加入模型输入中。这种方式在目前看来比较稳定可靠。

李飞: 我也有类似的尝试。我们做企业智能分析产品,个性化方面主要通过员工标签来实现。例如,通过部门和关注的分析领域(如经营分析、门店分析等)来主动推送分析场景,帮助用户冷启动。另外,我们也用记忆型个性化。用户执行任务时,任务状态和结果会通过 RAG 或知识库存储。当用户第二天登录时,系统会根据前一天的任务情况主动询问任务是否完成,效果如何。这样做有助于个性化与实际场景的结合。

李飞:AI Agent 的发展是否会对未来的企业组织结构和员工角色产生影响?如果有,具体会怎样改变我们的工作方式和企业文化?

王译堃: 肯定的。某些职位可能会被高效、低成本的大模型取代,但也会有新部门或新角色出现,组织架构会受到影响。大模型带来的降本增效效果非常明显,这与当前企业文化非常契合。

李飞:未来是否会出现从集体化的工作方式转变为类似工作坊、小作坊式的办公模式?

王译堃: 我不认为会完全转变。大模型的引入,虽然能提升某些特定角色的效率,但也会带来新的角色或工作岗位的出现。人力并不会越来越少,而是从数量向质量转化的过程。也就是说,工作方式可能会优化,但人数不会大幅减少。

栾剑: 随着智能体的日益强大,管理者的比例可能会上升,因为很多一线工作可以由智能体完成。这意味着产品经理和技术管理者将变得更加重要,更多地承担设计和协调的角色。未来,智能体可能发展到足够成熟,以至于公司只需一个 CEO,其他职位都由智能体担任。这是一个极端的设想,但如果人人都能轻松创建公司,社会的创造力将得到充分释放,进而加速社会的进步和变革。

李飞:曾有人说,如果生产力提升了百倍,生产关系将发生根本性变化。虽然现在的大模型和 AI 还未达到这种提升幅度,但它们正朝着这个方向发展。

李飞:如果大模型和 AI agent 发展到极致,我们与技术或产品的交互方式会是什么样的?

王译堃: 还是刚刚提到的智能驾驶,它将深刻影响我们的日常生活和交通方式。

栾剑: 我有些悲观。如果 AGI 或大模型的智能超过人类,我们可能不再需要与其交互,只需接受它给出的答案。现在我们需要大模型给出理由,是因为我们对结果缺乏信任。但如果每次模型的结果都比我们的判断更准确,可能就不再关心理由,只要相信它的答案,就像我们信任一个非常聪明的朋友一样。终极形态下,智能体可能会成为我们极度依赖的工具。

但我认为智能体不会颠覆人类社会。就像机械设备早已超越人类的力量,但它们依然是人类的工具。智能体也应如此,除非它们发展出自我意识,那时可能会带来一些风险。

李飞: 机器人看起来像人类一样,虽然这种情况可能还很远,但若能发展到那种水平,确实会给人类社会带来变革。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。