在 6 月 14 日刚刚开幕的 2024 北京智源大会上,智源研究院邀请了百川智能 CEO 王小川、智谱 AI CEO 张鹏、月之暗面 CEO 杨植麟和面壁智能 CEO 李大海一起,由智源研究院院长王仲远主持,展开了一场以“通往 AGI 之路”为主题的对话。在这次对话中,当前国内最热门的大模型企业掌门人纷纷分享了自己对 AGI 信仰、AI 安全、大模型价格战等问题的看法。
我们看到,目前大家对 AGI 都有各自不同的理解:杨植麟认为我们不一定要精准量化的定义,AGI 更重要的作用是让大家对未来有所准备;王小川心中的指标是 AGI 能不能“造医生”;李大海认为执行任何任务的边际成本都为零时,就达到了 AGI;张鹏则把 AGI 当成一种信念。
对于价格战,张鹏直接否认了智谱是价格战发起方的说法;李大海认为这有营销成分在,大家都有利润才是健康的方式;王小川讲述了价格战的积极影响;杨植麟则强调了要价值回归。
对于安全问题,大家都承认了其重要性,但目前这似乎并不是大家会迫切重点投入的事情。
下面是本次圆桌对话的完整版本,基于录音速记整理,AI 前线在不改变原意的基础进行了删减编辑。
大模型是否是通往 AGI 的基石?
王仲远: 各位都是国内头部大模型公司的 CEO,各位是否相信大模型是通往 AGI 之路的一个基石?还是说它可能只是一个数据的压缩,对产业界非常有价值但并不一定能够通往 AGI?
杨植麟: 我们认为大模型是第一性原理,需要不断提升模型的规模。就像仲远刚刚说的,它确实本质上是一个压缩,但这个压缩可以产生智能,而且随着不断规模化这个模型,不断做更好的压缩,它能产生越来越多的智能。
当然,这个过程中会有很多挑战,比如最大的挑战是并不一定有那么多的数据,有的领域并没有那么多数据,或者假设你想最后做一个比人类更好的 AI,但可能根本不存在这样的数据,因为现在所有的数据都是人产生的。所以最大的问题是怎么解决这些比较稀缺、甚至一些不存在的数据,但是规模化定律或者大模型本身可能没有太本质上的问题。
王小川: 我认为“基石”这个词是没有问题的。今天我们看到了 Scaling Law 带来的提升,但它只是在逼近 AGI。Scaling Law 是大家看到的第一件事,还有一件被忽略的事情是,我们把语言放到了大模型体系里,把语言变成了数学,语言在符号主义跟连接主义之间产生一个突破。
再往后走还必须有泛式改变,比如大模型靠数据驱动学习能够做压缩,之前像 AlphaGo 那种自我思考的系统也会有这样的作用。所以我的结论是,这个时代要让足够多科学家进来、更多资源进来,以便我们能够走向 AGI。但是,仅以现在公开大家看到的 Scaling Law 是做不到 AGI 的。
张鹏: 首先同意小川说的,它肯定是基石,是不是“之一”?这是另外一个问题,这个问题涉及怎么定义 AGI。
站在我们现在看到的角度,我觉得做人工智能这波人挺实用主义的,所谓的实用主义就是咱们“不看广告,看疗效”,这个东西能不能解决问题?能不能真的在我们每个人心中定义的 AGI 路径上推进一步?大模型目前在很有效地推进这件事情,Scaling Law 还在有效前进。
至于它是不是能够帮助我们走到顶峰?我们现在找不到一个确切的答案,但是我们相信它在这个阶段是有效的,所以我认为它肯定是基石,至少是基石之一,这个没问题。
李大海 :我个人是数学专业毕业的,所以我会比较严谨地去表达。我认为大模型一定是通往 AGI 这个方向上当前所有技术里能走得最远的,那它能不能直接达到,现在还有很多未知因素,包括刚才提到的定义是什么。
我提一个大家没有提到的点,现在的大模型作为知识压缩,主要是在处理人的大脑系统 1 的工作,这种慢思考的系统 2 的工作,比如做各种各样推理,搜索空间去做搜索组合来完成一个任务,可能需要未来的大模型通过 Agent 技术外部化或者把它内化为自己的能力,这是需要大家去探索的。
到底什么是 AGI?
王仲远 :确实有一个非常有意思的问题,我们总在讨论 AGI,但似乎连 AGI 的定义都没有广泛共识。各位心里认为什么叫 AGI?
杨植麟 :首先,AGI 的定义是重要的,但并不一定现在就需要精确的、有量化的定义,它可能是一个定性的、感性的东西。它最重要的作用是能让这个社会或者所有人能够对接下来要发生什么事情有一个准备。因为未来技术节奏可能非常快,我们如果能够知道 AGI 是什么样的就可以更好地做准备。不管是对每个人的职业发展,还是行业未来发展,这个是重要的。
第二,一定程度上,短期内需要一些量化。如果没有完全量化就没有办法衡量 AGI 开发进度是什么样的。所以,短期来说这个是很难的问题,也是很大的挑战。
王仲远 :我们需不需要图灵测试?
杨植麟 :传统的测试现在不完全适用了,即使它通过了图灵测试,还有大量人可以做得非常好,但 AI 基本没法做的事情。这不是一个很容易的问题,你需要对里面的评估维度做很多拆分。比如会有不同的知识能力、推理能力和创造能力,评估的方式完全不一样。
王仲远 :小川咱们上次在央视对话栏目提到去年是智能纪元的元年,这个智能纪元是 AGI 的元年吗?
王小川 :上次提到现在是元年,是因为我们掌握了 Scaling Law,同时掌握了把语言变成数学,这是一个重大的起点。机器掌握语言,我觉得是一个翻天覆地的变化。大家以前讲图片识别很厉害、无人驾驶很厉害,但我可能调侃说狗也可以自己导航、看图片,但狗是不会语言的,语言代表了我们认知世界的一种范式。
我特别喜欢你刚才的这个问题:什么是 AGI?这在全球很难有完整的共识。我们通过变换把它从一个空间换成另一个空间来判断。
我用一个大家可以评测的指标来看,这个指标在我心中是接近等价的,就是能不能造医生。
为什么这么说?之前我们谈 AGI,一种理解是把它当成工具。这次 AGI 的第一个变化是它开始有思考能力、学习能力、沟通能力、共情能力,甚至多模态图片处理能力。从它的学习泛式要求里,我觉得我们就是像在看人一样看它。还有一种做法是跟人差异化的角度看,但是从今天共识的评价指标或学习泛式里,它就是在向人学习,数据来自人类社会产生的数据,所以我是拿人的职业跟它比较。
医生在所有的职业里是智力密度最高的一个,既需要多模态,也需要少幻觉,还需要记忆力,有推理能力、查文献能力等等。
那做到医生是否就算做到 AGI 了?可能有一种声音:医生只是一个 Vertical,医生比这个低。但“人造”医生太难了,里面有太多的幻觉问题,有太多推理能力不可靠的问题。如果医生比 AGI 低,但医生都造不了,咱们就别谈 AGI 这件事情。如果你说医生比 AGI 高,但医生也只是造人的各个种类中的一种。在我的逻辑里,医生和 AGI 可以基本划等号。
数学上有个题目,就是自然数和偶数哪个多?我们第一反应是偶数比自然数少,偶数是自然数的子集,实际上我们应该知道它们是一样多的,因为每个自然数乘以 2 就是个偶数,它们两个是可以映射的。类似地,今天行业上能共识的能力,都可以映射到对医生的要求里,因此我拿这个作为一个标准,人造医生就是 AGI。
王仲远 :大海对 AGI 怎么去理解?
李大海 :我会尝试从经济学的角度来定义 AGI:如果我们执行任何一个任务,边际成本都为零,那这就是我们理想中的 AGI。
回到我刚才说的,为什么我认为大模型会走得最远,因为我相信大模型能够把边际成本一直往下降,可能会逼近于零。就像植麟刚才讲的,很多时候需要我们在各行各业产生一个数据飞轮,让模型持续训练、持续学习,让整体成本降下去。
我们去年看到大家做大模型落地的时候,很多场景都需要做微调,这个边际成本就很高。我们相信随着模型能力的提升,从微调逐步地只需要做 Prompt generate,慢慢地连 Prompt generate 都不需要做,模型直接就问你到底有什么需求。如果你讲不清楚那就我来问你。通过这种方式,我相信未来的门槛会越来越低,成本会越来越低。低到接近于零的时候,我觉得 AGI 基本就到来了。
我额外还想补充一个观点。现在大家都在讲怎么把模型做大。刚才小川提到一个关键词,叫“智能密度”。我们觉得大模型的智能密度也是一个非常重要的事情。当有一天达到 AGI 的时候,我们还要做的事情就是大模型的小型化。如果用一个 10 万亿的参数模型做到了 AGI,那能不能把 10 万亿的参数降到 1 万亿、降到 1000 亿?这也是一个要持续突破的事情。
王仲远 :其实,面壁智能以及智谱跟智源都有非常深厚的渊源,当年面壁的刘知远老师以及智谱的唐杰老师,跟智源一起做悟道系列大模型。想请教一下张总,从最开始做悟道系列,再到后来智谱系列大模型,最开始有考虑到它可能实现 AGI 吗?您对 AGI 是怎么理解的?
张鹏 :在我们看来,与其说 AGI 有一个很严格的定义,其实我更愿意相信它是我们的一种信念,是一个符号,它的内涵、外延是在不断变化的。
刚才提到早期定义 AI 的时候,怎么来检测一个系统是否是 AI 系统?图灵测试。但现在大家已经觉得这个过时了,就是因为随着技术的不断演进,我们对事情的认知越来越多、越来越深。同样的,这三个字母所代表的含义是不断在变化的,是动态的。
刚才植麟也讲,它是一个 Balance 的事情,如果你能把一个事情说得非常量化、非常清晰,那这件事情也就那样了,估计大家都能看到天花板在哪儿了。现在的问题就在于,没有人能够说清楚。反过来讲这是一个好事,意味着这个事情还有很多未知空间等待我们探索。
对我们来说,AGI 可以定义为我们的目标。当前我们的目标是以人为参照,让机器像人一样思考,这是我们的愿景。当然,机器的能力远不止人的水平,我们期待它可以出现超越人的能力,所以,我们会 AGI 里提到 super intelligence,看下一步它是否能产生超过人的水平,我们会不断更新 AGI 的内涵和外延。
Scaling Law 是否继续有效?
王仲远 :植麟也跟智源有非常深厚的渊源,当年也是悟道系列核心的技术骨干,也是智源的青年学者。今天大家反复提到一个词 Scaling Law,我不知道植麟对 Scaling Law 还是特别坚信吗?
杨植麟 :就像我刚才说到,Scaling Law 没有本质的问题,而且接下来 3-4 个数量级,我觉得是非常确定的事情。更重要的问题是,怎么能够很高效地去 Scale、你应该 Scale 什么东西。如果只是像现在搞一堆 Web test,那它就不一定是对的方向。这里面可能会遇到很多挑战,比如推理能力不一定能够在这个过程中解决。
怎么定义 Scaling Law?如果沿着当前的方法做 Next token prediction,再去 Scale 很多个数量级,然后用跟现在完全一样的数据去做分布,我觉得它的上限是很明显的。但是 Scaling Law 本身并不受这个限制,只要有更多的算力、数据模型参数变大,就能持续产生更多的智能,
但是这并没有定义模型是什么样的,比如要多少个模态、中间数据是什么样的,也没有规定你的 Loss function 是什么样的,所以 Scaling Law 是会持续演进的,只是在这个过程中 Scale 的方法可能会发生很大的变化。
像大家一直在讲的世界模型,本质上现在的大语言模型是世界模型的一个特例,只是先把里面的一部分给做了,但是还能持续扩充训练方式,所以我觉得 Scaling Law 会持续。
王仲远 :小川,您对 Scaling Law 未来几年持续发挥作用怎么看?
王小川 :我觉得 Scaling Law 到目前为止没有看到边界,它在持续发挥作用。马斯克号称要买 30 万片 B200 来做,从这方面看,美国确实在这方面的认知程度,甚至投入程度是远远高于中国的。
在我看来,我们一定要在 Scaling Law 之外,寻找范式上的新转化,比如数据、算法、算力。不管从战略上还是从信仰上,我认为在 Scaling Law 之外都还有范式的变化,不只是简单的predict token、变成压缩模式,走出这样的体系才有机会走向 AGI,才有机会跟前沿技术产生较量。
王仲远 :张鹏,您对 Scaling Law 的看法呢?
张鹏 :我刚才在讲 AGI 的时候已经表达了一些观点。人类目前为止认识的所有规律也好、物理定律也好、什么也好,都有可能有推翻的一天,只是看它的有效期是多长。前面加一个定语的话,目前为止,我们还没有看到 Scaling Law 会失效的预兆,未来相当一段时间之内它仍然会有效。当然,所谓的“有效”也是一个动态概念,它本身所包含的事情会不断演进。
就像小川说的,Scaling Law 早期关注的就是参数量,现在慢慢扩展到数据量很重要,数据质量也很重要,它的内涵也在慢慢变化。随着大家对规律的认知越来越深,规律的本质越来越被揭示,所以掌握本质就能掌握通往未来的钥匙。基于现在大家对本质认识的深浅,在我们看来,Scaling Law 仍然起效,会是未来我们主力推进的方向。
王仲远 :之前 GPT-5 传过几次说要发布,但似乎一直都在推迟。如果我们从追逐 GPT-4 到突破 GPT-4、再往 GPT-5 的方向去发展,现在 Scaling Law 有出现边界效应吗?
张鹏 :因素有很多种,包括传说的 GPT-4.5 和 5 什么时候发布,这里面的因素非常多。就拿我们自己来说,我们也在选择一条不断去遵循 Scaling Law 往前进的道路。举个例子,最开始我们开始做悟道的时候,就讨论过做稠密单体模型还是 MOE 稀疏多体模型的方案。这就是当时我们认为,如何去满足 Scaling Law 或者追寻 Scaling Law 的不同路径。
但发展到今天,其中的维度已经非常多,可以在很多方面去做这个事情。同样,反过来看这个问题,你会发现复杂度又上升了,不是简单地追求参数量上去就行的,难度也变大了。所以我理解,想要实现 GPT-5 或者再下一代模型,要探索的技术可能性非常多,包括正反两方面。
王仲远 :面壁主要是关注在端侧的大模型,在轻量级的大模型上,Scaling Law 也是有效的吗?
李大海 :我认为 Scaling Law 是非常重要的,但我也非常认同张鹏的意见。Scaling Law 是一个经验公式,是行业对大模型这样一个复杂系统观察以后的经验总结,随着训练过程中实验越来越多、认知越来越清晰,会有更细颗粒度的认知。比如我们自己发现,训练模型中的训练方法本身对于 Scalinglaw、对于智能的影响是比较显著的,尤其在我们固定住参数规模以后变得非常重要。现在大家觉得参数规模能够不断地往上放大,但一旦固定让端侧芯片去支撑规模模型做到足够好的智能,那么数据质量、训练方法等都会变得非常重要。
王仲远 :最近关注到 Stanford 的 Llama 团队抄袭了面壁的 MiniCPM-Llama3-V 2.5 模型,怎么看待这个事件?
李大海 :这件事情在国内引起了非常大的反响,我们也完全没有想到会以这种方式出圈。在这里也想澄清一下,我们认为这是海外个别学生组成的小团队做的个人行为,不代表 Stanford 学校事件发生以后,Stanford 的系主任以及整个西方的同行也都表达了非常正的价值观。另外,我们会更加坚定地相信开源的力量,这件事也是靠开源的热心参与者发现并曝光出来,让我们能够尽快地知道和纠正这样的行为。
我们在 5 月 20 号把模型开源出来, 29 号这几个本科生小朋友在模型上叠加一些高斯噪声后,号称是自己的模型。当然,这个模型一下子变得很受欢迎,主要原因是他们宣称这个模型的多模态能力跟 GPT-4V 完全对标,但参数只有后者的 1%,且只需要 500 美金就可以训练出来。前两项是真的,但 500 美金是训练不出来,还是要花很多钱。开源的力量是很强大的,不光是有做原创工作的人,还有很多贡献需求、反馈的参与者,都是开源生态中的重要组成部分,持续地做开源贡献能够给公司带来正向的收益。
王仲远 :智源也非常坚信开源的力量,过去一年我们在开源社区发布的各种模型,下载量也非常大。百川把自己花了不少钱训练的大模型对外开源的考量是什么?
王小川 :一是有这样的市场需求。当时美国既有大的闭源生态,也有开源生态,中国是正快速入场做大模型,我们把自己当时最好的模型开源后,在市场上产生了蛮好的影响力,得到了很多认可和好的 credits。这些对我们是挺大的鼓舞,不管人才的储备还是资本的关注,也算是给行业交了一个投名状。
还有一个心态是,我们也看到模型在快速进步,可能今天是最好的模型,明天就不够好了,所以我们在商业竞争里也没什么大的损失。这是一件既有贡献又不会降低竞争力的事情,我们就毅然决然做了这样一个决定,符合市场预期,也给公司带来了声誉。今天有各种公司做各种各样的开源,使得中国的模型生态在追赶美国,我也希望大家能够把生态越做越好。
AI 安全是你们最紧迫的问题吗?
王仲远 :随着大模型发展,AI 安全问题被不断讨论。各位都是做企业的,我想了解一下怎么去看在大模型产业的 AI 安全?是当下最急迫的问题吗?
杨植麟 :AI 安全是非常重要的,可能不一定是当前最急迫的,但需要我们提前去准备。因为随着模型的进展,Scaling Law 的发展是每 N 个月算力乘 10 倍,这是一个逐渐去适应的过程。最重要的是两个方面,一是模型本身会因为用户的恶意意图去做一些本来不应该做的事情,比如在 prompt 里注入一些不太恰当的意图,需要去关注;二是模型本身是否会有自己的 motivation,这是跟训练方式相关的,包括能不能在模型的底层去注入 AI 宪法去框定行为,不管用户给什么指示,都不会违背宪法。
王小川 :安全有不同的内涵和外延,所以我想提三个相关的事情。第一是意识形态的安全,做 to C 有这样一个服务,作为中国主权的大模型,意识形态上跟国家发展保持一致是大家的基本功,每个模型有他们的价值观,我们有我们的价值观,这是对民族、对社会负责任的一件事情,是底线。
第二是大家空谈得比较远的安全:模型是不是把人类毁灭了?我内心最不希望它像核弹一样把人类文明搞没了,但至于模型是不是比人更聪明,能够取代人做事情,我觉得这是值得鼓励的。因为延续人类文明才是重要的,人的肉身会死亡,技术跟人类一块拓展文明是有意义的,不要去限制。我去年写了一封公开信,AGI 帮助我们延续和繁荣人类文明是一个目标,让人类更好的延续,而不是让机器当我们的奴隶、工具,这是以文明为标准去看待安全。
第三是比较现实的安全,刚才提到 AGI 是什么、怎么评测?我跟很多人聊拿 AGI 做医生时,大家都觉得很难、现在搞不定。如果连这个都做不到,那我们就不要想它会颠覆人类的事。所以当前大模型还没碰到今天人类文明安全的边界,还要努力把模型能力提上去。
王仲远 :前一段时间智谱签了 AI 安全承诺,当时是什么考量?
张鹏 :智谱一直很注意安全相关的事情,尤其在 AI 安全方面。当时有 15 家 AI 相关的企业,来自全球各地各大洲,一起签署负责任的 AI 承诺书。安全只是其中一部分,我们叫“负责任的 AI”,除小川讲的三个方面的安全外,还有更低的问题,即如何保证和努力让技术帮助人类、社会、地球,而不是去作恶。
当然,人有两面性,很难保证没有人拿 AI 去作恶,现实社会中已经发现有人在这样做,防守永远比破坏要难,需要大家共同努力。我相信这个事情更重要的意义并不是现在能拿出多么安全的技术、方法或者管理规定去约束大家,而是增强大家的了解和统一的认识,大家能够坐下来正面这些问题,希望更多人一起参与讨论这件事情,总有解决问题的办法。
李大海 :我认为现在这个阶段,安全主要还是聚焦在基础安全跟内容安全两个方向上。现在的大模型本质上是只读的,模型训练也好,权重是固定的,推理不会影响权重,权重都是在线下持续阶段去训练的。有一天,当我们把模型部署到机器人等终端上,它能够去动态更新自己的权重以后,安全问题会变成一个非常重要的问题。
怎么看待大模型价格战?
王仲远 :最近有好多记者朋友都在问我,对于最近的大模型价格战怎么看?我当时给他们的回复是“智源研究院坚定地拥抱开源,免费给整个产业界、整个社区使用”。想请教一下诸位对于大模型价格战的看法,它是更有利于大模型的普及,还是过于激烈的价格战不利于企业的发展?
杨植麟: 这是很好的问题。如果我们把时间线拉足够长的话,最终还是要回归价值本身。
我自己有三个判断:第一,接下来我们去看算力的投入,可能投入在推理上的算力在某个时间点之后应该可以显著超过训练方面,这标志着价值开始得到释放,前面用来训练的成本是可以很大程度上被覆盖。第二,如果从 C 端的角度来说,推理成本可能会显著低于获客成本,所以从商业本质上来讲,可能不会跟之前的各种商业模式有非常本质的区别。
有了这两个之后,很重要的是第三个因素,现在 AI 在整个人的工作流程里面的占比还是很低的,可能是 1%。也就是说,人做的事情要远远多于 AI。但 AI 本身做的事情可能会在某个时间点超过人做的事情,这时就可能产生新的商业模式,不是像今天的在 B 端用 API 做价格战,可能是一个普惠的 AI,同时根据它产生的价值去分成产生的商业模式。
王小川: 先说结论,今天的价格战对中国发展大模型来说是非常特别的,我是积极看待这个事情。
首先,好不好得看对单个公司还是对一个群体或整个市场。因为价格战通常是市场行为和竞争导向,至少带来两个好的后果:第一,更多公司和人用上大模型了,很多企业之前是不懂这个的,现在开始免费用 POC,使得大模型在中国迅速普及;第二,我观察到,很多企业但凡有点技术能力都要自己训点大模型,甚至来找我们怎么联合训练。明明它们该是大模型的使用方,但都想转型成为大模型的供给方。这种情况下,带来很多人才、资金和社会的浪费。
有了价格战之后,很多企业开始清醒了,退回来成为大模型的用户。这样既能为其带来启蒙,也能减少社会资源消耗,市场的分层做好后,每家企业都能受益,竞争力就能起来。我们不需要一千、一万个大模型,在没有价格战的时候,中国可能真的是上百、上千个大模型在进行。
张鹏: 有人说我们是这轮价格战的发起方,子虚乌有。在那之前,我们一直秉持的概念就是给用户带来最大的收益价值,用我们的技术、创新降低使用成本,让大模型能够更多地普及、更多人能够享受收益。很长一段时间里,我们的价格都是行业内极低的。因为我们的技术确实能做到那一步,把中间的成本空间释放出来当作大家的收益,帮助大家把 ROI 只当成是一个数字。
从宏观角度来讲,这件事对中国大模型产业是有利的,让更多人来使用,并且真的把大模型当作便宜、随时可用的基础设施,对企业的收益是更好的发展空间和态势,这也是我们一直在坚持做的事情。但也要注意,不要过多地关注、宣扬这件事情,牺牲企业短期的成本、亏本做买卖不是正常的商业逻辑,只能持续很短的时间,还是要回归最终的用户价值、生产力价值。
李大海 :我们做端侧大模型,就是看到了端侧能更早、更快落地的可能性。最近有机构做过一个调研,发现全国 10 亿用户的手机端侧算力,相当于差不多 100 万片 A100,这是一个非常夸张的数字。如果不同手机上的算力能够被好好利用起来,很多应用就可以落地了。
当然,从现在到未来,都需要端侧跟云侧模型好好协同。端侧的优势是隐私性好、更可靠,但云上的模型肯定要比端侧好。当前所谓的价格战,多少有一些营销的成分在,大家都有利润才是健康的方式,并且真正让千行百业的大模型应用往下落地。