作者 | 华卫
随着 AI 和大模型技术的发展,自动驾驶技术也进入全新阶段,近来“端到端自动驾驶”作为其中最重要的一项技术演进趋势成为自动驾驶行业关注的焦点。
在 6 月 12 日辰韬资本联合南京大学上海校友会自动驾驶分会等主办的端到端引领自动驾驶新时代高峰论坛上,多位智能驾驶头部企业代表、以及来自投资机构、研究机构的产业专家,发表了对端到端技术的未来趋势以及数据短缺问题的前沿看法,并基于“大模型和物理世界 AGI 的发展趋势”展开了一场圆桌对话。
辰韬资本投资经理刘煜冬博士表示, 头部自动驾驶公司已经积累丰富的端到端研发经验,已经出现了 UniAD、FSD 等可量产的技术方案,未来半年到一年内量产上车;今年或明年,主机厂会有初步的端到端方案上车。
现场,辰韬资本还联合南京大学上海校友会自动驾驶分会等发布 2024 年度《端到端自动驾驶行业研究报告》。调研显示,其中 90%表示自己所供职的公司已投入研发端到端技术,端到端已逐渐成为自动驾驶行业的共识,但在落地方面也面临诸多挑战,包括技术路线、数据和算力需求、测试验证、组织资源投入等。
目前,华为、小鹏、元戎启行、商汤绝影等自动驾驶玩家纷纷提出端到端量产规划,预计模块化端到端系统将于 2025 年开始上车。
“自动驾驶的架构演进分为四个阶段,从模块化/基于规则逐渐走向端到端/数据驱动,端到端定义范畴为第三与第四个阶段:模块化端到端、单一神经网络(One model 端到端)。强调生成能力的世界模型可以提供训练数据,也可以成为实现 one model 的方式。”
刘煜冬介绍,目前端到端面临 6 个落地挑战:技术路线未完全确定;训练数据要求高质量;训练算力需要几万到十万张 GPU,会限制大家的开发进度;测试验证的方法不成熟,传统方法是单模块测试;组织资源重心从工程师转向数据基建和数据投入;车载芯片算力和可解释性问题不会限制端到端的落地。
未来,开源社区会在端到端的技术变革中扮演重要角色,和 BEV 算法的演变相同。而闭环仿真将成为重要基础,这是除了端到端技术本身以外最重要的技术变化。芯片架构方面,芯片本身算力并不是限制,更多是芯片设计本身如何支持算法快速迭代,包括灵活的芯片 IP 和支持 transformer 的架构。
同时,他指出,端到端自动驾驶和机器人行业关联度很高,之后会经历三个阶段:1.自动驾驶向机器人行业借鉴技术;2.端到端技术反哺机器人;3.自动驾驶和机器人竞逐物理世界 AGI。自动驾驶的优势在于结构化场景和数据获取路径,机器人的优势为安全性要求低。
对此,鉴智机器人联合创始人兼 CTO 都大龙也做了进一步的解释。泛机器人系统之所以需要“感知决策规划”端到端模型,是因为有无穷无尽的问题无法用规则解决,只能用端到端来解决。未来,世界模型可以成为自动驾驶的 model,但当前因模型太大还不会,而端到端自动驾驶是终局路线。
“合成数据是解决端到端数据短缺的最有效方法。”光轮智能创始人 CEO 谢晨指出,Sora 使用大量合成数据来进行训练;特斯拉约 30%使用合成数据;蔚来约 30%使用合成数据;Cruise 约 50%使用合成数据;英伟达自动驾驶约 80%使用合成数据。
其中,特斯拉认为,自动驾驶范式就是 Transformer 和数据,搭建数据闭环,通过车端数据回环做端到端算法。“100 万辆车可以体会到数据闭环的威力,改完代码然后发给欧洲的车队,一天数据就可以回来了。”此外,特斯拉在合成数据也有积累,最早将其用到感知,后来用于端到端的训练。
而在都大龙看来,BEV 并不需要这么多数据,特斯拉 CEO 埃隆马斯克有点夸张。通过双目方案做 OCC 只需要 1%的数据,先加一些合理的约束,用一张图的形式去建模动态目标和静态目标之间的关系,就能够提升数据的利用效率和算力利用效率。需要注意的是,要保证建模是可导可微的,是可以端到端的去优化的。
至于合成数据和真实数据的比例以及重要性比较,智平方科技产品副总裁张鹏表示,当下肯定需要合成数据,但是以后找数据的模式可能会不一样,数据的需求在发生变化。人在自然界发现规律、验证规律和使用规律是一个过程,可能模型也需要这个过程。从底层来说还是如何去用数据。
“高质量的数据最重要,合成和真实数据两者比例需要看场景。”南京大学人工智能学院副院长戴新宇教授举例道,比如文本而言,合成数据可能不是好的场景,因为不符合人类的价值观,但是自动驾驶中合成数据可以模拟更多场景。
零一汽车智能驾驶合伙人王泮渠则指出,强化学习在 GPT3.5 和 4 中发挥了很大的作用,在端到端闭环中引入是高效利用仿真数据的思路。仿真数据和强化学习的结合是需要发力的点。
Q:Transformer 是未来大模型的基础架构吗?可否简单分享下对未来模型演进的推演?
南京大学人工智能学院副院长戴新宇:Transformer 从 17 年提出后,得到 NLP 以及多模态的验证,所以成为主流神经网络结构。现阶段效果很好,但是潜力还没发挥。Transformer 的缺点在于训练能耗大、乘法运算多、可解释性一般,虽然有思维链但没有很好的推理能力。未来 3-5 年 Transformer 还是有很大发展空间,但也有值得学术界探索的其他模型,目前关注神经符号模型,量子计算机等架构是否是 Transformer 以外的有潜力的模型。
零一汽车智能驾驶合伙人王泮渠:Transformer 的通用性和泛化性很强,优势是不管是什么模态,图像、声音或者文本都可以通过 query 深入然后进行编码,输出也很多样。其通用性保证了各种任务都可以进行无痛迁移和扩展,多任务网络整合到一个模型下。未来,Transformer 潜力很大但是不会一统天下。现在 Transformer 擅长大模型和决策,未来 Diffusion、3DGS 等 model 对于仿真和真实世界渲染会更有帮助。
智平方科技产品副总裁张鹏:Transformer 是当前比较有效且多种模态可以统一输出的基础,Diffusion 或者 3DGS 已经在细分领域应用了,更多优势在于落地和场景化的时候以什么样的成本达到什么样的上限,Transformer 可能只是一个过程。
弘晖基金投资总监周崇杰:Transformer 和人脑比较,推理效率和算力利用都有缺陷。现在有很惊艳的表现,未来无论是基于 Transformer 的优化或者混合模型或者新的架构模型,我认为都会有一些新的东西出来。
Q:scaling law 会遇到瓶颈吗?语言的 scaling law 可以复制到多模态吗?
王泮渠:从语言本身来看,GPT5 可能 90%的数据都来自于仿真数据,如果仿真数据没有上限的化那么 scaling law 没有上限。其他领域来说,数据是否可以赶上需求,比如自动驾驶的数据采集成本很高,并且涉及到安全性等。未来问题在于数据采集是否会遇到瓶颈,无法验证 scaling law。
戴新宇:多大的数据能让多模态达到跨越是一个问题,也不一定是数据量更大就更好,比如大象比人类的大脑神经元多很多,但是智商比人类低很多。饱和效应可能导致模型到了一定的规模,无法再达成大的飞跃。
张鹏:scaling law 在大语言模型之前经过大家的验证,多模态的数据比语言类数据更多,但是大家并没有找到多模态的范式去增大数据量,首先要找到这条路,再去验证多模态下 scaling law 是否成立。另外算力需要在某个场景下达到平衡点,比如自动驾驶,一定不需要把大模型放在车上。所以在某些场景下,可能并不需要这么多的数据量,更多是先找到规律再去寻找数据。
周崇杰:参数量大的模型目前效果更好,scaling law 在一定程度上可以实现,但受限于数据和高质量的数据,需要后续验证。另外算力和电力可能远远不够,2026 年对用电的需求可能到 8600 亿千瓦时,电力很难支撑,也对 scaling law 形成了挑战。所以寻找更好的数据、进行数据清洗或者对模型进行减秩和蒸馏都是需要探索的方向。