4 月 19 日,在自动驾驶创企毫末智行举行的“2022 HAOMO AI DAY”上,毫末智行董事长张凯、CEO 顾维灏分享了毫末最新战略、技术、产品进展。
自动驾驶下半场竞争的焦点:城市开放场景的领航智能驾驶
张凯在演讲中表示,“2022 年,国家将出台更多细则规范自动驾驶数据归属及安全;城市 NOH 会将智能驾驶的体验推向新高度;末端物流自动配送处在爆发前夜,头部客户开始进行场景规模化部署。”
基于以上行业洞察和预判,2022 年自动驾驶行业的竞争将正式进入下半场,主要集中在城市开放场景的领航智能驾驶。
“对于毫末来说,2022 年也是非常困难的一年”,张凯表示,如何打赢“数据智能技术之战”、“辅助驾驶城市场景之战”、“末端无人物流车规模之战”三场战役,如何完成超过 30 款不同硬件平台车型的项目交付,且保证交付的产品符合客户预期、具备市场竞争力,是毫末核心管理层在 2022 年初密集研讨的课题。
张凯给出了毫末在智能驾驶下半场的解题思路,即四大致胜法则:有效积累高质量数据;与客户开放式共创,深度绑定发展;在智能驾驶开发和迭代进程中注入用户思维;降本增效,统一全员行动目标:最大程度提升软件复用程度及各环节效率。通过四大致胜法则,毫末已经在业内率先实现了智能驾驶流程化开发和标准化交付。
技术产品新进展和新发布
首个数据智能体系 MANA 进化升级
2021 年 12 月,毫末发布了中国首个数据智能体系 MANA。MANA 是毫末所有产品进化的基石和核心源动力。
时隔 3 个多月后,MANA 在降低成本、提高迭代速度方面迎来多项升级。
顾维灏从“感知智能”、“认知智能”、“成本与速度”等方面详细介绍了 MANA 数据智能体系的最新进化成果:
在“感知智能”方面,MANA 感知能力进步飞快,“让中国没有不能识别的红绿灯和车道线”成为可能。
顾维灏表示,最近一年自动驾驶的感知技术发生了巨大变化,包括芯片算力的几何式增长,Transformer 跨模态模型的出现和 Camera 像素的快速提升。
基础技术的变化驱动着解决方案的改变,毫末开始从第一性原理出发思考新的解决方案,首当其冲的就是解决最有挑战的“红绿灯识别”问题。毫末提出了“双流”感知模型,将红绿灯检测和绑路问题分解成两个通道,让毫末日常乘用车测试实现了重感知下的红绿灯识别。
此外,毫末还在 Transformer 模型方面表现优异,自研 BEV Transfomer 用于车道线识别,通过“目标粗定位”和“属性精细估计”两个阶段实现标注的自动化,在城市道路上实现了多传感器融合车道线识别。
“认知智能”方面,MANA 用机器学习模型替换了传统的手写规则和参数,解决了此前代码臃肿且面对复杂场景容易崩溃失效的问题,使场景决策更具泛化适用性,极大提升了可解释性和泛化能力。
(MANA 的认知进化)
“成本与速度”方面,毫末和阿里巴巴在大模型数据处理技术上合作。毫末智行平台团队和阿里云 PAI-EFLOPS 团队合作,基于 128 卡 A100 集群,实现了 Swin Transformer 模型分布式训练;与阿里团队一起联合创新了包括混合精度优化、算子优化、编译优化等技术,通过大模型训练优化,目前模型训练成本降低 60%,加速比超过 96%,吞吐量超过每秒 40000 个 sample。
此外,毫末已实现标注 AI 自动化率达到 80%,大幅提高了标注效率,降低了标注费用成本。
(MANA 的成本与速度进化)
今年开始国家层面对智能汽车的数据安全提出了明确要求。在用户数据的安全方面,目前毫末在已有的处理网络上都加入了隐私保护和数据安全保障,以充分保护数据安全。
目前,MANA 已完成近 20 万个小时的学习时长,虚拟驾龄相当于人类司机 2 万年。随着时间积累,MANA 会让毫末自动驾驶系统的感知更准确,认知决策更像人类,让标注、仿真验证更高效,不断提高算力利用效率,打造更快、更稳、更安全的自动驾驶系统。
“MANA 已经成为毫末自动驾驶产品进化的核心动能。”顾维灏表示,随着自动驾驶及当前的辅助驾驶的成熟,不仅能够提升整个社会的交通安全,还能够逐步释放驾驶者的驾驶时间,缓解驾驶疲劳,获得出行效用的提升。
首个大规模量产的城市辅助驾驶产品“毫末城市 NOH”首发
伴随乘用车高级别智能驾驶渗透率的不断提升,NOH 智慧领航辅助驾驶系统逐渐走进城市, 城市场景智能驾驶正在成为新的兵家必争之地 。
从 2021 年起,毫末已经发布两代乘用车辅助驾驶 HPilot 产品,正在按计划有序交付。在此次 HAOMO AI DAY 上,毫末发布了搭载 HPilot3.0 的“毫末城市 NOH”。
毫末方面表示,这是中国第一个大规模量产的城市辅助驾驶产品,第一个重感知的城市辅助驾驶方案,同时也是 2022 年中国第一个最实用高效的城市辅助驾驶产品。
(毫末城市 NOH 发布)
据介绍,“毫末城市 NOH”拥有全面的场景覆盖、顶尖的硬件配置、领先的产品力等多项优势。
场景覆盖层面,该系统可根据导航提供的行驶路线,在城市环境中实现自动变道超车、红绿灯识别与控车、复杂路口通行、无保护左右转等主要功能, 同时也可应对车辆近距离切入、车辆阻塞占道、交叉路口、环岛、隧道、立交桥等复杂的城市交通场景。
硬件层面,该系统配备了一颗 AI 能力 360T、高速缓存 144M、CPU 计算能力达到 200K+ DMIPS 的超高算力芯片;同时还配套 2 个激光雷达、12 个 Camera、5 个毫米波雷达,最大程度实现了整套辅助驾驶感知系统的安全冗余。
产品力层面,搭载该系统的乘用车路口通过率超过 70%、变道成功率超过 90%、交通流处理能力高达 4 级。据了解,在日常测试中,“毫末城市 NOH”的路口通过率等方面领先特斯拉在中国的表现。
据悉,目前“毫末城市 NOH“已经在北京、保定等城市进行深度场景打磨,搭载该系统的车辆也将会在近期正式量产落地。未来,“毫末城市 NOH”功能落地的城市将会超过 100 个,同时搭载乘用车数量将超过 100 万台。
毫末还正式推出了面向乘用车驾驶领域的“6P 开放合作模式”。据张凯在演讲中介绍,毫末选择与车企共创模式,而非供应模式。毫末将提供从全栈解决方案到源代码之间的 6 个产品层面的合作方式,希望重新定义行业的商业模式,实现共赢。
“毫末小魔驼 2.0”首发,末端物流自动配送车价格下探到 10 万元级别
为了推动末端物流自动配送车事业的快速规模化,毫末在活动现场正式发布了中国首款 10 万元级别的末端物流自动配送车产品 — 毫末小魔驼 2.0。
(毫末小魔驼 2.0)
全新的小魔驼 2.0 配备了车规级硬件,ICU 3.0 大算力计算平台,可定制 600L 超大载货空间的货箱;拥有 L4 自动驾驶能力,覆盖混行、拥堵等复杂交通场景,可支持城市开放道路中低速全路况,全程实现无接触配送;此外还具备快速换电、60-100 公里续航里程、智能语音与触摸多模式交互等多项领先功能。
值得一提的是,毫末小魔驼 2.0 还首次将末端物流自动配送车的价格下探到了 12.88 万元。该产品预计在 2022 年 5 月陆续投放市场。
为了满足末端物流自动配送车合作伙伴们高速增长的订单需求,毫末智行位于保定的末端物流自动配送车工厂目前已经全面升级,占地面积扩至 1 万平米,可实现年产 10000 台末端物流自动配送车的产能目标。
核心技术创新点深入解读
4 月 13 日,毫末智行技术总监潘兴在接受 InfoQ 等媒体采访时,详细介绍了毫末智行在自动驾驶技术上的最新进展。
解决红绿灯问题
红绿灯问题,是自动驾驶城市场景中的一个不小的挑战。
在城市里交通场景里,红绿灯遍布。不论是人开车还是自动驾驶车辆,红绿灯都是车辆行驶过程中的重要交互。处理好红绿灯问题,对用户体验和安全至关重要。
在自动驾驶场景解决红绿灯问题,难度很大。因为红绿灯是典型的小目标监测,红绿灯很小,是一个很小的目标。此外,国家虽有一定的标准,但各地红绿灯差异很大,有的是箭头形状,有的是圆灯。此外,红绿灯本身是变化的,有绿、红、黄灯,还有读秒的灯。有时亮灯,有时熄灭状态不规律。
红绿灯还有一个很重要的问题。在城市里,尤其是人车密集的小路口,以及不规则的路口,在(自动驾驶车辆)摄像机的视野里,会同时看到两组、三组红绿灯,哪个红绿灯管车所在的车道?这就需要做出判断,也就是“绑路”。这是一个很难的问题。
Robataxi 公司,如百度、Waymo 等厂商以前的做法是,通过(高精)地图来解决这个问题。
在高精地图里会把红绿灯放进去。这样在地图里就知道,在一个具体的计算机坐标下,哪个地方有红绿灯,这个红绿灯管哪条路等。红绿灯跟道路的关系,都放到了地图中“道路的拓扑”里面,监测时可以跟地图做对照,很容易就知道前面的红绿灯距离车多远,有没有灯,灯管哪条路等。
但在实际的城市场景里,目前其实没有一个高精地图,国家现在也还没有审批通过一版高精地图。在城市场景下,缺少高精地图。Robataxi 公司有一些局部地区的高清地图,但大范围的,例如针对全国上百个城市,上千个县的高精地图目前没有。
在缺少高精地图的情况下,如何解决红绿灯的问题?这是在城市场景下的自动驾驶必须要面对的问题。
针对这个问题,毫末分了两步来解决,第一步是红绿灯的识别,第二步是红绿灯的“绑路”。
对于第一步,在缺少高精地图的情况下,通过数据来让模型表现得更好。这种情况下,如何处理红绿灯的多样性状态的变化,这种数据是很长尾的。全国各个地方不同的红绿灯如果都收集过来,成本很高。因此,毫末给出的方案是,结合仿真。通过仿真场景搭建了各种不同光照、天气、角度等仿真的实际场景。将这些场景的数据反馈到模型上,让模型能学习得更好。
这个过程里,有一个典型的跨 Domain 的学习问题,获得的数据和监测的数据都是现实的数据,仿真数据和现实还有一些差距。这就需要采用迁移学习,毫末利用混合迁移学习来处理和弥合这种差距。这种模型,虽然拿到的数据里有仿真数据,也有真实数据,但学完后,在真实数据上的效果完全可以把仿真数据利用起来。
在迁移学习之前,整个数据包括,合成数据和真实数据分布在各自的维度上。如果直接这样学,模型虽然补充了很多合成的数据,但学习效果并不理想。通过混合迁移学习后,可以看到合成数据和真实数据几乎就被拉齐了。这些虚拟的仿真数据补进去后,在真实世界里,它的表现能自动变好。通过这种方式,就能快速“收敛掉”各式各样的红绿灯。
在红绿灯的绑路问题上,如何知道红绿灯管的是车所在的那条路?这就需要知道红绿灯和道路的拓扑关系。毫末通过检测和模型学习这两个方法,来确定红绿灯所在的位置,以及红绿灯和道路结构的关系,然后做绑定,就可以找到某个红绿灯在道路上的拓扑信息。
通过这种方法,可在没有高精地图的情况下,纯凭感知就能处理、识别红绿灯,知道红绿灯对道路的作用,做出左转、直行、遇红灯等待、夜间、白天等场景下的决策。
Transformer 在车道线感知方面的应用
这两年,Transformer 在自动驾驶的应用逐渐增加。潘兴详细介绍了 Transformer 在车道线感知方面的主要应用进展。
当前自动驾驶学术圈和业界都已经提出了一些模型应用,如检测模型、地图模型、BEV 视角下使用 Transformer 解决多相机之间的融合问题,以及目标的跟踪问题等。毫末在 Transformer 里引入局部 Attention 方法,或者使用多相机之间相互的标定关系,通过 Transformer 很好地把视觉问题在 3D 上得到比较好的答案。
在车道线感知方面,毫末通过 Transformer 来解决城市里复杂车道线的挑战。在城市道路上,尤其在高速以外的道路上,车道线非常复杂,存在各种问题,例如新旧车道线交替重叠、潮汐车道变道频繁等。
面对如此复杂的车道线问题,毫末发现大模型,尤其是 Transformer 这种注意力机制在解决这一问题上很有优势。
例如下图,这是在没有高精地图的情况下,(全车 6 个相机)纯凭感知看到的车道线。可以看到,路段上有车道线的诸多变化,包括消亡、新增、环岛、匝道等,前方还可能会遇到汇入车道、某一段车道线断掉等状况。
在这种复杂的路况下,使用 Transformer 的注意力机制,可以有效地解决多个相机之间的拼接问题,全车 6 个相机都看到了车道线,有旁边的、前面的、后面的... 通过 Transformer 注意力机制,可以很容易地把多个相机的视角拼接起来。而如果不通过模型来学习,只完全通过数学后处理,会出现传感器的标定误差,包括视觉几何本身误差的形象,导致车道线拼起来之后,并不连贯。
此外在时间上,可以看到,在整车行驶过程中,整个车道线非常稳定,不会出现跳变。很多时候对于复杂的车道线,在没有地图作为先验信息时,出现的一个问题是,车道线会因为感知的噪声跳变,可能上一帧车道线在(车)左侧 50 厘米,一秒钟之后的检测结果,这个车道线就跳到左侧 45 厘米。而用户实车会感受到车在蛇行。通过 Transformer 的注意力机制,在空间上会把多个相机做有效拼接。另外在时间上,也可以修正感知本身引发的噪声,也很容易在时序上做到稳定的输出。
使用 Transformer 的机制,通过大模型可以看到整个车道线的输出视野上更远,以及看到车道本身的拓扑结构、准确度。以前小模型一个最大的问题是,经常会出现脑补的情况,比如路口没有车道线,它会补上一个车道线,但有时候会补错。
通过更大的模型,可以在某地做很多更精细化的输出结果,使得整个车道线做到“所见即所得”,即有车道线的地方就有车道线,没有车道线的地方就没有,跟整个道路的拓扑结构更加匹配,便于下游做更精确的规划决策。简单来说,通过 Transformer 这样的大模型,可以有效地做空间以及 3D 视野下时间上的目标检测、车道线的输出等,大大提升整个感知能力。
路线选择 :毫末为什么选择重感知的方案?
在城市自动驾驶场景下,红绿灯和车道线是 2 个经典的感知问题。毫末针对这两个问题所提出的技术解决方案,都是在没有高精地图的情况下实现的。
简单理解,高精地图就是,车看到了一些东西后去高精地图里匹配,这样就可以知道车在地图的位置,就很容易拿到周边的环境,包括红绿灯、车道线、路口等信息。
目前有一些自动驾驶厂商,采用了高精地图的解决方案。而毫末选择采用重感知的方案。
潘兴表示,毫末之所以选择重感知的技术方案主要考虑到几个原因,一是前面提到的,城市目前没有高精地图,尽管各家都提交了审图,但即便审图获得通过,高精地图的制作成本很高,且需要很长的周期。而且,做出全国性的高精地图是一个漫长的过程。
不过,这并不意味着“轻地图”。潘兴介绍,重感知的方案的核心在于,会以感知看到的客观世界为蓝本,而不是把感知看到的东西拿到地图做匹配,以地图为蓝本。在这个过程中,也会做一些匹配,但用的地图精度不如高精地图。毫末更多是用到地图的拓扑信息,对看到的客观世界做一些修正,提供一些先验的拓扑信息。该方案里的精度信息,是由感知提供的。
“对毫末来说,我们的方案有几个关键的优势,一是大家都在研发阶段,重感知的方案可以在大规模的城市部署。如果是一个重地图的方案,城市范围会比较受限制。我们直接就可以做到全国 100 多个城市有效的部署,所以在范围上具有很大优势。其次我们目前会搭载在长城的很多主力车型上,以长城的体量,在数据的收集方面具有优势。当前自动驾驶有一个持续 OTA 迭代的过程。毫末部署的范围大、车型多、数量多,基于更多的数据,持续迭代的速度也是我们很大的竞争优势”,潘兴说道。
联合阿里 M6 大模型,探索预训练的多模态大模型在自动驾驶的应用
说完了感知层面,接下来是毫末在自动驾驶认知方面的方案。
城市交通还会遇到很多复杂的场景,例如,车辆掉头、和对向车辆的交互问题、汇入车流问题等。在城市道路上,每隔一公里、两公里左右就会有一个路口,每一个路口都会涉及到这些复杂问题。
针对这些问题,如果自动驾驶去解决,不使用人工智能的算法,如果靠传统的罗列规则,这显然会是一个麻烦的过程,要处理绕障,要处理跟直行来车的交互博弈,还要处理一个新的汇入车流,这个过程中会有大量的 If else,这种策略会“爆炸”。因为在城市里,这类场景,微观的观察不同的情况,比如对向来车的速度是多少,绕障的车道是大卡车还是公交,右拐的是工程车还是自行车,这些问题会无限被差乘和放大下去。如果光靠规则,这个问题就很难收敛。其次规则写多了,有时候会自相矛盾,研发人员写了几千条规则,自己可能就混乱了。
因此,毫末提出了 TarsGo,通过模型学习和立体化学习的手段,学习人类司机在这些场景下面的动作,通过模型的形式替代掉原来人工的规则。左拐的交互博弈,环岛,拥挤车流的汇入,压道的变速等问题都涉及到了复杂的决策和轨迹规划,通过模型的方法,可以极大的降低在这个过程中规则的使用。
Tars Go 提供了一个车端的模型,需要大量人类的数据去训练。一个模型想要超过规则的前提,就是它能拿到大量有意义的数据,它学出来的效果才能比规则要好。
这就要提到 MANA 体系的另一个模块,LUCAS Go,它能够提供高价值的人类的驾驶数据。
毫末还和阿里的 M6 大模型合作,探索将预训练的多模态大模型在自动驾驶领域进行应用。
“M6 在自动驾驶领域的应用标志着 AI 模型能力的普惠化,不光能够自己采集车、用户的车传回来的这些量产数据迭代自动驾驶的能力,同样也能够用人们每天都在源源不断产生的生活中的数据,利用其他行业的数据,来迭代自动驾驶的能力”,潘兴说道。
此外,毫末还和阿里达摩院一起基于阿里 PAI 的框架,共同使用 M6,对自动驾驶的数据进行了数据挖掘,并对数据进行可解释的标注。
驾驶数据非常复杂,人类司机每个人都有不同的驾驶风格,在不同场景下会对车有不同的操作。大量的用户在大量场景下的数据如果不能进行可解释性的标注,那么这批数据就会对模型训练带来一些不可预测的影响。因此,想要真实地用好用户的数据,就要对这个用户当时的意图,以及用户的决策行为进行人类可解释的标注。
潘兴介绍,通过使用阿里 M6 大模型,可以对人类司机驾驶的数据进行可解释的标注。通过 M6 预训练多模态的模型,不但能预测人类司机是怎么开的,而且能对司机的动作给出文本集的解释,这个文本集是人类可以理解的。通过数据的后处理,就可以对这些可解释的问题进行归类、清洗和筛选,可以确保自动驾驶算法拿到的数据是“干净”的,符合人类驾驶习惯的,是可以用来训练的数据。通过这种预训练的大模型得到了符合预期的数据,通过这些数据,就可以训练车端智能的算法,替代掉车端大量的规则,进而来迭代自动驾驶的算法。
数据智能:如何解决成本和速度问题
感知和认知是表现在用户可以用到产品上的两个模块,这两个模块背后依托于毫末的 MANA 数据智能的体系来持续迭代和演进。
数据智能很重要的两个指标是成本和速度。
在成本方面,标注成本和训练成本是不能回避的问题。在 AI 领域,标注和训练成本几乎占到了 AI 领域的大头,其中标注更高,占总成本的三分之二甚至是五分之四以上。也就是人们常说的,有多少智能就有多少人工。
“在大量使用数据的同时,必须要考虑如何降低标注成本。只有当标注成本下降了,整个数据智能的体系运转才会更加健康”。据潘兴介绍,在标注方面,目前毫末已具备自动标注能力,通过自动化工具、半自动化工具,可以有效降低在整个图片、点云等数据标注上的成本,约降低 80%以上。以点云为例,毫末的自动标注算法目前已可以处理 4D 点云标注的问题,会在时间和空间上对这些数据进行有效标注,包括障碍物的位置、属性、朝向角、速度等。
此外,在降低训练成本方面,毫末和阿里云进行合作,目前使用 128 张 A110 的卡,针对 1400 万的数据,Transformer2 亿左右的参数,可以做到 4.7 万/秒吞吐的能力。在和阿里的合作中,对整个过程中混合精度的算子,包括编译、通信、网络以及数据 I/O 都进行了优化,整个训练成本下降了 62%,加速比提高到了 96%。
此外,在数据存储方面,毫末也做了很多优化工作。一方面是搭建了整个数据挖掘的体系——LUCAS,LUCAS 会从每天海量用户回传和采集数据里找到感兴趣、有价值的数据,先做一次筛选。接下来,基于筛选的结果,会把这些数据送标、训练、使用、缓存等。基于这些操作,可以对数据进行分级管理,有一些数据会放到硬盘里,有一些数据可能会放到数据库里。通过有效自动化的筛选手段加分级存储策略,可以有效降低数据的存储成本。简单来说,毫末的方法是,先将数据识别出来,再把数据做价值分级,再使用不同的存储方法。