称3年实现自动驾驶,李想会被打脸吗?

衣衣谈汽车 2024-06-24 08:53:25

6月8日,李想在公开演讲中表示,基于现有计算平台,有监督的L3级别自动驾驶100%可实现,无监督的L4级别自动驾驶三年内一定可以实现。

作为上述论断的技术依据,李想分享了理想汽车与清华信息交叉学院赵行博士团队合作的“快+慢”双系统架构。

这是一个比“端到端”更上层的架构,也是更前沿的自动驾驶技术探索。在今年3月的英伟达GTC 2024上,理想汽车智能驾驶技术研发负责人贾鹏已经对其做过分享。

李想在这个时间节点亲自再讲一遍,并公开表达不可谓不激进的目标——合理的推测是,理想内部的工程化进展让他感到乐观,同时可能希望借此激励团队挑战更高的目标。

通过分析理想智驾在发展现状、技术探索、资源投入(分别决定当前位置、前进方向和加速度)三方面的情况,笔者认为,理想汽车有望在2年内领跑国内智能驾驶产业,并在中国市场与特斯拉竞争。

以下逐一展开。

6月18日,理想汽车宣布将AD Max 3.0的推送规模从1,000人扩大到10,000人。

AD Max 3.0是完全不使用高精地图的全场景NOA软件栈,可粗略对应特斯拉FSD v11的后期版本。

从下面的架构图可以看到,理想AD Max 3.0已经把「预测」和「规划」纳入同一个神经网络模型。下一步演进方向是将其与感知模型打通,实现信息无损传输、可全局优化的“端到端”架构。

目前,华为、小鹏等国内领先的智能驾驶厂商,在技术架构上也处在大致相同的演进阶段。

华为将在今年8月推送的ADS 3.0中,负责大感知任务的是GOD网络(General Obstable Detaction),负责预测、规划的是PDP网络(Prediction Decision Planning),再下游还有明确的“运动控制”模块。

GOD网络与PDP网络之间是使用人为定义的接口,还是通过隐式表达特征交互?华为并未在公开场合明确说明过——二者的区别决定了“感知-预测-规划”整个链路能否实现信息的无损传递和全局优化,即是否可定义为“端到端”系统。

小鹏汽车于5月20日AI Day上更新的XNGP架构中,大感知网络是XNet,语言模型XBrain负责意图推测,规划网络XPlanner则负责“老司机般的脚法”。

与华为相似地,尽管使用了“端到端”的表述,但目前没有证据表明小鹏XNGP已实现了“感知-预测-规划”整个链路的信息无损传递和全局优化。

若以辰韬资本《端到端自动驾驶行业研究报告》中的定义为衡量标准,华为、小鹏、理想当前的智驾系统架构均处于“决策规划模型化”的演进阶段。

换言之,与特斯拉相比,目前国内几个领先的智驾厂商——华为、小鹏、理想、蔚来——之间不存在代际差距。

若能在2024年Q3实现AD Max 3.0全量推送,理想汽车将会抹平其智驾研发起步晚、前期投入少的劣势,跻身国内量产智能驾驶第一梯队。

因为有特斯拉做开路先锋,中国车厂在智驾研发上有明确的跟进方向:

接下来的目标是实现「感知-预测-规划」的端到端量产上车,路径是先实现“模块化端到端”,再演进为“单一模型端到端”。

李想此次所讲的内容,是在实现端到端基础上的更进一步。

由于特斯拉不再举办AI Day,FSD v12的技术细节未公开,业界并不确定其究竟是模块化端到端还是单一模型端到端,也不知道特斯拉从FSD v12到Robotaxi的实现路径。

我们知道,要具备L4级自动驾驶能力,当前的智能驾驶系统还缺少一些基于人类常识的理解能力,例如看懂交警的手势、临时的文字标识,或是预判动物的移动轨迹,识别学校路段并减速慢行,在路面坑洼时减速以缓解颠簸感……

亦或仅仅是——看懂导航地图。

据理想汽车智能驾驶副总裁郎咸朋介绍,“快+慢”的双系统架构,正是源于看懂导航地图的需求。

“无图方案由于没有了高精地图,在比较复杂的路口有概率会开错道。李想问我们能不能教会NOA系统像人一样看得懂导航地图,而不是仅仅用感知结果进行判断。我们经过考虑,车上得有两个系统,一个是开车的,一个是看图的,于是一切就从这里开始了。”

受《思考,快与慢》一书的启发,理想团队将人脑的工作方式分为系统1和系统2:

系统1:自动的、快速的、无意识的思维模式,通常基于直觉和经验,它所对应的是行为智能。

系统2:模拟人类或其他高级生物的思考过程。这种类型的智能不仅仅是关于行为,而是更深入地涉及理解、推理、学习和适应,所对应的是认知智能。

有了系统1和系统2的理论基础,人类的驾驶过程也可分为以下两种:

1.自动化驾驶过程(系统1):习惯性和直觉性的行为,如换挡、在看到红灯时停车。这些快速的、无意识的行为,会随着驾驶经验的增加而变得更加自动化。

2.复杂控制过程(系统2):在复杂或新颖的驾驶情况下,如突发紧急情况、复杂的交通或不熟悉的路段,驾驶员需要更加集中注意力,进行深思熟虑的决策。这些过程是缓慢的、需要意识的,涉及高级认知功能,如判断、规划和决策。

迄今为止,特斯拉、华蔚小理们所研发的智能驾驶系统,主要完成系统1的任务。

理想汽车引入的系统2,来源于与清华赵行团队合作的论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。

简言之,DriveVLM的工作原理是,先将摄像头输入的图像序列生成图像tokens,并通过自注意力机制捕捉其中的重要特征,与大语言模型对齐;随后,大语言模型通过思维链(CoT)进行推理,主要包含三个模块:场景描述、关键对象分析和分层规划。

「场景描述」是指对驾驶环境的语言描述,包括天气、时间、道路环境、车道状况等,方便系统判断是否要选择更谨慎的驾驶方式、是否需要变道等。

「关键对象分析」为的是识别出那些会影响车辆驾驶决策的对象,例如出现在路上的牛群羊群、站在路中间的交警、在路沿踉跄前行的醉酒行人……都可能对车辆行驶产生重要的影响。

传统的智驾系统不具备这些能力,但生成式AI的快速发展提供了解决方案:通过引入VLM(视觉语言模型),系统能够根据图像中关键对象的静态属性、运动状态和特定行为,判断其对驾驶决策的影响。

「分层规划」指的是VLM生成场景摘要,用自然语言对车辆所在的环境和环境中的关键对象加以描述,并结合驾驶路线、车辆位置、车辆速度等信息,给出可操作的驾驶决策,以及规划轨迹提示。

DriveVLM能够帮助自动驾驶系统建立zero-shot能力——即使遇到从未见过(训练过)的场景,也能像人类一样通过理解、分析、推理,最终安全应对。

如此一来,按照李想的话说,“不再需要养几千人的团队去搞corner case,而且团队越多corner case越多了”。

理想汽车将系统1、系统2分别部署在车端的2块Orin-X芯片上。由于VLM的基础是生成式大语言模型,参数量巨大。为部署到车端,理想采用的VLM经过剪枝、压缩到了20亿参数规模。但即使如此,VLM在车端的推理速度只能达到1-2Hz,相比智能驾驶感知(10-20Hz)慢了一个数量级。

两个异步并行的系统如何分工呢?

答案是,系统1负责自动驾驶车辆的日常行驶,当系统2看到有一些复杂的场景以后,它会把规划轨迹信号额外地送到系统1,去帮助、改变系统1的规划轨迹。

此外,为了验证系统1+系统2的能力,理想还需要创建一个云端的“世界模型”对其做仿真验证。

对此,李想提到Sora,不过Sora的原理是图像的逐帧渲染,而自动驾驶仿真需要的是符合物理规律的重建——从贾鹏的分享中可以看到,理想目前采用的方法是3D高斯重建。

理想汽车目前已经用超过100万个clips(视频片段)对模型进行训练。每个clip的长度是30秒,100万个clips约等于1万小时、50万公里驾驶数据。

郎咸朋介绍称,这些用于训练的clips是从上亿公里的真实数据中精挑细选出来的“五星司机”数据。数据标注过程、模型的训练过程已经实现完全的自动化,目前每周迭代3-5个版本。

到今年年底,理想的训练数据量预计将达到1000万clips。

此外,补充一条有趣的信息:

特斯拉Autopilot资深工程师Yun-Ta Tsai曾在6月15日分享称,机器人AI与互联网AI的一个显著不同是,ChatGPT这样的互联网AI对毫秒级别的延迟不敏感,但机器人必须在吞吐量和延迟之间寻找平衡,有两个级别的系统在发挥作用:在低级机械控制中,你只有几微秒的时间,就像火箭发动机一样,在偏离航线之前几乎没有时间调整推力;另一个高级系统,则必须在做出重大决策之前汇总所有信息。

这番思考与本文讨论的系统1、系统2颇有相似之处。若特斯拉FSD也采用类似的架构,应该不让人感到意外。

李想在6月8日提到,在接下来的一段时间,包含本月和下个月的几个关键的AI技术论坛里,理想汽车的研发同事会向整个行业分享理想在智驾方面的所有研究。

目前已经看到的一些分享包括但不限于:

西湖大学、理想汽车、天津大学等共同开发的自动驾驶视频生成模型Delphi。贾鹏分享的一篇论文显示,理想汽车未来会像特斯拉所做的那样,将摄像头输入信息跳过芯片上的ISP模块,把RAW源数据直接输入神经网络,从而减少信息丢失。理想智驾近期开源的一个3D汽车数据集,“通过3D扫描仪对2500辆汽车进行细致扫描,获得具有真实世界尺寸的汽车图像和点云”。

一个明显的感觉是,在特斯拉停止大规模对外分享自动驾驶研发信息之后,理想汽车希望接过“领头羊”的角色。

当然,无须赘述的是,真正意义上的领头羊,还需以量产结果为判。

在“端到端”以降的智能驾驶产业,最核心的三个要素是人才、数据、算力。

随着人工编写代码需求的式微,神经网络模型的数量越来越少、单个模型的规模越来越大。对人才数量的需求降低,对顶尖人才的需求上升。

这是因为,为模型设定的训练目标决定了模型能力的上限,由少而精的顶尖算法人才定义训练目标,效果远好于“人海战术”。

对数据处理的设计和运行,亦是同理。

算力,在不考虑地缘政治影响的情况下,可等同于GPU集群的规模,亦即等同于$$$的投入规模。

当然,这里不能忘了:搭建、运营千卡乃至万卡规模的AI Infra集群,是全球紧缺的能力,这又是一个归于“人才”的要素。

理想要做中国智能驾驶的领跑者,最大的竞争对手无疑是华为。

华为拥有远强于理想的基础研发能力、组织能力、人才规模、资金资源,并且鸿蒙智行系列车型当前的市场销量已经不输于理想。

与华为相比,理想汽车的优势在于公司CEO的投入程度(时间、精力)、资源调度能力、战略一致性。

理想汽车这家企业成立的初衷,就是做自动驾驶。

2020年,李想在接受《建约车评》采访时称,如果没有自动驾驶技术的出现,他恐怕都不会造车。他造车、拼命地卖车,就是希望在2025年的时候,能够获得一张自动驾驶赛道的入场券。

从李想的公开演讲中可以看出,作为非技术出身,他主动花费了大量时间精力去思考自动驾驶的技术细节,从而能够用自己的语言、举出自己身边的例子,来讲述其对技术的理解。

李想为理想汽车设立的愿景是“2030年成为全球领先的人工智能企业”——为实现这一愿景,理想必须保持专注,持续稳定地投入尽可能多的资源在AI领域。

战略清晰稳定、CEO亲自主导、组织灵活高效、资金资源充足,在满足这些条件的前提下,理想智驾有望与华为、特斯拉这样的巨头竞争。

当然,实现这一切的前提是理想汽车的商业成功、健康存续。

累计交付80万辆是一个很好的基础,理想汽车还需通过更多更好的产品进一步抢夺BBA的市场份额,提升销量。

结语

之所以将时限定为“2年以内”,是因为根据过往经验,“华蔚小理”们对标特斯拉FSD v12的端到端量产上车,大约会在2025年年中。

据此推演,再结合李想“3年内实现L4”的表述,笔者认为2026年年中将会是理想「端到端+VLM」方案成熟并全量推送的时间节点。

此外,特斯拉FSD进入中国市场后,还需一段时间的本地化部署和市场接受。因此,中国厂商与特斯拉在用户层面的智能驾驶竞争,也可能在2026年年中达到高潮。

L4级别自动驾驶的实现,受到诸多不确定因素的影响。即使3年后未能实现,如果理想能够如笔者预测做到中国领先,相信他也会欣然接受,与埃隆·马斯克一起愉快地被“打脸”。

· END ·

0 阅读:0