自动驾驶方案最优解，理想汽车端到端+VLM全量推送

毫无疑问，智能驾驶已然成为一众车企竞争的最前沿。

这是个派系林立的领域：车企们观点各不相同，各烧各的钱，各走各的路，各自承担各的后果。

理想，也加入了这场战争中，并且誓要进入智能驾驶第一梯队。去年的秋季战略会上，理想汽车董事长兼CEO李想宣布，“2024年要成为智驾的绝对头部”。

10月23日起，理想汽车全新一代智能驾驶技术架构端到端+VLM系统正式全量推送。

是什么样的技术，给予了理想这般底气？

One Model 端到端，驾驶媲美“老司机”

借鉴诺贝尔奖获得者丹尼尔·卡尼曼在《思考，快与慢》中的“快慢系统”理论，理想推出了“端到端+VLM（视觉语言模型，Vision-Language Model）”的智驾双系统。

端到端模型就是快系统，有日常驾驶场景里快速处理信息的能力；VLM 则是慢系统，有面对复杂场景的逻辑思考能力。

套用到自动驾驶上，即输入是传感器，输出是行驶轨迹，全部由一个模型实现，中间没有任何需要人来设定的规则。

理想“摸着石头过河”，从研发开始到最终使用“端到端”，经历了三个阶段。

第一个阶段，理想尝试使用将高速NOA（Navigate on Autopilot, 自动导航驾驶）迁移到城市NOA上，但发现这种方案与地图的绑定严重，十分依赖地图的迭代更新；

第二个阶段，理想尝试使用NPN（Neural Prior Net，先验神经算法），只使用部分道路和地图的先验信息，帮助车辆识别道路特征，但发现这种方法只适用于车多的大城市，车少的小城市不行；

第三个阶段，理想尝试使用无图方案，大量加入规则，但发现规则永远存在泛化能力的问题，无法穷尽驾驶的所有情况。

到这一步，理想终于迎来了它的“尤里卡时刻”——端到端大模型上车。

但怎么才能让端到端大模型拥有“老司机”一样的驾驶能力？答案是喂给他老司机的驾驶数据。“模型具备的能力完全来自于你给他什么数据。没有数据，模型只是一堆参数而已”。

为此，理想对数据质量严格把关，首先筛选出了80万车主，又从这80万里筛选出3%的车主的总共22亿公里的数据，最后才喂给大模型，才让大模型拥有像“老司机”一样的驾驶能力，实现像人一样思考，像人一样驾驶。

事实证明，这种方式卓有成效。实测显示，理想智驾在路边起步只需P档激活，上车就开，而且在环岛通行、拥堵路况、复杂路口等场景，体验都优于华为。

视觉语言模型，像人一样深度思考

但只喂数据存在一个问题：给模型什么样的数据，模型就会有什么样的行为，但如果没有给过模型类似的数据，面对新的情况，模型就不懂如何应对了。

比如正常的红绿灯，是灯泡式的，或者倒计时式的，但唯独天津的红绿灯，是进度条式的。

如果是一个正常的人，见到进度条式的红绿灯，也会意识到红灯停，绿灯行，能够泛化思考，逻辑推理。但换作系统，倘若没有喂给过其类似的数据，它就很难识别应对。

这就需要引入“慢系统”VLM了，需要让系统拥有像人一样的逻辑推理能力，知道遇到坑洼路面之后会绕一下，或者懂得识别潮汐车道，正确选择车道通行。

在VLM上，理想主要分“视觉”和“语言”两个模块进行部署。

视觉部分需要搞定两个模块，第一是记忆模块，需要系统把自动驾驶中“看”到的视频存下来，这样在推理过程中无需重复观察；第二是“算子融合”，理想和英伟达在最新的版本上进行相互融合，研发出一个算子，提升了系统的性能。

记忆部分同样需要搞定两个模块。首先，理想团队将侦查模型从之前两个16位的字节压缩成只有4个字节，提升传输速度；其次是“投机采样”，让大语言模型在投机采样说出一个词后，可以通过联想说出更多的词。

实测证明，理想的VLM取得了良好的成果。最突出的一点是VLM可以识别出各种路牌，比如能轻松识别路牌限行信息文字、可通行和禁行的状态标识、学校路牌的中文信息等，这些都是理想在行业里的独有能力。

考试考多了，大模型也就聪明了

除了系统一和系统二外，理想的自动驾驶方案中还有个系统三：世界模型，理想把“世界模型”比喻成“考官”，专门考核系统一和系统二的安全性。

世界模型由三个题库组成：

真题库，即人在路上驾驶时的正确行为；

错题库，即人在路上驾驶时的错误行为；

模拟题，利用 diffusion transformer 的生成模型，生成没有见过的全新场景，比如马路上行人突然切入、下雨天路面湿滑的场景等。

理想提到，每次模型的发布之前，都会让模型把过去的错题做一遍，而错题库的公里数高达一千多万公里。除了做错题，模型还会做几千万个生成的模拟题测试。

做完模拟题后，看系统考多少分，“那个模型76分，这个模型83分，那83分的模型理论上就更强大，然后我们再去后面的应用”，这是完全自动化的一个过程，背后是理想根据用户需求出发，力求带来更好的产品体验的理念。

自动驾驶方案的最优解

实践证明，理想的双系统智驾方案体现出了独特的优势。

理想的系统一，践行的是纯粹的“One Model”端到端，“中间的感知模块都融入到一个模型里面去了”。而业内其他友商的端到端大模型，依然是分段构成的。

分段式端到端依然没有摆脱传统方案的范畴，尽管感知与规划都实现了神经网络化，但连接神经网络的依然是人类定义的接口，这意味着损失，以及大量人工标注，整个流程不利于全局最优，也不利于自动化。

而纯粹的“One Model”端到端，信息能无损传递，数据流转的自动化程度更高，并且“它具备的能力完全来自于你给他什么样的数据”——只要提供足够好的数据，系统就能通过学习获得像“老司机”一样的驾驶能力。

理想认为，如果想做更高级别的L3、L4的自动驾驶的话，One Model端到端是最佳方式，因为它不但是选择了这个模型本身，更多是选择了一种更高级的迭代或者研发的流程或方式。

可以举一个例子体现有无系统二的区别：像小鹏和华为，他们能识别出高速公路上收费站的ETC，是因为提前建好了地图。但VLM不需要，全国任何一个高速路收费站，VLM都能提前为用户指出来哪里是人工车道，哪里是ETC。

这就是因为系统二让大模型拥有了像人类一样的逻辑推理能力和泛化能力。

结语

在“蔚小理”中，理想是自研智能驾驶最晚的那个，但却在今年迅速从NPN切到无图NOA，再到端到端，并在今天开启全量推送，不免引人惊喜：一个后进生，怎么提前交卷了？

而这张卷理想答得怎么样，用户今天就可以体验到了。

古典风资讯网