最近陆续看了一些智驾领域混乱的分析和指代,这条微博来说说。
「端到端」的意思是,智驾系统从感知到推理再到控制输出,是同一个模型实现的。端到端是相对过去「模块化」的设计,智驾分感知、定位、规划、预测、控制...乱七八糟的模块,端到端是相对分模块来说的。
端到端,就是一张大饼,而模块化,顾名思义,多块饼拼起来拼成了一张大饼,一个智驾系统。
那 VLA 和世界模型又是什么呢?所谓「VLA 是端到端的下一代,世界模型是端到端的下下代」这种说法,就很混乱了。
第一代端到端,我们暂且以理想、Momenta 或元戎基于 Orin 平台当前的端到端,应用的主要是「模仿学习」,也就是给机器人看大量的老司机驾驶的视频,老司机怎么开,模型就怎么开。
但模型是否真正理解和学习到了老司机某些隐含的驾驶决策或约定俗成的驾驶习惯,目前看是学不到的。也就是说,模仿学习是有样学样,但不知其所以然。这是有天花板的,是无法实现自动驾驶的。
VLA 或世界模型,可以建立起对环境和行为的深层次理解,能更好的泛化到新场景。根据场景中的语义信息和上下文关系,会有更好的因果理解和推理能力,而不仅仅是机械地复制人类操作。
也就是说,模仿学习,可以在一些简单的场景下学会像老司机一样开车,VLA/世界模型,可以在所有场景下学会像老师一样开车,而且会理解和思考,知道老司机为什么这样开车。
如果你讨论的是模型架构的变化,那么就是模块化 - 端到端。
如果你讨论的是模型的机器学习范式,那么就是模仿学习 - VLA/世界模型。
但是不要把模型架构和机器学习范式混在一起,天天降维打击降维打击。