靠模仿学习实现的端到端，很难实现L3.什么是端到端？人类司机开车是眼睛路况，大

靠模仿学习实现的端到端，很难实现 L3.

什么是端到端？

人类司机开车是眼睛路况，大脑直接决定方向盘怎么转、油门怎么踩。

端到端也是一样，让汽车看大量人类司机开车的视频，照着学动作，省去中间复杂的规则设计（先识别车道线、再规划路线），就像小孩学走路，大人怎么走，小孩就模仿。

但问题来了，现在大部分这类系统是通过模仿学习来训练的，小孩可能只学会“迈腿”，却不明白“为什么要迈腿”，这就是端到端的缺陷之一，学动作，不学原因。

模仿学习端到端的问题之二在于训练时用的数据是固定的，但真实开车是动态的，你的动作会影响周围的车和人，这种开卷考试，和真实路况的闭卷考试完全不一样。

开卷考试学出来的东西在大多数情况下可能开得挺像人类，但遇到没见过的危险场景，那就容易出事。

这就是为什么「里程越多能力越强」的叙事说不通，因为里程来越多之后，99.99%的里程都是没用的，危险场景越来越难遇到，而且永无止尽。

实际上现在吹自己端到端猛的，没有哪一家敢不用规则或者其他形式去兜底。

未来，还是要靠强化学习

如果模仿学习是开卷考试，那强化学习就是模拟出一个世界，让车在这个虚拟的世界里随意开车刷题。

一开始当然会撞，但撞车就会扣分，成功通过过就能加分，通过反复试错，系统自己就会摸索出怎么开车分能高，也就真正「有因有果」。

在虚拟的世界里不断丰富场景，比如说各种光照环境，各种天气，各种道路，各种行人机动车的移动轨迹。

如果有一天强化学习能搞定这种级别的虚拟场景，从逻辑上来说，至少这样才有可能实现自动驾驶。

视频节选自：raining an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

很好的对比了模仿学习的端到端和闭环强化学习的结果。

0 阅读：25

酒驾15天进去都干什么？