靠模仿学习实现的端到端,很难实现L3.什么是端到端?人类司机开车是眼睛路况,大

慢点评科技 2025-02-22 20:26:24

靠模仿学习实现的端到端,很难实现 L3.

什么是端到端?

人类司机开车是眼睛路况,大脑直接决定方向盘怎么转、油门怎么踩。

端到端也是一样,让汽车看大量人类司机开车的视频,照着学动作,省去中间复杂的规则设计(先识别车道线、再规划路线),就像小孩学走路,大人怎么走,小孩就模仿。

但问题来了,现在大部分这类系统是通过模仿学习来训练的,小孩可能只学会“迈腿”,却不明白“为什么要迈腿”,这就是端到端的缺陷之一,学动作,不学原因。

模仿学习端到端的问题之二在于训练时用的数据是固定的,但真实开车是动态的,你的动作会影响周围的车和人,这种开卷考试,和真实路况的闭卷考试完全不一样。

开卷考试学出来的东西在大多数情况下可能开得挺像人类,但遇到没见过的危险场景,那就容易出事。

这就是为什么「里程越多能力越强」的叙事说不通,因为里程来越多之后,99.99%的里程都是没用的,危险场景越来越难遇到,而且永无止尽。

实际上现在吹自己端到端猛的,没有哪一家敢不用规则或者其他形式去兜底。

未来,还是要靠强化学习

如果模仿学习是开卷考试,那强化学习就是模拟出一个世界,让车在这个虚拟的世界里随意开车刷题。

一开始当然会撞,但撞车就会扣分,成功通过过就能加分,通过反复试错,系统自己就会摸索出怎么开车分能高,也就真正「有因有果」。

在虚拟的世界里不断丰富场景,比如说各种光照环境,各种天气,各种道路,各种行人机动车的移动轨迹。

如果有一天强化学习能搞定这种级别的虚拟场景,从逻辑上来说,至少这样才有可能实现自动驾驶。

视频节选自:raining an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

很好的对比了模仿学习的端到端和闭环强化学习的结果。

0 阅读:25
慢点评科技

慢点评科技

感谢大家的关注