为什么在自动驾驶实践中,有多种雷达加持的汽车,表现还是远不如纯视觉特斯拉FSD精准丝滑?要解决复杂工程,先得抽丝剥茧搞清问题的本质!
如果没有经历过产研实践,你一定很难理解下面这些案例:
我们小时候的课本有个故事,说火箭专家王永志力排众议,减少燃料反而让导弹飞得更远;做过货柜的应该知道,规模越大不一定成本更低,有一个平衡点;还有做交易的朋友,你买了更多的数据信息,未必就能决策更精准!
回到自动驾驶问题的本质,自动驾驶最仰仗的能力是什么?
是要能精准且迅速地预判和决策。那么激光雷达、超声波雷达、毫米波雷达增加的信息,就能让你决策更精准、更快速吗?
很显然,两者并没有必然的逻辑关系。实际上,由于自动驾驶逻辑太复杂,杂乱的信息反而会让决策更迟钝、更迷茫。
我们可以粗略理理谷歌开辟的“激光雷达自动驾驶”的决策逻辑:①首先,视觉信息是最基础的,至于多种雷达信息,计算机程序要区分“哪些有影响、那些无影响”。②其次,导致跟视觉决策结果,相同的可以合并或忽略,不同的则进入下一个逻辑。③接着,对于这些能导致不一样决策结果的多种信息,你必须确定其在决策过程中的优先级或权重占比,并输出最终决策。④最后,随着场景和细节的增加,逻辑会越来越复杂,而进步却越来越慢!
特斯拉引领的“纯视觉端到端大模型”自动驾驶,跳过了那个“死亡逻辑”,直接通过神经网络比对老司机的操作,只要训练场景足够多,就会变成全能老司机。
简而言之,传统“激光雷达+代码规则”自动驾驶,都是抄袭2009年谷歌开辟的路线,最后都无一例外卡死在“复杂的逻辑”里面。只有马斯克独立思考,他发现自动驾驶的决策,不是逻辑的叠加,而是概率的综合。
纯视觉端到端,直接跳过“死亡逻辑”,全场景学习老司机的操作!这是跨时代的创新,好比牛顿力学和死的机器程序解决不了的复杂问题,改用量子力学和灵活的AI大模型来解决!