萝卜快跑突然逆袭它修炼了怎样的武功秘籍?

如梦初醒说车 2024-07-20 05:16:02

文|三少爷

最近,百度在无人驾驶出租车业务的先行区-武汉-投放了几百辆萝卜快跑,低廉的价格、新奇的体验吸引很多市民纷纷下单,在消费者扶着惊掉的下巴对着那个没有人类安全员的方向盘竖起大拇哥点赞的时候,滴滴师傅们默默地点起了一根廉价烟:“我的天,百度真要砸掉我的饭碗?”

要不要拥抱技术的变化,早早放下注定要被AI替代的驾驶工作,遵循李彦宏的建议转行做数据标注员或提示词工程师,去拿年薪百万?To be or not to be,每个滴滴司机的心中都在痛苦地思索着这个问题。

本文不打算探讨技术的进步所带来的失业、民生、伦理等社会挑战,还是站在技术的层面,回应一下人们最大的困惑:一年前表现还很一般的萝卜快跑,如今在驾驶水平上似乎已经接近了普通人类驾驶员的水平,它到底修炼了什么武功秘籍,找到了怎样的登云梯?

端到端加速性能裂变

过去一年的时间里,自动驾驶技术方案再次迎来重大升级。在特斯拉的又一次引领下,端到端逐渐成为自动驾驶行业的主流技术路线。

图片来源:江淮汽车

2023年8月份,特斯拉第一次展示端到端方案的FSD,不到一年的时间,车企友商和智驾供应商们经历了质疑和嘲讽端到端、观望和理解端到端、拥抱和迅速跟进端到端的三个阶段。营销层面,“端到端”迅速抢占自动驾驶技术传播里“无图”的C位,不做端到端,就没有资格位列第一梯队。产品层面,车企和方案商们迅速拿出各种让外界人士无从得知到底是从哪端到哪端的端到端方案。

图片来源:小米汽车

大家之所以从冷嘲热讽到趋之若鹜,一方面是受到了特斯拉FSD进步神速的启发,被贴脸开大,还是赶紧服了吧;另一方面是因为端到端不仅可以(在理论上)提高自动驾驶系统性能的天花板,还能加快系统的迭代速度。

两个优良特点集于一身,才让本土厂商迅速转变了对端到端的观点。如果只是推高了性能上限,但迭代速度非常缓慢,或者迭代速度加快但很快就会碰到天花板,本土车企大概率不会放弃过去的技术资产,迅速转换技术路线的。

提高系统性能天花板,主要得益于端到端方案相较于分模块方案的两个主要优良特性。从左端向右端看,感知到决策的信息传递更加全面;从右端到左端看,决策到感知之间没有界限,反向传播不会断裂,从而可以进行联合训练。

加快迭代速度,主要得益于深度神经网络形式的端到端方案解决了自动驾驶系统开发“受制于人”的问题。

在规则驱动(主要是指决策和规划模块)的时代,自动驾驶系统性能的迭代是不断编码新的规则,覆盖一个又一个Corner case的过程。庄子说过,吾生也有涯,而知也无涯,以有涯随无涯,殆已!以有限的人力应对无穷无尽的Corner case,同样“殆已”。

到了数据驱动的时代,无论是分模块端到端还是全链路端到端,都需要对决策规划模块进行神经网络化的改造,规划决策模块的开发范式由编码形式的规则驱动进化成为神经网络形式的数据驱动,意味着促进自动驾驶系统能力提升的驱动力由人力转化成了算力+数据。

一边是肉体凡胎的人力,一边是不眠不休的算力和源源不断的数据,自动驾驶系统性能进步的速度从此不再受制于人了!

大模型改善复杂场景表现

过去的一年里,自动驾驶技术方案迎来的第二项重大转变是,在OpenAI的引领下,大语言模型(LLM)逐渐成熟,并开始用于自动驾驶领域。

图片来源:小鹏汽车

5月15日的阿波罗日上,百度正式发布自动驾驶大模型Appolo ADFM,用大模型重构了自动驾驶的技术栈。

图片来源:百度

从端到端的角度来看,这是一个分模块的端到端方案。在这之上,借助大语言模型的能力,多模感知大模型可实现更精准的超长尾场景检测和高阶场景语义理解,改善智驾系统在复杂场景下的表现;多源规划大模型可以跳过中间过程,直接输出可执行轨迹,并通过学习人驾数据,实现从拟人到超越人的驾驶体验。

渐进式实现端到端大模型的不只是百度一家。

5月20日的AI DAY上,小鹏汽车宣布端到端大模型量产上车,这里的“端到端大模型”同样要拆成“端到端”和“大模型”两个词来看。在XNGP的架构里,体现大模型能力的是XBrain,它可以利用大语言模型超强的理解能力识别潮汐车道、特殊车道、复杂待转区,还可以实现对周围交通参与者的意图推理,与之前相比,大语言模型让XNGP有了比感知能力更高的认知能力。

图片来源:小鹏汽车

7月5日的理想汽车智能系统发布会上,理想汽车将分模块端到端方案的系统1和视觉语言模型的系统2同时搬上了车,据理想汽车表示,这是“业界首个端侧部署的VLM”。

图片来源:理想汽车

有必要指出的是,为了抢“业界首发”的殊荣,在不同车企的宣传口径里,有大语言模型(LLM)、基础模型(FM)、视觉大模型、视觉基础大模型、视觉语言模型(VLM)等不同叫法,实际上都是大语言模型叠加了视觉模态之后的变种,抛开现象抓本质,大家可以把它们都视为多模态大语言模型。

端到端是个大家伙,大语言模型也是个大家伙,这俩大家伙超级化学反应的结果就是大家对端到端大模型能力的赞叹和对自动驾驶能力快速进步的乐观预期。根据理想汽车的判断,数据驱动的端到端可以实现L3,应对95%的驾驶场景,知识驱动的视觉语言模型可以实现L4,应对5%的复杂场景。

图片来源:理想汽车

可负担的安全冗余

伴随着去年底那场关于AEB的大论战,主动安全的概念日益深入人心。私家乘用车尚且要强调“智驾不是炫技,安全才是真谛”,对拿来运营的无人驾驶出租车来说,安全更是极为重要的先决条件。

图片来源:百度

全无人驾驶业务成立的核心是极高的安全标准,在各个层面实现功能冗余是达成极高安全标准的重要手段。

“各个层面”到底是哪些层面?我们可以仿效将自动驾驶算法分为感知、决策、执行三大模块的思路,把自动驾驶系统划分为传感器系统(感知)、计算平台(决策)、转向+驱动+制动(执行)三大部件。

在感知传感器上,和用于乘用车业务的纯视觉方案不一样的是,百度第六代阿波罗无人车搭载了八颗激光雷达,用于提升在各种场景下的3D感知能力。除了车端传感器的堆料,百度依靠车道级导航地图实现了云端感知的冗余。说到地图,或许乘用车真的可以在L3阶段完全摆脱对高精地图的依赖,走向“全无图”或“真无图”,但是,对安全性要求极高的L4级无人驾驶运营车辆离不开高精地图或车道级导航地图/轻量级高精地图的辅助,因为,在使用场景上,无人驾驶出租车需要满足全天候、全时段的要求,不能像乘用车那样以一句“嫔妾实在做不到啊”就直接退出了。

图片来源:百度

在计算平台上,百度第6代阿波罗的车端算力相当充沛,达到了1200TOPS,比搭载4颗Orin X的蔚来汽车还要豪横。在这个大算力平台上,百度运行了两个AI模型,双AI模型协同工作,互为冗余,当其中一个模型失效时,另一个模型可以提供备份,减少系统发生故障的风险,提高整体安全性。

图片来源:百度

在执行部件上,百度阿波罗实现了双系统双控制回路的转向冗余、双独立系统四控制回路的制动冗余、双电子驻车双控制回路的驻车冗余。除此之外,双回路电源、双模组5G、双热泵循环回路、星基+地基双模式高精定位单元,在各个功能安全相关的部件上,百度都采取了有备无患的备份策略。

图片来源:百度

感知、决策、执行部件都是双备份、双冗余,用户吃了两碗粉,却不用掏两碗粉的钱,因为,粉价大大下降了。在过去的几年里,激光雷达、毫米波雷达、组合惯导高精定位单元的价格出现了大幅度的下降,得益于生成式AI大模型的进步,地图的生产成本也有了很大幅度的改观,不过,因为英伟达的Orin芯片价格居高不下,域控制器的成本下滑幅度不是很乐观。

图片来源:吉利

搭载了8颗激光雷达的第6代阿波罗车型的成本只有20万左右,相较第5代车型成本减半,安全冗余变得可负担之后,萝卜快跑的运行单价就可以维持在一个足以与人力网约车司机抢活的区间。

萝卜快跑的安全冗余还有最后一招。

当车端遇到实在无法处理的复杂场景时,可以向云端发SOS求助,由云端安全员/远程操作员接管,这些熟悉交通规则、具备丰富驾驶经验的安全员根据通信回传的数据,远程操控车辆脱困,保障极端场景下的通行效率和行车安全。

写在最后

智驾传感器硬件成本的下降、生成式AI对车道级导航地图生产的加持,帮助百度阿波罗实现了降本,端到端方案和视觉大模型的上车实现了软件的增效。一手降本,一手增效,萝卜快跑的发展终于进入了快车道。

当硬件成本再次减半、软件性能再次提升10倍时,无人驾驶出租车替代人类司机网约车的技术和时机就成熟了,短则两三年,长则七八年,没有人能预测这一幕到底会在哪个时间点出现。至于现在,无论是监管者、网约车司机还是处于风暴中心的百度,按马云老师的话说“都难,都难”;“网约车司机”作为老一代的生产资料,还是尽量不要精神内耗,把眼光看得远一点,没有过不去的火焰山,与其把抱怨挂在嘴边,让身边的人小看,不如勇敢面对难关。何况还有好几年的时间,早早转型,未必不能博一个年薪百万!

我也知道,这样的话轻飘飘的,没有什么力量,但是,就像懂王说的那样,这就是人生啊!

0 阅读:52