重新设定起跑线。
智能驾驶无疑是一个热衷发明新词的行业。前年流行的是“Transfomer+BEV”,去年爆火的是“大模型”、“无图”,今年就轮到了“端到端”。
无论是站在台前的蔚小理华,还是身居幕后的元戎启行、Momenta、商汤绝影、地平线,今年都在力推智能驾驶的端到端方案,希望在如火如荼的高阶智驾竞赛中掌握更强大的技术武器。
而作为全球对端到端最积极的车企,特斯拉开启端到端自动驾驶研发已经一年有余,并在今年3月对北美订阅用户全量推送FSD V12。4月28日,马斯克紧急飞往北京,外界盛传他为FSD进入中国而来,这让人看到了使用端到端方案的FSD加速入华的可能性。
和以往一样,在中国智驾行业首席激励师马一龙的到访下,国内智驾行业跑步进入端到端的热情将越来越高涨,一场新的行业变局正在酝酿。
01 为何纷纷端到端国内智驾行业为何在2024年集体喊出了端到端?
一个直观的回答是,因为特斯拉这么干了。去年年初,马斯克在推特上透露特斯拉已经开启端到端自动驾驶方案的开发。8月,马斯克首次直播亲测FSD V12,系统呈现出的类人驾驶效果引发热议:自动驾驶看起来真有希望了(尽管中途接管了一次)。
FSD V12的类人操作:前方车道已经拥堵,那就不要开过去堵住路口
但更接近现实情况的答案是,端到端是诸多企业在进行过大量实践、试错后,逐渐认同的一种方法。或者说,如果智能驾驶的技术问题主要是一个AI问题,那么端到端是一个通用解。
端到端并不是一个全新的概念。在人工智能领域,它是一种普遍使用的方法。比如在各种AI翻译、语音转文字应用中,基本都使用端到端:原始数据被送进一张神经网络中,经过一系列运算后,直接给出最终结果。
在智能驾驶领域,行业对端到端的探索也不鲜见,比如英伟达、Waymo都组建过团队进行预研,美国的初创公司如Comma.ai和Drive.ai,则选择All in端到端。但早年间算力、算法性能尚低,基于此开发的神经网络规模与能力有限,自动驾驶的任务又高度复杂,端到端方案的表现并不好。
因此,在实际量产中,行业前些年更普遍的做法是分而治之:
将智能驾驶的技术栈切成多个模块,每个模块有独立的算法(有的模块如感知多使用神经网络,有的模块使用传统算法),众模块前后接力,协作完成智能驾驶任务。直到目前,市面上大多L2及其以下的智能驾驶仍然使用这套技术栈,并且运行得不错,因为任务相对简单。
但问题在于,当企业的目标是实现高阶智驾乃至自动驾驶时,这种模块化的方法就不够用了——一个关键原因是,“中间人”太多了。
几乎所有地球人都参与过的“传话游戏”中,一个必然会发生的情况是,当参与游戏的传话人越多,最后一个人说出的结果与最初传下去的话差别就越离谱。
就像这样
这与智能驾驶模块化技术栈的问题共通:当信息流转的层级越多、传递的链路越长,失真情况就越严重。人类会发挥主观能动性胡乱脑补,而智驾各模块不仅对信息有损压缩、传递并累计误差,还会面临并行模块信息相互打架的问题。
面对人员冗杂、难以配合、效率低下的问题,一家企业惯常的操作是精简组织,付4.5倍工资招3个能力强的干6个人的活。
同样的事情也发生在智驾技术栈中。车企与智驾公司们不断整合智驾技术栈原来相对细碎的模块,打包成感知预测、决策规划、控制执行三大模块(也有企业将预测拆出构成四大模块)。
然而,做到这一步实际上只是让高阶智驾能用,难题依然层出不穷。
在大多已上市的智驾车型的决策规划模块中,有大量人类工程师手写的if else规则去应对不同场景。在不复杂的场景下,这些规则能运行得不错,但当场景高度复杂比如在城区智驾时,靠if else很难精确地描述并处理场景,规则与规则之间也会冲突。
就像一个刚拿证不久,反应总是会慢半拍的新手,常常会在心中默念交规开车,在车流较少时还能应付,遇到早晚高峰就原形毕露。不少智驾车型的鲁莽、笨拙、机械感,和这有分不开的关系。
为了解决这个问题,国内智驾系统开发进度靠前的企业都在进行一项工作:在决策规划模块中,逐渐用神经网络替换掉手写规则,靠数据驱动解决人工无法穷尽的弊端。
比如华为在北 京车展期间发布的ADS 3.0,将原本有不少手写规则的预测决策规划模块替换为了一整张PDP神经网络;小鹏即将在五月推送的天玑系统,也会在相应模块引入神经网络模型Xplanner。
但做到这一步依然不够好。因为感知神经网络与决策规划神经网络的仍然相对独立,且任务并不相同,两者之间依然存在人工设计的通信接口,有一个信息筛选过程,也自然意味着存在信息的有损压缩——好比一个乘客负责看路,来指挥蒙着眼的司机如何开车。
在理论上,取消所有“中间人”,让一张庞大的神经网络负责整个驾驶任务,才是充分利用信息的最优解,这就是端到端智能驾驶。
智驾技术栈的演进方向
而眼下,智驾行业正处于激烈的城市NOA开城竞赛中。以人类为模板,智驾系统如果要做到全国都能开,驾驶感类人、丝滑,需要的当然不是几个人协作,而是单个足够强大的大脑在正确理解环境后,指挥腿脚做出正确的动作。
端到端就是打造出这颗AI大脑的关键路径。这是智驾行业今年对它前赴后继的根本原因。
02 到底哪端到哪端略显喜感的是,在这场端到端的热潮中,要么是因为中文博大精深,要么是一些企业有意为之,尽管不同企业异口同声地在说端到端,他们表达的可能完全不是一个意思。
比如华为在非智驾领域讲端到端时,表达的是“从客户端来,到客户端去”的流程。
当某些智驾算法供应商在讲感知端到端时,表示的意思其实是“将感知模块原本数张负责不同任务的神经网络整合成了一张”,而不是完全实现了端到端智能驾驶。
某些车企在宣传端到端时,实际所做的工作是“把智驾技术栈的模块合并了一些”。
实际上,严格意义上的端到端自动驾驶,指的是传感器数据进入神经网络处理后,直接输出方向盘、油门、刹车等执行器的控制信号。
严格意义上的端到端智驾
不过,稍微宽泛一点的定义目前也受到认可:车辆的控制模块不需要改造成神经网络,只要 一张神经网络接管感知与决策规划,能输出正确的行驶轨迹,也可以被叫做端到端。图 森未来CTO王乃岩日前就发文呼吁,业界要避免陷入狭义端到端的误区,因为这对智驾量产不利。
宽泛意义上的端到端
元戎启行CEO周光持有类似的观点,他对此的解释是:
相对于感知和决策规划,汽车的控制自由度较低,难度不高,传统算法经过长期发展已经有非常成熟的解决方案。在传统算法可以精确控制车辆按轨迹行驶的情况下,将其改造为神经网络并无明显收益,反而可能带来不同车辆的适配问题。
在这两种狭义与广义的端到端之外,一些企业试图将端到端定义为“把感知模块与决策规划模块,改造成感知神经网络和决策规划神经网络”。
宣称自己是端到端(其实不是)
相比传统的模块化架构,用两张神经网络解决智驾的思路的确更先进,能更好地实现数据驱动。但正如上文所说,两张神经网络之间仍有人工设计数据结构的接口,这个中间人的存在必然伴随信息损失,与端到端“充分利用信息”的思路有差距。
由两张大神经网络驱动的智驾,只能说是在感知与决策规划环节各自完成了端到端,能在这两个环节各自获得局部最优解,但智驾需要的是全局最优解。
在此之外,还有各种各样的端到端则有些像车企的自研榜单,只要定语加得多,哪款车都可以是最畅销车型;同样只要定义的范围足够小,任何企业都能掌握某种端到端。
类似的重新定义其实在智驾的无(高精地)图竞赛中已经广泛上演过,不少公司宣称自己的方案是无图,但实际上纷纷在导航地图上打补丁、堆先验、定制图层,更像是一种变相的高精地图。
而真正的“无图”,应该是仅采用导航电子地图(不用地图不可能),业界传闻只有极少数供应商能真正提供无图智驾方案。
不同企业此前对无图,如今对端到端千差万别的理解和运用的区别,反映出他们截然不同的出发点与目的地。
有些企业的想法更现实,对端到端的态度是“万一成了呢”,跟进目的主要是避免在智驾技术上落后,从而影响卖车或丢掉客户订单。甚至于其中有些企业只是希望在宣传上不落下风,在实际技术开发中和端到端毫无关系。
另一些企业则更笃信真正的端到端,因为其作用不仅仅是可以让智驾表现更好,更是经由智驾场景训练出一个类人、通用、能感知也能理解决策的AI大脑,这能帮助一家公司从单纯的智驾供应商成长为AI机器人企业,最终打造物理世界的通用人工智能。
元戎启行是其中一员。今年北京车展期间,元戎启行发布了高阶智驾平台DeepRoute IO,这一方案不依赖高精地图,搭载端到端模型,将会在今年登上多款量产智驾车型。这会是国内第一批上车的完整端到端模型方案。
搭载了这套方案的智驾车辆,在城区驾驶时展现出了一些规则驱动的智驾方案从未出现过的操作:比如在发现自己因等红绿灯挡到右转后车的时候,主动前挪让行。
这是一个看似稀松平常,但只有人类司机掌握的技能。类似的利他行为,是通用人工智能闪现的一丝火花。
03 变局将再度掀起在国内智驾行业中,元戎启行是一个特殊的存在。
江湖上到处是它的传说,工程师盛传其智驾技术实力与华为、Momenta等头部选手也能掰掰手腕;但江湖上又不见它的身影,因为还没有车企公开称自家车型采用了元戎启行的量产技术方案。
出现这种情况的原因是,除了特斯拉等极少数特例,绝大部分智驾公司的资源和注意力都是有限的,很难同时做到既在量产规模上领先,又始终在最先进技术上保持存在感。
2019年成立的元戎启行有更多的技术基因以及技术直觉。
其CEO周光早年率先提出传感器“前融合”方案,公司在2020年敲定了不依赖高精地图的智驾路线,并于去年初发布。5年时间中元戎启行秉持的是“冲刺先进技术优先,随后赋能智驾量产”的节奏。
如果是在没什么波澜的行业,采用这类战略的企业很可能会率先出局。但智驾不一样,这个行业的胜负手归根结底是技术,而智驾技术的更迭猛烈而迅速,并且越来越快。每一次技术的大更新,都是行业格局洗牌的契机。
比如,智驾感知算法在十年前从传统模式识别转向神经网络,让Mobileye+传统Tier-1的组合不再强势,一批新兴算法公司和芯片企业崛起。
而作为另一次更新力度超过从前的技术迭代,端到端日渐加速的推进,正在带来这样一种影响:
原本智驾行业呈现出大局初定的景象,车企要么自研团队搭建完毕,要么已经找好了供应商,行业不愿再为量产进度靠后的企业开放机会。
但端到端延长了窗口期——绑定车企的供应商们可能以为自己熬到了淘汰赛,但实际进度是小组赛刚打了前两轮,后面的赛程仍然漫长,并且游戏规则大改。新的赛制下,起跑线被重新划定,局面再度变得复杂。
方案已经大量量产上车的智驾供应商,能够借由众多项目掌握大量数据,面对数据需求再上一个数量级的端到端有着数据优势。但由于软硬件限制,已经上车的智驾技术栈很可能无法升级到端到端, 企业要被迫在“落后”的旧平台上做大量无法达到终局的维护工作。
像元戎启行这样掌握端到端方案的后发企业,虽然量产项目不多,但在技术栈上离终点更近。
元戎启行去年8月将端到端模型部署到车端进行验证,由于在过往的技术栈中已经做了前融合、无图、神经网络取代规则模块等面向端到端思路的准备工作,项目进展很快,得以在今年做好上车准备。此前,某科技大厂智驾领军人物对国内端到端方案上车预计的节奏是2025年。
元戎启行的端到端智驾方案,提前绕行可能开门的车辆
不过,即便端到端给元戎启行等企业带来了再上智驾牌桌乃至跻身第一梯队的机会,也不意味面向端到端一阵冲刺后,战斗就会结束。
周光的判断是,端到端可能是智驾传统技术栈的结束,但只是AI 2.0时代的开始。人类司机大概率会在很长一段时间里,与智驾系统人机共驾,见证一颗AI大脑的成长。
但这也不意味着人类驾驶员就该长期坐在开启了智驾系统的车里担惊受怕。那些更快让人感觉安心、驾驶拟人的智驾,消费者自然会用脚投票。