余凯：芯片公司不懂软件，活不下去

贾浩楠发自副驾寺智能车参考 | 公众号 AI4Auto

地平线刚过IPO聆讯，但创始人余凯博士却异常高调了一次——在技术层面。

他说：

地平线的目标，是5年内推动全场景端到端智驾标配到十几万的车型。

但他环顾四周：

这么多自动驾驶供应商，没有能达到要求的。

所以，他带领的地平线亲自下场，做了一套：

全世界范围内“捅破天”的智能驾驶标杆，明年量产上车。

给余凯底气和勇气的，是地平线团队超过1000人、每年投几十个亿研发的最新征程6硬件，和SuperDrive端到端智驾算法。

地平线的智驾软件，能力咋样？

地平线自研高阶智驾系统SuperDrive，现在有了产品端的新名字HSD。

意味着它不仅仅是地平线J6软硬结合的样板间，而是一个真正要量产落地的系统。

又因为J6计算平台本身的灵活扩展性，HSD也可以适配不同的传感器、算力方案，从3激光雷达+十几个摄像头，到仅仅7摄像头的纯视觉方案，HSD都能提供应对不同场景的智驾功能。

比如在20万级智能车常见的前视单激光雷达+环视11摄像头方案上，HSD给出了不区分高速、城区，不依赖高精度图的全覆盖NOA体验。

全程“一镜到底”的Demo拍摄，还碰巧遇上了上个月北京的大暴雨：

在一个红绿灯已经明显不起作用的拥堵路口，HSD完成了一次和老司机没差的博弈+左转：

不规则的施工路段，SuperDrive也成功识别了可通行区域，顺利完成左转：

以及在复杂的车流中识别出了公交车专用道，即使变道避让，也可以看成是面对拥堵情况的综合判断变道：

针对突发情况，比如鬼探头、加塞等等，也能及时避让：

还有一个城市场景高难度挑战——环岛而且是一个不规则环岛：

说两点最亮眼的表现，首先是避让动作，流畅优雅，也就是没有急促的刹车、猛打方向这样的动作。

第二是变道动作，旁车道空间小，多数系统会放弃变道或减速等待，但SuperDrive能根据前方空间条件主动加减速或调整转向角度，创造变道机会。

总结一下，HSD在北京暴雨的测试中表现出的最大特点，反而不是零接管，而是“拟人”——驾驶策略拟人，以及执行动作拟人。

补充两个彩蛋。

这次晚高峰暴雨实测，地平线用的测试车是大众ID.4，而且全程地平线创始人余凯博士和大众中国一把手贝瑞德都在车上。

余凯本人对地平线端到端软件的表现，评价为优雅、不怂、从容、笃定。

地平线如何实现端到端？

Scaling law大家都在讲，但地平线将他分成两个维度分别讨论：Up和Out：

Scale up是系统处理hard case的能力上限，Scale out则是应对不同时间、不同天气、不同环境、不同城市的泛化性。

HSD主要采用了两种方案同时解决Scale up和Scale out的问题，

首先是世界模型，可以简单理解为一个增强版的感知神经网络，但它又不仅仅是感知，

以前的感知更多强调实时传感器的介入，离线的东西不在里面。但World Model在输入端会考虑类似导航、路标牌、临时路障等等信息，让系统去认知和理解世界，达到Scale out的突破。

举个例子。下雨天、大雾天情况下，难以清晰分辨环境，但也必须采取小心、慢速得往前边探边走的策略。

此时，传感器和地图输入给世界模型的信息，其实难以匹配的。世界模型中的Intelligent Driver理解器就发挥了作用，它能够综合理解信息，输出包含隐式信息以及显式信息的世界理解结果，形成一个自动驾驶的系统的世界观。

感知模型的信息往下游走的时候，会有出现两种类型的分流。一种是高维的特征级信息，做端到端的信息的传递，正向的隐式信息传递以及反向的梯度传播，都需要这种特征级的信息。

同时为了进行整个系统的更加精细的安全兜底，还需要其他类别的一些相对具体的、明确的动静态的目标信息来传递给下一轮。

到了交易博弈模块，可以把它理解成PNC（Planning and Control / 规控），但是和以前的PNC不同，HSD在决策、预测、规划整个大的系统里面进行了模块划分，全部用了神经网络作核心——保证驾驶行为的拟人化。

到了具体上车实证环节，地平线还给HSD单独设计了外部引擎：一方面是做博弈验证，包括给端到端提供安全边界、提供决策和轨迹层面的指引。

当然最终轨迹或者决策并不由端到端来决定，系统会根据比较明确和轻量级的验证规则来决定是否向下游Planner释放，兜住安全的底。

通过这样的双擎驱动，HSD可以在数据驱动下，把上限提高的同时，还把安全下限给兜住，Scale up方面会有很好的表现。

地平线的端到端架构，可以很清新的看出是目前主流的分段式结构，感知、决策各一张网。

但和其他分段式方案仍有不同。

常见的端到端系统，一般只能解决数据驱动问题，模型对场景的认知理解能力，一般需要“外挂”一个大语言模型，相应的在底层硬件上，通常也需要2块甚至更多Orin。

但地平线的HSD端到端，直接用一个大模型实现感知和认知，底层也只有一块芯片——征程6P。这其实就是地平线硬件供应商出身做软件的独特优势。

余凯：地平线为什么要做软件？

地平线从去年开始，对外的宣传口径，以及推出的产品类型，都发生了巨大的变化。

以前是一心做好Tier 2，让更多智能车跑在地平线计算硬件上。

现在是全栈智能方案供应商，不光硬件，智驾软件一块卖。

余凯给出的解释是：

这个世界，到目前为止，不懂软件的芯片公司是活不下去的。

500TOPS+的算力、18核的410K DMIPS的CPU、5.3Gpixel/s的图像处理带宽能力….这些都是征程6P的能力体现，跟业界其他主流的方案相比处于领先。

但地平线不愿意在参数性能上说太多，因为堆晶体管不是难事，关键核心是——IP，也就是地平线自研的BPU架构纳什。

纳什专为大参数的Transformer而生，相比地平线最早推出的伯努利架构，纳什架构在基础CNN网络上的计算性能实现了200多倍的提升，在Transformer上性能相比BPU贝叶斯架构实现了20多倍的提升。

这个迭代的速度和幅度，远远超越了芯片传统的摩尔定律（18个月提升一倍）。

背后的原因在于地平线从软件到硬件实现了系统和技术的联合优化和深度协同。

比如BPU 3.0系统迭代过程中，首先针对Transformer对算力更高的要求专门做了一个VPU，可以支持更高精度的包括浮点运算，以及从FP16到FP32多种浮点数据类型的计算。

另外，从计算量占比看，有一些算子只占计算网络里5%的计算量，很少。但从计算难度和时间来看很耗时，要花整个计算网络计算时间的30%。所以地平线还会专门优化这些算子，让计算时间和计算量匹配，同时针对性做硬件加速，即特别优化的超越函数，保障系统效率。

这样的例子还有很多。

“软硬结合谁都会讲，但真正深入到IP架构级别的优化，通用GPU出身的玩家很难实现”。

端到端自动驾驶对于硬件端的要求不仅仅是TOPS有多大，更重要的是对Transformer架构的针对性优化和支持，以及专有IP和专有算法的匹配。

这是端到端时代真正的“软硬结合”优势，也是技术革命下不可阻挡的趋势：

端到端大模型要求专用架构，专用架构又催生原生的软件算法。接下来，专用的工具、软件又会衍生出自动驾驶的生态、壁垒。

技术演进的大势，推着地平线从幕后来到台前，高调打造在全世界范围内“捅破天”的智能驾驶标杆。

技术天花板撑不起来，地平线的商业生态也就撑不起来。

余凯认为这个技术天花板的角色地平线当仁不让，因为：

我们是硬件公司里面最懂软件算法的，软件算法里面最懂硬件的，然后还是软件+硬件公司里面最懂车规的。

而且“这么多供应商方案里，也的确没有达到我们和车企要求的”。

One more thing

端到端自动驾驶的“开山之作”UniAD，获得了CVPR 2023的最佳论文。其中提出的基于Transformer完整的端到端架构，成为如今很多做端到端的公司Benchmark的基础。

地平线的HSD，源流也是UniAD。

但关于这篇论文，不是没有争议——主要是“所有权”争议，产业界的商汤和地平线，都被认为是这篇论文背后的产业归属。

在技术日现场，智能车参考也直接向余凯博士询问，他没有直接给出答案，但给出了论据——

UniAD的一作、团队的大部分学者，都是地平线的科学家。

古典风资讯网

袁尚说汽车