对话任少卿：世界模型是自动驾驶与机器人的新范式

一凡整理自副驾寺

智能车参考 | 公众号 AI4Auto

和任少卿的对话，是从最基本的一个智能驾驶使用场景开始的——

在北上广城市快速路的限时段公交车道，智能驾驶系统如何能像人类一样，限制的时间段避开，非限制时段高效利用？

在过去，AI系统会严格按照人类写好的规则驾驶。但现在，端到端自动驾驶模型的范式之下，手写规则的方法开始被剔除，意味着AI系统需要自己去学习“限时公交车道”的特殊路况和场景，这需要时间，也可能短期内无法直接满足需求。

所以是不是智能汽车业内业外，过于迷信“端到端”了？

自动驾驶作为一个综合工程，为什么要端到端？

端到端又为何会出现在此时此刻？其本质是什么？

对智能汽车研发和车圈变革又会带来怎样的影响？

上述问题，没有人比任少卿更有发言权了。他既是世界级AI科学家，深度学习经典成果ResNet作者之一，近十年来也躬身产业一线，见证和实践自动驾驶技术从研发到上车，当前是蔚来智能驾驶副总裁、蔚来自动驾驶研发的负责人。

任少卿认为端到端是一种必然，类似造车会走向一体化的必然，有技术难度但不存在谁有独家秘籍，甚至“被强调太多了”……在他分享的四大关键技术要素中，模型只是第一点——数据、优化机制和功能体验，四位一体，缺一不可。

在他的视角里，AI也好，自动驾驶也好，这几年有变化，但本质没有变化。于是对于很多业内热议的具体问题，他都有着从本质出发的回答：

原来不考虑端到端是高速NOA场景简单。AI发展本质就2件事：一是更好效果，二是更强泛化性、更通用。不需要有拥抱端到端的建议，我觉得被强调得太多了。世界模型是打开通用自动驾驶的方式。如果L4追求的就是Robotaxi，那我觉得社会意义没那么大。L5实现后，变革的不光是汽车、交通，还会是整个城市组织模式。智能辅助驾驶和无人驾驶，技术架构上不一样的东西没有那么多。激光雷达是成本问题不是技术问题，纯视觉只能说系统更简单，两种路线没有优劣高下之分。L3会是自动驾驶里程碑，可能就是ChatGPT时刻。城区能不能开，是当前智能驾驶第一梯队的分水岭要素。自动驾驶是泛机器人领域世界模型的框架也能做机器人AI一步一步地从不如人，然后超过人，是AI发展的规律我们希望从今年开始，每年能实质性地减少10%-20%的事故重构是对于时空理解和对原始数据理解最深刻的表现形式

以下是对话实录：

聊端到端

智能车参考：端到端怎么识别公交车道，实现按时段规避和利用？

任少卿：如果说要特别精确的识别，可能还要学习怎么识别文字。

智能车参考：现在还不行？

任少卿：还没加识别文字（的能力），现在更多的是以历史的经验去看，历史的经验里可能噪声比较多。

现在系统其实一部分是靠历史的经验，一部分是实际的（感知）。比如说旁边如果有个车进去（公交车道）了，那系统可能考虑也进去。旁边一直没有车进去，系统就也不会进去。

我觉得这确实是一个核心的点，需要去解决。

智能车参考：这两年大家都在聊端到端，很多玩家All In进去。

假设没那么原教旨主义，就写一条规则，告诉系统什么时间能走公交车道，从而解决这个问题不是也挺好吗？为什么一定要把手写的规则都剔除掉？

任少卿：举个例子，比如说不同城市，北京（公交车道）可能相对来说还规则一些。大部分都是早上7点到 9 点，晚上5-7点在高峰期（不能走）。

但很多其他的城市，有各种各样的规则。

比如说上海的71路公交车，什么时间都不让你走，还专门给它搞红灯，连红灯都跟别人不一样。

那这个问题，如果让工程师一个一个去搞，搞不定。

所以第一个事情就是刚才说的，这种案例太多了。

再比如说做AEB ，原来其实是有一个法规清单和测试标准。按照测试标准，一个一个案例去搞。

比如去判断一下前面一辆车跟我自车的角度。

做测试时，为了提高通过标准，减少误刹，原来写规则时的逻辑是：

这个车的角度发生抖动，或者这个车的角度大于某个度数就不刹。

但是实际场景中，车子各种各样，甚至你前车可能就是一个奇形怪状的车，检测出来的Object框一直在晃。

那AEB在这种情况下，怎么去刹车？

如果让人去写这个规则的话，有很多的工作要去做，整体来说效率低。

原来为什么大家不考虑端到端？

比如三五年前，大家都在高速NOA的时候，因为场景简单。

在高速上，就看前面三辆车：

本车前面那辆车，然后左边车道一辆车，右边车道一辆车，三辆车一起建模，然后写个规则结束。

虽然也得写好几万行的代码，但是它毕竟场景简单。

现在到了城区，还要做主动安全，想去处理各种各样的复杂场景，比如说城区路口的场景，拐进来的两轮车你都不知道什么角度、什么速度，什么样的都有可能。

如果让人一个一个规则去写，从根本上来说，第一个是效率的问题，第二个是效果的问题。

我觉得这是自动驾驶要搞端到端的核心原因。

如果我们跳出自动驾驶的领域，还有一个原因就是，大家要做更统一的东西。

其实只有自动驾驶领域的人才会说端到端和非端到端，别的领域不说这事，基本看不到。

比如做语言模型的、做机器人的，就不会蹦出来说，我端到端了，我就厉害了。

那是因为自动驾驶它本身有历史的原因。

自动驾驶的历史比较长，在很多年前算法模型的能力没有这么强，所以大家只能把这件事情变成一个流水线。

就跟造车一样，比如说压铸件，之前工艺不行，就只能给它分成一小块，先造出来，然后再焊。

其实自动驾驶跟这很像。

因为自动驾驶用自回归模型用得比较早，早期不成熟，所以自动驾驶就有一项非端到端的事，也是因为它问题复杂。

到了今天大家觉得模型性能提升了，就把它合起来。

还是跟工厂一样，工厂为什么用一体压铸，其实就是时间效率。

而且理论上自动驾驶开发，肯定比工厂更麻烦，因为工厂可以堆很多工人，但如果也堆很多工程师，其实更复杂。

所以端到端本质是用一个更统一的方式，去提升计划效率，包括时间的效率，包括人的效率。

实际上再进一步说的话，从AI 的发展来看，其实深度学习就是这个逻辑。

最近10到15 年，所有AI 算法的发展，包括应用，本质上就是两件事：

第一件事情是产生更好的效果，第二件事情是产生更好的泛化性。

产生更好的泛化性，就是用同一个方法解决更多领域的问题。

整个15 年的 AI就是不停地在做这两件事情的循环。

第一件事情比较容易理解，原来一个任务，可能AI去做比人差很多，比如说大家现在用得最多的是人脸识别，至少对于一个陌生人的人脸识别，一开始AI没有人做得好，后来跟人差不多，现在是绝对比人好。

其他任务其实也都这样：

AI一步一步地从不如人，然后超过人，这是性能提升，是AI发展的第一个方向。

第二个发展方向，实际就是通用性。

比如说一个图像识别的算法，和物体检测的算法，分别用来判断一张图是什么类别和判断这张图里面有什么物体，开始都是不同的算法、不同的框架，后来这些东西就融合了。

再后来所有图像类的任务基本上都融合了，现在说图像类的任务跟语音类的任务也快融合了。

在自动驾驶上也是一样，实际上是希望它最后变成所有智能体的任务，自动驾驶开车也好，机器人走路也好，机器狗爬山也好，所有任务都是用同样一套框架去做，这也是端到端之后要做的事情。

智能车参考：所以Transformer是一个很重要的变量，带来了效果上或者是算法能力上的提升，还带来了什么？

任少卿：Transformer算是一个工具。

但是我想说AI 的发展，实际上大家都在追求这两件事情，没有transformer，可能也会有其他的（工具），但大家追求的这个方向实际上是没有变的，就是想追求更好和更通用。

回到我们刚才说的这个事情上，自动驾驶的端到端实际上是某种程度上追求更好。

另外的就是什么样的框架，除了自动驾驶外，相关的所有的智能体或者类机器人的方向，都能用同样的方式去解决。

这个是我觉得一定会有人去做，大家想做的事。

智能车参考：在三年前我们讲自动驾驶还是要讲四个堆栈。那时候可能也有人说一定要做一个模型，但那个时候实现不了。

这两年大家都觉得可以这样做了，中间是什么关键的要素发生了变化？

任少卿：如果我们先不考虑算力的话，为了做一个任务，肯定是要有数据的。算法现在是要依赖数据，当然也有人在说要做一些小数据量的算法。

反正现在这一代的人工智能的算法，肯定都是 data onwards。

现在要解决的问题，针对一个任务，可以标注一些数据，但是没有必要标注很大的量。

针对另外一个任务，又要标注很多数据，所以我觉得这里面第一个跨领域的核心点，实际上是怎么把这个数据的描述统一，以及把数据量拉上去。

但实际上为了统一，就要标得更复杂，数据量要拉上去就更难。

同时为了统一需要数据量更大，如果标注方法或者训练方法本身没有办法去承担更大的量的话，就是标不起更多的数据，量也拉不上去。

之前因为没有办法统一两个领域的数据，也没有办法把这两个领域的数据都搞到足够大的量。

比如一个领域搞1, 000 张图，另外一个领域搞 1, 000 张图，独立的分置就变简单了。

那现在的状态是什么呢？有这个数据的基础，可以让它不分置。

那不分置的基础，一个是数据量增大，一个更根本的基础，实际上就是数据标注，从人工标注变到自动化，以及从自动化变到完全不需要标注，这是非常大的进展。

所以回答这个问题，我们再总结一下。

原来的问题是要分置，我没办法做到统一，因为有两个限制，一个数据，一个算力，所以我要分置。

现在就是说数据和算力都能支持，不要分置，合在一起搞。

数据的角度能支持合在一起搞的话，从要标注到自动标注再到不需要标注，自动标注跟不需要标注还不一样，不需要标注是一个更好的状态。

如果这个东西彻底不需要标注了，那你的算力又能顶住更大的数据量扔进去，就相当于把两个东西合在一起做，这个是核心。

所以回到自动驾驶这件事情上，很重要一点就是要把这个标注给取消。

智能车参考：现在自动驾驶的标注成本，到什么程度了？

任少卿：自动驾驶这几年变化很大，五年前可能标一个框几毛钱。

前两年，整个标注还需要花钱，但是它通过自动化标注的方式，每两年可能效率提升100倍，三年可能效率提升了万倍到百万倍。

现在我们其实追求的，就是想不标注。

因为无论自动标注什么东西，虽然它效率提高了，原来可能 5 毛钱一个框，现在5 毛钱能标1万个框，或者说能标 100 万个框，但是毕竟还是要耗时间的。

现在就想不标注了，就是原始视频直接进入（模型）。

智能车参考：现在用户都会去关注，车企的智驾是不是端到端的系统。

多少有点诡异，因为端到端这个的事情它更大的意义是在于研发，在于厂商本身，对于用户其实没有那么大的意义。我不在乎我的这个车是不是端到端的系统，我觉得他能处理很多或体验很好就行。

任少卿：我觉得挺有意思一件事，就是说这个事情本身也只存在于先锋用户，或者说这个早期体验用户里面。

我觉得这里面其实有两点，首先用户愿意去关注这些工作还挺好的。

就比如说做语言模型的相关用户，他甚至关心你模型怎么训练的一样，大家关心关心这事也挺好。

第二个事情，也是因为我觉得最近半年功能上的热点没有那么多，因为你想去年年底到今年年初，大家也不是说没在做端到端，没在做模型化，只是说有一个可能，更贴近产品的所谓的城区开城的事，吸引到大家的注意力。

今年开始，头部几家开城开得差不多了、故事几乎讲完了。蔚来在4月开完全域全量智驾发布会后，这也不是个故事。尤其是对于早期领航用户来说，讨论的这些话题对他来说是有意思的，他才参与这个过程。

那现在讨论啥呢？

现在不是只能讨论端到端嘛？

那我觉得，再往后那是不是也许大家会讨论点到点，讨论 L3 ，只是说厂商还没有去引导这个方向。

智能车参考：:端到端对于厂商研发的变革会有很大吗？

有两派的观点，一派觉得车辆是一个系统性的工程，你不要迷信端到端。

有一派则认为这是新范式，得All in一样拥抱。

你是怎么看？

任少卿：我觉得说的都没有错。

我们一直不是二极管逻辑，这本质上是大家用开发工具一样，都是写的代码，或者说我都是编辑个视频，或者说大家都写文章。

拿文章举例，那我们都是写文章，那chatgpt 用不用好像也没事。

用了后你可能也带来一些额外的问题，但是用了之后如果用顺手了，可能效率能更高一点。

说你不用ChatGPT就落后了，或者说你用了这个就太激进了——这没什么必要争，对吧？

只是说大家挑自己顺手的效率工具。

第二个从长期的角度来说，那可能会是个趋势，只是说大家进入端到端的时间，用起来的时间和你自己的学习时间不一样。

智能车参考：端到端会给你们研发的流程带来什么样改变？

任少卿：这其实就是个模型化的事，大家现在过多地关注这个事。

模型化对于自动驾驶而言，绝对不是只是半年的事。

自动驾驶最早可能2013年就开始用深度学习，逐渐地在增多比例，只是说最近可能大家其他的话题也不多，所以就多说一说。

智能车参考：端到端是一个模型化的事。

后进入端到端的玩家能够通过开源模型，再投入自己的数据，实现后发优势吗？

任少卿：这就跟打魔兽或者打星际一样，本质上就是你先爆兵还是先点科技的问题，一个意思。

当你点科技就意味着说你的生产力，你的钱，花在了科技上，那你爆出来的兵就少一点。

其实就是说你的功能少一点，或者说你的细节上，用户体验调整少一点。

智能车参考：所以你觉得还是不同的选择的问题？

任少卿：但是这件事对于头部玩家实际上是个长期的事，当然短期也要照顾。

所以说科技总得点，只是说你在什么时间点，有的早升级，有的晚升级。

那节奏的话就很难说了。

因为它跟你的种族相关，跟你的资源相关，跟你选择英雄相关，跟你想打什么，出什么兵也相关，所以大家自然按自己的节奏来了，最后就看结果呗。

智能车参考：端到端对研发的要素会有什么样的改变吗？比如数据的自动化之类的。

任少卿：我觉得数据一直都是重点。

只是说大家这个重视度不一样，但是我觉得这个方向是没有变的，大家肯定是越来越重视。曲线有一点不一样。

智能车参考：你有什么拥抱端到端的建议？

任少卿：我觉得不需要，就是强调端到端有点太多了，本质上就是AI的一个应用。

人工智能应用实际上就是两个核心，第一个是基础的能力：模型数据。

第二个是对于专业的应用领域的理解，就这么两件事。一拨人可能更多的点的是通用技术栈，一拨人点的更多的是 domain knowledge。

智能车参考：所以其实算法、算力和数据，这三要素是没有变化的。

任少卿：只是说现在模型的基础，模型的变化使得它的通用性变得更强一些，那大家需要去升级自己的技术栈。

智能车参考:端到端会改变自动驾驶好与不好的评价标准吗？

任少卿：我觉得好与不好一定是由用户体验定义的。

这跟技术是没什么特别强关联。只能说有的技术可能去做这件事情花的精力更少一些。

智能车参考：就现在来看，评价系统的好坏，更多的还是从数据层面，比如接管间隔时长。

任少卿：对，因为如果同样一个用户，接管的倾向是一样的，那接管的比例或者接管的里程，是一个比较重要的参考。

但是不同的用户其实也不一样，因为有的用户，你可能对他造成了惊吓，或者说不安全感的，这个优先级会更高一些，或者换句话说，有不安心的监管和正常的监管，就只是用户觉得说没什么不安全，也没什么不安心，只是我觉得你这个效率低，可能需要分一下。

智能车参考：自动驾驶会不会犯类似“分不清9.11和9.9哪个大”的常识性错误？

任少卿：有的，其实是一样的，语言模型里面叫幻觉，自动驾驶就叫 Corner case。

什么叫Corner Case，或者说误检，漏检。

比如说，语言模型突然输出了一句莫名其妙的话，自动驾驶的感知模型突然间有一帧没了，或突然间蹦出来一个实际上不存在的东西，其实都是类似的事。

所以自动驾驶解决这个问题，相对来说比较早了。

那更多的是，通过时序的切割机制,通过校验机制等去解决。

实际上像语言模型里面管控承诺也是这样， COT（思维链）的一方面的逻辑实际上就是让系统自我校验：

通过一个更复杂的输出表达，然后自我去校验。

现在也有什么MOE ，还有其他的一些方法，比如说实际应用端的后端的校验，都是同样的逻辑，所以整体来说就是模型训练，性能对齐，主要是输出一个跟人类偏好差不多东西。

第三个就是有错的问题，通过多次的校验，用神经网络，非神经网络的方法，再加上一些人力规则的方法去校验这个事情，把错的东西挑出来变成正确。比如你用的这些聊天软件的，其实就是把错的东西挑出来，跟你说这个东西我不要了。

世界模型

智能车参考：进入系统的视频数据，一方面是标注的真实数据，另外一方面就是世界模型的生成数据，有点像LLM中合成数据。

任少卿：如果要定义一个任务的话，最终要回答一个问题，这个问题就是你定义的任务有多通用。

从自回归的角度来说，你定义的任务越通用越fundamental，从学术的角度意义越大，从应用的角度也是一样。

10 年前大家说计算机视觉领域的三大 fundamental 的任务，图像分类，检测和分割。

大家想一想，去理解一个图像，能对它进行分类，进行提框，找出里面的物体进行分割，确实是根本任务。

但是到了今天，这个fundamental的定义不够了。我们需要一个更根本的问题。

语言问题定义的根本问题，是预测下一个token，下一个词。

实际上对视觉也是一样。

如果能定义一个更fundamental的任务解决问题，因为它更fundamental，所以在上面找应用，它覆盖的范围就更广。

智能车参考：用视频生成视频，本质上也是对问题的穷举？

任少卿：是的，作为一个基础任务，最根本、最本质就是要定义这个东西。

所以现在的定义就是，视频去生成视频这件事情更本质，因为它能包含所有的其他可能性。

输出视频是一个分类，把中间的物体抠出来，那它就是可以做物体检测的任务。

输出的是一个分割的结果，就是可以做分割的任务。

输出的是一个三维重建，换个角度的结果，就可以做三维重建的任务。

所以视频生成视频这件事情，实际上从问题的定义上来说是一个更fundamental 的问题。

而且我们认为，重建是对于时空理解和对原始数据理解最深刻的表现形式。

因为基本上原来的信息量，都需要重构出来，才能去做中间的事情。

智能车参考：现在的世界模型和更早前的虚拟仿真，本质不同是什么？

任少卿：虚拟仿真实际上我觉得完全是一个另外的逻辑。

实际上是两个方向。

一个方向，我们叫做计算机视觉，一个方向是计算机图形学。

其实是分别干了两件事，一个事情是理解世界，一个事情是再造世界，就是虚构一个视觉。

但是最近两年两个方向也越来越近了。从总体上来说，完全地理解这个世界是世界模型要干的事。

那现在也有一些用原始视频的方式来仿真，但它本质上不是要完全理解这个事情，不是说给它一个输入，就要把输入完全理解，而是说要重构一个东西出来。

但重构的东西不见得是这个世界的全部。

所以仿真的问题是仿真不包含这个世界的全部信息。

比如说最早的仿真，拿游戏来举例，游戏其实某种情况下就是仿真。

最早的仿真就是大家打红白机游戏，有（像素化）粗的信息，但是很多精细的东西是没有的。所以仿真一直的问题就是它不断地逼近真实世界，但它离真实世界还有距离。

智能车参考：蔚来讲世界模型的时候，用了类人脑的方式，将其划分成两个部分，这是为了方便听众理解，还是系统本身就是划分成了两块？

任少卿：为了让大家理解，我们会把它切得很开。

但实际上做的时候是耦合在一起做的，也不是完全分开。本质上其实也要想办法，就是说有一些概念去处理。但是实际做的时候不会像跟大家说的时候分得这么开，分这么开是为了方便大家理解。

实际上我们讲的时候，第一部分关于重构，其实也是重构成视频。

那重构成视频，某种程度上里面也包含时间的信息，只是说我们给大家讲例子它不会那么长。

我们讲第一部分的时候，重构可能就是一个很小的范围，那讲第二部分的时候，我们就可以更强调它的时间长，它的变化多，但是实际上它是耦合在一起的。

智能车参考：对生成式AI关注多吗？

任少卿：我觉得挺好，最近实际上变化很大呀。

就是我为什么要去说世界模型这件事，会往这个方向走？

因为就是回到刚才那个话题，端到端、非端到端只是智能驾驶领域的一个大家讨论的事。

从技术角度来说，实际上从更大的范围之内，那自动驾驶和机器人与大语言模型的融合是什么样的方式？

智能车参考：世界模型，就是你们给出的一个方式。

任少卿：对，它是一个更贴近通用的一个方式，自动驾驶能用，机器人能用。

那语言模型，后面的原生规模也会是类似的框架。

当然我们其实还有更激进的方式，就融合所有域，但是那个后面再说。

智能车参考：规模很宏大，会遇到工程问题吗？

任少卿：很多工程问题，所以现在给大家讲的世界模型，它会更贴近于下一个阶段的机器人、自动驾驶，以及语言模型的基本框架。

智能车参考：什么是世界模型的多元自回归生成结构？

任少卿：其实这里面的这三个东西，和大家实际上都在研发的语言模型，机器人框架，很类似。

里边有三个关键词，从右往左说，第一个是生成，这个生成的方式，它有很多的优势，你不用标数据了，你的学习效率更高，所以语言模型早就是生成了。

机器人的数据更少，它也只能生成它，它标也标不动，那自动驾驶往这个方向走也没问题。

那自回归本质上可以解决长时序的问题，所以语言模型long contacts也是类似的方式。自动驾驶和机器人要解决长时序的问题，也得用这种方式。

多元是什么呢？

多元就是这个multivariable input 和output(多模态输入与输出)，本质上是要解决多数据源的问题，那之后自动驾驶想用互联网的数据，或者互联网想用更多领域的数据，其实都要用类似的这种方式。

我们是希望通过这些框架，去打通跨领域的事。

智能驾驶四大关键技术要素

智能车参考：现在NAD(蔚来智能驾驶)的迭代过程中，车主的反馈也是一个很重要的机制？

任少卿：比如说一个模型上车了之后，举个简单例子，模型这个时间点执行不减速，那车主突然一脚踩下刹车，肯定就是有问题。

拿出来看看问题在哪，需不需要重新让模型学一下。

智能车参考：现在都在做城区NOA，但每一家最后呈现的体验不同，你觉得是什么因素决定的？

任少卿：可以认为有四大因素：

第一是模型，第二是数据，第三是优化——模型总是会出问题，出了问题之后怎么用其他的方式、基于优化的方式去做联动。

第四个是功能的多少，你 feature 有多少，实际上就是基于前面三块，但并不是完全相关。

所以模型的角度实际上就是我们这次所说的核心。

每家其实会有不一样，甚至说每家不一样的点还不少，这是模型的角度。

第二个就是数据的角度，数据多还是少、频率快还是慢。这方面其实车厂会有一些优势。

因为数据变化跟这些供应商比，车厂会更好一些。

对于我们来说，蔚来数据闭环做的，我觉得可能是全球最好。

第三个实际上就是说，模型输出的结果也会有问题，那处理的方式，导致的效果更好还是效果更差？

效果好，其实有两点，第一点是说不要误杀它的结果。

第二个是，如果不是误杀了模型的结果，模型做得不好的时候相对来说更丝滑：

不要出现这个模型前半段这么开的，后半段不是了，后半段输出的轨迹不平缓。

比如说，系统突然打方向盘，虽然做对了没撞墙，那对用户来说肯定也不好，明显有段落感，体验不好。

第四个就是说基于以上有什么新的功能。

从功能的角度，从用户体验的角度来说，能不能做得更好。

这就包括用户的监控，跟用户的交互，那往后的点到点、L3要做得怎么样。

总结来看，技术能不能做到一个层级，这个事情很重要。

因为某种程度上来说，模型数据根本上是为了提高效率，这是第一点。

第二个是提升上限，但是实际上它并不能保证它的下限一定在提高，它有可能下限在下降。

所以后面包括融合模型和优化方法，实际上就要保证下限能提回去或者提得更高，同时又不降低效率。

第四个就是前面都有了，需要让用户用得爽，需要让用户有更多的功能，因为前面这些都不涉及功能。

智能车参考：你自己现在会坐其他的车吗？

你主要关注一些什么？

任少卿：我觉得分短期、长期吧。

从蔚来自己的价值体系，我一直说解放精力、减少事故，说白了实际上第一个就是让用户用得更舒心，用得时间更长，第二个就是更安全。

如果我们从这两个角度来说，回溯前面十年自动驾驶的发展，从解放精力的角度来说，功能从ACC变成了LCC，变成了高速领航，再到现在做城区领航。

前面三个实际上都是相当于走完了1到N的阶段，基本上已经很成熟。

城区NOA从去年到今年可能早一些时候，走完了 0 到 1 的，还要走 1 到 n 的。1 到 n 当然需要一些时间，差不多要一年，就能比较成熟。但是这个是说已有的。

那下面从实际解放精力的角度，这个角度肯定还有新的0到1出现。

不是说前面的1 到n做完了，才做下面的 0 到 1 。比如说城区的，0到1，开始的时候高速还没有完全成熟，其实还有再下一个节点。

现在大家会说，我在城区里面覆盖更多的场景，比如做点到点；同时也会做L3，就是说让人解放得更多，因为我们最终都是要解放精力。做点到点的意思是说能覆盖的范围更大，覆盖的用户时间更多。

那做L3，或者说脱手脱眼的这个功能的话，实际上就在原来已有的范围之内，能让解放的比例更高。

从减少事故的角度来说，主要是主动安全，一直在进步，覆盖的场景在变多。

但是我们觉得这个还不是特别够。

它相当于从大的层面上，比如说真实世界是张饼，原来只是饼的左边有两粒芝麻，我现在希望拿这个芝麻撒饼，差不多都能覆盖到。

我最终还是希望主动安全能做到真正减少事故。

但从个体的角度来说，这件事情的不确定性很大。

因为可能今天剐蹭明天没剐蹭，这个是有一些偶然因素的，但从群体的角度来说，所有的车主的车，今年产生一共多少次事故？

我们希望说，从今年开始，每年能实质性地往下走10%-20%。

对于个人用户来说可能没有这么明显，但从一个群体的角度来说，进展会非常明显。

实际上我们发现高速上开辅助驾驶的安全性，已经是不开辅助驾驶的六点几倍了。

但是因为我们最终的目标是解决全量车主在所有时间，不管在什么状态下，实际上的事故总量的减少。

如果要做这件事情，实际上辅助驾驶在这里面的比例还是比较低的。更大的比例是人驾的状态。就是需要减少人驾状态的事故。有提醒有刹车，能真正降低全量事故的比例。

所以我们为什么先做端到端的AEB。

是因为我们发现全量事故里面将近30%左右的场景，是因为一辆车正在开，尤其是国内过路口的时候，一辆电瓶车从各种角度过来，行人从不同角度过来，更多的是这样。

那原来的AEB功能，更多的是一辆车，如果是完全垂向接近的时候能刹车，当它带点角度的时候，成功率就会下降很多。

写规则搞不定这事，所以为什么上端到端去搞这些事？实际上我们希望这种场景先往下降，后面我们也会去上针对于通用障碍物更强的主动安全功能。

智能车参考：实际上还是整体系统基础的技术能力不断地在提升？

任少卿：瞄的目标也不一样。

其实大家之前做的主动安全绝大多数的厂商包括供应商都是，做主端安全的目标是拿到5星，就是拿到比如说E-NCAP、 C-NCAP的 4 星或5 星成绩，这是大家最主要的目标。

最近也多了一些评测机构又搞了一些新型的评测。大家可能也想拿个高分。

但是我们在这个基础之上，更希望去做的是，能实质性地减少事故数。

NIOIN也说了，我们统计下来的数字，如果只是做这些标准场景的AEB，实际上在真实场景里面可能只能搞定 10% 。

因为实际上 AEB 即使触发，也不是100%能完全停下来。

只做法规清单的这些要求，可能最高才能解决10%的场景。但如果要再考虑一下有没有响应、有没有刹停，比例肯定会到一个比较低的个位数。那还剩 95% 以上的场景怎么解决呢？

L2+向L4升维

智能车参考：L2+能通过端到端，堆数据、算力、传感器，向L3和L4跃迁吗？

任少卿：我觉得实际上分开看， L4 是什么，如果说L4是Robotaxi，让车自己，或者让私家车自己出去拉货或者拉人，我觉得反正不太现实。

技术上可能某年某月能实现，但这件事情从社会的意义上也没那么大。

本身交通运营中有人在这里面去提供服务去赚钱，这事挺好。

那私家车都去干这个事，然后呢？你怎么去平衡这些关系？所有的私家车如果都没事就上街溜，那我觉得这路就没法开了。

这根本是一件我觉得很莫名其妙的事。

智能车参考：你质疑这个底层的逻辑，或者它的社会价值。

任少卿：我是有疑问的。

很简单，现在不要说所有的私家车了，有一半的私家车上路，这路就不用动了。

智能车参考：那未来Robotaxi随叫随到了，大家都不买车了，可能吗？

任少卿：不可能。

这个事情其实我几年前就想明白。

我买车之前也是这么觉得的。那时候我天天打车，但是实际上因为用打车软件，比较好算。到了年底，算一下你今年花了多少钱？肯定没有养车贵，所以我觉得好像不需要养辆车。

但是当我自己真的买车后，我觉得还是不一样。因为我觉得网约车只能产生一个，比公交车，比地铁可能更深化一些的出行手段。

但是有车是加大了你可到达的范围。但是网约车是不解决这个问题的。自己有车之后，可能周末出去的空间范围就会更大。

智能车参考：从技术上讲，一辆车有一个虚拟的司机，任何时候、任何场景能自己去开，现在已经能够实现了吗？

任少卿：那个定义实际上叫L5。

你看现在没有人提L5，因为本质上说L3，是在某些限定场景，有一个虚拟司机——其实都不算司机，因为系统可能会叫你立刻回去接管。

那L4是说在一些固定的场景，一些点到点，系统能开车。

刚才说的实际上是需要一个完全私家司机，他能去应对任何场景，这个叫L5，现在大家提都不提，因为它比较远。

智能车参考：“比较远”的原因你觉得是什么？

任少卿：我觉得是各种各样的场景，还比较复杂。

L5更接近一个通用人工智能，同时我觉得需要解决各种各样的复杂场景的 corner case，随着技术进步慢慢弄。

对于价值点上来说，我觉得如果要实现L5并不只是一个技术上的问题。

因为如果有一个 L5 的话，我认为可能城市都会因此发生变化。

我举个例子，如果真的有一个 L5 的车，我为什么还要住在城市里呢？

我希望下了班之后就上车，我上车该干嘛干嘛，该洗澡洗澡，该开会开会，该睡觉睡觉，该吃饭吃饭，然后我想下车的时候他就在一个风景很好的地方。比如说我晚上干完活，想出去溜达的时候，已经在山里的湖边了。

我为什么要住在城区里呢？

如果是L5出现，整个社会都会改变，它已经不是单纯的一个技术方式。

智能车参考：L5级自动驾驶相对来讲，是更终极的目标，但为什么从业者又不把它当做一个目标？

任少卿：我觉得没有说不能把它当成一个目标，只是大家觉得这个事还比较远。

如果从长期的角度，我觉得它总有一天会实现。只是说现在从商业，从技术角度来说大家并不是说，我今天就是瞄了这个事，然后我就不干别的了。

因为从量产的角度，从赚钱的角度来说，单独商业模式的角度L2、L3、 L4 都是成立的。那就相当于心理路径上，你有一个点在那，就先做这个。

智能车参考：有人说，自动驾驶分有人和无人这两条路，会越分越开。你认同吗？

任少卿：没有，因为我觉得他们说这是两条路，没看到是两条路，现在做L5又是什么路呢？

现在不还是用同样的逻辑在做？

智能车参考：就比如说我们做有人的这个智能辅助驾驶，根本上还是为了辅助人，所以最后一定有个车主作为兜底，或者车主作为最后的一道把关。

而做无人的，他从系统设计开始，到整个过程和结束，他就一定是要把人的因素给剔除出去的。所以可能会导致这两个，大家最后设计的时候，一个是面向了舒适，一个是面向了车主的体验，一个是面向了安全，就是我绝对不能任何情况下我都不保证说是这个人要去接管的。

任少卿：我觉得宏观上可以这么说，但是这个事情如果我们这么说，其实就很难得到一个结论，还是要拆到微观上到底有多少东西是不一样。

那主要从现在这个技术，我觉得不一样的东西没有这么多。或者又不是说主要的部分是不一样的，主要的部分反而是相对比较像，这个是问题。

智能车参考：所以你觉得这些要素的构成，没有长出两个不同的东西。

任少卿：它当然有不同，但是你要看它的比例，它的比例上这个绝大多数是比较类似的东西。

激光雷达装不装，看成本考量

智能车参考：有激光雷达的融合感知，和纯视觉路线，你是怎么看的？

任少卿：本质上智能驾驶是一个冗余的系统，这套系统设计上，你愿意为冗余花多少代价。

智能车参考：用不用激光雷达，你觉得是技术问题还是还是成本问题？

任少卿：我觉得就是从成本和落地，如果今天激光雷达一个50万美金，那可能Robotaxi也不会上。如果今天激光雷达，还是一个1万美金，那量产车也不会上，那就是因为它今天便宜了，那量产车也上了。

智能车参考：多一个传感器的信息，会不会加大处理数据的难度？

任少卿：比如说我们拿医疗举例子，那为啥不拿一个摄像头去盯人看CT？为啥非得搞个 CT 出来。

同样的逻辑，本质上就是说产出和你的投入能不能算得过来。

其实某种程度上，如果我们估计激光雷达的性能不变的话，投入就是越来越低。

特斯拉决定现在这套传感器的时候，应该已经在 10 年到 15 年之前，那时候不可能(用激光雷达)。如果我换到马斯克的位置上，我都已经产了 100 万、 200 万辆车，现在上个激光雷达，我前面的车怎么办。

智能车参考：所以你觉得，从商业的那个维度上，马斯克必须要一条路走到底？

任少卿：他没有办法，他怎么选择呢？比如说即使他今天觉得激光雷达好，同时现在激光雷达便宜了，原来可能觉得原来激光雷达很贵，那我不上。

那现在便宜了，如果说激光雷达就是 200 块钱，他依然会面临问题，他上还是不上，就虽然他从 ROI的角度来说他已经完全能算得过来了，但是问题是说他上了之后，他前面的车怎么办，以及整体的用户口碑怎么办。

智能车参考：如果说一开始就确定了激光雷达的冗余方案，现在又要把激光雷达拿掉，用视觉的方案，它在技术上有什么不一样？

任少卿：技术上完全是一样的。

因为现在模型很多都是一体化的。

原来是训练数据是摄像头、激光雷达都进去，出来结果。现在把激光雷达结束，代码上改了，就这么简单。

智能车参考：所以，现在用激光雷达还是用户的一个心智问题？

任少卿：这其实是个成本的问题，就是斌哥说的那句我们其实越来越认同。就是一个气囊，你多装几个，有的车装 10 个，有的车装 18 个，那你装几个？

你当然是便宜的车，你装 18 个，这可能不太现实，那你贵的车多装点。

这跟这个大家在车上的抗扭刚度，你用的这个材料，比如说防撞梁的厚度其实都类似，对吧？就是相当于说大家都知道安全好，那我这个加得多好，但是问题是你怎么平衡你的成本和收益？

原来可能十年前，奔驰的S级上也有激光雷达的，只是说一个激光雷达可能要十几万，对吧？那它就不是一个民用车的配置。

只是说现在它越来越便宜了，所以你越来越多的车有，但是它毕竟还没便宜到说一个3万块钱的车也能装的成本，所以它自然就是有的车有的车没有罢了。

智能车参考：抛开成本的角度，去讲技术的体验，有激光雷达和纯视觉的方式，不同方式间你觉得现在差别大吗？

任少卿：我们很难去定义大与小这个事嘛。就是说怎么说大与小？

比如说一个 30 万车的座椅和 20 万车的座椅大还是小？差异大还是小？我真的没办法回答这个问题，那有些人觉得说那我就是想买更好的，那你就去买更好。

那有人觉得说，还是需要，相对来说性价比更高一点，或者相对来说这个价格更低一些。

智能车参考：就是个人选择和厂商选择的问题，因为选择，所以相信？

任少卿：是，因为本质上这个事情就客观存在。

比如说十几万的车，你现在市场上没有哪家有激光雷达的，对吧？

那50 万以上的新车可能就全都有，就是这么一个现实的情况，对吧？

那这个我们说它是好是坏，这些东西我觉得没有意义。

智能车参考：纯视觉信号更纯粹，产出的结果会不会更丝滑一些？

任少卿：只能说它的系统更简单。那你当然是说你的东西少，你就更简单了。

那跟造车一样，你说有的车，上面这个密密麻麻装 20 个麦克风，跟装两个麦克风，哪个系统更简单？一定是装两个麦克风的系统更简单，这不废话嘛。

一定是装20 个麦克风，还想把它的性能发挥出来，要更麻烦，比如蔚来车上装了7.1.4沉浸声音响，那一开始上线的时候硬件是装上去了，没有音源，那还得去搞音源，那么又花一堆时间搞音源。

那当然复杂了。

那你如果不装这玩意，那你就随便该用什么放用什么放呗。

其实是类似的逻辑，你说激光雷达和摄像头进去了，你必然这个系统并不是完全对齐的，那你需要有更复杂的软件，去解决这个问题。

人也是一样啊，我前两天看那个关于人脑的书，就是我们的脑耳朵和眼睛的延时是不一样，那你的大脑也需要去处理这个问题，就是耳朵是更快，眼睛是更慢，但是我们平时完全感觉不到这件事情是因为大脑去做了这个处理。

但是在某些场景上，某些场景下它是有区别的，比如说就是短跑发令的时候，都是用枪，不是用光，对吧？但是我们说你光的传递速度一定比枪快、比声音快，你为啥不用光呢？是因为他脑子里面光传得更慢，就视觉信号传得更慢。

智能车参考：所以你不会面临这样的挑战或者是质疑：

你们不用纯视觉，所以技术没有用纯视觉的好？

任少卿：乐道就是纯视觉，更多的我们不认为说它是一个技术的原因，而是因为它就是产品定义的问题，那你需要让用户用一个合理的价格去买到一个对它来说性价比更高的事情，所以为什么说我们乐道用纯视觉？因为我们希望它的价格更便宜，对吧？所以我们就是说需要在这方面去降本。

智能车参考：有算力成本下降的原因吗？即芯片的算力成本，下降的速度比激光雷达要更快，所以可以用更大的算力去承载视觉方案。

任少卿：会有一个取舍。

比如你如果说在一个方案上你都想往下降 3, 000 块钱，那你到底是砍激光雷达，还是别的传感器，或者砍芯片？

你当然都是会有这样的一个平衡。比如说我们乐道的方案，其实我们就会面临，如果我把激光雷达加上去，可能要把芯片做得更小，对吧？

那我们从系统上的评估来说，我可能还是维持这个单 orin的芯片，然后把激光雷达去了，然后再加一个我们自己定制的毫米波雷达，自己定制的比这个传统的毫米波雷达稍微好一些，但是实际上就是原来可能前两年的市面上的一般的毫米波雷达是要更便宜，性能我们通过前融合的方式去提高。那最终产生一个，这样的一个bom成本下，那最好的体验。

智能车参考：假设你有朋友要买车，然后他最看重智驾能力，一个车有激光雷达比如蔚来，一个没有激光雷达比如乐道，你的建议是什么？

任少卿：看你愿意出多少钱，就很简单，就是有钱就上蔚来。

本质上我觉得这个事情很难给消费者建议，因为大家的预算都是根据自己的实际情况来，对吧？

对于消费者来说，你多5万块钱，那对于这样一个 20 万的车还是一个不小的差别，所以我觉得大家还是按照自己的预算来就好。

我们其实要做的就相当于说在同样的价钱上，把体验的性价比做的更高，比如说乐道L60，这样一个车，20万块钱左右。

然后空间大，还能换电，同时这个自动驾驶也能去开城区NOA。那我们就说这样的一个功能和这样的一个价格，它是性价比更高了。

智能车参考：乐道和蔚来不会说因为价钱的不同，所以智驾体验就要低一些？

任少卿：智能驾驶这个能力，我们肯定是说每一个平台，我肯定都希望说在它的硬件基础上做到最好，但是我们本身应该怎么做，它本身有硬件的差距，这个大家也得客观承认。有的多花钱，有的少花钱。

L3是自动驾驶的iPhone 4时刻吗？

智能车参考：:你觉得我们智能驾驶有ChatGPT或者说iPhone时刻吗？有这种可以期待的节点吗？

任少卿：我觉得其实之前也有挺多节点，比如说你可能回到两三年前，大家觉得说中国的这个城区NOA能推得这么快吗？好像也不太可能，也没想到过，对吧？

高速NOA现在这么成熟，如果回到五年前也没想到过。

所以我觉得它有一个里程碑级别的特别具体的点。

比如说我们刚才回忆说，第一次高速NOA或者说城区NOA第一次开通，那其实如果回想起来也是很重要的时间点，只是说，可能增量也会更多一些。

后面可能等到哪一天正式 L3 量产了，那也是一个（里程碑）。甚至说我觉得十年之后回忆，比如说百度robotaxi出圈，那可能现在这个时间点也是一个。

智能车参考：站在未来，现在我们很难去定义一个时刻？

任少卿：这么想嘛，就是说 iPhone 4 发布的时候，谁能想到iPhone从iPhone 4 之后就，越来越不行了，从变革的角度看的话，对吧？谁能想到说 iPhone 4 是最大的一代变革？我当年买iPhone4的时候，没觉得是这样。

智能车参考：所以是不是意味着比如说L3，大概可能是自动驾驶的iPhone 4时刻？

任少卿：不知道。

我觉得这只能说，本质上如果之后自动驾驶发展，确实越来越慢了，那就是这样。

但如果之后越来越快了，可能又蹦出来一次（iPhone 4时刻）。

那你站在 iPhone 3 的时候，你怎么知道后面有没有出现iPhone 4？

还是说另外一个平行时空iPhone 3是个顶峰，然后后面就越来越慢了。

因为这个东西确认的不是你自己做的好与坏，而是后面的人，后面的是给你个评价，对吧？

后面做的这些哥们儿，他是不是比你厉害？

如果这些哥们儿实际上都没你厉害，那你就最强了，对吧？那你没法预测，因为这是后人的事情。

智能车参考：说我们为什么一定要做L3？

任少卿：:没啥，我觉得对于辅助驾驶你需要一个更强的使用，是对于用户的解放。

对于用户的价值也很清楚，就是说对女生来说，那我能不能上车化个妆？

对男人来说，那我想要说能不能上车打局游戏，就这么简单的事，那就怎么满足用户吧。

智能车参考：所以L3相对来讲，是你们内部比较明确的一个实现目标？

任少卿：肯定是需要，但它叫什么都行。我只是说 L3 其实不是我们内部常规的叫法。

我们内部是不拿这些东西说概念的，就是说你能不能让用户去打电话，让用户上车开播，让用户上周打游戏，对吧？类似这样的。那再下一个是能不能让用户上车睡觉。

但我们从来我们不打算做让用户上车睡觉的事，觉得离我们比较远。

所以现在可能考虑，下一个阶段让用户上车吃个饭，上车打个游戏。

智能车参考：每一个任务都有这种场景性的定义。

任少卿：对，因为你说不定你到底给用户产生了啥价值。对 toc产品公司来说，你一定是要给用户产生一个具体的价值。

否则说你就跟用户说这个多好，但是到底能让他干啥，说不清楚，没意义。

回应李斌“灵魂之问”时，在回应什么？

智能车参考：你回答斌哥的灵魂之问，认为蔚来绝对是智驾第一梯队。你的依据是什么？

你怎么去判断这个梯队？

任少卿：我觉得每个人的定义不一样，我也不知道啥叫第一梯队，只在我的这个印象中，或者在我的这个逻辑里面，那现在你就要做几件事：

第一个是说城区能开，因为这是 0-1 的阶段，对吧？

其实大家能看到，0-1一个阶段完成，然后剩下的城区实际上就是进入优化的阶段，那优化其实每家可能有些优化多一点，那个点优化少一点，我觉得这个也属于比较焦灼，然后不是一个特别具体的阶段。

大家说的现在关心的比较多的端到端模型化的事，但是我觉得这都是属于更偏底层的事，那更偏上层的事，那这个说点到点，然后那其实我们现在说了应该也可以很快适配。

然后这个 L3、L4，其实都没上车，但是我们入选了L3的第一批试点。

然后这个L4我们不算L4，我们不叫它L4，但是从用户的角度来说是可以让你下车的，这应该后面也会上，就换电站，离车的换电，实际上从技术手段上来说它不是个L4，但是从用户体验上是。从这个减少精力的角度来说，从减少事故的角度来说，我觉得那我们其实265算是一个比较大的版本

因为我们的最终目的就是要减少事故，我们265因为现在时间还比较短，大概发出去两周，我们实际上从 265 的版本的报案数据已经明显比 260 要少，是一个能看到的比例，我觉得在这个点上实际上我们是走上了一个更正确的道路，就不要老是贴小视频说我到底有多强。

因为每家都能贴出来小视频。其实说真的就每家都能贴出来，但这个事更多的还是一个营销手段。

我觉得还是希望从技术角度来说，希望说我们确实真正地减少事故，这个事情是确定的，同样能证明的事。

你像斌哥说的，中国现在一年可能因为交通事故死亡几万人，这个是我们主动安全要做的。

其实我们也在跟一些部委在考虑一些其他的方式，那么进一步减少事故。

我觉得这些东西本质上回归价值，回归用户体验，对吧？

那我觉得在这些点上其实我们都是某种程度从已有的东西上有，那从远期的东西上我们觉得思考得可能更全面一些，就逐渐给大家交付。

智能车参考：所以归根结底，城区NOA，能不能开，是检验能力比较核心的一个标准？

任少卿:只是一个标准，我觉得反正也不能说是核心的标准，只是一个标准。

剩下就刚才说的这个模型能力，然后以及之后的这个新的价值体现，新的这些价值体现可能就更偏创造性一些，前面的这些就是开城的，这就更偏一个既有的东西。

模型这一块更偏于底层的，然后新的这些功能就更偏向价值怎么创造。

所以反正三个方面放一起看，一个是过去，或者对于头部就是过去，那对于模型这一块可能就是最近。

那后面这些可能就是将来，当然它也可能也不会特别长。逐步地，短到中期，再到长期。

智能车参考：把用户驾驶的个性化习惯和体验，加进去，是不是更符合智能驾驶的体验？。任少卿：对，那其实最终是刚才说的第四个部分，功能。

怎么做得更好？

我觉得也确实我们需要去进一步提高效率，比如说之前在交互上好一些，但是上次说的这些可能还是有一些缺失，就比如说我们265版本上给旁边车让主驾位的，那这个可能就不同的用户就很不一样的反馈，所以他这个后面版本可能也需要进一步地去能让用户更多的选择吧。

有的就觉得说我给主驾让出来，我自己可能下车位置小一些，可以接受，挺好。那有的用户就觉得说这就挺偏了。

智能车参考：所以智驾做到真正的因人而异，对齐AI助手，更个性化还是有差距的。

任少卿：:对，反正就是可能大家都会面临的问题，第一个说机器能搞定，然后要对齐人类的预期，后面可能还要千人千面。所以就是我觉得千人千面这个现在都还是一个比较高的要求了，都还做不到。

自动驾驶与机器人

智能车参考：现在好多机器人创业公司，说要打通虚拟世界跟物理世界，和打通不同领域有什么不一样？

任少卿：那个是另外一个工程模型。

我说打通不同领域，就是说打通不同应用。就比如说自动驾驶和机器人和大语言模型这些东西的融合，就他得彻底用同样一套框架去作用。

因为这里面其实有个最根本的，就是机器人这玩意，为啥之前做不动，以及现在还有啥问题？

最终其实大家很容易理解，实际上自动驾驶是一个特殊的机器，这是第一层，第二层的话是自动驾驶是所有机器人应用里面最大的一个应用之一。啥意思呢？就是说机器人的应用非常的复杂。

那自动驾驶是里面价值最大的，其实大家发现说之前的自动驾驶，或者直到现在自动驾驶，为了做它的这个研发成本是非常非常高，对吧？

那如果机器人用跟现在的自动驾驶同样一代技术栈去做，没有任何一个机器人的应用能撑得起来这个投入。

这是原来做不了的原因，是因为投不起。

如果说做自动驾驶，因为它前期的商业场景很大，所以比如说一个自动驾驶公司一年烧10个亿人民币，那一个机器人公司能做到吗？他做不了。

但是我们就认为说你长期再往后走，那自动驾驶也是个泛机器人领域，所以那能不能用同样一套框架，用更高的这个可共享度，然后用更低的成本去用同样一套框架做所有的机器人，就泛机器人能力这个事情。我们觉得一定是能做的。

那只是说要找到相应的技术的这个方式，本质上前面说的这些世界模型，我们觉得自己的框架他也能去做机器人。

智能车参考：暗示蔚来也能做机器人？

任少卿：主要是我觉得从技术的维度上来说，这件事情它一定是这么个搞法实现的。

否则的话那机器人怎么办，对吧？

就是两种方式，第一个机器人别做了，第二个机器人探索出来一套它统一的框架。那如果机器人探索出来它统一的框架，它一定能回来做自动驾驶。因为它本身就很像。但是从这个角度来说，因为这些方式肯定都是要用大量的数据的。

那在自动驾驶上把这样的一套充分认知的框架，做出来的可能性更大，因为它的数据量更大了。

当机器人觉得还是要分三层，我们有很多事情没讲，我们认为它实际上有三层的能力，第一层能力叫做概念认知，第二层叫时空认知，第三层叫做运动的，或者说叫交互。

第一层就是说概念认知实际上就是大于模型解读。第二层时空认知的话就是刚才我们说的这些。

第三层说这个运动能力实际上某种程度上看，就是怎么去控制轮子，怎么去控制腿，怎么去用只手，或者怎么去拿一个工具出来，拿个小刀去把它用起来。三个东西简化一下，把这个分开，但是也有融在一起做，但是通用来说这个第二层的这个能力，就是这个时空认知的这个能力是一个很通用的能力。

智能车参考：如何看待这几年整个产业的变化？

任少卿：其实我觉得在整个产业上，你从技术的角度来说，自动驾驶前面几年技术都没什么特别大的变化，最近这半年一年倒是变化挺大。

很多的变化也不来自自动驾驶领域，来自于我们前面说的这些其他领域的东西。

智能车参考：可能最后还是会追求变成一个通用的模型，打造一个像人一样的这种智能体？

任少卿：是这样的。剩下的问题是怎么把它打造出来。做机器人这些公司也挺好玩。

反正这些东西，现在都是相互交互越来越多，我觉得做智能驾驶也不能只关注智能驾驶。

古典风资讯网

对话任少卿：世界模型是自动驾驶与机器人的新范式

袁尚说汽车