距离人类重燃自动驾驶梦想——DAPRA 自动驾驶挑战赛——已经过去了十七年的时间,在过去的十几年里,围绕汽车的自动化驾驶探索与崛起的智能手机、再次复兴的人工智能,共同定义了二十一世纪前二十年的技术发展轨迹。
面对汽车产业有史以来最具颠覆意义的变革浪潮,无论是传统车企、互联网巨头还是新锐创业公司,都在积极探索自动驾驶技术突破与商业落地的结合点。对自动驾驶公司而言,如何实现技术路线与商业路线的协同,从而形成一个高效运转的「飞轮」,已然成为自动驾驶赛道的新看点。
在一众押注自动驾驶的公司里,成立仅两年的毫末智行给出自己的独特思考,在上月底的第三期品牌开放日上,毫末智行不仅介绍了其在产品和生态层面的新发展,还分享了该公司对自动驾驶的方法论——「风车战略」——即聚焦于低速无人车、乘用车、智能硬件三大细分领域,通过数据智能推动三大业务的发展。
如果说「风车战略」是毫末智行的产品层面的沙盘推演,那么更进一步去深挖其技术层面的布局与思考,特别是该公司对超大规模机器学习模型 Transformer 的应用,或许可以更全面了解这条全新自动驾驶探索路线带给行业的启示。
自动驾驶本质是一场围绕数据处理成本与效率的竞赛不管是将自动驾驶车辆看作是「四个轮子上的计算机」还是「具有驾驶功能的机器人」,本质上说,自动驾驶公司所要面对的都是一场围绕数据处理成本与处理效率的竞赛。
一方面,数据之于自动驾驶系统的重要性不言而喻,任何一家自动驾驶公司都需要花费巨大成本收集、处理数据,还要通过云上或本地算力训练这些数据,所有这些都是巨大的成本。
另一方面,站在数据处理效率层面去看,无论是在收集、处理速度还是计算速度,哪家自动驾驶公司处理数据的速度最快、质量最好,哪家公司就有可能抢占自动驾驶技术攻坚战的高地。
毫末智行率先引入了超大规模机器学习模型 Transformer,这是一个过去几年在自然语言理解领域「大杀四方」的架构,承载着人类征服「人工智能皇冠上的明珠」的重任,而在面向自动驾驶的视觉场景里,Transformer 也有着不俗的表现,相比于语言领域的语句场景,视觉领域的 Transformer 模型可以从图像的时空维度构建序列建模能力,结合 Transformer 模型强大的「全局感知能力」,其在视觉领域拥有巨大应用潜力。
2020 年「Vision Transformer」发布后,该模型很快在图像分类、检测与分割方面取得比其他模型(比如卷积神经网络 CNN)更好的成绩,而且数据量越大,效率越高。
毫末智行又是如何应用 Transformer 的呢?
其一,将 Transformer 架构融入车辆感知能力中,大幅提升数据收集与处理效率。
与人类驾驶员需要良好的视力一样,自动驾驶车辆的感知能力至关重要,这里既包括车辆对数据的收集,也包括数据的理解,比如当车辆前方遇到某些不规则外形的物体的时候,如何识别与理解就对车辆安全产生巨大影响。
毫末智行将 Transformer 架构引入到车辆感知能力的提升之中,如下图所示,云上的 Fundamental 模型基于 Transformer 构建,能够处理大规模的感知数据,而 Domain 模型则是端上的模型,负责一个个具体的感知任务。
图引自论文 《An Image is Worth 16x16 Words Transformer for Image Recognition at scale”》
随着车辆感知数据的增多,毫末智行通过无监督学习完成图像向量化,可以更快实现图像的聚类,由此形成了一个正负样本数据库,成为模型接下来迭代的关键。
通过这两个模型以及无监督学习,既可以快速获取端侧的感知数据,又能结合 Transformer 架构的视觉数据处理能力,高效完成数据的处理,特别是在应对诸如小目标漏检、恶劣天气被遮挡或物体被截断的场景时,毫末智行的模型都展现了不俗的实力。
其二,优化模型,提升训练速度。过去几年,超大模型的确给包括语言、视觉在内的领域带来诸多惊喜,但其一大痛点就是训练速度慢,比如 Swin-Transformer 模型的训练时间几乎需要 100 个小时。
毫末智行采用了数据与模型同时并行的方法,如上图所示,每个 GPU 上训练一个完整的模型,同时每层的梯度还会和其他 GPU 交互,如此一来,模型的收敛速度会进一步提升,从而能够以更少的 epoch 达到同样的训练效果。
更进一步,毫末的工程师还优化了相关算法,调整 GPU 显存在不同计算场景中的利用率,由此带来的是更快的模型训练和迭代速度,整体提速 50%-80%。
自动驾驶的中国场景远比想象中更复杂在构建起自动驾驶系统感知智能体系后,毫末智行的下一个挑战就是如何搭建认知智能体系,这其中的难点就是场景化。
场景化是自动驾驶落地的关键,这既是自动驾驶系统控制和决策的技术竞争,也考验着不同公司对于不同场景,特别是对中国各地交通状况的理解,也只有在技术突破与遵守规则的有效配合下,才能保障自动驾驶车辆的安全。
这也是毫末智行自研 CSS(协同安全敏感模型)的原因所在,一方面,针对中国道路上的特殊场景设置一系列「公理」,比如「必须在某些特定道路上保持警惕」或者「避免进入某些车辆或行人的视觉盲区」等,这些「公理」都是人类驾驶员所习以为常的事情,但对自动驾驶系统而言,却是一个需要不断学习的场景。
据不完全统计,毫末智行目前已经积累了数万个驾驶场景,覆盖自动驾驶过程中「高速主路-城市开放路-城市快速路-上下匝道-路口」全路场景行驶,在此基础上,借助视频语义理解能力与人类专家对安全场景的定义,从而可以让自动驾驶系统「学会」在这些场景中的应对能力,举个例子,「让速不让道」是很多司机的做法,当自动驾驶系统理解这个场景之后,也具备成为「老司机」的潜力。
另一方面,驾驶场景又是一个「无穷无尽」的数据库,如何让系统覆盖足够多的场景,从而应对各种复杂的驾驶场景,也是提升自动驾驶系统认知智能的核心竞争力,毫末智行通过语义自动化转化工具和参数泛化工具看,可以将 CSS 中场景库的描述文本自动地转化为仿真测试场景,不仅极大丰富了驾驶场景,还大幅提升场景测试的效率,根据毫末智行给出的数据,目前可以实现每天一万多个仿真场景测试,未来这个数据应该还会更高。
写在最后:产品与生态齐头并进上述两个方面,分别从感知与认知两个维度展示了毫末智行对于自动驾驶发展的理解与思考,而这家年轻的创业公司也在快速将这些能力落地到产品之中,上月的品牌日上还有一系列重磅发布:
与长城汽车、高通联合发布的业界算力最高的量产自动驾驶计算平台ICU 3.0(即毫末智行「小魔盒3.0」),平台单板算力达360TOPS;发布智慧领航辅助驾驶系统 NOH(Navigation on HIpilot);「小魔盒」高速辅助驾驶开启率超过 30%,行驶里程突破 100 万公里;与此同时,还有一组生态领域的合作:
与阿里达摩院达成合作,未来,毫末智行将为阿里智能物流无人车「小蛮驴」提供生产制造、出厂测试验证、规模量产等联合创新及全生命周期服务。目前,毫末智行已拥有包括阿里、美团、物美、腾讯、高通、百度、中科创达等 20 余合作伙伴;预计到 2021 年底,毫末智行与合作伙伴落地物流配送车超过 1000台。这些产品和生态合作层面的落地,既是毫末智行推动「风车战略」关键步骤,也充分展现了业界对其技术能力的肯定。
背靠长城汽车,使得毫末智行拥有更多来自车企的资源与对行业的理解能力,而其在机器学习领域的投入,特别是创新性地引入 Transformer 模型以及自研的 CSS 算法,又让毫末智行具备互联网公司的快速迭代基因,也具备了建立「行业理解+先进技术」护城河的潜力。
面向未来,良好的政策引导与丰富的应用场景,中国自动驾驶已然进入一个快车道,这是包括毫末智行在内的中国自动驾驶公司的巨大发展机遇,已经跑出「毫末速度」的这家「中国 Cruise」,其技术、产品和生态层面的积累与突破,也为接下来的「毫末新速度」做了最好注脚。(完)