一边是巨头们对算力的迫切需求,一边是应用落地上的滞后。随着大模型成为创业热点,大模型上车热开始持续发酵,今天软件定义汽车已经过时,AI定义汽车才是热点。争抢大模型上车事实上当前的体验并不惊艳,但它确是未来的方向,而炒作大模型上车也是极佳的宣传卖点。
文丨智驾网 黄华丹
“物以稀为贵,现在一台8卡的A800服务器,已经卖到了140万。”某云服务商的业务人员表示。“现在大模型的问题主要是两个,一是算力,一是落地的场景。”
A800已经是英伟达A100的阉割版,但随着国内百模大战,英伟达GPU的需求水涨船高,专供中国市场的A800,H800价格也已经超过了A100,H100原版售价,且依然一卡难求。限于台积电产能,据称A800,H800的交期已经排到了年底或明年。
此前有报道称字节跳动已经像向英伟达订购了价值10亿美元的GPU产品,而日前,英国《金融时报》又援引接近英伟达的相关人士发言称,百度、字节跳动、腾讯和阿里巴巴向英伟达下单订购了50亿美元的芯片。
50亿美元什么概念?英伟达2022年总营收为269.14亿美元,仅这一笔交易,就占了其全年营收的18.6%。折算成人民币约为362亿,以车企为对比,2022全年小鹏营收268.55亿,这笔费用超过小鹏全年收入。
而作为本轮AI浪潮最大的获益者,卖铲人英伟达在大卖之外,也在进一步推出更先进的产品。
刚刚过去的世界顶级计算机图形学会议SIGGRAPH上,黄仁勋用大量篇幅介绍了新一代GH200超级芯片平台。
除了为NVIDIA GH200 Grace Hopper配备更加先进的HBM3e内存外,下一代GH200超级芯片平台还将具备连接多个GPU的能力,从而实现更强大的计算能力,可处理世界上最复杂的生成式工作负载。
从数据来看,HBM3e内存要比当前的HBM3快50%,10T/s的组合带宽,使其可运行比上一版本大3.5倍的模型,同时通过3倍更快的内存带宽提高性能。预计将于2024年第二季度推出。
黄仁勋的自信是,英伟达高性能GPU,属于“买得越多,省得越多”。但在当前的地缘政治背景下,后续在中国市场会有怎样的发展,暂时还是个未知数。
与之形成鲜明对比的,是一大批初创企业的退潮。Wind数据显示,今年A股中24家AIGC概念股合计已发生67笔减持。
在大洋彼岸的硅谷,同样是热潮过后的冷静。根据极客公园对硅谷多名相关人员的采访,在ChatGPT爆火半年后,硅谷巨头们经历了最初的恐慌,已经完成对OpenAI的祛媚,开始根据自身已有优势扩展布局,寻找大模型能为之助力,甚至可能发生颠覆式创新的方向。也就是说,开始根据原有优势业务,寻找真正能让大模型落地的场景。
例如Meta是将大模型视为下一代计算平台,开放其Llama2商业许可,并与微软Azure合作对外提供服务,与高通合作推进在终端运行Llama2,即同时提供to B和to C的能力。亚马逊则围绕其B端业务推出了大模型服务Amazon Bedrock,既包括自研的大模型,同时也与Stability AI、A121 Labs等基础模型提供商广泛合作,帮助企业灵活构建生成式AI应用,降低开发者使用门槛。
巨头们的业务开始向大模型服务转型,而对更多初创企业来说,利用大模型实现垂直领域的应用是更现实的落地路径。
总之,很少有人再将做一个通用大模型视为目标。
01.
上车是大模型落地的一大场景
打造垂直领域的专业模型,从目前来看,直接上云借助巨头的算力和能力进行更便捷的研发或是一大趋势。
模型的训练需要消耗大量算力,无论是否有实力采购芯片,或者是否能买到芯片,对一般企业都是一大考验。同时,也是对算力的巨大浪费。上云,是更好的选择。包括前文提及的亚马逊云,以及阿里云、华为云和腾讯云等均提供了基于云服务开发大模型的能力。
对于大部分并没有足够的实力和精力去自己构建数据中心的企业来说,在云上开发成为更好的选择。这也导致各家云巨头对算力的需求猛增。一定意义上,这些互联网巨头成为了各企业的算力提供商。
亚马逊云能为大模型上车提供的服务包括帮助主机厂进行软件开发,以及设计、训练和测试自动驾驶系统。而此前华为云发布乌兰察布汽车专区时推出的自动驾驶开发平台,则可实现全流程覆盖智驾开发、仿真测试、实车测试、量产上车等环节。
包括英伟达,也同样为需要开发大模型业务的企业提供了大模型开发平台工具NVIDIA AI Workbench,来帮助开发和部署生成式AI模型。概括来说,AI Workbench为开发者提供了一个统一且易于使用的工具包,能够快速在PC或工作站上创建、测试和微调模型,并无缝扩展到几乎任何数据中心、公有云或NVIDIA DGX Cloud上。
天津大学无人驾驶汽车交叉研究中心主任谢辉教授认为,通用大模型和专业模型的区别就像是本科生与工程师的区别,ChatGPT像是将计算机培养到了大学毕业的智能水平,专业模型就像是各个领域专业的工程师。
而上车,就是一个将大模型运用于垂直领域的落地场景。
我们已经看到无数关于大模型上车的宣传。从百度、阿里、华为等巨头宣布在车端接入其自研大模型,到吉利、广汽等车企表示将自研大模型上车,也有如毫末这样的智驾公司推出针对自动驾驶的模型。
综观各家大模型上车,其应用主要可分为两大领域,即智能座舱和自动驾驶。
斑马智行CEO张春晖在上海车展期间的发布会上表示,汽车是大模型最好的落地场景。
从目前的市场表现来看,大模型上车热闹非凡,但实际的发展如何,还有待验证。
02.
智能座舱还需要实际落地的样本
大模型上车的风,首先是从百度文心一言吹起的。此后,包括阿里通义千问,华为盘古大模型,商汤日日新、科大讯飞星火大模型等也先后发布并宣布上车。发展到今天,广汽、吉利、理想等车企也开始宣布将自研AI模型上车。
相较于自动驾驶,大模型在智能座舱的落地普遍被认为更加容易,也是大部分宣传大模型上车的企业宣传的方向。但从目前发展来看,尚没有车企真正实现大模型上车的量产交付。
一般认为,大模型接入智能座舱将加速软件能力的升级,推动座舱实现人机主动式交互。例如,通过增强对乘客语音语义的理解能力,让车载语音实现更深层次的个性化和自然拟人的交互,而且,还可以实现对驾驶员在视觉、听觉、触觉等多模态应用上的识别和响应,形成深度的人机主动式互动体验,并根据驾驶员的表现为其提供更智能化的服务。
最接近落地的是6月奔驰宣布在美国市场为配置MBUX的车型接入ChatGPT,开启为期三月的测试。百度则在五月测试了文心大模型上车效果。我们可以从这两场最接近真实上车的测试一窥大模型接入座舱将带来的改变。
从海外记者的体验来看,接入ChatGPT的奔驰语音助手实现了更为流畅对话的能力,还可根据需要提供建议。不过,整体反应速度相对来说还是比较滞后。奔驰表示国内车型上并没有接入ChatGPT的计划。
而搭载文心大模型的百度Apollo表现相对更加流畅,而且,也做到了对传统AIGC能力的覆盖,例如,生成文案、图像等,还可以切换人设,分辨不同声音来源,同时处理多个指令。
但目前,这套系统也尚未实现真正的上车落地。此前百度曾表示包括长安、红旗等品牌均将接入文心大模型,但目前并没有相关信息。
最新消息是8月份百度Apollo宣布长城汽车、亿咖通科技成为首批文心大模型智舱应用探索伙伴。百度Apollo已分别与长城汽车、亿咖通科技基于大模型能力围绕车载交互场景开展探索和实践,完成多项创新功能在量产车型平台上的验证,部分功能未来有望在长城、领克、smart等量产车型上率先落地。从措辞来看,何时落地尚未确定。
智驾网也询问了多家曾发布大模型上车计划的企业。在上海车展期间宣布将接入阿里大模型通义千问的斑马智行,同样表示关于大模型的具体进度并不清楚,但九月初应该会有一波新的进展公布。
商汤与科大讯飞也尚无明确的相关披露。而华为的盘古大模型则已接入鸿蒙4系统,不过在车端,预告首搭鸿蒙4座舱系统的是将于今年三季度正式发布的与奇瑞合作的Luxeed。
吉利和广汽目前则处于宣布将上车AI大模型的阶段。理想汽车也表示自研了Mind GPT,并将AI技术引入到车机理想同学中。
大模型上车进行得如火如荼,但可以猜测的是,真正要实现上车后达到自然的多模态交互,似乎并没有普遍宣传的那样简单。
03.
大模型将助力自动驾驶落地,但为时尚早
而在自动驾驶领域,目前明确提出相关模型的是毫末智行的DriveGPT。其原理是按照ChatGPT的格式将输入图像转换为场景的Token化表达,再用强化学习的思想去输出自动驾驶的控制量。
毫末智行技术副总裁艾锐表示,目前,DriveGPT的应用,对于汽车算力的需求还是太大,还需要一定的时间才能解决。同时在算力提升后,对汽车的能耗也会带来不小的挑战,未来需要找到一种低成本的兑现方式。从目前来看,这种能力只能部署在云端,让大家通过联网去使用。
同济大学汽车学院黄岩军教授则认为,DriveGPT在驾驶场景识别等类似ChatGPT的对话生成场景中效果是很好的,能很好地识别输入图像的驾驶场景。但自动驾驶并不是自然语言处理,无法将复杂的环境动力学信息理解简化为对话的形式,以Token的方式对自动驾驶汽车进行控制。因为环境中存在的语义信息非常多,现在自动驾驶的做法是通过感知模块将类似的信息提取出来,再交给规划控制模块。目前在云端运行的是自动化标注、驾驶场景识别、驾驶场景重构等功能,这对于之后打破自动驾驶壁垒很有必要,不过这些功能在云端运行已经足够了。
这也是目前已经推出了自动驾驶相关服务的云厂商所能实现的能力。亚马逊云表示主机厂可以借助生成式AI来进行模拟,以测试车辆对各种驾驶场景的响应。这些场景可能是极小概率会发生的情况,或者在现实世界比较极端的情况,测试并不安全(比如,在夜间、雨天和黑暗中差点撞上横穿马路的人)。模拟测试不仅可以提高测试效率,还将使汽车企业得以创建更丰富的测试场景,并提高整个驾驶系统的能力。
而关于大模型对标注的促进作用,理想汽车李想曾举例解释过:仅以自动驾驶的图片标定为例,过去一年需要做大概1000万帧图像的人工标定,成本6-8元每张,一年成本接近一亿。而使用大模型软件后,通过自动化标定,过去需要一年做的事情,基本上3个小时就能完成,效率是人的1000倍。
此前,地平线联合创始人黄畅也曾在接受采访时表示,GPT在自动驾驶场景中最先应用的很可能是环境模型的预测和交互式规划。这个场景不需要特别大规模的参数模型,因为它不是一个完整的端到端,尤其因为它更关注于预测和规划,不用花太多精力在感知这个层面上,因此很可能在百TOPS级别的算力平台上就能应用,三到五年内就可以初步上线。
而在完整的端到端缓解,从感知到定位地图到规控,整个端到端的闭环做出来,黄畅认为需要一个更大规模的参数模型,大概需要五到十年的时间。
黄岩军则认为,在将生成式大模型运用于自动驾驶中时,需要首先提出新概念新算法,模拟神经系统建立类脑模型,以创新带动发展;其次需要使用面向通用人工智能的生成式方法对感知对预测一整套流程进行建模,全面表征环境动力学信息;最后,在大模型建模完成之后,需要利用数据闭环的方式,不断在长尾场景进行学习,使模型得到自我进化,才能让大模型更好的应用于自动驾驶当中。
也就是说,目前用于自动驾驶的模型主要还是在标注、场景识别和模拟这些数据层面回传功能的实现,真正要用到最后规控决策的还无法实现。
但关于大模型在自动驾驶中的应用前景,黄岩军显然持乐观态度。
“我认为,随着通用人工智能技术的发展,未来十五年到未来二十年,生成式大模型能够以独特的姿态站上自动驾驶领域之巅,解决目前自动驾驶的各种边缘场景,实现自动驾驶的闭环自进化。”
大模型的混战仍在继续,对芯片和算力的需求似乎也尚未达到一个稳定的状态。而要真正看到大模型在相关场景实现质的飞跃,显然也还需要时间。