联发科表面上是一个 SoC 芯片厂商,但是它在手机领域扮演的实际上是一个解决方案提供商,当年 NVIDIA、Intel 等厂商在手机上铩羽而归,最主要原因就是它们无法为手机厂商提供可以创造价值的解决方案。
如今的 AI 手机和过往手机有一个很大不同的地方,那就是需要解决 AI 性能需求和端侧应用丰富性,对联发科来说,这里有很多事情不是 SoC 厂商本身能解决的,必须与业界广泛合作、探讨才能提供更好的解决方案。
合作共赢塑造生成式 AI 手机生态
AI 计算所需要的 NPU (或者APU)在某些方面和手机基带很不一样,对于后者,联发科可以独立完成软硬件开发并打包到解决方案里,基本不依赖第三方厂商,而 NPU 则不同,它需要第三方厂商调用才能充分发挥作用,而这也是 NVIDIA CUDA 目前在 云侧AI 领域最大优势所在。
当然,联发科在这方面是有独特优势的,那就是具有较高的装机量,这种装机量是动辄千万级甚至亿级的,直接跨过了许多初创 AI 芯片厂商难以逾越的鸡生蛋、蛋生鸡问题,有足够的筹码和第三方厂商谈合作。
这次的大会名为天玑开发者大会,其中一个重要事项就是启动了了天玑 AI 先锋计划,参与计划的包括了阿里云、百川智能、传音、零一万物、OPPO、荣耀、vivo、小米等厂商,涵盖了主要的 AI 大厂和移动设备大厂,目的是向全球开发者提供开发资源、技术支持和商业机会,协助开发者基于天玑移动平台开发更丰富的创新应用。
对 AI 来说,业界支持就是生态,最终直接影响用户体验。
现在的很多软件对于涉及到底层硬件支持的代码,为了避免出错,往往采取了最保守的识别方式,支持的硬件设备 ID 都是写死的,新设备出来后,这些软件往往无法识别新设备,双手一摊:我放弃了。更复杂一点的情况还有 NPU 的代码匹配,例如矩阵规模的大小设置需要在一定条件下才能让 NPU 性能最佳化。
就拿之前测试过的 vivo X100 Pro 为例,它使用了天玑 9300,最初使用公开版的 AI Benchmark 录得的测试结果不很理想,后来和联发科沟通后,获得了具备天玑 9300 APU 支持的 AI Benchmark 后,录得的性能得分达到了 3091,而在 AI-Benchmark 最近更新的版本中则是达到了 3339,相较之下使用骁龙 8 Gen3 的同厂手机只有 2738,由此可见第三方软件对 NPU 支持可谓至关重要。
天玑 9300 获得软件支持后 AI 性能得分极速飙升
作为主要面向最终用户的手机设备,端侧部署的 AI 应用都是推理为主,所以这次参与天玑AI先锋计划的合作伙伴都有自己的现成 AI 应用方案,和联发科的合作主要是如何将 AI 端侧应用快速、最佳化部署到手机上,这要比 NVIDIA CUDA 当年到处开荒要容易不少,或者说更加聚焦,因此有理由相信相应的应用能更快落地、更新。
值得一提的是,这次合作计划的一个成果是联发科和 Counterpoint联合生态伙伴 一起发布的《生成式 AI 手机产业白皮书》,这份白皮书有三章,分别阐述了智能手机进入了生成式 AI 手机时代、生成式 AI 手机生态系统以及生成式 AI 手机的软硬件全景,内容还是挺丰富的。
上图是白皮书中关于手机智能化的演进路线图,可以看到这里是以 2002 年作为智能手机的起始年份,中间以苹果 iPhone 作为分水岭(特点是触控交互),之后到了 2017 年开始出现集成 AI 专用模块用于改善手机拍摄体验,而在当下(2023 到 2024 年),市场出现了生成式 AI 手机。
白皮书特别强调了生成式 AI 手机,显然是因为单纯的 AI 手机不够精准概括当下手机最新趋势。
按照白皮书的说法,生成式 AI 手机在人机交互层面引入了大语言模型(LLM),多模态交互取代了传统、单一的触控交互,实现从图形用户界面到语音用户界面的跨越式转变;由于具备多模态输入、输出相结合的能力,能极大增强手机的生产力工具属性:既可以多种方式输入信息,生成用户需要的图表、文本、音乐、图片、视频,也可以对这些输入的图片、视频进行编辑。
随着融合的发展,生成式 AI 技术还将在手机上孕育出智能生命体,为用户提供个性化服务。
当然,这样的生成式 AI 手机是需要强大算力和大容量、高带宽内存等硬件作为支撑的,这对手机等厂商来说显然是好消息,毕竟用户乐于更新换代才是公司业务发展的最有力保障,白皮书中对于生成式 AI 手机总规模预测趋势是从 2023 年的 420 万部到 2027 年 12.3 亿部,接近 300 倍的成长。
比较有意思的是,白皮书中对于 2027 年生成式 AI 手机整体 AI 算力预估为 50000 EOPS(ExaOPS,也就是 50000e18 OPS),这样得出来的每台生成式 AI 手机算力大约是 40 TOPS,而目前像苹果 A17 Pro 的总算力是 35 TOPS,这也意味着按照白皮书的预估,三年后的生成式 AI 手机平均算力要比目前的旗舰级手机更高。
快速部署——天玑AI开发套件
软件工具对于开发人员来说至关重要,尤其是 AI 开发牵涉到的远不止以往联发科直接客户——手机厂商,需要整个业界共同合作,联发科 APU 所涉及到的 NNAPI 加速界面等工具都是第三方软件开发人员迫切需要了解如何调用和最佳化的。
作为解决方案供应商,联发科很清楚其客户在生成式 AI 时代面对的各种问题:
大量各式各样的终端硬件设备;手机体积有限,在续航和性能上面临巨大挑战;开发工具匮乏,难以快速部署应用;这次开发者大会最重要的发布内容就是“天玑AI开发套件”,能将复杂的生成式 AI 开发化繁为简,贯穿了模型准备、模型量化(INT4量化技术、精度校准)、模型编译以及模型推理等全流程开发环节,极大提升开发效率、降低开发门槛,有效激发更多的创新应用问世。
它包括了四大模块:
GenAI 最佳实践;GenAI Model Hub;GenAI 优化技术;Neuron Studio(一站式可视化开发环境)。联发科将这四个模块的特点概括为“快、全、强、易”:
GenAI 最佳实践:可以让端侧AI大模型和 AI 应用快速部署,使得部署时间从以前的数周缩短到一天,为开发者提供了 INT4 模型量化、内存压缩、精度校准、Token 加速等技术、最佳编译参数、最优缓存配置等,提供端侧代码示例参考,让开发者在与时间赛跑的同时保证代码质量;
GenAI Model Hub:包含丰富的特定领域 AI 模型,例如:Llama2 7B、Llama2 13B、Llama3 8B、百川 7B、百川 2B、SDXL-Turbo、SDXL-LCM、SD 1.5、Llava 1.5 7B、Qwen 1.8B/4B,都能用于手机端侧部署,相信未来还会有更多的端侧模型提供;
GenAI 优化技术:提供了针对 AI 推理的推测解码加速技术和 LoRA Fusion技术,加强端侧 AI 大模型部署能力和性能,例如词令推理性能达到了 2.2 倍、LoRA 融合技术让功能包大小减少了 90%(意味着下载时间缩短到 1/10);
Neuron Studio 为开发人员提供了一站式、可视化的 AI 开发环境和优化途径。上面是 Neuron Studio 的动态展示,大家可以看到,在这个 IDE 里,开发者可以以可视化的方式载入 AI模型、执行推理计算并显示结果、以拖拉等方式修改 AI 模型节点、能自适配硬件平台、可视化呈现效能瓶颈、使用 Neuron Script 模型优化脚本,一次调整全部应用。
在日新月异、竞争激烈的当下,AI 端侧应用必须在确保质量的情况下尽可能快地完成部署,传统完全敲代码的方式对开发人员有较高的要求,而且效率相对较低,像 Neuron Studio 这样的可视化开发环境对端侧开发人员无疑是巨大的助力。
值得一提的是,这次天玑开发套件不仅仅是业界第一个面向手机的完整工具链,而且还提供了车机以及其他消费端设备支持,相应的更新也会一直持续进行,联发科表示到明年整个工具链将会突飞猛进,届时会有哪些改进很值得期待。
天玑 9300+ CPU性能和AI能力提高了
最后再来看看这次大会的另一个重要发布,那就是天玑 9300+。
和天玑 9300 相比,天玑 9300+主要是性能开放地更高了,AI能力进一步提升。
CPU 全大核设计:BCPU(超大核):1 Cortex-X4 @ 3.4GHzMCPU(超大核):3 Cortex-X4 @ 2.85GHzSCPU(大核):4 Cortex-A720 @ 2.0GHz18 MB 大容量 Cache L3+SLCARM Immortalis-G720 12 核 GPU,支持硬件光线追踪、全局光照支持 LPDDR5T @ 9600MT/sUFS 4.0+MCQ使用台积电第三代 4nm 制程生产联发科第二代旗舰封装设计生成式 AI 引擎内置硬件级生成式 AI 引擎的联发科 APU 790支持天玑 LoRA Fusion 2.0技术推测解码加速,性能提升 10%支持 AI 框架 ExecuTorch支持阿里云通义千问大模型百川大模型文心大模型谷歌 Gemini Nano 大模型零一万物终端大模型Meta Llama 2 和 Llama 3和天玑 9300 相比,这次 9300+ 的最明显的变化是超大核或者说 BCPU 的频率从之前的 3.25GHz 提升到了 3.4GHz,比对手的 3.3 GHz 还高 100MHz,是安卓阵营最高频内核,首发产品为 vivo 的旗舰手机 X100s和X100s Pro。
值得注意的是,联发科表示天玑 9300+ 通过星速引擎的自适应技术可以实现在头部吃鸡游戏中的满帧(90 fps)功耗较同类产品降低了 20%。同时,通过星速引擎的网络质量监测系统,天玑9300+可以让游戏又省10%的功耗,还能节省25%的流量,这两点过几天大家就可以看到相关测试验证。
天玑 9300+ 采用了天玑 9300 一样的 APU 用于生成式 AI 加速,提供了专门针对LLM 所使用的 transformer 计算硬件加速,在执行端侧部署的 70 亿(7B,经过压缩后内存占用大约 4GB)参数 LLM 推理计算时能达到每秒 22 个词元(token,天玑 9300 是每秒 20 个词元)处理,达到了同级市场常见解决方案的两倍多。
所思所想
上面所写的基本上就是这次大会的大致内容,接下来则是发表一下透过这些内容的所思所想。
首先,生成式 AI 手机要成为主流手机类型,要解决的事情还是挺多的。
从芯片角度看的话,目前跑生成式 AI 或者说大模型推理计算所需要功耗大约是一到两瓦(1~2 Watts),光看数字的话这似乎是可以接受的范围,但是要想真正贯彻生成式 AI 手机的目标——无处不在的生成式 AI 体验,这样的耗电其实是有点偏高的。
像刷抖音,目前的旗舰级手机耗电一般在 1.4 瓦左右,而生成式 AI 如果维持长期后台运作的话,那就相当于手机每时每刻都在维持着刷短视频。所以要想生成式 AI 能更好渗透到手机应用的方方面面的话,有必要在软件和硬件上做更多的改进。当然,从天玑开发者大会来看,联发科目前联合整个生态的做法对于解决这个问题应该还是有一定帮助的,尤其是面向开发者的合作。像目前联发科提供的星速引擎导入到游戏里就可以降低功耗还能稳定网络质量和帧率,那么面向端侧生成式AI应用的开发者,或许联发科在未来也会在功耗这个层面提供他们的解决方案,可以期待一下。
白皮书中暗示的 2027年每台生成式 AI 手机算力大约是 40 TOPS,这个数字并不比现在的旗舰级手机 SoC 弱。假设摩尔定律仍能有效维持的话,那么 2027 年的生成式 AI 手机同样 AI 算力所需要的能耗可能会达到现在的 1/3 甚至更低,加上 LLM 软件优化技术的进步,可以预期届时生成式 AI 对手机应用的渗透将远比现在更广泛。
在软件方面,联发科提出了 LoRA Fusion,也就是在 AI 出图的时候,可以引入两个 LoRA 微调模型来控制出图效果,这当然是受欢迎的。但是用过 Stable Diffusion 的用户来说,这样的控制其实还是有很多可以提升的空间,例如 ControlNet(openpose、轮廓草图、语义分割)等,都是能对生成式 AI 出图产生重要影响的技术,如果能引入的话,手机端侧生成式 AI 的生产力意义将会直线飙升。
最后就是端侧应用方面,依然以 Stable Diffusion 为例,目前手机端是缺乏像 ComfyUI 这样的工作流工具,工作流是目前 SD 创意领域非常重要的生产力实现方式,它可以快速备份、分享设定,随时随地复现生成式 AI 绘图的复杂流程,显著拉平 SD 的学习曲线。当然这只是我的举例,如何做一个高效的生成式 AI 手机生产力 UI 目前还是空白,即使像 Comfy UI 我也觉得有不少缺点。
假设我们可以在手机 AI 助手对话框里提出,帮我搭建一个 SD 工作流,这个工作流的用途是什么,需要调用到哪些插件节点,然后 AI 助手就可以调用浏览器或者 SD UI,自动搭建出相应的工作流。之后,在使用浏览器或者 SD UI 的过程中,我们还可以随时召唤驻留的 AI 助手,让它帮我们精确抠取素材图片的内容,让 SD 进行相应的重绘。
这就是我想要的 AI 体验,真正无处不在的生成式 AI。不管怎么说,天玑开发者大会算是开了一个好头,至少在端侧生成式AI领域来讲,以芯片底层作为基础,如此全面地拉通从大模型到手机终端再到应用开发者的全生态链路,还提供向全场景、全链路发展的开发者工具,这还是开天辟地的头一次,我倒是希望有更多的厂商和开发者一起站出来,开发更多实际有用、好用的AI应用,真正把无处不在的生成式AI变成现实。