GPU全球的严重缺货,这些“光环”的交织催生了一种“唯GPU论”,意思是说:在AI计算的过程中,过分强调了GPU的作用,认为只有使用高端GPU才能获得好的计算性能和结果。但实际上,GPU只是加速计算的一种手段,而不是唯一的方法。
随着AI技术的不断发展和应用场景的拓展,越来越多的模型将被部署到实际生产环境中,而推理是这些模型在实际应用中的关键环节。这就意味着,推理算力需求可能会逐渐增加,并超过训练算力需求。
而在推理场景下,AI算力的选择,要根据具体的应用场景和需求进行权衡,而非盲目的追逐GPU。
就在1月11日,阿里云宣布推出第八代企业级通用计算实例ECS g8i,基于“飞天+CIPU”的全新计算架构体系,搭载第五代英特尔至强可扩展处理器,在数据库、大数据等场景下E2E性能大幅提升,尤其是在AI推理领域实现了显著的技术突破,特别是在处理超大规模的LLM大语言模型方面展示了CPU通用算力的强大潜力,证明了以CPU为中心的计算体系同样具备加速AI推理的巨大潜力,为AI算力的选择题,给出了更好的选项。
01
GPU还是CPU?场景说了算
2023年可以看作是中国大模型的元年。一年以来,AI大模型如雨后春笋般层出不穷,通义千问、文言一心、讯飞星火、紫东太初等一批中国大模型正在快速发展,通过更为泛化的能力和无限的想象空间,赋予了行业智能化更为普世的价值,也让我们对未来的AIGC时代有了更多的期待。
1月3日,IDC 发布的首份《2024AIGC应用层十大趋势白皮书》显示:随着 AIGC 技术的发展,智能化应用将呈现爆发式增长,IDC也预测:到 2024 年全球将涌现出超过 5 亿个新应用,这相当于过去 40 年间出现的应用数总和。
AI时代的创新呈现出指数级的跃迁,对AI算力的需求也将是指数级的提升,同时在不同的应用场景中,对AI算力的要求也是复杂的。
比如在对实时性要求不高的场景,CPU的时钟频率通常比GPU高,因此在某些需要快速响应的推理任务中,GPU可能更有优势,但如果对实时性要求不高,CPU其实完全能够胜任;再有需要大量复杂逻辑处理的场景,由于CPU具有强大的指令处理和计算能力,对于需要大量复杂逻辑处理的推理任务,CPU可能表现得更好。
这些实际的场景,都证明了CPU不仅在一些场景中可以完全取代GPU,并且在部分特殊场景中,甚至比GPU更符合需求。
这也是阿里云之所以推出ECS g8i的背景,作为企业级通用计算实例,ECS g8i在计算、存储、网络和安全等能力得到了全方位提升。不仅L3缓存容量提升3倍达到320MB,内存速率高达5600MT/s,整机性能提升85%,还在网络方面,标配阿里云自研eRDMA大规模加速能力,时延低至8微秒,再加上全面的安全防护,堪称是推理算力的巅峰之作。
02
无论大小模型,g8i都足以胜任
对企业用户来说,模型是否一定是越大越好?其实并不尽然。
事实上,过去一年中,一些小模型通过质量很高的数据源来学习,所表现出来的能力超过了参数量大十倍的模型,这说明衡量模型的价值,数据量的大小并不是一个决定因素。所以,一些拥有高质量数据的行业场景,完全可以基于小模型的推理来实现业务价值。
而小模型推理,由于计算量本身较小,使用CPU其实就可以达到足够好的性能。有一些行业客户在已经拥有GPU资源的前提下,也经常会使用CPU进行推理,再利用GPU的并行计算能力加速推理过程。
所以对于小模型推理来说,使用CPU或GPU都可以达到较好的性能,选择哪种硬件平台主要取决于具体的应用场景和可用资源。
实际上,在企业中部署 AI 模型,CPU服务器其实也特别常用,只要模型对推断速度没有那么高的要求,只要模型不算特别大,使用英特尔® 至强® 可扩展处理器的算力就是一个合适的选择。
例如在制造业的模型不会太大,它们就特别适合用 CPU 充当计算设备。比如基于机器视觉的工业辅助检测,或者基于云边协同新架构的 AI 瑕疵检测系统,都引入了英特尔® 至强® 可扩展处理器作为核心计算引擎。
对于6B、13B的中小规模模型,阿里云ECS g8i实例进行了相当程度的优化,包括内置指令集从AVX512升级到了Intel AMX高级矩阵扩展加速技术,能很好地支持模型推理与部署。况且在运行知识检索、问答系统及摘要生成等AI工作负载时,相对传统GPU方案,起建成本下降50%。此外,配合阿里云平台的Spot抢占式实例,成本优势将进一步凸显,进一步降低AI推理成本。
而从大模型的角度,对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到AI集群,这个时候网络通讯成了主要的性能瓶颈。
一方面,阿里云自研的eRDMA网络保证了超低延时和强大算力,使ECS g8i实例集群能够胜任高达72B参数的大模型分布式推理;另一方面,推理性能在eRDMA加持下,相对传统VPC网络,性能线性度大幅提升,可支持超过32 batch size的AI模型负载,运行AI生成代码、虚拟助手以及创意辅助工具等AI工作负载。
显而易见,无论是小模型还是大模型,阿里云ECS g8i都能够表现出超凡的性能,同时降低用户的总体算力成本,在企业客户在推理场景的算力选型中,又提供了一个可选项。
03
给世界一个更优和更安全的选择
当然,所有的性能和表现,都离不开一个关键词:安全。
进入人工智能时代以来,因为算法可能会被对象样本攻击,正常样本中加入少量对抗就会误导结果,所以AI本身就存在内在安全的问题。AIGC出现之后,安全问题就愈加严重,大模型本身也存在误导风险,同时数据泄露的风险也在加大。
阿里云显然早就意识到了这一点,基于自研的CIPU,阿里云在全产品线构建了端到端的安全防护,可保障数据存储、数据传输、数据计算的全流程安全。在最底层,基于CIPU的安全架构搭载安全芯片TPM作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力vTPM,提供实例启动过程核心组件的校验能力;在实例可信的基础上支持不同平台的机密计算能力,实现了运行态的内存数据隔离和加密的保护。
特别要提示的是,ECS g8i实例全面支持TDX技术,无需更改业务即可实现部署,大幅降低技术门槛,同时几乎不损失性能。以Qwen-Chat-7B模型为例,启用TDX后,既确保了模型推理的安全可信,也保护了数据的机密性和完整性,性能损耗仅在5%以内。
著名的莎士比亚之问,那句经典的“To be,or not to be: that is the question。”这个疑问句,被翻译成了好多个不同的版本,“勇敢或怯懦“,”承担或逃避”,“生存或毁灭”,被广泛传颂,它经常被用来形容在犹豫在思考时候的两难情况。
在AI产业化发展澎湃而来,AI算力需求与日俱增的今天,这种两难的选择又何尝没有困扰过今天的企业用户,在GPU和CPU之间,似乎也存在着这样的一个“莎士比亚之问”,究竟是要非此即彼,还是可以和谐共存?
通过阿里云ECS g8i实例的发布,答案已经呼之欲出。“唯GPU论”并不可取,在对数据量的需求相对较低的推理阶段,需要更快响应和能耗效率优化更好的场景下,ECS g8i在资源可获得性、学习门槛、安全性等方面都具有突出的优势。
这是阿里云ECS g8i,为AI算力的供需逻辑,带给世界的一个更优的选择。