国产AI芯片风口大爆发,华为、摩尔线程跻身第一梯队

王晓川 2024-05-09 09:42:41

SORA、ChatGPT的爆火在全球范围内引发了一场AI“狂飙”,不仅让全球点燃了百模大战,也引爆了AI芯片的风口。由于进口算力受限,大模型已对国产AI算力提出了千卡甚至万卡集群的需求。

不仅需求火爆,国家也积极扶持AI芯片落地政策。北京市在4月底刚刚出台《北京市算力基础设施建设实施方案(2024-2027年)》,对企业扩大资金的举措,意在提升人工智能算力券政策效能,鼓励企业用好智能算力资源,加快推动大模型赋能行业。

政策翻译过来,主要有2个核心要点:

对新增的采购国产“自主可控”AI芯片算力的公司(比如大模型公司),北京市给予投资额支持(补贴)

对存量的AI算力数据中心,主动进行国产芯片“绿色改造”,北京市给予投资额支持(补贴)

在中国半导体受到不公正的产业限制下,为立足于国家安全及自主可控,国产AI芯片无疑成为最佳替代选择,处于市场和政策的双重风口下。

AI芯片风口,华为、摩尔线程暂时领跑

如果说2023年是AI大模型市场的百“模”争鸣,那么2024年则将带动AI芯片的风口爆发。国内外厂商频频发力,不仅有亚马逊、微软、华为、百度、阿里等下游客户推动自研芯片开发,国内AI芯片也百花齐放,华为、摩尔线程、寒武纪、壁仞、天数智芯等也在各施奇招,争夺登上前往AI时代的一张新船票。

目前而言,国产AI芯片大体呈现了三个梯队的格局。以产品性能、量产规模、拥有集群能力且已有场景落地等要素来考量,华为、海光、寒武纪、摩尔线程等公司可归为国产AI芯片的头部梯队。目前国内只有华为和摩尔线程,可以实现国产化的千卡集群,其它厂商还在百卡阶段徘徊。而一些起步不久的初创类芯片厂商,由于还在验证或量产阶段,产品仍在打磨阶段。

夸娥突破国产AI智算集群的4大难关

随着百亿、千亿参数大模型的出现,AI算力已战至千卡、甚至万卡集群的新阶段,但是在落地时,千卡集群面临着大规模内网互联、存储高速吞吐、模型优化服务、平台生态服务等技术瓶颈。

中国工程院院士郑纬民在4月28日举行的“中国移动算力网络大会”上强调,构建基于国产AI卡的万卡大模型训练平台,要考虑网络平衡设计、体系结构感知的内存平衡设计、IO子系统平衡设计,需要支持检查点,增加SSD。

摩尔线程的夸娥千卡集群就在努力打破技术瓶颈,实现从GPU显卡到服务器,最后组成集群,包括了硬件的网络、存储、软件,再到大模型调度,是一个全栈式的工程、端到端的交钥匙方案。

大模型客户对千卡集群的算力利用率、稳定性、可扩展性和兼容性的需求最为突出。这也成为千卡集群建设要迈过的四道难关,摩尔线程为此做足了准备。

1、软硬协同,算力利用率提升超50%

算力利用率(MFU)是衡量智算中心能力的一个核心指标。

摩尔线程采用软硬协同设计、端到端的并行策略,使得综合调优下算力利用率(MFU)提升幅度超过50%。夸娥通过集群通讯库算法、网络拓扑、硬件规格合理设计和配置,优化集群匹配度;技术上,夸娥集群通讯算法网络拓扑综合利用了MTLink和PCIe,使得通讯性能提升一倍。

2、从芯片出厂开始,保证稳定可靠性

对于分布式训练而言,一张卡坏了,整个训练都会停掉。所以,在做千卡集群或者更大规模集群时,它对整个集群的可靠性要求会更高。

摩尔线程从卡的出厂开始保证算力质量,做了很多严格的测试;开发了集群系统监控和诊断工具,帮助筛选和快速定位到有问题的卡和服务器,可以自动恢复和硬件替换;做了checkpoint加速,写的时间从10分钟降到秒级,读的速度从40分钟降到2分钟;判断训练异常,系统自动重新拉起。

3、提高可扩展性,线性加速比达91%

算力集群规模达到千卡,更是一个可扩展性的挑战。夸娥支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架。

同时,夸娥结合了摩尔线程显卡硬件能力,以软硬一体的方式,做了系统级优化,包括从硬件、软件再到集群,外加云的全栈,不是单点突破,是一种全局综合方案,从而使得线性加速比达到91%。

4、零成本CUDA代码移植,兼容多个主流大模型

基于摩尔线程代码移植Musify工具,可快速将现有的主流迁移至MUSA,零成本完成CUDA代码自动移植,之后用户短时间内即可完成热点分析和针对性优化,大大缩短迁移优化的周期。此外,借助摩尔线程元计算统一系统架构MUSA,用户可以复用PyTorch开源社区的大量模型算子,降低开发成本。

总的来说,国产AI算力正处在市场和政策的双重风口,国产化替代势在必行。不过,国产化算力仍有技术、生态等多方面挑战,华为昇腾、摩尔线程夸娥只是迈出了从“建起来”到“用起来”的第一步跨越,仍需长期追赶世界先进水平。

0 阅读:43