十万卡GPUAI算力底座集群解决方案

薪科技快评 2024-11-29 21:19:32

AI算力底座:十万卡GPU集群解决方案

生成式AI 的迅猛演进,推动Al基础设施(AlInfra) 加速发展,增长趋势将从大模型专业领域延伸至各行业领域 , Al Infra“质量双螺旋”的发展模式将逐步形成,单集群从万卡“量变”至十万卡的同时,集成、互联和分布式将成为AlInfra“质变”破局的三板斧。

生成式 AI的演进也在推动它的底层基础-人工智能基 础设施(AI Infrastructure,简称 AI Infra)技术的进步和建 设的持续增长。

由于生成式 AI 技术迭代和商业化探索仍在 加速进行,AIInfra短期的发展总体呈现供需两旺的形势。

一般的,AI Infra是指支撑 AI 大模型开发、部署和管理 的软硬件工具组合。国际上,AI Infra 通常会被划分为 5 层, 自 下 向 上 分 别 是 :算 力 设 施 、基 础 大 模 型 、数 据 和 存 储 、模 型开发和部署、以及监测与对齐。

当前,生成式人工智能的发展仍处于初期阶段,行业对 AI infra 的需求也相对初级,主要集中在算力设施层,未来 将发展需求将逐步覆盖其他层级。而随着算力基础设施建 设的规模进一步扩大,技术迭代逐步深入,人们对算力设施 层关注的焦点,正在从单一对“量”的追求,向“质”、“量”兼 顾 演 变 。

换 句 话 说 ,未 来 A I 算 力 基 础 设 施 的 发 展 ,将 在 更 大规模加速卡集群容量、和更高算力利用率及计算能效之 间交替进化、相互促进。AI Infra “质量双螺旋”的发展模 式逐步显现,并向上层延伸。

1. 人工智能基础设施供需两旺,增长趋势向行业 企业延伸

生成式AI算力需求惊人,AI服务器市场增长预期明确。 相关研究报告显示,自2012年以来,AI大模型训练的算力呈 指数级增长,每3.4个月翻一倍。这意味着,从2012到2018 年,AI算力增长了超过30万倍。与2012年的模型相比,2020 年提出的模型需要600万倍的计算能力。预计这个增长还会 继续快速提升。图1:历史上主要 AI 模型训练的算力用量趋势以OpenAI为例,自ChatGPT发布已来,GPT等大模型能力快速和持续的提升,也得益于大规模AI加速算力对于模 型训练的支撑。

根据公开信息,OpenAI训练GPT-4大约需要 25000张A100训练90-100天,训练GPT-MoE-1.8T需要8000 张H100训练90天,训练Sora预计需要4200-10500张H100 训练1个月,而训练GPT-5可能需要多达50000张 H100。

在Scaling Laws的指引下,越来越多的AI科技企业对于 大模型更强能力的追求,正在引发更多的、对于更大规模、 更高算力的AI Infra的惊人需求。Meta到今年底前计划再获得35万个H100 GPU,并宣 布将资本支出大幅提高到350-400亿美元;OpenAI和微软正在制定一个新的数据中心项目计划,投资可能高达 1000 亿美元,其中还包含一个名叫“星际之门”的AI超级计算 机 。

此 外 ,亚 马 逊 、微 软 等 云 服 务 商 也 在 计 划 数 年 内 投 入 近 百亿美元增加其在全球各地的超大规模云计算和AI基础设 施,以匹配迅速增长的大模型建设和服务需求。IDC预计,全球人工智能硬件市场(服务器),将从2022 年的195 亿美元增长到2026年的347亿美元,五年年复合增 长率达17.3%;

其中,用于运行生成式人工智能的服务器市 场规模在整体人工智能服务器市场的占比将从2023年的 11.9%增长至2026年的31.7%。图2 : 全球人工智能服务器市场规模预测2022-2026

Al lnfra建设需求向行业企业延展,制造业对于AI Infra的建设最积极。

全球各大科技巨头对AI基础设施的投入充分体现了他们对Al发展前景的乐观预期和决心。这趋势不仅将加速人工智能技术的突破和应用落地,也将为相关产业链带来巨大的发展机遇根据微软与Forrester Consulting联合进行的《人工智 能基础设施现状2024年度调查》报告显示,在受访的 1500多 名各行业和地区的商业领袖中,

56%的人反映所在企业并没有良好的基础设施来支持AI相关的业务工作。"近半数(43%)的专业人士热衷于积极发展人工智能基础设施战略,其中制造业、金融、软件、零售和卫生保健等行业热情最高。"

2. AI算力设施“量”变, 集群规模将从万卡迈向十万卡生成式AI的训练集群规模,以步入万卡量级。按照 Scaling Laws的基本逻辑,拥有越大的模型参数,人工智能大模型的能力就会越强。

同时,训练大模型所需要的算力集 群规模也就越大,这样才能在合理的时间内完成大模型的 训练。从国内外头部的大模型训练情况得知,目前训练大模型 所需要的单集群规模,已经从千卡上升至万卡。

也就是说,训 练一个大模型所需要的算力基础设施,需要10000张以上的 AI加速卡集成在一个AI智算集群才能完成:OpenAI已在训练 GPT-MoE-1.8T时使用了8000卡集群;Meta于2022年公布了拥有1.6万张A100 GPU的超级计算集群 RSC,并于2024年初 公布了2个24576张Nvidia H100集群,支持Llama3的训练; 国内头部科技企业也陆续实现万卡集群来训练大模型;万卡集群的实现和运行,是各层级软硬件紧密耦合和 持续调试的复杂系统工程。万卡集群并不是简单的将AI加速卡在硬件层面进行单纯的连接和堆砌,还要能够基于计算任务进行统一调度和管理,以实现大模型训练和推理的 算力集群。

实现稳定运行的万卡集群,并有效支撑大模型训练并非易事,总体看技术上会面临硬件和软件两个层面的挑战:

首先,构建万卡级别的超大规模集群本身就是一项极 其复杂的系统工程。

集群中成千上万的高性能计算单元需要 以极高的带宽和极低的延迟进行互联,对网络拓扑、传输协 议、线缆布线等都提出了苛刻的要求。同时,高密度部署还 面临着散热和供电的巨大压力。现有的计算机网络和数据 中心技术需要全面升级,才能满足万卡集群的苛刻要求。

其次,在软件层面,实现高效的分布式并行训练也面临 重重挑战。

传统的数据并行和模型并行范式在万卡尺度下 将遇到通信瓶颈和负载不均衡等问题。需要全新的混合并行范式和任务调度机制,在最小化通信开销的同时实现高效 的并行计算。分布式训练框架还需要内置故障检测和恢复 机制,确保系统能容忍局部节点的失效。此外,高效的分布式 优化算法,自动混合精度训练,以及针对大规模异构集群的 资源管理和任务编排技术,都亟待突破。

国内外A加速卡的发展呈现多元化发展趋势,不同芯片 架构、不同品牌、不同型号的 AI加速卡都将有可能成为万卡 集群算力调度的一部分。

如何将异构加速卡进行统一虚拟 化、调度管理、并执行模型训练更是需要持续面对的技术 挑战。突破这一难题,不仅需要考虑硬件层面的兼容问题, 还要考虑不同并行计算、分布式训练等软件系统的相互兼 容和融合,以及软硬件集成运行时的稳定性和可扩展性等 问题。

腾讯云在这方面做了必要的技术储备,除了适配国际上不同型号GPU外,还针对国内AI加速卡进行适配,为市场 提供多样化算力选择。下一代AI大模型的训练推动十万卡集群的探索。

目前,国内外头部科技企业、云服务商以及科研机构正在逐步解决万卡集群建设和运行中的诸多难题,万卡集群的建设已在加速实现,并且在逐步迈向十万卡集群水平。

在国内,多个万卡及以上规模的AI算力集群正在陆续建设。腾讯基于自研的高性能网络星脉,以及新一代算力集群HCC,可以支持10万卡GPU 的超大计算规模;国际上,马斯克创立的xAI公司训练Grok2将 采用约2万卡的H100集群。

马斯克进一步透露计划建造由10 万张H100组成的超级算力集群,用于 Grok3 的训练。

3. AI算力设施发展“ 质 ” 、“ 量 ” 兼 顾 集 成 网 联 和分布式将成破局三板斧

AI算力设施应激式发展的副作用显现,全球呼吁“质”、 “量”兼顾的可持续计算。生成式AI的进展速度不断的加快,不 断给我们带来对技术革新的惊喜和赞叹, Scaling Laws逐步 也成为业界共识。然而,“大力出奇迹”的粗旷发展思路,也导致了全球 AI Infra 建设的应激式响应,除了 AI 加速卡等器件的 价格上涨外,激增的高功率智算集群给社会、环境以及投资企业带来的负面影响也在陆续显现,并有加剧的风险。AI Infra 的未来发展,需要“质”、“量”兼顾。

包括国际经济 论坛(WEF)、英特尔、英伟达、IBM、谷歌等在内的众多国际组 织和企业纷纷呼吁“可持续计算”的发展,在不断提升计算能力的同时,重视提高算力设施的利用率(Model FLOPs Utiliza- tion,简称MFU)和能效(每瓦电能所实现的AI运算次数),控制和降低AI infra对能耗、环境等方面的负面影响,从而在AI发 展持续递增的行业背景下,为“量”的进一步增长提供发展空 间。

集成、网联和分布式将成为 AI Infra可持续发展的破局三板斧。

可持续计算的具体实现几乎涉及 AI Infra从底层物理 器件到上层模型算法的所有方面,各种技术更新和优化措施 的效果和周期也都不尽相同。

当前,AI Infra“质”变所面临的 基础问题,是算力集群的高能耗和低能效。 而从解决问题的关键性和经济性两方面来看,硬件持续集成、高性能网络互 联、以及分布式训练优化将可能成为破局的三个技术路线。

硬件的持续集成,主要指从芯片、加速卡到模块和机柜 等各个硬件层面元器件、组件的迭代并持续集成,这也将是未 来一段时间 AI Infra 核心硬件系统主要演变路线之一。

高性能网络互联,是组建大规模算力集群的关键技术, 主要解决不同芯片单元、加速卡、节点以及机柜乃至集群等各级计算系统之间的高性能数据交换。

大模型训练一般需要TB 每秒级别的互联带宽和毫秒级的延迟标准。不断提升的网络 互联技术,一方面有助于提高系统集成度,使十万卡甚至更大 规模的集群得以实现,另一方面也提高数据交换效率,降低能耗。

腾讯自研的高性能网络解决方案“星脉”,专为大模型训练 等大规模并行计算场景打造,采用自研端网协同协议TiTa,支 持基于RDMA的计算节点间互联,最高带宽可达3.2TB/s,最大 支持单集群10万卡的组网性能。提升大规模分布式训练的计算效率一直是该领域核心 问题,分布式训练框架便是关键的 AI Infra 环节。

分布式训练 框架是将大模型训练任务进行分解和并行策略指定、并进一 步调度和管理AI算力集群按策略执行训练任务的关键软件系统。合适的分布式训练框架和持续的针对性软硬件系统调优, 可实现更高的算力利用率,节省训练算力成本。

腾讯自研 Angel机器学习平台面向大模型训练,在预训练、模型精调、强 化学习多个阶段进行优化,相比业界开源框架,可以用更少的 资源训练更大的模型,训练速度是主流框架的2.6倍。

集成、网络互联和分布式训练优化将为AI Infra 向质量兼顾的新发展阶段打开局面,与此同时单晶元芯片、液冷、分布式数据库、神经形态计算等各其他层面的持续优化和技术创 新也会在未来几年取得新的进展,推动 AI 基础设施持续进化。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:136
评论列表
  • 2024-11-30 01:06

    算这种有什么用?搞不懂