NVIDIABlackwell推动散热需求,预估2024年底液冷方案...

半导体喜迎春 2024-07-30 16:42:40

随着高速运算的需求成长,更有效的AI Server(AI服务器)散热方案也受到重视。根据TrendForce集邦咨询最新AI Server报告,由于NVIDIA(英伟达)将在2024年底前推出新一代平台Blackwell,届时大型CSP(云端服务业者)也会开始建置Blackwell新平台的AI Server数据中心,预估有机会带动液冷散热方案渗透率达10%。

气冷、液冷并行方案满足更高散热需求

根据TrendForce集邦咨询调查,NVIDIA Blackwell平台将于2025年正式放量,取代既有的Hopper平台、成为NVIDIA高端GPU(图形处理器)主力方案,占整体高端产品近83%。在B200和GB200等追求高效能的AI Server机种,单颗GPU功耗可达1,000W以上。HGX机种每台装载8颗GPU,NVL机种每柜达36颗或72颗GPU,显著的能耗将促进AI Server散热液冷供应链的成长。

TrendForce集邦咨询表示,服务器芯片的热设计功耗(Thermal Design Power, TDP)持续提高,如B200芯片的TDP将达1,000W,传统气冷散热方案不足以满足需求;GB200 NVL36及NVL72整机柜的TDP甚至将高达70kW及近140kW,需要搭配液冷方案方以有效解决散热问题。

据TrendForce集邦咨询了解, GB200 NVL36架构初期将以气冷、液冷并行方案为主;NVL72因有更高散热能力需求,原则上优先使用液冷方案。

观察现行GB200机柜系统液冷散热供应链,主要可分水冷板(Cold Plate)、冷却分配系统(Coolant Distribution Unit, CDU)、分歧管(Manifold)、快接头(Quick Disconnect, QD)和风扇背门(Rear Door Heat Exchanger, RDHx)等五大零部件。

TrendForce集邦咨询指出,CDU为其中的关键系统,负责调节冷却剂的流量至整个系统,确保机柜温度控制在预设的TDP范围内。TrendForce集邦咨询观察,目前针对NVIDIA AI方案,以Vertiv(维谛技术)为主力CDU供应商,奇鋐、双鸿、台达电和CoolIT等持续测试验证中。

2025年GB200出货量估可达6万柜,促Blackwell平台成市场主流、将占NVIDIA高端GPU逾8成

根据TrendForce集邦咨询观察,2025年NVIDIA将以HGX、GB200 Rack及MGX等多元组态AI Server,分攻CSPs及企业型客户,预估这三个机种的出货比例约为5:4:1。HGX平台可较无缝对接现有Hopper平台设计,使CSPs或大型企业客户能迅速采用。GB200整柜AI Sever方案将以超大型CSPs为主打,TrendForce集邦咨询预期NVIDIA将于2024年底先导入NVL36组态,以便快速进入市场。NVL72因其AI Server整体设计及散热系统较为复杂,预计将于2025年推出。

TrendForce集邦咨询表示,在NVIDIA大力扩展CSPs客群的情况下,预估2025年GB200折算NVL36合计出货数量可望达6万柜,而GB200的Blackwell GPU用量可望达210-220万颗。

然而,终端客户采用GB200 Rack的过程仍有几项变量。TrendForce集邦咨询指出,NVL72需较完善的液冷散热方案,难度较高。而液冷机柜设计较适合新建数据中心,但会牵涉土地建物规划等复杂程序。此外,CSPs可能不希望被单一供应商绑住规格,可能会选择HGX或MGX等搭载x86 CPU架构的机种,或扩大自研ASIC(专用集成电路)AI Server基础设施,以应对更低成本或特定AI应用场景。

0 阅读:0