深入了解马斯克的10万GPU人工智能集群——xAIColossus的秘密

省钱田田 2024-11-05 07:58:33

国际快递 · 清关 · 代拍

海外古董 · 艺术品 · 名画 · 名表

【FuninUSA.NET综合报道】埃隆-马斯克(Elon Musk)耗资巨大的新项目xAI Colossus人工智能超级计算机的细节首次曝光。YouTuber ServeTheHome获准进入这台拥有10万GPU的巨兽中的超微服务器,展示了这台超级计算机的多个方面。马斯克的xAI Colossus超级集群经过122天的组装,已经上线近两个月。

100,000个GPU集群的内部结构

来自ServeTheHome的帕特里克用摄像头环绕服务器的几个部分,鸟瞰服务器的运行情况。根据保密协议,超级计算机的更多细节(如功耗和泵的尺寸)无法透露,xAI在发布视频前对部分内容进行了模糊和删减。最重要的部分,如Supermicro GPU服务器,在上述视频中基本保持原样。

GPU服务器是Nvidia HGX H100,这是一种服务器解决方案,每台服务器包含八个H100 GPU。HGX H100平台封装在超微公司的4U通用GPU液冷系统中,为每个GPU提供方便的热插拔液冷。这些服务器装载在机架内,每个机架可容纳8 台服务器,每个机架可容纳64个GPU。1U歧管夹在每个HGX H100之间,为服务器提供所需的液体冷却。每个机架底部还有一个超微4U设备,这次配备了冗余泵系统和机架监控系统。

这些机架以八个为一组,每个阵列有512个GPU。每台服务器都有四个冗余电源,GPU机架后部有三相电源、以太网交换机和一个机架大小的歧管,提供所有液体冷却。Colossus集群内有超过1,500个GPU机架,即接近200个机架阵列。据Nvidia首席执行官黄仁勋(Jensen Huang)介绍,这200个阵列的GPU只用了三周时间就全部安装完毕。

由于不断训练模型的人工智能超级集群需要高带宽,xAI在网络互联方面做了超乎寻常的努力。每块显卡都有一个400GbE的专用网卡(网络接口控制器),每台服务器还有一个额外的400Gb网卡。这意味着每台HGX H100服务器拥有每秒3.6兆位的以太网。是的,整个集群都在以太网上运行,而不是超级计算领域标准的InfiniBand或其他特殊连接。

当然,像Grok 3聊天机器人这样以训练人工智能模型为基础的超级计算机需要的不仅仅是GPU。Colossus中的存储和CPU计算机服务器的细节比较有限。从帕特里克的视频和博文中可以看出,这些服务器也大多采用超微机箱。一波波的NVMe-forward 1U服务器内部装有某种x86平台的CPU,用于存储和CPU 计算,同样采用后置液冷系统。

在机箱外,可以看到一些捆绑得很紧的特斯拉Megapack电池组。电池阵列的启动和停止特性,以及电池组之间毫秒级的延迟,是电网或马斯克的柴油发电机无法承受的,因此一些特斯拉Megapack电池(每组最多可容纳3.9兆瓦时)被用作电网和超级计算机之间的能量缓冲。

Colossus的使用和马斯克超级计算机的稳定性

据英伟达公司称,xAI Colossus超级计算机是目前世界上最大的人工智能超级计算机。世界上许多领先的超级计算机都是研究舱,可供许多承包商或学者用于研究天气模式、疾病或其他高难度的计算任务,而Colossus则专门负责训练 X(前Twitter)的各种AI模型。主要是“Grok 3”,埃隆的“反唤醒”聊天机器人,只有X高级用户才能使用。ServeTheHome还被告知,Colossus正在训练“未来”的人工智能模型;据说这些模型的用途和能力超出了当今旗舰人工智能的能力。

Colossus的第一阶段建设已经完成,集群也已全面上线,但这还不是全部。孟菲斯超级计算机很快就会升级,将GPU容量翻倍,增加5万个H100 GPU和5万个下一代H200 GPU。这也将使其耗电量增加一倍以上,而马斯克在7月份为该基地增加的14台柴油发电机已经无法承受。这也低于马斯克关于在巨像内部安装30万个H200的承诺,不过这可能会成为第三阶段的升级。

在“Giga Texas”特斯拉工厂内的50,000 GPU Cortex超级计算机也隶属于马斯克的一家公司。Cortex专门用于通过摄像头画面和图像检测训练特斯拉的自动驾驶AI技术,以及特斯拉的自主机器人和其他AI项目。特斯拉还将很快看到位于纽约布法罗的Dojo超级计算机的建设,这个耗资5亿美元的项目即将开工。百度首席执行官乐彦斌等行业投机者预测,99%的人工智能公司将在泡沫破裂时倒闭,马斯克破纪录的人工智能支出是适得其反还是物有所值,我们拭目以待。

欢迎到FuninUSA.NET论坛讨论

0 阅读:0