周末DeepSeek又出圈了,研究了半天发现还是可能利好英伟达(不一定专业,可以友好讨论):
1、DS-V3/R1推理系统的两大优化目标是更高吞吐量和更低延迟,为此采用了跨节点的专家并行架构(EP),从而增加了节点间通信的复杂性和通信瓶颈。DS技术要求最小部署单元是4个节点,32个GPU。32卡是启动服务的物理下限,确保MOE专家并行架构的数学完备性。Decode阶段负责输出token的序列生成,其144卡配置是释放所有硬件性能的最低要求。公有云会cover绝大部分需求,私有化部署/一体机是性价比极低的方案。
2、DS推理系统用的是全套英伟达的系统包括H800和网络连接,因为其技术的核心是跨节点的专家并行架构和计算与通信并行。而NCCL(NVIDIA Collective C ommunications Library)是英伟达推出的高性能通信库,专为多GPU/多节点分布式计算设计。在大模型训练与推理中,它是实现跨卡和跨节点通信的核心技术底座。它还有一项核心能力就是通过CUDA Stream异步机制,实现通信与计算的并行化。即要实现DS的极致降本方案就必须用NV全家桶。
3、从技术可行性分析,非英伟达方案存在理论可能性,但在当前技术生态下实际部署或面临挑战:①AMD MI300X:ROCm对MoE并行支持不足,FP8精度缺失;②hw昇腾910B:专家参数跨卡同步效率仅达NVLink 30%(910c咱不知道);③hwj思元590:显存带宽限制(4.8TB/S vSH800 7.8TB/s);④Google TPU v5e:需重构数据流(tensor而非pipeline并行)。
4、以32卡集群三年TCO(总拥有成本)计算:①H800:硬件成本$2.4M,电费成本$216K,开发适配成本$0,吞吐性价比1.0x;②MI300X:硬件成本$1.8M,电费成本$280K,开发适配成本$1.2M,吞吐性价比0.54x;③昇腾910B:硬件成本$1.2M,电费成本$310K,开发适配成本$2.1M,吞吐性价比0.31x。【發】对于国产方案来讲,需满足业务政治需求>3倍成本容忍度时才具备可行性。
5、DS证明了买阉割版NV卡就能实现545%的暴利,进一步验证了NV的壁垒之深、能力之强。当然股票交易和企业经营是两回事儿,如果您认为利好算力的话,那么能涨得的板块大概率是算力租赁(存量NV卡多的/还有渠道搞到卡的)、国产算力(真算不清楚,但能涨)、NV本身(NV链已经很惨了,求放过🧎)、推理环节(如AEC)、其他提升通信能力的环节(如空芯光纤)。