速递:国内GPU调研国产GPU在大规模集群测试表现目前还没有达到预期：

全产业 2025-02-07 09:12:02

速递: 国内 GPU 调研国产 GPU 在大规模集群测试表现目前还没有达到预期：○ 公司也没拿到板卡，主要通过远程环境进行测试，一般是使用 1or2 台服务器进行性能加速比和性能扩展比的预测。○ 如果在小规模测试中性能不到 95％，那么大规模千卡、万卡集群也很难达到理想效果。目前来看，目前版本都未能达到预期效果。华为 910C：○ 两个 die 结合；网络方面升级，实测带宽可以达到 500-600G；可以满足公司平时训练所需最低卡间互联速率的要求（400G）。○ 910C 在 HCD 网络之间的互联速度约为 564G 的互联带宽。性能测算上能够达到H100 的 80%；标称 900TFLOPS，实际能达到标称的 70%。○ 两张 910B 单卡拼接后，优化手段提升整体性能。从单卡 392 TFLOPS 变成 900TFLOPS。○ 910C 预估定价 20-30 万；910B 定价大客户 10 万以内，市场均价 11 万寒武纪 690○ 还没有流片，技术限制和代工厂产能问题，可能流片会被阉割○ 590 不及 910B性能对比：○ 910B 性能可以参考 A800 的 80-83%○ 590 是 A800 的 75%○ 海光二号对标 NVDA L40S 的 50-75%○ 海光 100 可以实现标称性能的 87%（保留了全精度功能，支持密集型产业的重大项目）-25 年 7 月，DDR6 而 HBM 内存ALBB：○ 推理卡支持自身云计算业务和对外 ToB 业务；整体采购以服务外部客户为主，占比70-80%○ NVDA 能不能供货还不知道，H20 可以供货还会继续采购，但是性价比下降了（显存升级后成本增加，算力没变） --- 国产卡成本一半，H20 采购量不确定B20 / B30 的价格在 15-20 万元TX 曾测试过寒武纪的 370 系列芯片（训/推一体），包括 370X4、X8 和 370S4 推理卡，但采购量基本没有。TX 主要采购华为的 910B 卡，在去年部署了约几千张于三数据中心，不过售量一般，后来转用于内部业务。TX 更倾向于使用华为的训练卡，而推理卡则可能使用自家的直销产品，因为其性能已经达到第三代或第四代水平。ZJ 与寒武纪自 2023 年以来合作紧密，由于 ZJ 互联网业务较多，这种合作对双方都有利。因为互联网厂商业务节奏快且现金流充裕，与他们合作能够迅速验证和改进产品。

0 阅读：14