速递: 国内 GPU 调研国产 GPU 在大规模集群测试表现目前还没有达到预期:○ 公司也没拿到板卡,主要通过远程环境进行测试,一般是使用 1or2 台服务器进行性能加速比和性能扩展比的预测。○ 如果在小规模测试中性能不到 95%,那么大规模千卡、万卡集群也很难达到理想效果。目前来看,目前版本都未能达到预期效果。华为 910C:○ 两个 die 结合;网络方面升级,实测带宽可以达到 500-600G;可以满足公司平时训练所需最低卡间互联速率的要求(400G)。○ 910C 在 HCD 网络之间的互联速度约为 564G 的互联带宽。性能测算上能够达到H100 的 80%;标称 900TFLOPS,实际能达到标称的 70%。○ 两张 910B 单卡拼接后,优化手段提升整体性能。从单卡 392 TFLOPS 变成 900TFLOPS。○ 910C 预估定价 20-30 万;910B 定价大客户 10 万以内,市场均价 11 万寒武纪 690○ 还没有流片,技术限制和代工厂产能问题,可能流片会被阉割○ 590 不及 910B性能对比:○ 910B 性能可以参考 A800 的 80-83%○ 590 是 A800 的 75%○ 海光二号对标 NVDA L40S 的 50-75%○ 海光 100 可以实现标称性能的 87%(保留了全精度功能,支持密集型产业的重大项目)-25 年 7 月,DDR6 而 HBM 内存ALBB:○ 推理卡支持自身云计算业务和对外 ToB 业务;整体采购以服务外部客户为主,占比70-80%○ NVDA 能不能供货还不知道,H20 可以供货还会继续采购,但是性价比下降了(显存升级后成本增加,算力没变) --- 国产卡成本一半,H20 采购量不确定B20 / B30 的价格在 15-20 万元TX 曾测试过寒武纪的 370 系列芯片(训/推一体),包括 370X4、X8 和 370S4 推理卡,但采购量基本没有。TX 主要采购华为的 910B 卡,在去年部署了约几千张于三数据中心,不过售量一般,后来转用于内部业务。TX 更倾向于使用华为的训练卡,而推理卡则可能使用自家的直销产品,因为其性能已经达到第三代或第四代水平。ZJ 与寒武纪自 2023 年以来合作紧密,由于 ZJ 互联网业务较多,这种合作对双方都有利。因为互联网厂商业务节奏快且现金流充裕,与他们合作能够迅速验证和改进产品。
速递:国内GPU调研国产GPU在大规模集群测试表现目前还没有达到预期:
全产业
2025-02-07 09:12:02
0
阅读:14