简单解读NVIDIAProjectsDigits——端侧推理新选择?

晨晰聊房产经济 2025-01-08 15:49:28

最近DeepSeek V3大火,深度求索也在Github开源了671B规模的模型权重,但是600B的模型即使使用INT4量化也需要300多GB的显存,而对于普通用户来说这个级别的显存足够成为自己部署使用的阻碍,于是我们看到有很多发烧友盯上了Mac Mini,用多台Mac Mini互联来运行DeepSeek V3成了最有性价比的选择。

作为AI时代硬件绝对的霸主,NVIDIA显然不会放过这个细分市场。在昨天的CES2025主题演讲上,黄仁勋就在压轴时带来了这款名为Project Digits的产品。关于这款产品,笔者也基于现有信息做了一个简要解读。

首先,Project Digits和游戏关系不大,显然是非常明确的给LLM场景使用的。因此Arm CPU并不会成为这款产品的槽点(是否需要运行Windows系统对AI开发来说并不重要)。

其次,算力1PFLOPS看起来很吓人,但是要注意是FP4精度的。前阵子DeepSeek V3把FP8的混合精度训练跑出来都是Infra层面的突破,FP4短期看不太会成为主流精度选择。所以从实际应用的情况来看,这个设备的FP16算力应该要在FP4的基础上打一个折扣(1PFLOPS是不是稠密算力也不确定)。

不过没关系,现在大模型应用的瓶颈并不在算力上,而在显存大小和带宽上,这也是这台机器最大的特色——128GB的LPDDR5X内存。GB200上的LPDDR5X CPU带宽是512GB/s,也就是说对GPU很有可能带宽也只有512GB/s,这可比HBM低了不少。不过看起来这个机器和Mac的内存封装方式还有一些差别,所以这块还是等进一步确认比较好。虽然我个人觉得按照老黄的刀法,基本上就是512GB/s了。

苹果采用了MOP封装工艺

512GB/s的带宽结果就是token/s的数据并不会有想象的那么好看,内存读取的瓶颈还是蛮大的。而且虽然老黄号称Project Digits能装下200B的int4模型,但是你总归要考虑上下文的,200B的int4模型权重就要差不多100G,20G(留8G给CPU)的空间能装下多少上下文的KV Cache呢?

不过在PR稿里出现了一句很重要的话:这玩意儿可以连以太网,并且支持高带宽交换机。

老黄肯定只说可以连两台,但理论上基于以太网连个七八台也不是什么问题。

8台3000刀的机器拿到差不多1TB的显存,这玩意儿在不追求绝对速度的情况下做大模型的推理和相关研究应该是压力不大了。

虽然和工业界全是H100甚至未来的NVL72比还是有差距,但有比没有强嘛。

0 阅读:3