谁能干掉HBM?

论半导体谈人生 2024-08-01 22:20:47

AI离不开HBM,这种看法正在不断深入人心。

对于AI大模型训练来说,大量并行数据处理要求大算力和高带宽,算力决定了每秒处理数据的速度越快,而带宽决定了每秒可访问的数据,GPU负责提供算力,而存储器负责提供带宽。

如今的局面是,大家可以不用英伟达的GPU,但绝对离不开海力士、三星或美光的HBM,英伟达虽然有CUDA这条护城河,但也不能完全阻止用户迁移向其他厂商,但HBM就不同了,不论是AMD还是英特尔,还是其他定制芯片,上面无一例外都嵌着密密麻麻的HBM。

但HBM并不是普通DRAM,它的价格早已到了一个令人咋舌的地步,在相同密度的情况下,HBM 的价格大约是DDR5的5倍,据了解,目前HBM成本在AI服务器成本中占比排名第三,约占9%,单机平均售价高达18000美元。

(图片来自美光)

即便是如此昂贵的HBM,依旧处于供不应求的状态,还在不断涨价。TrendForce在今年5月表示,2025年HBM定价谈判已于2Q24开启,但由于DRAM整体产能有限,供应商已初步涨价5~10%以管理产能限制,影响范围涵盖HBM2e、HBM3与HBM3e。

其指出,从各大AI方案商来看,HBM规格需求将明显朝HBM3e转移,12Hi堆叠产品预期将会增加,将带动单颗芯片HBM容量提升,预估2024年HBM需求年增率将逼近200%,2025年则有望再翻一番。

掏的起钱的巨头会继续加价买更大容量的HBM,但对于中小型厂商来说,昂贵的HBM已经成为了它们踏上大模型之路后的最大阻碍。

谁会给昂贵的AI内存解围呢?

硅仙人,要把内存价格打下来

“硅仙人”吉姆·凯勒(Jim Keller)曾不止一次批评了目前AI芯片的昂贵价格。

吉姆·凯勒是谁?他的职业生涯横跨 DEC、AMD、SiByte、Broadcom、PA Semi、Apple、Tesla、Intel,从AMD的K8架构,到苹果的A4和A5处理器,再到AMD的Zen架构,最后是特斯拉的FSD自动驾驶芯片,背后都有着这位大神的身影。

而在2021年,他离开了英特尔,加入了位于加拿大多伦多的AI芯片初创公司Tenstorrent,担任这家公司的CTO,负责开发下一代AI芯片。

凯勒一直致力于解决人工智能硬件成本高昂的问题,将其视为 Tenstorrent 等初创公司挑战 英伟达等巨头的切入点。他曾提出,英伟达在开发 Blackwell GPU 时,如果使用以太网互连技术,本可以节省 10 亿美元。

“有很多市场没有得到英伟达的良好服务,”凯勒在接受日经亚洲采访时表示,随着 AI 在智能手机、电动汽车和云服务中的应用不断扩大,越来越多的公司在寻找更便宜的解决方案,他提到,“有很多小公司不愿意支付 20000 美元购买市场上被认为是最佳选择的英伟达高端GPU。”

Tenstorrent正准备在今年年底出售其第二代多功能 AI 芯片。该公司表示,在某些领域,其能效和处理效率优于英伟达的 AI GPU。据 Tenstorrent 称,其 Galaxy 系统的效率是英伟达AI 服务器 DGX 的三倍,且成本降低了 33%。

凯勒表示,这一成就的原因之一是公司不使用高带宽内存(HBM),这种先进的内存芯片能够快速传输大量数据。HBM 是生成型 AI 芯片的重要组件,在英伟达产品的成功中发挥了重要作用。

然而,HBM 也是 AI 芯片高能耗和高价格的罪魁祸首之一。“即使是使用 HBM 的人也在与其成本和设计时间作斗争,”凯勒说道,因此,他做出了不使用这项技术的技术决策。

在典型的 AI 芯片组中,GPU 每次执行过程时都会将数据发送到内存。这需要 HBM 的高速数据传输能力。然而,Tenstorrent 特别设计了其芯片,大幅减少此类传输。凯勒表示,通过这种新方法,公司设计的芯片在某些 AI 开发领域可以替代 GPU 和 HBM。

他还表示,公司正在尽可能地设计其产品以实现“成本效益”。他补充说,许多其他公司也在寻找更好的内存解决方案,但他谨慎地承认,颠覆现有的庞大 HBM 产业需要数年时间。

凯勒预测,将会有更多新玩家出现,填补英伟达未能服务的各种 AI 市场,而不是由某一家公司取代英伟达。

值得一提的是,Tenstorrent首席CPU架构师此前也分享了类似的观点,他强调该公司更务实、更经济的精神使其系统设计比Nvidia更具成本效益,计算能力更强。

他表示:"客户不需要支付保时捷或法拉利的价格来运行他们的生成式人工智能模型,他们只需要性价比最高、运行速度最快的汽车。" Lien 预计,目前硬件价格昂贵的趋势将逐渐消退,市场最终将趋于稳定。

对于吉姆·凯勒来说,过于昂贵的HBM似乎已经阻碍到了AI的发展,尽管大公司有雄厚的财力来承担这一切,但小公司早就难以为继,而他负责的Tenstorrent芯片,就是为了解决这一问题而来的。

无需HBM的AI芯片?

2020年5月,Tenstorrent 推出了自己首款产品—— Grayskull,这是一款基于 GF 12nm 工艺,约 620 平方毫米的处理器,最初设计为推理加速器和主机。它包含 120 个定制核心,采用 2D 双向网格结构,提供 368 TeraOPs 的 8 位计算能力,功耗仅为 65 瓦。每个定制核心都配备了数据控制的包管理引擎、包含 Tenstorrent 自定义 TENSIX 核心的包计算引擎,以及用于非标准操作(如条件语句)的五个 RISC 核心。该芯片侧重于稀疏张量运算,将矩阵运算优化为压缩数据包,通过图形编译器和数据包管理器实现计算步骤的流水线并行化。这也实现了动态图形执行,与其他一些人工智能芯片模型相比,它允许计算和数据异步传输,而不是特定的计算/传输时间域。

今年3月,Tenstorrent开始销售基于Grayskull的两款开发板。Tenstorrent表示,Grayskull e75 和 e150是 Tenstorrent 的基础、仅用于推理的 AI 图形处理器,每个都采用 Tensix Cores 构建,包括一个计算单元、片上网络、本地缓存和“小型 RISC-V”核心,从而在芯片中实现独特高效的数据移动,专为寻求经济高效、可定制的传统 GPU 替代方案的冒险型 ML 开发人员而设计。

其中Grayskull e75是一款75瓦的PCIe Gen 4卡,售价为600美元,其拥有一颗1GHz的NPU芯片,集成了96颗Tensix核心和96MB的SRAM,该板还包含8GB的标准LPDDR4 DRAM,而Grayskull e150将时钟频率提高到1.2GHz,核心数量增加到120个,片上内存相应增加到120MB,但片外DRAM仍为8GB的LPDDR4,其功耗提升至200瓦,售价800美元,

据了解,Tenstorrent Grayskull架构不同于其他数据中心AI加速器(GPU/NPU),排列的Tensix核心包含多个CPU,供计算单元使用,后者包括向量和矩阵引擎。这种结构化的颗粒方法可以增加数学单元的利用率,从而提高每瓦性能。每个Tensix核心还具有1MB的SRAM,提供了充足的片上内存总量,与其他大内存的NPU不同,Grayskull可以连接到外部内存。

当然最重要的还是,Grayskull使用标准DRAM而不是昂贵的HBM,仅这一项,就省去了一大半成本,这也符合吉姆·凯勒所提到的追求成本效益的目标。

软件是NPU和其他处理器挑战者的一个薄弱环节,也是Grayskull与竞争对手相比的一个强项。Tenstorrent为此提供两种软件流程:TT-Buda基于标准AI框架(如PyTorch和TensorFlow)将模型映射到Tenstorrent硬件上,而TT-Metalium则为开发人员提供直接的硬件访问,并允许他们创建用于更高级框架的库。在Grayskull架构的支持下,Metalium因提供类似计算机的编程模型而脱颖而出,并可能吸引拥有低级编程资源的客户。

此外,从一开始,Tenstorrent就将功耗效率作为一个差异化因素,e75相对较低的75瓦,符合标准PCIe和OCP功率范围,像这样的设计可能是一个很好的服务器附加板,用于推理领域。除了Grayskull芯片和板卡外,Tenstorrent还开始授权其高性能RISC-V CPU和Tensix核心,并与合作伙伴共同开发Chiplets。

当然,这只是一个开始,在吉姆·凯勒加盟后,Tenstorrent的野心开始变得更大。

今年7月,Tenstorrent推出了新一代Wormhole处理器,专为AI工作负载设计,承诺以低价提供不错的性能。该公司目前提供两种附加的PCIe卡,分别搭载一个或两个Wormhole处理器,还有TT-LoudBox和TT-QuietBox工作站,专为软件开发人员设计。此次发布主要面向开发人员,而非那些将Wormhole板用于商业工作负载的用户。

Tenstorrent首席执行官吉姆·凯勒表示:“让更多产品进入开发者手中总是令人感到满意的。发布搭载Wormhole卡的开发系统有助于开发人员进行多芯片AI软件的扩展和开发工作。除了此次发布之外,我们也很高兴第二代产品Blackhole的流片和启动进展顺利。”

每个Wormhole处理器配备72个Tensix核心(包含五个支持各种数据格式的RISC-V核心),拥有108MB的SRAM,以1GHz频率提供262 FP8 TFLOPS的性能,功耗为160W。单芯片Wormhole n150卡配备12GB的GDDR6内存,带宽为288GB/s。

Wormhole处理器提供灵活的可扩展性,以满足各种工作负载的需求。在标准工作站设置中,四张Wormhole n300卡可以合并为一个单元,在软件中显示为一个统一的、广泛的Tensix核心网络。该配置允许加速器处理相同的工作负载、分配给四个开发人员或同时运行多达八个不同的AI模型。这种可扩展性的一个关键特征是它可以原生运行,无需虚拟化。在数据中心环境中,Wormhole处理器可以通过PCIe在一台机器内部扩展,也可以通过以太网在多台机器之间扩展。

从性能角度来看,Tenstorrent的单芯片Wormhole n150卡(72个Tensix核心,1GHz,108MB SRAM,12GB GDDR6,带宽为288GB/s)在160W功耗下提供262 FP8 TFLOPS,而双芯片Wormhole n300板(128个Tensix核心,1GHz,192MB SRAM,24GB GDDR6,带宽为576GB/s)在300W功耗下可提供高达466 FP8 TFLOPS(根据Tom's Hardware的数据)。

与英伟达的产品相比,英伟达的A100不支持FP8,但支持INT8,峰值性能为624 TOPS(稀疏时为1,248 TOPS),而英伟达的H100支持FP8,峰值性能高达1,670 TFLOPS(稀疏时为3,341 TFLOPS),这与Tenstorrent的Wormhole n300相比有很大差距。

不过价格又弥补了性能上的不足,Tenstorrent的Wormhole n150售价为999美元,而n300售价为1,399美元。相比之下,一张英伟达H100卡的售价可能高达30,000美元。

除了板卡外,Tenstorrent还为开发者提供预装四张n300卡的工作站,包括价格较低的基于Xeon的TT-LoudBox和高端的基于EPYC的TT-QuietBox。

不论是Grayskull还是Wormhole,都只是Tenstorrent路线图里的第一步,真正的重头戏还在后面。

(图片来自Tenstorrent)

根据Tenstorrent披露的路线图,第二代架构Blackhole 芯片有 140 个 Tensix 内核,以及更多的 DRAM 和更快的以太网,同时具备16 个 RISC-V 内核,独立于 Tensix 内核,可以脱离x86 CPU来运行操作系统,其已在台积电 N6 上流片并进展顺利。

而Tenstorrent 的第三代架构将基于芯片组,并将迁移到三星 SF4,其包括Quasar 和 Grendel ,将采用更新的 Tensix 核心,目的是将四个 Tensix 核心与共享的 L2 聚集在一起,以便更好地重用内存中已有的权重,它们预计将于 2025 年推出。

当然,路线图中后续的三款芯片,都没有采用HBM,而是选择了GDDR6,Tenstorrent和吉姆·凯勒都有一个目标,那就是打破HBM这个昂贵的神话。

曲线救国的小众方案

Tenstorrent并不是唯一一个想要用其他内存替代HBM的公司。

2024年2月,谷歌TPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布,其新一代LPU在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍,后续有三方测试结果表明,该芯片对大语言模型推理进行优化效果显著,速度相较于英伟达GPU提高了10倍。

根据知情人士透露,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。Groq选择了SRAM,其速度比GPU所用的存储器快约20倍,这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。

有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。

但Groq并非没有缺点,其选择SRAM的主要理由,是因为它只负责推理、不训练,而推理所需要的存储空间比训练要小得多,所以Groq的单板卡只有230MB的内存,虽然SRAM确实要比DRAM快,但其价格很贵,容量较小,LPU乃至其他计算芯片,大量使用SRAM时需要有所权衡。

2012 年在加利福尼亚州圣何塞创立的NEO Semiconductor则是提出了自己的HBM替代方案,近日,该公司宣布,自己开发出了带有附加神经元电路的三维 DRAM,通过避免从高带宽内存到 GPU 的数据传输,可以加速 AI 处理。

据了解,Neo 的3D DRAM 技术是其 3D X-AI 300 层、128 Gbit DRAM 芯片的基础,每个芯片有 8,000 个神经元和 10 TBps 的 AI 处理能力。3D X-AI 芯片的容量和性能可以扩展 12 倍,最多可堆叠 12 个 3D X-AI 芯片,就像高带宽内存 (HBM) 一样,提供 192 GB (1,536 Gb) 的容量和 120 TBps 的处理吞吐量。

NEO Semiconductor 创始人兼首席执行官 Andy Hsu 在一份声明中表示:“典型的 AI 芯片使用基于处理器的神经网络。这涉及结合高带宽内存来模拟突触以存储权重数据,以及图形处理单元 (GPU) 来模拟神经元以执行数学计算。性能受到 HBM 和 GPU 之间数据传输的限制,来回的数据传输会降低 AI 芯片的性能并增加功耗。”

3D X-AI 模拟人工神经网络 (ANN),包括用于存储重量数据的突触和用于处理数据的神经元,Neo 表示这使其非常适合加速下一代 AI 芯片和应用,Hsu 补充道:“带有 3D X-AI 的 AI 芯片使用基于内存的神经网络。这些芯片具有神经网络功能,每个 3D X-AI 芯片中都有突触和神经元。它们用于大幅减少执行 AI 操作时 GPU 和 HBM 之间数据传输的繁重工作量。我们的发明大大提高了 AI 芯片的性能和可持续性。”

此前,SK海力士和三星等NAND供应商已经尝试过计算内存,但用例太小众,不足以证明大规模生产是合理的,而Neo 希望 AI 处理能够变得如此普及,从而远远超越这种小众现象,其表示,3D X-AI 芯片可与标准 GPU 一起使用,可以以更低的成本提供更快的 AI 处理。

HBM,并非固若金汤?

对于内存厂尤其是SK海力士来说,HBM是在坚持多年后获得的一笔意外之财,事实上,就连行业领先了三十余年的三星都出现了误判,在AI浪潮来临的前夜错失了机会。

HBM因AI而兴,在大模型中扮演着不可或缺的角色,这是毋庸置疑的,但HBM也在面临着各种挑战,尤其是更多具备成本优势的方案在不断涌现,如果HBM不能通过其他方式来降低成本,它未来的地位就恐怕有点危险了。

0 阅读:33