英伟达GPU,警钟敲响

论半导体谈人生 2024-07-11 21:33:56

在传出法国将对英伟达发起反垄断调查后不久,又有新的不好消息传出。

据彭博社引述欧盟竞争事务负责人玛格丽特·维斯塔格 (Margrethe Vestager) 的警告称,英伟达公司的 AI 芯片供应存在“巨大瓶颈”,但表示监管机构仍在考虑如何解决这个问题。

“我们一直在向他们询问问题,但这还只是初步问题,”她在新加坡之行中告诉彭博社。到目前为止,这“还不具备监管行动的条件”。

自从英伟达成为人工智能支出热潮的最大受益者以来,监管机构就一直关注着它。它的图形处理单元(简称 GPU)因其能够处理开发 AI 模型所需的大量信息的能力而受到数据中心运营商的青睐。

芯片已成为科技界最热门的商品之一,云计算提供商相互竞争以获取这些芯片。据估计,Nvidia 的 H100 处理器需求旺盛,已帮助他们获得 80% 以上的市场份额,领先于竞争对手英特尔公司和超微半导体公司。

尽管供应紧张,但 Vestager 表示,人工智能芯片供应的二级市场可能有助于激发创新和公平竞争。

但她表示,占主导地位的公司未来可能会面临某些行为限制。

“如果你在市场上拥有这种主导地位,那么有些事情你不能做,而小公司可以做,”她说。“但除此之外,只要你做你的生意并尊重这一点,你就很好。”

6000亿美元的“大难题”

尽管高科技巨头在人工智能基础设施方面投入了大量资金,但人工智能带来的收入增长尚未实现,这表明生态系统的最终用户价值存在巨大差距。事实上, 红杉资本分析师戴维·卡恩( David Cahn)认为,人工智能公司每年必须赚取约 6000 亿美元才能支付其人工智能基础设施(例如数据中心)的费用。

去年,Nvidia 的数据中心硬件收入达到 475 亿美元(其中大部分硬件是用于 AI 和 HPC 应用的计算 GPU)。AWS、Google、Meta、Microsoft等公司在 2023 年为 OpenAI 的 ChatGPT 等应用在其 AI 基础设施上投入了巨额资金。然而,他们能赚回这笔投资吗?David Cahn 认为,这可能意味着我们正在目睹金融泡沫的增长。

按照David Cahn的算法,6000亿美元这个数字,可以通过一些简单的数学运算来得出。

你所要做的就是将 Nvidia 的运行率收入预测乘以 2 倍,以反映 AI 数据中心的总成本(GPU 占总拥有成本的一半,另一半包括能源、建筑物、备用发电机等)。然后你再乘以 2 倍,以反映 GPU 最终用户的 50% 毛利率(例如,从 Azure 或 AWS 或 GCP 购买 AI 计算的初创公司或企业,他们也需要赚钱)。

我们看看,自 2023 年 9 月(在当时,他认为人工智能是2000亿美元难题)以来发生了什么变化?

一、供应短缺已经消退: 2023 年末是 GPU 供应短缺的高峰期。初创公司正在给风险投资公司打电话,给任何愿意与他们交谈的人打电话,寻求帮助以获得 GPU。如今,这种担忧几乎完全消除了。对于我交谈过的大多数人来说,现在以合理的交货时间获得 GPU 相对容易。

二、GPU 库存不断增长: Nvidia 在第四季度报告称,其数据中心收入的一半左右来自大型云提供商。仅微软一家就可能占Nvidia 第四季度收入的约 22%。超大规模资本支出正在达到历史水平。这些投资是大型科技公司 2024 年第一季度收益的主要主题,首席执行官们有效地告诉市场:“无论你喜不喜欢,我们都会投资 GPU。”囤积硬件并不是一个新现象,一旦库存足够大以至于需求下降,就会成为重置的催化剂。

三、OpenAI 仍然占据着 AI 收入的最大份额: The Information 最近报道称,OpenAI 的收入现在为34 亿美元,高于 2023 年底的 16 亿美元。虽然我们已经看到少数初创公司的收入规模达到不到 1 亿美元,但 OpenAI 与其他公司之间的差距仍然很大。除了 ChatGPT,消费者今天真正使用了多少 AI 产品?想想你每月花 15.49 美元从 Netflix 或每月花 11.99 美元从 Spotify 获得多少价值。从长远来看,AI 公司需要为消费者提供巨大的价值,才能继续掏钱。

四、1250 亿美元的缺口现在变成了 5000 亿美元的缺口:在最后的分析中,我慷慨地假设谷歌、微软、苹果和 Meta 每年都能从新的 AI 相关收入中产生 100 亿美元。我还假设甲骨文、字节跳动、阿里巴巴、腾讯、X 和特斯拉每年都有 50 亿美元的新 AI 收入。即使这仍然是正确的,并且我们在名单上再添加几家公司,1250 亿美元的缺口现在也会变成 5000 亿美元的缺口。

这还没完——B100 即将问世: 今年早些时候,Nvidia 宣布推出 B100 芯片,其性能提升了 2.5 倍,而成本仅增加了 25%。我预计这将导致 NVDA 芯片需求的最终激增。与 H100 相比,B100 的成本与性能相比有了显著的改善,而且由于每个人都想在今年晚些时候买到 B100,因此很可能再次出现供应短缺。

在之前提出关于GPU的问题时,David Cahn收到的最主要反驳之一是“GPU 资本支出就像修建铁路”,最终火车会开过来,目的地也会到来——新的农业出口、游乐园、购物中心等。

David Cahn表示,其实他也同意这一点,但他认为这个论调忽略了几点:

一、缺乏定价权:在物理基础设施建设的情况下,您正在建设的基础设施具有一些内在价值。如果您拥有旧金山和洛杉矶之间的轨道,那么您可能拥有某种垄断定价权,因为 A 地和 B 地之间只能铺设这么多轨道。在 GPU 数据中心的情况下,定价权要小得多。GPU 计算正日益成为一种按小时计量的商品。与成为寡头垄断的 CPU 云不同,构建专用 AI 云的新进入者继续涌入市场。在没有垄断或寡头垄断的情况下,高固定成本 + 低边际成本的企业几乎总是会看到价格竞争到边际成本(例如航空公司)。

二、投资浪费:即使是铁路行业,以及许多新技术行业,投机性投资狂潮也常常导致高额的资本浪费。《The Engines that Moves Markets 》是一本关于技术投资的最佳教科书,其主要观点(确实,重点关注铁路行业)是,许多人在投机性技术浪潮中损失惨重。挑选赢家很难,但挑选输家(就铁路行业而言,运河)要容易得多。

三、折旧:从技术发展史中我们得知,半导体趋于越来越好。Nvidia 将继续生产更好的下一代芯片,如 B100。这将导致上一代芯片的折旧速度加快。由于市场低估了 B100 和下一代芯片的改进速度,因此它高估了今天购买的 H100 在 3-4 年后的价值。同样,物理基础设施不存在这种相似性,它不遵循任何“摩尔定律”类型的曲线,因此成本与性能的关系不断改善。

四、赢家与输家:我认为我们需要仔细研究赢家和输家——在基础设施建设过剩的时期,总会有赢家。人工智能很可能是下一波变革性技术浪潮,GPU 计算价格的下降实际上也有利于长期创新,也有利于初创企业。如果David Cahn的预测成真,它将主要对投资者造成伤害。创始人和公司建设者将继续在人工智能领域发展——他们将更有可能取得成功,因为他们将受益于较低的成本和在这一试验期间积累的经验。

五、人工智能将创造巨大的经济价值。专注于为最终用户提供价值的公司创建者将获得丰厚的回报。我们正在经历一场可能定义一代人的技术浪潮。像 Nvidia 这样的公司在推动这一转变方面发挥了重要作用,值得称赞,并且很可能在未来很长一段时间内在生态系统中发挥关键作用。

不过David Cahn也重申,投机狂潮是技术的一部分,所以没什么好害怕的。那些在这一刻保持头脑清醒的人有机会创建极其重要的公司。但我们必须确保不要相信现在已经从硅谷蔓延到全国乃至全世界的妄想。这种妄想认为我们都会快速致富,因为 AGI 明天就会到来,我们都需要储存唯一有价值的资源,那就是 GPU。

“事实上,前面的道路将是漫长的。它会有起有落。但几乎可以肯定,它是值得的。”David Cahn强调。

潜在的挑战者

虽然这是一个谈了很多次,但似乎也有了结果的论调。如Futurum Group 首席执行官丹尼尔·纽曼所说,“目前,世界上没有英伟达的天敌。”

原因如下:Nvidia 的图形处理单元 (GPU) 最初于 1999 年为 PC 视频游戏中的超快 3D 图形而创建,后来被证明非常适合训练大规模生成式 AI 模型,来自 OpenAI、Google、Meta、Anthropic 和 Cohere 等公司推动的模型的规模越来越大,进而需要使用大量 AI 芯片来做训练。多年来,Nvidia 的 GPU 一直被认为是最强大的,也是最抢手的。

这些成本当然不菲:训练顶级生成式 AI 模型需要数万个最高端的 GPU,每个 GPU 的价格为 3 万至 4 万美元。例如,埃隆·马斯克 (Elon Musk)最近表示,他的公司 xAI 的 Grok 3 模型需要在 10 万个 Nvidia 顶级 GPU 上进行训练才能成为“特别的东西”,这将为 Nvidia 带来超过 30 亿美元的芯片收入。

然而,Nvidia 的成功不仅仅是芯片的产物,还有让芯片变得易于使用的软件。Nvidia 的软件生态系统已经成为大量专注于 AI 的开发人员的首选,他们几乎没有动力去转换。在上周的年度股东大会上,Nvidia 首席执行官黄仁勋称该公司的软件平台 CUDA(计算统一设备架构)是一个“良性循环”。随着用户的增多,Nvidia 有能力投入更多资金升级该生态系统,从而吸引更多用户。

相比之下,Nvidia 的半导体竞争对手AMD控制着全球 GPU 市场约 12% 的份额,该公司确实拥有具有竞争力的 GPU,并且正在改进其软件,纽曼说。但是,虽然它可以为不想被 Nvidia 束缚的公司提供另一种选择,但它没有现有的开发者用户群,这些开发者认为 CUDA 易于使用。

此外,虽然亚马逊的 AWS、微软Azure 和谷歌云等大型云服务提供商都生产自己的专有芯片,但他们并不打算取代 Nvidia。相反,他们希望有多种 AI 芯片可供选择,以优化自己的数据中心基础设施,降低价格,并向最广泛的潜在客户群销售他们的云服务。

J. Gold Associates 分析师杰克·戈尔德 (Jack Gold) 解释说:“Nvidia 拥有早期发展势头,当你建立一个快速增长的市场时,其他人很难赶上。”他表示 Nvidia 在创建其他人所没有的独特生态系统方面做得很好。

Wedbush 股票研究高级副总裁 Matt Bryson 补充说,要取代 Nvidia 用于训练大规模 AI 模型的芯片将特别困难,他解释说,目前计算能力的大部分支出都流向了这一领域。“我认为这种动态在未来一段时间内不会发生变化,”他说。

然而,越来越多的人工智能芯片初创公司,包括 Cerebras、SambaNova、Groq 以及最新的 Etched和 Axelera ,都看到了从英伟达人工智能芯片业务中分一杯羹的机会。他们专注于满足人工智能公司的特殊需求,尤其是所谓的“推理”,即通过已经训练过的人工智能模型运行数据,让模型输出信息(例如,ChatGPT 的每个答案都需要推理)。

例如,就在上周,Etched筹集了1.2 亿美元,用于开发一种专门用于运行 transformer 模型的专用芯片Sohu,Transformer 模型是 OpenAI 的 ChatGPT、谷歌的 Gemini 和 Anthropic 的 Claude 使用的一种 AI 模型架构。据介绍,该芯片将由台积电采用其 4nm 工艺生产,该公司表示还已从“顶级供应商”那里获得高带宽内存和服务器供应,但没有透露这些公司的名字。Etched 还声称,Sohu 的速度比 Nvidia 即将推出的 Blackwell GPU“快一个数量级,而且更便宜”,八芯片 Sohu 服务器每秒可处理超过 500,000 个 Llama 70B token。该公司通过推断已发布的 Nvidia H100 服务器 MLperf 基准测试数据做出了这一判断,该基准测试显示,八 GPU 服务器每秒可处理 23,000 个 Llama 70B token。Etched 首席执行官 Uberti在接受采访时表示,一台Sohu服务器将取代 160 块 H100 GPU。

荷兰初创公司 Axelera AI 正在开发用于人工智能应用的芯片,该公司上周宣称也已获得6800万美元美元融资,该公司正在筹集资金以支持其雄心勃勃的增长计划。这家总部位于埃因霍温的公司旨在成为欧洲版的 Nvidia,提供据称比竞争对手节能 10 倍、价格便宜 5 倍的 AI 芯片。Axelera 创新的核心是 Thetis Core 芯片,它在一个周期内可以执行惊人的 260,000 次计算,而普通计算机只能执行 16 次或 32 次计算。这种能力使其非常适合 AI 神经网络计算,主要是矢量矩阵乘法。他们的芯片提供了高性能和可用性,而成本仅为现有市场解决方案的一小部分。这可以使 AI 普及,让更广泛的应用程序和用户能够使用它。

与此同时,据报道,专注于以闪电般的速度运行模型的 Groq 正在以25 亿美元的估值筹集新资金,而 Cerebras据称在发布其最新芯片仅几个月后就秘密提交了首次公开募股申请,该公司声称该芯片可以训练比 GPT-4 或 Gemini 大 10 倍的 AI 模型。

所有这些初创公司一开始都可能专注于一个小市场,比如为某些任务提供更高效、更快或更便宜的芯片。他们也可能更专注于特定行业的专用芯片或个人电脑和智能手机等人工智能设备。“最好的策略是开拓一个小众市场,而不是试图征服世界,而这正是他们大多数人正在尝试做的,”Tirias Research 首席分析师 Jim McGregor 说。

因此,也许更切题的问题是:这些初创公司与云提供商以及 AMD 和英特尔等半导体巨头一起能够占领多少市场份额?这还有待观察,尤其是因为运行 AI 模型或推理的芯片市场仍然很新。

0 阅读:0