英伟达新高!黄仁勋对话ARM首席执行官:我们正试图让AI更快

书竹聊商业 2024-11-07 01:57:47

英伟达(NVIDIA)最新股价飙升至历史新高,市值达到3.53万亿元美元,逼近苹果的3.6万亿美元。

在近期ARM首席执行官雷内·哈斯(Rene Haas)主持的新播客节目中,黄仁勋说,“我们正在努力加快速度。”

这档播客10月9日刚刚推出,英伟达创始人黄仁勋是首位嘉宾。

黄仁勋和哈斯,彼此公司之间都关系密切。在加入ARM之前,哈斯曾在黄仁勋手下工作了七年,担任英伟达计算产品业务总经理。

这里多提一嘴。

当年孙正义领导的软银集团在2016年斥资约330亿美元收购英国芯片设计公司ARM,并在2020年同意出售给英伟达,谈好的价格是400亿美元。

但由于监管方面的挑战,双方在2022年2月放弃了这笔交易。

这个结局后来看真是软银的福音。2023年9月ARM高调上市,如今股价涨了一倍多,已经成为软银在人工智能领域的重要战略。

如今两位芯片高管之间的对话中,这种熟悉感显而易见。

他们谈论着彼此共同的历史,还穿插了一些有启发性的对话。

黄仁勋告诉哈斯,英伟达将超越 GPU,设计整个计算系统,包括网络、交换机、软件和其他芯片,从而提高性能,且无需增加能源和成本要求。

“我们希望降低成本,这样我们就能以与过去相同的成本和响应能力实现这种新型的推理。”

他补充说,人工智能聊天机器人将能够通过数千次思维计算来更彻底地研究想法、推理和反思答案,然后再得出结论。“答案的质量会好得多。”

但与以前相比,黄仁勋更多地谈论软件的力量。这是英伟达的另一个强项,但在光芒万丈的硬件业务之下没有得到太多掌声。

在这次对话中,黄仁勋和雷内·哈斯深入探讨了在推动人工智能和计算行业创新的关键策略和挑战,涵盖了系统设计、芯片进步、能源效率以及如何保持技术架构的长期兼容性等核心议题。

黄仁勋还提到,我们现在正在见证计算机行业的“工业革命”,AI工厂不再像传统计算机那样是一个工具,而是成为了一个24/7运作的“制造工厂”,不断生成智能。

他也坦言,在做出巨大技术突破时会经历痛苦与挣扎。

顺便一说,10月7日,彭博亿万富翁指数最新显示,黄仁勋个人身价达1090亿美元,排名全球富豪榜第13名,这一数字超过了英特尔总市值(965亿美元)。

聪明投资者(ID:Capital-nature)精译分享给大家。

雷内:欢迎来到Tech Unheard,这是一个带你深入了解技术领域最令人兴奋的发展的播客。我是ARM的首席执行官雷内·哈斯。在ARM,我们正在通过业界最强大且高效的计算平台塑造计算的未来,旨在释放AI的全部潜力。

我们的技术处于全球领先公司的创新核心。在这个播客中,我将与一些行业中最聪明的人一起分享见解、故事和对未来的愿景。

今天,我非常荣幸能够与NVIDIA的首席执行官黄仁勋对话,他是一个真正的远见者,我的前老板,也是我的个人导师。

我们将深入探讨他的职业旅程,AI的未来,以及NVIDIA独特的、充满创新和雄心的文化,如何不断推动技术的边界。

我们在NVIDIA位于圣克拉拉的总部坐下来进行了这次对话。

黄仁勋:很高兴你能回来。

雷内:是啊,回到这里感觉真好。看到你很高兴,能回到NVIDIA也很棒。

呃,这栋楼以前不存在。当我多年前在这里工作的时候,这些建筑都还没有呢。现在已经多少年了?

黄仁勋:20年了。我2006年开始在这里工作,2013年离开。

雷内:是啊,20年前。这些建筑都不存在。不过,回来感觉很亲切。感谢你抽出时间。

黄仁勋:感谢你的邀请,很高兴能有你在。

关于组织文化

雷内:现在NVIDIA已经发展得这么大了,我一直很好奇的是,关于招聘方面的事情。NVIDIA的文化非常独特,公司有自己独特的方式做事。

你是如何识别那些能够在NVIDIA成功的人才呢?

黄仁勋:我们并不总是成功做到这一点。看看你就是最好的例子(笑)。

这是一种冒险。我认为面试过程并不是判断一个人是否合适的最佳方式。你知道,大家都可以在面试中展现出自己非常适合的样子。

通过对话你可以构建一个良好的印象。你甚至可以通过看YouTube学习如何面试。

当然,技术性问题也会被分享,大家也会尽可能使面试过程变得严谨和困难。

但这真的很难。我自己的方法通常是回溯查证,我会问前任雇主一些问题,而这些问题我本来是打算问应聘者的。

因为你可以通过准备一个片刻的精彩表现来欺骗自己,但你却无法逃避过去。所以,我认为这种回溯查证是有用的。

我喜欢提出一个深入的问题,看看他们如何进行推理。不过,我认为最终,NVIDIA在很多方面都取得了成功。

你也知道,我们的离职率非常低,公司环境非常多样化,有很多有趣的背景和人。我们公司里的人几乎来自世界各地的顶尖公司,而在这里,他们都变得更加成功。

我认为,创建一家伟大的公司一方面是找到优秀的人才。

另一方面,打造伟大的公司还需要为这些人创造条件,让他们能够比自己预期的做得更好。很多时候,这需要透明地解释NVIDIA的愿景、战略以及我们成功的原因。

你知道,我花了很多时间在做这件事。

雷内:是的,我也注意到你们公司一直以信息透明而著称,特别是在解释我们面临的挑战、机会和我们正在执行的战略方面。信息在公司内部流动得相当顺畅,让每个人都清楚公司正在做什么。

黄仁勋:没错,我总觉得奇怪的是,当公司有太多的“信息孤岛”时,很多决定都只能在“需要知道”的基础上做出。

当然,大家不需要知道所有的事情,但知道得越多,他们就越有能力为公司做出正确的决定。因此,我倾向于在信息透明方面犯错,而不是限制信息。

我也倾向于赋予人们权力。结果是,我们公司虽然规模很大,却像是世界上最小的“大公司”。

我们有大约3万名员工,可能稍微多一点。

他们每天要做上百个决策。如果所有3万名员工,他们在处理这些经常充满模糊性的决策时,都是朝着有利于公司长期发展的方向前进,这样的效果累积起来是非常迅速的。

雷内:有一件事一直让我感到惊讶,那就是你提到的这个点。我不知道这是因为你雇佣了合适的人,还是因为自我选择?高层管理团队非常能够适应不确定性,而你会深入到组织的不同层面,比如去确认什么项目是最重要的。

我很好奇这到底是怎么发生的?是不是因为你在扩大公司规模的同时,你的高层管理团队与你的愿景保持一致,才使得公司发展成了这样?因为我觉得非常了不起的是。

当我在NVIDIA工作时,很多高管完全能够接受你会随时找到合适的人进来解决问题。

黄仁勋:我倒没有问过他们。我之所以这么做,是因为你不需要为显而易见的事情征得许可。

NVIDIA本来就是被设计成一家全栈计算公司,我们的使命是构建GPU、网络芯片和交换机。我们会进行芯片架构和设计,开发系统软件,甚至创建算法和求解器。

那么问题是,你如何在确保所有部分都能协同工作的同时,将它们单独构建?我们解决这个问题的方法是,打破组织的“孤岛”。

我们将组织视为一个地方,领导者可以在这里培养人才,创造成功的条件,为他们提供支持,帮助他们消除障碍等等。

但是,真正的“老板”是任务,它跨越整个公司。因此,它可以跨越系统、芯片、网络芯片、软件和算法,涵盖各种领域。

通过这种方式组织工作,我们还创造了透明性,所有的孤岛变得具有渗透性。当组织具有渗透性时,通常效果更好,因为你有更多的人能够帮助你批评和改善它。

所以,我非常喜欢我们公司的这种“渗透性”。我喜欢所有事情都变得透明,大家都在帮助我把事情做得更好。这不像一切都隐藏在黑暗中。

关于收购与融合

雷内:你差点就收购了我们,那会很有趣,但你们收购了Mellanox。我知道你对此仍感到遗憾。

黄仁勋:我知道你仍为此感到难过。

雷内:我还是很难过。[笑声] 我每天都会哭一会儿

黄仁勋:谢谢。[笑声] 但你们做得很好。

雷内:但你们确实收购了Mellanox,这不仅在战略上是一次出色的收购,从外部来看,它也非常无缝融入了你们公司。正如你提到的,使命优先于一切。

看上去执行得非常顺畅。这个过程是如何实现的?M&A并不容易,收购是非常困难的。

黄仁勋:的确非常难。

首先,Mellanox管理团队中大约有10到12人,现在已经成为NVIDIA以色列管理团队的一部分,并且加入了我们的执行团队(E-staff)。

我们有架构师、研究人员、软件系统开发者,芯片开发者,我们有网络接口卡和交换机,还有MVlink交换机。以前我们只有InfiniBand产品线,但现在我们有了完整的以太网产品线。自我们合并以来,Mellanox的产品组合增长了四倍。

它们整合到了我们所做的每一个方面。

如果你回顾这次收购,最初我们的愿景是,计算单元不再仅仅是GPU。GPU曾经是一个外部设备,事实上,ARM在帮助我们转型为一家构建SoC(片上系统)的公司方面发挥了重要作用。

要知道,SoC基本上就是一个完整的计算机系统,而一个独立的GPU则是在计算机的所有部分启动完后才会启动。CPU先启动,启动ROM,然后是操作系统,最终才是GPU。而在SoC的情况下,你必须自己将整个系统启动起来。

因此,NVIDIA从一家算法公司(本质上GPU公司就是一种算法公司)逐步演变为一家计算公司,这是我们的第一次转型。

最开始做SoC并不容易,但我们现在已经做出了一些很棒的产品。接下来,我们的下一步发展是构建系统,而DGX-1是我们的第一个系统。

事实上,我仍然很喜欢Shield,这是我们的安卓电视计算机,我对它很有感情,因为它是NVIDIA构建的第一个完整的系统。我们创建了这个产品,从中学到了很多东西。

当时我们回头看,觉得Shield确实是我们推出的一个了不起的产品,至今它仍然是最受欢迎的安卓电视盒子。

当时人们还在用它玩PlayStation或Xbox,配上一个显示屏,我们当时就在想,我们该怎么做?

关于DGX-1的诞生

雷内:是啊,Shield至今仍然是我最喜欢的NVIDIA产品之一。

黄仁勋:是啊,我都差点忘了那个时代了。那真是美好的旧时光,那就是一个系统,我从中学到了很多。

即使到了今天,我们仍然在维护它的软件。完全没有想到这个产品会在市场上找到定位。

记得当时团队突然需要去寻找整套组件和物料清单,就像我说的,我们当时真的不知道我们在做什么。

雷内:对,DGX-1,这台改变了一切的计算机,是如何诞生的?

黄仁勋:其实,DGX-1就是一个非常大的Shield。是的,一个非常大的Shield。

对我来说,Shield是塑料做的,而DGX-1重达600磅,这之间的过渡其实并不是什么大问题。真正的问题是,我们现在能够构建完整的系统了。

当我们收购Mellanox时,最大的理念是,计算机不再只是一个节点,而是整个数据中心。数据中心将成为一个计算单元。

如果你不能设计GPU、CPU、网络接口、交换机、所有的传输设备并将它们连接在一起,启动整个系统,从无到有地将所有组件都连接并运行起来,分配工作负载,那么你就无法真正理解如何构建AI超级集群。

而这种转变,这种愿景非常清晰,以至于它在很大程度上激励了两个团队的凝聚。

要想激励团队,你需要有非常清晰的愿景,我们当时确实有一个非常清晰的愿景。而且这个愿景也非常具体,因为你可以看见它,坐在那里,运行在你眼前,那就是超级集群,它包含了两家公司所有的设备。

因此,这个愿景既清晰又鼓舞人心。而作为CEO,你必须能够把抽象的东西变得具体化,然后我们就着手去实现它了。

关于愿景与直觉

雷内:确实,你们做得非常出色。回到愿景这个话题上,我一直告诉别人,Shield是个好例子,早期的CUDA追逐石油和天然气也是个好例子,很多时候这些都是完全出乎意料的事情。

黄仁勋:人们没有意识到这一点。事实上,那是我们的第一次尝试。是的,的确是第一次。

雷内:完全没有预料到什么是终极杀手级应用或最终形态,但你们拥有惊人的韧性,能够在市场还没有准备好,或者定义尚不清晰时,早早就去实验并测试这些想法。

你认为这归因于什么?是出色的直觉吗?还是预见性?

黄仁勋:我们有过很多好的直觉,你知道,在公司成立的这段时间里,大约有十次这样的经历。而NVIDIA的优势在于我们被非凡的人才包围。

这些都是世界上最优秀的计算机科学家、最杰出的战略家和商业人才。他们没有自负,只想做伟大的事情。

所以我认为,首先,我们有优秀的人才;其次,我认为我们在直觉上也很出色。

我们对哪些问题需要解决有很好的直觉,并且知道如何从今天走向我们想成为的公司。因此,我认为我们的直觉在确定前进的每一步方面很出色。

你知道,我们做的很多事情,人们会问,为什么我们要做Shield?这不是浪费时间吗?

而我说,我们有一天会成为一家系统公司,所有这些系统都将连接到云服务。为什么不先去尝试较小的系统?如果我们连这个都做不好,我们肯定无法做更大的系统。

所以我们创造了一种条件,让公司能够学习新技能,即使失败了也不会伤害自己,你懂的。

关于痛苦和煎熬

雷内:这样的事情是不是只有创始人领导的公司才能做到?因为很少有公司像你描述的那样,既有清晰的愿景,也有继续前进的韧性。

最近有很多关于创始人模式和管理者模式的讨论,显然你是创始人,30年后还在领导公司,取得了巨大的成功。你认为这些你所描述的成就是否只能由创始人领导的公司实现呢?

黄仁勋:我不这么认为。我觉得你在ARM的工作做得非常好。当我看到你所做的工作时,我感到非常自豪。

雷内:嗯,我从你身上学到了很多,不仅仅是实话实说。

黄仁勋:是的,我非常喜欢看到你做的工作,它让我感到高兴,带给我极大的快乐和自豪。我不认为这只能由创始人来做。我确实认为你需要具备极大的韧性和毅力。我把它形容为“痛苦和煎熬”,你知道的(笑声)。

雷内:教训时刻。

黄仁勋:是的,痛苦和煎熬就是这种感觉。

雷内:我也感受过。

黄仁勋:在很多方面你必须适应它。你必须习惯于痛苦和煎熬的存在。你知道,成功的旅程并不是一个接一个的成就。并不是那样的。

会有巨大的挫折,有时还有尴尬的时刻,尤其是当你作为 CEO 时,你还没有经历过这些。但...

雷内:它会发生的。

黄仁勋:我希望它会发生,因为对你来说那将是有益的。但你知道,所有这些时刻,我不知道我学到了什么,但它让我变得更强大。我知道我能够生存下来。

我当时不喜欢这种感觉,但回顾这些时刻,那正是你成长的时候。

雷内:正是这些时刻让你成长。

黄仁勋:没错。这些时刻是你最为自豪的时刻。你为自己感到骄傲,为公司感到骄傲,因为你度过了那些困难。所以,我认为我们的公司之所以强大,是因为我们有许多这样的故事。公司里充满了一个又一个挫折的故事。

大多数人会觉得,“哦,这次的困难远不及那次”,每次遇到问题时,总有人说,“这算不了什么”。这使公司能够在挑战时期继续前行。

关于变革的未来

雷内:你和我在这个行业中大致同时开始,有些与AI相关的事情,让我觉得这些转变是我从未想到的。

我曾认为未来的几代人才能够体验这种变革的速度,眼前发生的一切简直难以置信。就像进入了“终极边疆”一样,不知未来还能有什么超越我们现在在人工智能领域看到的变化。

你对此怎么看?我们是否正在经历史无前例的行业变革?还有什么比这更进一步的吗?我们现在看到的简直不可思议。

黄仁勋:我想我一直期待计算机能够表现出智能行为。我们能够编写出如此优秀的软件,我原以为我们会通过编写算法来解决问题,让计算机看起来非常智能。

但我从未想过这会导致一场工业革命。

我所说的是,你听我说过很多次的——这是计算机行业第一次超越了传统的计算机行业。我们不再只是工具,不再只是一个仪器。我们现在是一家制造业公司。

我意思是,比如现在我们正在交谈的时候,我们的手机在口袋里,没在使用。当我不使用它时,它什么也没做。而大多数计算机也是这样。我的笔记本电脑也在办公室里闲置,大多数人的计算机也是这样。你需要工具时才会使用它。

然而,现在的这个新的AI工厂产业,正在全天候运行,不管你是否在使用它,它们都在生产数据,它们在摄取数据,生成数据,产生智能。

智能正在大规模生产。而以前计算机是工具、仪器,现在它成了工厂,成了一种生产设备,能够以极大规模生产非常有价值的东西。

这是我们行业从未有过的全新时代。计算机现在成了制造工具,成了这种叫做智能令牌的机器背后的机械设备,这是一个非凡的想法。

我们正处于一场新的工业革命的开端。

雷内:它的发展速度比你预想的还要快吗?你参与了AlexNet 和 DGX-1的所有相关工作,亲眼见证了创新的速度。

就我所在的ARM 来看,自从我接管以来,我们深入研究AI发展,它的发展速度比我两年半前想象的要快得多,甚至比我一年前想象的还要快。

你参与了这一切,它的发展速度是否也超出了你的想象?

黄仁勋:不,我们正试图让它更快。

我们已经进入了一年一周期的循环。因为我们现在不仅仅是在制造芯片,我们知道芯片进展的速度已经不如以前了,如果你幸运的话,新工艺节点可能提高几个百分点的性能。这已经非常了不起了。

那么我们如何通过每一代产品实现成倍的性能提升呢?

我们的方法是每个系统设计6到7个新的芯片,然后我们通过协同设计重新发明整个系统,发明新的东西,比如NVLink 交换机,以及允许我们通过整个系统的背板传输铜线,将所有GPU连接在非常大的封装和3D封装中。

我们正在使用各种技术来实现这一目标。

结果是我们每年能够在相同的能耗和成本下实现2到3倍的性能提升。这也是将AI成本每年降低2到3倍的另一种方式。

它的进展速度远超摩尔定律。所以你将这种进展复利化,五六年、十年后,我们能够实现智能成本的巨大降低。

我们之所以这样做,是因为我们认为现在是大家都认识到这一技术价值的时机。如果我们能够极大地降低成本,那么我们就可以在推理阶段做一些新的事情,比如推理的方式。

ChatGPT是一项了不起的服务,我每天都在用它,今天早上我还用了。你点击回车,你的提示就会被加载,随后它生成输出结果。

但在未来,它会反复推理这个答案,可能会生成一个树状搜索,或者它会做某种迭代,并反思它自己的答案,最终生成输出。它可能已经进行了数百次,甚至数千次推理,但答案的质量会好得多。

我们想降低成本,以便能够以过去相同的成本和响应速度提供这种新的推理方式。

关于软件的重要性

雷内:我看过一个OpenAI模型的演示,它做推理的过程真是令人震惊。它会经过一个逻辑树,你可以看到它在做出与人类非常相似的权衡决策,但速度完全不像人类那样。

正如你所说的那样,你正在以一个产业从未见过的速度引入完整的数据集和基础设施。CPU通常每两到三年购买一次,最终贬值。而现在,你们每年都在构建新的系统。人们想要尽快付钱并部署这些系统。

黄仁勋:现在我们在讨论时,说起来很容易,但你知道,我们每年都在交付像这个房间大小的新计算机。所有的电缆、网络、交换机、软件,这真的很疯狂。

雷内:你怎么看?我并不是要你做未来预测,但这更多是一个关于技术吸收的问题。它能以当前的速度继续下去吗?

黄仁勋:是的,我认为可以。但这必须以系统化的方式进行,意思是我们做的一切都是有架构性的方法。

这意味着你为昨天的集群开发的软件,比如Hoppers,这些软件可以在Blackwell上运行,而这些软件也会在Rubin上运行。你为Rubin开发的软件同样可以在Hoppers上运行。

这种架构兼容性非常重要,因为行业在软件上的投资远比硬件大上千倍,更不用说软件是永不消亡的。

所以如果你开发了软件,或者发布了软件,你就必须维护它,直到永远。

因此CUDA的理念不是因为有数百万人在为它编程,而是有几亿块与之兼容的GPU。

雷内:软件不会死。

黄仁勋:是的。因此,无论你在一块GPU上进行的投资,都会在其他GPU上继续使用。而且你今天编写的所有软件,明天会变得更好。我们将来编写的所有软件都将在现有的安装基础上运行。

所以首先,我们必须在架构上非常有纪律性;其次,即使在系统层面,我们现在也非常有架构性。

我们会改变某些技术的部分来推动系统设计的进步,而不需要放弃你昨天所做的一切。

举个例子,当我们第一次进入数据中心业务时,超大规模数据中心的电源分配大约是每机架12千瓦,而Blackwell的电源分配是每机架120千瓦。它的密度是前者的10倍。当然,它的密度提高了10倍,压缩了数百万美元的服务器,集中到一个机架中。

因此,节能、节省空间的效果简直令人难以置信。

雷内:这与我们的故事非常相似。你知道,ARM架构已经存在了30年,我们有几十年历史的软件,人们有时不总能理解这一点。

黄仁勋:我们关心每一块ARM芯片上的所有工作。前几天有人做了一些基准测试,结果显示Grace的性能每瓦能量消耗是世界上最好的CPU的四倍。

能效至关重要,这就是一切。

关于更多使命

雷内:当你从500兆瓦的数据中心转向5000兆瓦的数据中心时,你是否看到任何架构上的问题开始出现?仅仅从网络延迟等方面来看,而不涉及专有内容,你从高层物理角度是否开始看到一些问题?

黄仁勋:一切都会出问题,物理规律是无法违背的,这就是问题所在,但一切都是先出问题。

当然,我们正在以非常快速的速度在功率密度曲线上向上移动,呈指数增长。从12千瓦到40千瓦,再到120千瓦、200千瓦,这个数字还会更高。

我们正尽可能压缩和密集计算。当我们这样做时,液体冷却变得更加高效,我们可以更长时间使用铜。

尽可能长时间使用铜导电是好的,这样你就不必从电信号转换到光信号。

我们最终将不得不转向光信号,但我们会尽可能地使用电信号。

因此,尽可能多的数据中心,我们的方案更具成本效益、更节能、更可靠。这导致我们需要进行密集化。

密集化的另一个好处是,特定机架或相邻机架中的所有GPU可以作为一个巨型GPU工作。这真的很令人惊叹。

雷内:太惊人了!

我一直很好奇的一件事是,你在Computex上做的主题演讲。我记得当时我在周日晚上看了你演讲的内容,你所涉及的内容量不仅令人难以置信,而且作为一个做主题演讲的人,看到你如此深入的讲解,我真的很佩服你是如何做到的。你是不是进行了大量的排练?

记得我们一起工作的时候,我记得有时在前一天晚上你还在修改,但你还是成功了。不过现在你所涉及的深度,尤其是当谈到数据中心架构时,你已经扩展了很多。你是如何准备这些的?

黄仁勋:其实,我们每天都在准备。你知道,这就是我们工作的好处,我们不是演员。[笑]

所以这算是我们的工作。我们每天都在准备。

但坦率地说,你我所做的很多事情其实是教学。为了塑造一个行业、市场,并引入我们正在尝试的新想法,很多工作是教学,你知道,这不是广告。

我们是一家平台公司,意味着我们无法单独完成我们的工作,需要其他人和我们一起。因此,我们专注于教学、启发、展示,也许是演示,并且希望一步一步地让越来越多的人相信CUDA,最初是这样,如今是NVIDIA加速计算,并一起参与我们的AI之旅。

现在我们正在努力的下一个大项目是物理AI,如何教会AI遵循物理法则,同时也理解这些物理法则。

所以我认为这个旅程相当漫长,所以,GTC和Computex是我们做这些事情的机会,来庆祝我们的生态系统和他们所做的工作,教导他们,我们正在启发下一步。

雷内:其实很相似,我们会进行QBU演示,我会做演示。负责的工作人员会说,哇,这些幻灯片太简单了。这大概就是你整天所说的内容。我在想,那有什么不同呢?

黄仁勋:这依然是困难的,老实说,因为我们没有排练。所以,这并不是因为我们选择不排练。在我们把所有材料准备好之前,根本没有时间进行排练。所以我们只是抓紧时间、全力以赴。

雷内:谢谢你,Jenson。

黄仁勋:很高兴见到你。干得好。你所做的一切我都为你感到骄傲。

0 阅读:0