在刚刚结束的国际消费类电子产品展览会(CES2025)上,英伟达CEO黄仁勋的主题演讲引发了技术界的热议,其展示了晶圆级芯片概念Grace Blackwell NVLink72,并号称是世界上最大的芯片。
黄仁勋在演讲中称,英伟达拥有多种计算网络系统,例如NVLink 36和NVLink 72,能够满足全球几乎所有数据中心的需求,目前在约45家工厂生产。公司的目标是创建一个名为Grace Blackwell NVLink72的巨型芯片,该芯片将使用72个Blackwell GPU,性能超越世界上最快的超级计算机。
图源:NVIDIA官网
Grace Blackwell NVLink72具备将1.5吨重,2英里长铜缆链接的NVL72浓缩于晶圆上的潜力,以进一步提升内存带宽和芯片间互联传输速度。
值得注意的是,这款巨型芯片是一块晶圆级别大小的芯片,相当于36张GB200组合在一起,总共可提供1.4EFLOPS算力,实现1.2PB/s的带宽吞吐。那么英伟达此次推出的晶圆级芯片采取的是一种什么样的技术呢?为什么如此强大?
01什么是晶圆级芯片?
在全球大模型火热与摩尔定律变缓的双重背景下,传统芯片制造工艺逐渐接近物理极限,严重制约了算力的提升空间。面对这一挑战,开发晶圆级芯片成为了一个备受关注的解决方案。
顾名思义,晶圆级芯片通过制造一块不进行切割的晶圆级互连基板,再将设计好的常规裸片在晶圆基板上进行集成与封装,从而获得一整块巨大的芯片。对比传统芯片构成的计算集群,晶圆级计算系统通过先进集成技术获得了芯片级的互连能力。由于舍弃了原本的芯片切割、封装、互连、电缆及光缆连接等步骤,利用晶圆级的技术物理实现,充分发挥了晶圆大规模、高密度和低损耗的特点。
晶圆级芯片通过构建整片晶圆规模的大规模集成电路,打破了传统芯片设计中由光刻口径施加的面积墙限制,对比等效的算力集群,能够显著提高系统集成度,减少互连延迟和功耗。相比于传统的芯片,未经切割的晶圆上电路单元可以更紧密地排列,形成带宽更高、延时更短的互连结构,大幅加速数据传输。晶圆级芯片可以说是目前为止算力节点集成密度最高的一种形态。据测算,其单机柜算力密度能够达到现有 GPU 方案的 200 倍以上。
那么晶圆级芯片和常规芯片的生产流程有哪些区别呢?
在常规芯片生产流程中,一个晶圆在光刻后被切割成许多小裸片(Die)并单独进行封装,每片裸片都单独封装为一颗完整的芯片。而晶圆级芯片则是通过制造一块不进行切割的晶圆级互连基板,再将设计好的常规裸片在晶圆基板上进行集成与封装,从而获得一整块巨大的芯片。对比传统芯片构成的计算集群,晶圆级计算系统通过先进集成技术获得了芯片级的互连能力。在晶圆级芯片中,晶圆与附带组件(例如电源模组和冷却模组)组成一个完整的系统,而不仅仅是单个芯片。
去年台积电公布了其晶圆级计算(集成)技术的突破性进展和量产计划。目前预计SoW(System on Wafer,即晶圆上系统)会极大改变计算系统的发展进程,为大模型和未来的超级计算更大的算力支撑和扩展能力。SoW的量产预告也意味着工业界已经在紧锣密鼓的筹备超越传统GPGPU架构的新计算范式。
在晶圆上系统集成工艺的研发取得突破性进展后,台积电确信,晶圆级设计的使用率不仅会大幅提升,而且人工智能和 HPC 等大趋势将需要更复杂的解决方案:垂直堆叠的晶圆系统设计。
02英伟达押注!AI计算正向SoW发展
国际上对晶圆上系统的研究起步比较早,2020年,台积电发布的InFO_SoW技术成功应用于特斯拉的Dojo系统。2022年,ASE、AMD、Intel、微软、高通、三星、台积电等十大行业巨头宣布成立行业联盟,并制定发布了通用小芯粒互连通道标准规范UCIe。
晶圆级设计通过直接在整片硅晶圆上构建处理器,实现了前所未有的核心间通信速度、性能密度以及能效,然而,其复杂度与成本也相应增加,限制了广泛应用。受限于技术水平,目前只有 Cerebras、特斯拉和英伟达开发了晶圆级芯片。
Cerebras
Cerebras成立于2016 年,是一家位于美国硅谷的AI芯片制造商。其联合创始人及首席执行官是安德鲁·费尔德曼。2019年,Cerebras就发布了第一代WSE(Wafer Scale Engine)芯片。至今该公司已经推出第三代晶圆级芯片。
2024年3月14日,美国加州半导体公司Cerebras Systems宣布第三代晶圆级AI加速芯片“WSE-3”正式面世。这款被业内誉为“规格参数疯狂”的芯片不仅在功耗和价格方面保持了稳定的优势,更是将性能推向了一个新的高度。
图源:Cerebras官网
Cerebras 公司的技术路线是通过修改芯片光刻流程实现的。晶圆光刻过程中在计算 Die 之间加入连接线,让 Die 与 Die 互连进而形成整个晶圆级芯片。
WSE-3在工艺上采用了台积电5nm工艺,晶体管数量达到了惊人的4万亿个,AI核心数量也进一步增加至90万个。缓存容量更是提升到了44GB,为用户提供了更加广阔的数据处理空间。在外部搭配内存方面,用户还可以灵活选择1.5TB、12TB、甚至高达1200TB的内存容量,以满足不同规模的应用需求。尽管在核心数量和缓存容量的增加幅度上并不突出,但WSE-3的性能表现却实现了质的飞跃。其峰值AI算力高达125PFlops,相当于每秒能够完成12.5亿亿次的浮点计算。WSE-3在短短的一天内就能够完成Llama 700亿参数的训练任务。
特斯拉
特斯拉在2021年一场名为“AI Day”的活动上,推出了名为“Dojo”的超级计算机,其功能不仅可以处理海量的视频数据,也可以为特斯拉Autopilot、全自动驾驶系统(FSD)以及人形机器人Optimus提供算力支持。
而Dojo超级计算机系统的核心部件就是D1芯片,这是一款采用台积电7纳米工艺打造的高性能芯片,集成了500亿晶体管,其内部集成了一个处理器核心、一个高带宽内存、一个高速互连器以及高速缓存,其峰值算力为362TFL。
值得注意的是,Tesla Dojo 的晶圆级处理器采用了 Chiplet 路线在晶圆尺寸的基板上集成了 25 颗专有的 D1 芯片。这款晶圆级处理器也是基于台积电 InFO-SoW 技术量产的首款解决方案,与系统级封装 (SiP) 相比,具有低延迟高带宽、高性能、高带宽密度、供电电阻也更低。
特斯拉在一个训练模块中集成了25颗D1芯片,让特斯拉的训练模块峰值算力达到了9PFLOPS,带宽为900GB/s。然后10个训练模块又继续组合成一个算力为900 PFLOPS,带宽90TB/s的系统托盘,并配以相对应的供电冷却联网系统,这个东西被官方称为ExaPOD集群。在经过了一系列的“堆料”操作后,特斯拉就得到了这个由3000颗D1芯片组成的Dojo超级计算机。
英伟达
在近期的CES上,英伟达推出了其历史上造过的最大芯片Grace Blackwell NVLink 72。该芯片主要用于GB200 NVL72(NVIDIA于2024年3月GTC 大会上发布的一套多节点液冷机架级扩展系统,适用于高度计算密集型的工作负载)中。
图源:NVIDIA官网
GB200 NVL72在一个机柜中,封装了36 個 Grace CPU 和 72 個 Blackwell GPU,AI算力高达1.44 EFLOPS。而此前特斯拉自研的Dojo将5 x 5的D1芯片封装成训练块,再将多个训练块封成一个机柜,这个机柜叫ExaPod。
英伟达的Grace Blackwell NVLink 72对特斯拉的自研芯片构成了巨大挑战。根据特斯拉方面的计划,他们本来打算在2023年财年生产4~5万颗D1芯片,逐步替换掉英伟达的算力芯片,其首个ExaPOD也在2023年7月投入了运营。
但此后马斯克突然表示,自研芯片,毫无必要,他说:“如果英伟达能够给我们足够的GPU,也许我们就不需要Dojo,但他们无法满足我们的需求。”一向痴迷于技术创新的马斯克之所以会说这样的话,无非就是他们的自研芯片无法满足需求。
随着台积电工艺的成熟,AI计算正向SoW发展,未来会有越来越多企业加入战局。
03软件定义晶上系统(SDSoW)受关注
现阶段,晶上系统(SoW)正以其独特的魅力引领着全球集成电路产业的变革。早在2019年,邬江兴院士团队就凭借极具前瞻性的眼光原创提出软件定义晶上系统(Software Defined System on Wafer,简称SDSoW)概念。SDSoW是直接用完整的晶圆基板来做系统内部各模块的互连底座,通过在晶圆上采用先进集成技术将计算、存储、互连、I/O等各种芯粒组装实现完整的系统,提供更大范围的资源可配置性,同时系统内各模块之间以及各模块本身的连接支持软件定义。它打破现有集成电路的设计方法、计算范式、实现材料、集成方式等边界条件,相比基于PCB的芯片焊装成组件堆叠出更大系统的工程实现模式,SDSoW系统的带宽、延迟、功耗均可获得大幅增益,整体系统性能可提升3~5个数量级。
SDSoW技术是应对芯片传统工艺微缩难以为继、摩尔定律逐渐失效的新出路,通过晶上拼装集成和软件定义体系结构,不仅可以满足系统技术创新对于领域专用多样化、异质集成功能等方面的需求,而且还摆脱了单一工艺节点维度对提升芯片性能的束缚,通过芯粒的晶圆级组装,可以快速、经济地研制出能够满足未来需求的晶圆级芯片及系统。SDSoW将带动集成电路技术从SoC进入SoW时代,极大地弱化我国集成电路对先进工艺进步的强依赖性,助力我国夺取美国霸权下的集成电路自主发展权。
为加快培育我国晶上系统产业生态体系,软件定义晶上系统技术与产业联盟(简称晶上联盟)积极开展生态服务平台建设,已取得一系列突出成果。2024年6月,在第七届晶上系统生态大会(SDSoW2024)上成立了天津市晶上集成电路产业发展中心以及晶上联盟专家委员会,以指导、推动国内晶上系统技术的发展。同时,大会还发布了《晶上系统硬件制造通用工程技术规范》和《软件定义晶上系统互连接口标准(草案)》,为晶上系统的设计和制造提供了明确的指导和规范。据了解,2025年第八届晶上大会还将会有更多生态成果重磅发布。