UCIe,将Chiplet带向何方?

论半导体谈人生 2024-05-09 21:42:37

UCIe(Universal chiplet interconnect express)是芯片生态系统的开放式行业互连标准,在这个生态系统中,来自多个供应商的芯片可以封装在一起。UCIe 1.0 规范定义了使用标准和先进封装技术与平面互连的互操作性。随着用于芯片三维集成的封装技术的进步,凸点互连间距逐渐缩小,我们在此探讨 UCIe 的发展。

我们报告了针对封装凸点间距小至 1 µm 的连续性的die-to-die解决方案,并提供了电路架构细节和性能结果。我们的分析表明,与传统信号接口的发展趋势相反,随着凸点间距的减小,频率的降低可以实现这些架构最节能的性能。

当凸块间距接近 1 微米时,我们的架构方法可提供接近或超过单片系统设计的功耗、性能和可靠性特性。

多芯片封装集成已广泛应用于商业产品中。例如英特尔的 Sapphire Rapids 和 AMD 的 EPYC 和 Ryzen 等中央处理单元,以及英特尔的 Ponte-Vecchio3和 Nvidia 的 Hopper等通用图形处理单元。这种使用芯片的方法已经应用了几十年 ,这种方法使用芯片--较小的芯片封装在一起后实现了较大芯片的功能--可以满足日益增长的计算需求,并克服先进工艺节点中的芯片微粒限制和良率挑战。先进封装技术的飞速发展使设计人员能够在封装上实现芯片间的互连,并使摩尔定律得以延续。

除了克服reticle limits和良率挑战外,使用封装内芯片还有其他各种令人信服的理由。其中包括降低整体组合成本,重复使用芯片有助于避免因采用先进工艺几何尺寸而激增的知识产权移植成本,同时还能利用与采用更成熟工艺节点相关的低成本优势。

此外,由于可在重复使用旧芯片的同时添加或替换新芯片,从而缩短了设计和验证周期,因此还具有上市时间优势。定制解决方案也是可行的,通过将具有新功能的芯片与现有芯片混合到一个封装中,可以创建系统级封装(SiP)变体。这提供了一种开放的即插即用基础设施,类似于电路板级的 PCI Express和 Compute Express Link(CXL)产品。

UCIe是一种开放式行业标准互连,可在异构芯片组之间提供高带宽、低延迟、高能效和高成本效益的封装内连接(图 1a)。未来三维(3D)封装架构的凸点间距有望低于有机封装的历史最小值(约 90-110 微米)和增强型二维(2D)架构的历史最小值(约 10-55 微米)。该领域的最新工作研究了各种封装选项对一组参考片上系统器件的D2D (die-to-die) 实现的功耗、性能和面积的影响。

图 1:UCIe 1.0 规范应用、物理互连、协议栈和关键指标。

a.异构开放式芯片组封装(就像现在的平台一样)--开放式芯片组生态系统 UCIe 支持不同代工厂的不同功能芯片组在任何组装组织中的混合和匹配。b.UCIe 1.0 支持两种类型的封装:带有标准凸点的标准封装,以及由不同代工厂和外包半导体组装和测试供应商提供的带有微凸点的各种高级封装,如图中所示的 2D 和 2.5D 选项示例。c.UCIe 1.0 规范的分层方法。d.应用 UCIe 的多模块配置。PCIe,外围元件互连快车;AXI,高级可扩展接口;CHI,相干集线器接口;RDI,原始芯片到芯片接口;SoC,片上系统;FDI,飞点感知芯片到芯片接口;Arb,仲裁;mux,多路复用器;EMIB,嵌入式多芯片互连桥;COWOS,基板上芯片;FOCOS,基板上扇出芯片;AFE,模拟前端;FW-CLK,前向时钟。

在本文中,我们考虑了 UCIe 应如何随着新兴先进封装架构中凸块间距的缩小而发展,并报告了一种适用于封装凸块间距小至 1 µm 的 D2D 解决方案。对于我们的方法,我们提供了相应的电路架构细节以及详细的性能分析。我们还考虑了使用我们的方法构建未来 SiP 所需做的工作。

UCIe 1.0 规范概述

UCIe 1.0 定义了两种封装类型(图 1b):标准封装(UCIe-S)和高级封装(UCIe-A)。标准封装用于实现高性价比。高级封装用于实现高能效性能。

UCIe 1.0 是一个分层协议(图 1c)。物理层(PHY)负责电信号、时钟、链路训练、边带、电路结构等。UCIe 支持不同的数据速率、宽度、凹凸间距和信道范围,以确保最广泛可行的互操作性,详见扩展数据表 1。基本单元是一个模块,由 N 个单端、单向、全双工数据通道(UCIe-S 为 N = 16,UCIe-A 为 N = 64)、一个用于验证的单端通道、一个用于跟踪的通道、主频带每个方向的差分转发时钟组成。边带由每个方向的两条单端通道(一条数据通道和一条 800 MHz 转发时钟通道)组成。边带接口用于状态交换,以促进链路训练、寄存器访问和诊断。多个模块(1、2 或 4 个)可以聚合在一起,以提高每个链路的性能(图 1d)。

D2D 适配器(adaptor)负责通过循环冗余检查和链路层重试机制可靠地传输数据。当支持多种协议时,适配器定义底层仲裁机制。当适配器负责可靠传输时,256 字节流量控制单元定义底层传输机制。PCI Express 和 CXL 协议是原生映射协议,因为这些协议已广泛部署在所有计算领域的板卡上。光学 UCIe 芯片可在封装外传输 CXL,以高带宽、低延迟和低功耗的连接方式连接处理和内存元件,从而实现在机架和吊舱级紧密耦合可组合系统的愿景,而这是 2 米铜缆无法实现的。此外,UCIe 还支持作为流协议的其他专有协议。UCIe 还支持用于连接高速串行解串器 (SERDES) 芯片或调制解调器等应用的原始模式。在这种情况下,通过连接原始 D2D 接口,绕过 D2D 适配器传递原始比特,因为主芯片侧的外部互连有一个完整的协议栈。扩展数据 表 1 总结了 UCIe 1.0 的特性和目标性能指标。

UCIe-3D 方法

在当前的应用中,Chiplet 在封装内以横向(2D、2.xD)和纵向(3D)两种方式相互连接。这里的 2D 指的是标准有机封装解决方案,而 2.xD 指的是具有更高密度连接的高级封装解决方案。

本文前面提到的一些计算设备采用 2D 互连6 或 2.xD 横向连接芯片(参考文献 1)。内存设备制造商使用三维互连芯片已有十多年历史。此外,还有 2.xD 和三维结合的例子,结合了横向和纵向互连的优点。

最近的一个主要趋势,特别是三维封装技术,如混合键合(HB),是积极缩小芯片间的凸点间距,从而减少相应的互连距离及其相关的电寄生。随着凸点间距的减小,凸点下的面积也随之减小,给定面积下的导线数量随凸点间距减小的平方而增加。随着导线密度的增加和面积的缩小,应采用与 UCIe 1.0 完全不同的架构方法。正如我们的方法所证明的那样,如果架构正确,具有这种低凸块间距的互连芯片将比大型单片芯片具有更好的延迟和功耗特性,并将提供摩尔定律在过去 50 多年中通过缩小晶体管尺寸所提供的相同优势。

我们建议下一代 UCIe 将继续采用单向设计,同时支持 2.xD 和 3D 连接,以芯片内部频率甚至更低的频率运行。我们将建议的下一代 UCIe 称为 UCIe-3D。与现有的 UCIe 1.0 规范相比,我们的方法将在带宽和能效方面带来数量级的改进。较低的频率和较短的距离使电路更加简单;它们将适合凹凸区域并以较低的功率运行。由于距离短、频率低,这种互联方式的误码率(BER)更低,因此我们建议完全取消 D2D 适配器。

我们的设想是,两个芯片使用多个独立模块连接,每个 UCIe-3D PHY 由片上网络控制器(NoC)直接控制(图 2a)。所有 PHY 的通用功能由芯片中的通用控制块协调,以分摊开销(图 2b)。PHY 采用方形凸块布局,数据与非数据(地址、纠错码 (ECC)、备件等)采用专用子集群。缺陷修复在 NoC 和芯片级进行管理(图 2a-d)。

图 2:使用 UCIe-3D 连接的芯片。

a.使用 UCIe-3D 链接连接的两个芯片。NoC 在芯片内和芯片间路由流量。任何故障(NoC 或 UCIe-3D 链接)都可由其他 NoC 绕过。b.每个 NoC 直接连接到一个或多个 UCIe-3D 加硬物理层模块。加固意味着晶体管的放置和布线都是为了实现便携性和最佳性能、功耗和面积。每个芯片组都有一个连接到一个或多个 NoC 的通用测试、调试、模式生成和检查基础设施(TDPI)。该测试基础设施负责利用 NoC 的路由网络在 UCIe-3D 链路上协调培训、测试和调试。因此,PHY 没有任何配置或状态寄存器。PHY 是方形的,与 NoC 的尺寸相匹配,以最大限度地减少导线的扇入或扇出,从而使导线长度接近 NoC 与 PHY 之间的最小距离,这将有助于最大限度地减少面积、功耗和延迟。c.每个 UCIe-3D 链路由 25 个子集群组成,每个子集群有 16 根导线,共 400 根导线;25 个子集群分别为数据集群(d0-d15)、杂项集群(m0-m4)和备用集群(s0-s3)。一个缺陷(制造、装配或运行时)可能会影响多个相邻的子簇。为了绕过故障,备件的连接方式如下("mux "表示多对一多路复用器):S0:mux{d0, d3, m0, m2, m4, d13, d14},S1:mux{d4, d7, d9, d10},S2:mux{d5, d6, d8, d11},S3:mux{d1, d2, m1, m3, d12, d15}。这种安排确保了对于任何缺陷,附近多达四个子模块都有唯一的备用模块可以使用。使用备用模块需要多路复用数据,这将导致额外的门计数。对于 c 所示的缺陷示例,s0 将携带 d0,s3 将携带 d1,s1 将携带 d4,s2 将携带 d5。d.16 个子集群的另一种实现方式,每个子集群有 20 多条导线,其中 16 条为数据线,其余为杂线(地址、命令、ECC 等)。在这种安排中,NoC 可以选择将链路降级为半宽(即 2:1 复用)。e.基于 UCIe-3D 架构的未来 SiP 系统示意图。EMIB,嵌入式多芯片互连桥;GP-GPU,图形处理单元上的通用计算;AI,人工智能;DSP,数字信号处理;PWR,电源;GND,接地。

UCIe-S 和 UCIe-A 的物理层架构基于前向时钟( forwarded-clock,源同步:source synchronous)、并行输入输出(IO)结构,大部分构件由高速互补金属氧化物半导体电路构成。逻辑接口到 PHY 的典型速度为 2 GHz(参考文献 15)。因此,在 32 GT s-1 工作速度下,逻辑接口与整个封装互连的 PHY 发送器/接收器(TX/RX)工作之间存在 16:1 的串行化和 1:16 的反串行化(SERDES)因子。

当封装互连实际上受到层数和 IO 凸块间距的限制时,以足够高的 SERDES 因子运行至关重要,因为每条封装线都需要传输更多的数据。随着凸点间距的减小,例如从 UCIe-S 的 110 微米减小到 UCIe-A 的 45 微米,D2D 带宽和硅面积带宽密度都实现了大幅提升。对于 UCIe-3D,这种带宽趋势进一步加快,以至于在不需要任何 SERDES 的情况下,以本地 NoC 频率运行 IO 更为高效。

我们建议取消 D2D 适配器,只需让 NoC 直接与 UCIe-3D 电路接口即可。NoC 设计人员将把电源电压电平设置为适当的值,以满足 NoC 逻辑时序的需要。最高效的 UCIe-3D 互连将是能够在与 NoC 相同的电源下运行的 UCIe-3D,以避免任何特殊的电源要求。我们建议采用精简的 D2D 数据路径,该路径仅由 UCIe-3D TX 凸块上的重定时翻转级组成,然后是一个适当大小的反相器驱动器,以满足其自身高达 5 V 的带电器件模型 (CDM) 静电放电 (ESD) 要求(通过寄生二极管),以及通过 HB 连接进入 RX 反相器和其他芯片 ESD 的压摆率要求。

我们预计,随着凸点间距缩小到 3 µm,UCIe-3D PHY 将适应凸点区域,从而达到 0 V CDM 的要求。图 3 和扩展数据表 2 显示了 UCIe PHY 架构从 -S 和 -A 变体到 UCIe-3D 解决方案的演变过程。

图 3:UCIe 的电路架构。

a.分别为 2D 和 2.xD 的 UCIe-S 和 UCIe-A 互联架构。UCIe-A 的组件移除用虚线框表示。UCIe 1.0 PHY 基于 "匹配 "源同步时钟架构,大部分元件由高速 "数字"(即互补金属氧化物半导体开关)电路组成,包括延迟锁定环路、相位内插器、占空比连接器和 TX 驱动器。在低速情况下,RX 实现可以是一个简单的反相器,而在高速情况下则需要一个更灵敏的架构。在高速运行时,UCIe-S 和 UCIe-A PHY 都需要具备常见的高速 PHY 功能,如时钟到数据居中、车道到车道纠偏、TX 驱动器阻抗等。此外,由于 2D 互连通道的传输线性质,UCIe-S 还需要进行 TX 和 RX 均衡,并在 TX 和 RX 焊盘上安装电感线圈,以在更高速度下降低焊盘电容,从而管理符号间干扰。UCIe-A 消除了面积密集型电感器、电阻器和均衡,这对于压缩面积以支持更小的凸点间距范围至关重要。因此,与 UCIe-S 相比,KPI 有了显著提高,包括线性带宽密度提高了 6 倍,面积带宽密度提高了 11 倍,功率提高了 2 倍。b.基于我们的实施方案,UCIe-3D 的物理层架构针对小于 10 微米的凸点间距支持目标范围进行了大幅简化。建议的最大数据传输速率为 4 GT s-1,这应涵盖目前和可预见的未来使用的大多数片上逻辑速度。我们建议在整个物理层采用源同步时钟,并在凸块处采用简单的设置和保持规范,以实现静态定时验证。在 TX 之前,对 NoC 输出数据信号进行重定时的边界翻转可最大限度地减少接收器输出的车道间偏移。数据速率、到 NoC 的距离、工艺和时序将决定接收器输出和 NoC 输入之间是否需要重定时触发器,因此图中所示的重定时触发器跨越了 PHY 边界,并针对具体实现。NoC 时钟源可以位于任一芯片上。我们提出了 0.01 pJ b-1 的目标,以实现等同或优于全单片实现的功能。FIFO,先进先出;CK,时钟;DLL,延迟锁定环;PI,相位插值器;DCC,占空比校正器;Buf,缓冲器;TXCL,发送器时钟;TXD,发送器数据;/N,除以 N;PLL,锁相环;EQ,均衡;T-line,传输线;RC,电阻电容;CLK,时钟;RXCK,接收器时钟;Gen,发生器;Comp,补偿。

UCIe-3D 方法适用于综合和自动布局布线工具,并能适应各种平面图。我们建议在 HB 凸点边界指定时序,并继续采用 UCIe-S 和 UCIe-A 的前向时钟架构,在凸点引脚上建立一套时钟到数据规范。

由于 3D 连接的两侧使用相同的架构,因此只需在连接的两侧排列不同数量的 IO 模块,即可满足非对称带宽需求。TX、RX 和时钟电路是简单的反相器,可创建匹配的数据和时钟路径,在时钟上升沿发送数据,并在相应的时钟下降沿捕获数据。转发时钟源与 NoC 时钟源相同,在两个芯片上共享,以避免与时钟域交叉相关的功耗和延迟问题。

在凸块间距接近 3 微米及以下时,我们预计分数 NoC 频率 (FNF) D2D 交叉可能有利于功率优化。例如,在 1 µm 凸块间距下以 4 GHz 的原生 NoC 频率运行的 D2D 交叉可能比以 2 GHz 的频率运行两倍数量的导线消耗更多的功率。需要将标准环回方案(如近端(芯片内)或远端(D2D 交叉点处))纳入整体数据路径,以便在封装内组装多个芯片之前进行分类测试时检测缺陷。

UCIe-3D 分析

接下来,我们将分析 UCIe-3D 方法的效率,并展示我们在英特尔工艺节点上的实施结果(详情请参见方法)。

随着凸点间距的增大,理论带宽密度可以通过这些公式计算出来:

例如,间距 = 9 µm,凸点密度 = 12,346 个凸点 mm-2,假设数据速率 = 4 GT s-1,理论带宽密度 = 6,173 GB s-1 mm-2。考虑到实际开销、功率和接地凸点,以及六角形凸点图案与方形凸点图案的凸点效率,方程 (2) 变为

在此,假设数据凸块的开销为 ~3%(给定 512 位总线(TX + RX)的 16 个通道),以适应边带、时钟、轨迹和有效信号。2D 和 2.xD 假设采用十六进制模式,而精细间距键合假设采用正方形模式。如前所述,修复在网络和集群层面进行管理。考虑到两个芯片之间的多链路连接,我们估计修复开销为 10%。

相比之下,目前 2.xD 的修复开销约为 3%。即使在凸块间距较小的情况下,公式(5)中的电源接地开销也保持一致。凸点间距越大,最大数据传输率越高,因此需要额外的接地凸点来实现隔离和足够的信号完整性。在间距较小的情况下,每个凸点的电流会因拉伸尺寸而受到限制,因此需要额外的电源和接地凸点来实现稳健的电源传输。

众所周知,随着互连技术的不断发展,对额外电源凸块的需求会逐渐减少,并有助于提高可实现的带宽密度。图 4 中绘制了理论带宽密度、可实现带宽密度和 FNF 带宽密度,其中包含这些开销假设以及 128 µm 至 1 µm 的凸块间距。这些图表显示,9 微米间距时的理论带宽密度与 3 微米间距时的可实现带宽密度或 2 微米时的 FNF 带宽密度相同,这说明了各种开销的影响以及不断改进互连技术以实现更窄凸点间距的必要性。根据上述公式对各点进行曲线拟合,可得出以下公式,用于预测任何凸点间距和实际开销的实际带宽密度:

图 4:带宽密度比较。

a,b,全范围凸点间距(a)和凸点间距 <9 µm(b)的理论、可实现和 FNF 带宽密度与凸点间距的关系。理论带宽密度值采用公式 (2),无开销,并假设每个引脚的最高频率,如 UCIe 规范所述。可实现和 FNF 密度值通过公式 (3) 计算得出。在 a 中,UCIe 规范一直沿用到 25 微米间距(45 微米以下为 32 GT s-1,36 微米为 24 GT s-1,25 微米为 12 GT s-1)。在 b 中,对于 9 微米及以下的凸点间距,所使用的参数如上所述。正如 "方法 "部分所解释的,如果我们将所有凸点间距曲线拟合为一个或两个方程,推论误差可能高达 ×10(一个数量级),如 c 的插图所示。2D 区域几乎是线性的,二次区域的权重很小;2.xD 区域主要是二次区域;而 3D 区域则以幂级数为主。这种方法将各种凸点间距的预测误差限制在 8%以下。

FNF 使我们能够在不超过 SiP 热极限的情况下进一步分解片上系统器件,并有助于关键性能指标 (KPI),包括产品的功耗-性能-面积。在 9 µm 时,最大频率为 4 GT s-1(根据 UCIe-3D 方法),如图 4a、b 所示。然而,通过 FNF,我们将小于 9 µm 至 2 µm 的最大速度限制为 2 GT s-1,1 µm 时为 1 GT s-1。这样,当间距从 9 微米变为 1 微米时,带宽密度仍能增加 ×2,同时还能节省相当大一部分功率,这将在下文的功率部分解释。

等式 (6) 与我们设计的实际实现具有良好的相关性和拟合性,有助于将带宽密度推断到 UCIe-S、UCIe-A 和 UCIe-3D 可以使用的各种间距。在曲线拟合考虑的范围内,已经给出了足够的重叠,以保持 2D、2.xD 和 3D 互联区域之间边界的灵活性。

由于分解沿多条轴线跨越多个切口,D2D 功率的微小变化在系统层面会迅速累加。D2D 链路会使两个芯片之间的时序复杂化,从而增加 IO 和测试的复杂性(如前面章节所述)。如果两个芯片采用完全不同的工艺或材料,甚至采用相同的工艺但在不同的电压下运行,并对性能进行了优化,那么数据路径中的元件总数就会增加。额外的复杂性--包括独立的芯片测试和使用线路修复的缺陷恢复--也会增加数据路径上的元件数量。

除此之外,ESD 还在 D2D 交叉路口上增加了一个显著的元件--电容器。图 5 显示了 D2D 功率与凸点间距(2D、2.xD 和 3D 区域)的函数关系,以及 9 µm 和 3 µm 凸点间距下 UCIe-3D 链路的功率分布。

图 5:功率效率比较。

a,最大运行频率下 D2D 功率与凸块间距的关系曲线;b,9 微米以下间距下 FNF 链路的优势。a 和 b 中的曲线假定 UCIe 规范中规定的最大频率直至某个凸点间距(32 GT s-1 至 45 微米,24 GT s-1 至 36 微米,12 GT s-1 至 25 微米)。在 9 微米处,简化架构在 4 GT s-1 时产生的 D2D 链路总功率为 0.03 pJ b-1。在 1 微米处,4 GT s-1 时的总功率降至 0.015 pJ b-1。在 1 GT s-1 时,使用 FNF 可额外节省 50%的功率;例如,在 1 µm 时,总功率为 0.01 pJ b-1。假设每 512 个全双工数据通道有一个 TDPI,则 UCIe-3D 链路在较小的凸块间距下主要由 TDPI 中的泄漏所主导。通过进一步分解和基于 NoC 的数据路径控制,有机会进一步降低功耗。

c、d,分别为 9 微米(c)和 3 微米(d)UCIe-3D 链路的功率分布示例。发射功率分量由电容主导,几乎保持不变,因为随着凸点间距的缩小,三维凸点寄生电容的缩放可以忽略不计。5 V ESD 增加了总功率的 15-24%,具体取决于间距。对于 30 V CDM,ESD 对 D2D 功率的贡献会更高。未来的 ESD 趋势(预计 CDM 水平将降低30)将有助于减轻这种影响。时钟功率还包括发送到其他芯片所需的转发时钟功率。逻辑功耗是面积的函数,随着间距的缩小,反相器和逻辑的总数也会减少,从而将其功耗份额从 62% 降至 43%。如上所述,由于 TDPI 在间距缩小时几乎保持不变,因此 3 微米处的功率和 9 微米处的部分功率仍以漏电为主。Max.

采用 UCIe-3D(即准单片)架构,延迟加法器可以是芯片两侧的几个触发器,从而使两个芯片在两个不同的工艺或电压下具有最大的灵活性。通过适当的工具开发,还可以使两个芯片的时序趋同,并进一步降低延迟,使其看起来像单片 IO。随着凸点间距的缩小,从控制器到凸点的距离也会缩短,这样我们就能去除级翻转,使 3D 交叉看起来像单片机。

除了降低电路和逻辑延迟外,三维芯片堆叠还具有架构性能优势。与平面布局(单片、2D 或 2.xD 互连)相比,整体跳转延迟降低,带宽提高。图 6 总结了以理想单片芯片(无产量或网纹限制)实现的计算元件与使用 UCIe-3D 连接的芯片的性能对比,两者都使用网状拓扑结构,每跳带宽相同。我们使用理想的单片芯片进行 KPI 性能比较,因为它优于基于 UCIe 1.0 的芯片设计。其他应用(如内存或计算元件与内存的组合)也会出现类似的趋势。

图 6:UCIe-3D 与单片机的功率和性能比较。

a.与单片解决方案相比,UCIe-3D 减少了跳数,缩短了传输距离,从而降低了平均功率。如图 x 轴所示,比较的是四种内核数方案(64、128、256 和 512 内核);条形图中嵌入了物理配置(例如,"8 × 8 "是指平面单片芯片上的 8 × 8 内核阵列,"8 × 8 × 8 "是指使用 UCIe-3D 堆叠的 8 个芯片,每个芯片 8 × 8)。功率值是根据公式(9)、3 毫米距离和公式(10)(0.02 pJ b-1)确定的。如果单片芯片中跳数之间的延迟数或功率数不同,趋势也会相似。b.与单片解决方案相比,UCIe-3D 减少的平均延迟、平均跳数和最大跳数,适用于与 a 中相同的场景。c.左图,与单片解决方案相比,UCIe-3D 增加了额外的垂直链路,从而提高了分段带宽;右图,在 a 和 b 的方案中,减少了平均延迟。d.在 a、b 和 c 方案中,与单片解决方案相比,使用 UCIe-3D 的任何链路的带宽需求分布和最大带宽需求均有所减少。正如预期的那样,我们看到带宽需求分布向中间行、列和垂直链路增加,因为大部分通信都通过这些链路。数字越小,说明分布越合理,从而减少了拥塞。

最后,在可靠性方面,我们使用时间故障(FIT),即 109 小时内的故障次数。理想情况下,芯片组所有 UCIe 链路的 FIT 值都应为 1,这样链路的贡献就只占芯片组典型 FIT 值(100)的极小部分。虽然我们预计芯片组的错误检测和纠正在 UCIe 链路中不会发生变化,但我们忽略了任何形式的 ECC,也忽略了所有链路中的所有通道同时处于活动状态,以获得对 FIT 的悲观估计。我们建议指定误码率为 10-30;这将导致 100 Tb s-1 带宽下的 FIT 为 3.6 × 10-4(方法)。由于每个芯片都有内置的错误检测和纠正逻辑,即使误码率的目标是 10-27 ,这个数字也会低几个数量级,随后的例子就证明了这一点。

结论

我们报告了 UCIe-3D,这是一种利用新兴的先进 3D 封装技术构建 SiP 架构的高效能、低成本方法,其凸点间距不断缩小。与平面实现的 2D 和 2.xD 互连或大型单片机相比,UCIe-3D 具有更低的延迟、更高的分段带宽和更低的带宽需求等卓越性能。

我们的方法可用于创建功能强大的芯片。特别是,UCIe-3D 方法可用于创建多个三维异构计算堆栈--每个堆栈都有自己的本地内存芯片、多个封装上内存堆栈以及外部 I/O 和内存芯片--所有这些都通过现有的 UCIe 1.0 互连进行内部连接。在这种架构中,每个芯片组可以面对面、面对面、背对背或背对背配置与上层或下层芯片组连接。在非面对面连接的情况下,信号需要通过硅孔传输。我们需要进一步探索硅通孔制造和装配技术的发展,这些技术可以根据凸点间距范围进行扩展,并引入可忽略不计的电气寄生,同时将 KPI 保持在当前水平。

在冷却、功率传输和可靠性方面也可能面临更多挑战。新出现的 2.5D 和 3D 封装架构的热需求已经得到强调,与平均值相比,热点峰值功率密度会增加。更多的三维堆叠芯片只会加剧这一问题,并需要更先进的冷却能力。这种架构的功率传输预计也会带来新的问题,可能会更多地依赖背面功率传输等技术。在可靠性方面,需要制定维修策略,同时降低对组装工艺的静电放电保护要求。

最后,电子设计自动化的进步也是必要的。此前已强调过对此类设计自动化能力的需求27,要创建真正的混合与匹配架构,还需要进一步的创新。

0 阅读:4