当前位置:首页|资讯

J.P Fricker解构Blackwell GPU延迟

作者:视频转录总结发布时间:2024-10-05

视频来源

bilibili: https://www.bilibili.com/video/BV1bBtWeVE7o

大纲

  • 介绍

    • 王詹姆斯介绍了自己和J.P.弗里克,讨论了由于复杂的中间层导致的NVIDIA Blackwell GPU的延迟。

    • 詹姆斯邀请J.P.讨论中间层问题及其影响。

  • 理解中间层

    • J.P.解释说他对中间层问题并不感到惊讶,因为这是一个具有挑战性的问题。

    • J.P.详细解释了中间层的制造过程及其在GPU封装中的作用。

  • GPU封装设计

    • J.P.描述了GPU封装的布局,突出了逻辑和内存芯片的放置。

    • 讨论了先前GPU设计与新Blackwell设计之间的差异,特别是对更多互连的需求。

  • 中间层的挑战

    • J.P.解释了在中间层上对齐多个芯片的复杂性以及热膨胀问题。

    • 讨论了保持精度的困难以及在大规模生产中可能导致组件翘曲和断裂的潜在问题。

  • Cerebras系统设计

    • J.P.讨论了Cerebras如何全面解决这个问题,目标是更大的芯片并探索重新组装芯片。

    • 意识到扩大规模会指数级增加挑战,从而导致不同的设计方法。

  • 晶圆级集成

    • J.P.解释了使用大块硅片(晶圆)而不将其切割成单独芯片的概念。

    • 这种方法的好处,包括更高的带宽、更低的延迟和更好的内存分布。

  • Cerebras设计的优势

    • J.P.强调了Cerebras系统的简单性,与传统GPU设计相比,部件更少,组装步骤更少。

    • 讨论了晶圆级集成的优势,包括更好的热管理和更少的对齐问题。

  • 结论

    • 詹姆斯和J.P.反思了Cerebras设计的远见以及它如何解决传统GPU架构面临的挑战。

    • J.P.强调了考虑未来可扩展性和更集成方法的好处的重要性。

总结

一句话总结

讨论强调了NVIDIA因复杂的中间层问题而面临Blackwell GPU延迟的挑战,并将其与Cerebras的晶圆级引擎设计进行了对比,后者简化了封装和连接。

要点

  1. 中间层复杂性:NVIDIA的Blackwell GPU因在大中间层上集成多个逻辑芯片和内存的难度而面临延迟。

  2. 材料和尺寸问题:热膨胀差异和中间层的尺寸导致了对齐和连接问题。

  3. Cerebras的设计理念:Cerebras选择了晶圆级引擎方法,将逻辑和内存集成在一个大型芯片上,以避免中间层问题。

  4. 可扩展性和良率:Cerebras的设计能够容忍缺陷并更好地扩展,而NVIDIA的方法随着更多芯片的增加变得指数级复杂。

  5. 热管理:Cerebras的晶圆级引擎通过单一的平面硅片简化了热管理,与NVIDIA的多芯片方法不同。

  6. 面向未来:Cerebras的设计预见了大规模AI模型的需求,提供更高的内存带宽和更低的延迟。

深入问答

  1. NVIDIA的Blackwell GPU的主要问题是什么?

    • 主要问题是集成多个逻辑芯片和内存到大中间层的复杂性,导致对齐和热膨胀问题。

  2. Cerebras的晶圆级引擎与传统GPU设计有何不同?

    • Cerebras将逻辑和内存集成在一个大型芯片上,避免了复杂的中间层需求,简化了连接和热管理。

  3. 为什么对齐在多芯片设计中是一个重大挑战?

    • 对齐需要精确匹配非常小的组件(10-50微米),随着更大基板和更多芯片的增加,难度呈指数级增长。

  4. 多芯片设计中的热管理挑战是什么?

    • 不同材料在不同温度下膨胀和收缩率不同,导致弯曲和潜在的连接及焊点失效。

  5. Cerebras的设计如何处理缺陷和可扩展性?

    • Cerebras的设计能够容忍缺陷并通过在大表面上分布内存来更好地扩展,实现高带宽和低延迟。

关键词标签

  • 中间层

  • 晶圆级引擎

  • 热膨胀

  • 连接性

  • 封装

目标受众

  1. 半导体设计领域的工程师和研究人员:理解芯片设计中的复杂性和创新。

  2. AI和机器学习从业者:了解支持大规模AI模型的硬件。

  3. 科技公司投资者:评估Cerebras等公司的技术进步和潜力。

  4. 电气工程专业的学生和学者:学习前沿芯片设计和制造挑战。

  5. 科技爱好者和行业分析师:了解GPU和AI硬件的最新发展。

术语解释

  1. 中间层:位于芯片和印刷电路板之间的基板,用于在多个芯片之间创建连接。

  2. 晶圆级引擎:一种设计方法,其中逻辑和内存集成在一个大型芯片上,避免了复杂的中间层需求。

  3. 热膨胀系数(CTE):衡量材料随温度变化膨胀或收缩程度的指标。

  4. 高带宽内存(HBM):一种设计用于高带宽的内存,常用于GPU。

  5. 光刻工艺:半导体制造中用于在晶圆上创建图案的技术,对构建集成电路至关重要。

讲座回顾


大家好,我是James Wang,Cerebras的产品营销总监。今天,我邀请到了J.P. Fricker,他是Cerebras的首席系统架构师兼联合创始人。我们在新闻中看到NVIDIA的Blackwell GPU被推迟了,似乎与集成GPU和内存所需的复杂中介层有关。我认为与J.P.讨论这个问题会很有趣,因为他设计了我们整个系统架构。 J.P.,你对这个中介层问题感到惊讶吗?


J.P. 不,我并不惊讶。实际上,我对此相当预期。在非常大的中介层上放置大型处理器是一个非常棘手的问题。但或许我们应该更仔细地研究一下,以了解中介层是如何制造的。


所以这里我们有一个GPU封装的平面图。 在这种情况下,你可以看到在处理器的核心有两个逻辑芯片,周围环绕着多个内存芯片。


这是一个典型的针对大型处理器的封装方案。然而,之前只有一个GPU。正确。 Blackwell是首个拥有多个逻辑单元的处理器。正确。 所以之前,想象一下那些内存设备更靠近主芯片,封装尺寸也小得多,几乎只有一半大小。哦,哇。好的。 当你构建这种结构时,实际上你需要从三维角度或横截面视角来考虑它。所以在系统层面,你的服务器内部有印刷电路板。在这些印刷电路板上,你需要放置一些处理器。人们所做的是将制造在晶圆上的各种硅芯片放置在封装基板上。


所以这里有一个这样的基板的例子。 这是中介层。当你有多个芯片时,基板被称为中介层。这主要是因为它位于芯片和印刷电路板之间,形成了一个基板。


有时为了在这些芯片之间建立连接,你会使用一个中介层,即位于中间的某种东西。因此,有时他们会在封装上放置一个硅中介层,然后再放在印刷电路板上。有时它们会像这里展示的那样直接堆叠。所以让我们简化一下,就说这是一个硅中介层,你需要在多个芯片之间进行互连。因此,HBM和芯片之间的连接性。

现在,Blackwell代与H100相比,在这一层有什么不同?这是不同的。你现在需要在这些逻辑芯片之间进行大量互连。因此,以前只是逻辑到内存,现在则是逻辑与逻辑之间。是的。所以你需要大量的互连。而且因为你现在需要更大的基板,而这些基板相当昂贵,人们决定,嗯,为什么我们不只用硅来处理超高密度部分呢?


与其将整个中介层作为一块硅片使用,我们为什么不将其用作硅器件呢? 硅器件之所以有益,是因为你可以在其上创建极细的导线。


现在,基材变成了夹在玻璃纤维层之间的有机材料组合,堆叠着各种有机材料和这些桥梁。


这是硅的部分。 好的。所以我们现在有两种成分了。听起来都没问题。会有什么问题呢?嗯,你需要非常仔细地对齐这些部件,以便它们能够与这些芯片底部和这些内存底部的引脚匹配或对齐。所以你可以想象,当你想要对齐这些桥时,你需要先在基板上对齐这些桥,然后再把芯片放在上面。这是一种技术。我相信这不是这里使用的技术。他们可能会反过来做,即先把芯片放在某个地方,然后在第一个芯片上组装桥。但在整个过程中,一切都可以移动,对吧?所以在制造过程中,仅仅是放置,保持它在正确的位置,并确保在组装过程中没有任何移动,是非常棘手的。而且,当在这个维度内可能还可以管理时,一旦你变得更大,首先你有更多的部件需要组装。但你还需要在更长的距离上保持相同的精度。

我们说的是什么样的尺度,我们需要在这些组件上进行对齐? 因此,通常情况下,这些互连的间距是10到50微米。这是典型的尺度。HBM(高带宽内存)每一代都在变得越来越小。精确对齐变成了对齐的噩梦。好的,我听到对齐是问题的一部分。我也听到热膨胀差异是问题的一部分。那里发生了什么?所以当你有硅时,这些组件是由硅制成的。


这是由有机材料制成的。 这些桥梁也是由硅制成的。这一个是由印刷电路板制成的。


它们的线性热膨胀系数大约为每摄氏度或开尔文10ppm。 硅本身的CTE约为每摄氏度或开尔文2.6ppm。热膨胀存在差异。 因此,当他们最初在大块硅中介层上创建这种封装结构时,逻辑芯片、存储芯片和硅中介层的CTE是匹配的。这是在H100上进行的。


然后你继续使用一种更高级的技术,涉及使用桥接。 在这种情况下,你将硅中介层与另一种材料结合。在组装过程中,甚至在组装后,缓解热膨胀差异变得更加具有挑战性。这是因为,即使在组装后,材料也会根据温度以不同的速率膨胀和收缩。因此,有时可能会开始弯曲,并且弯曲程度可能会有所不同。


弓?是像曲线吗?它弯曲了。 哦,我明白了。听起来不太好。所以当你开始弯曲这个东西时,你可以想象所有原本应该连接这两者的微小接触点,它们开始断裂。哇。所以,而且很难维持这一点。 需要进行大量的测试,并且需要很长时间来验证它是否工作良好。我明白了。

也许在这里他们没有进行足够的测试,或者他们可能对某些扩展技术感到意外,尤其是在生产环境中。你可以很容易地制作原型,但当你扩大规模时,制造过程必须调整为大规模生产,这变得更加困难。这似乎是问题所在。


在体积较大的情况下,这些组件容易发生变形和断裂。这种组装技术,即将多种不同的材料和节点组合成一个单一的封装,似乎是一场噩梦。


所以,有两个方面,对吧?一个是物质差异,这是问题的成因之一,另一个是尺寸。没错,因为它变大了。这是它首次显著变大。对,对。因为这是逻辑对逻辑的。


现在,当你设计Cerebras系统时,你考虑了所有这些因素,并最终做出了一个非常不同的设计决策。你能为我们详细讲解一下吗?是的。


因此,当我们创立公司时,我们设想从整体上解决这个问题。 我们很快意识到需要更多的逻辑和内存靠近逻辑。因此,我们瞄准了更大的芯片。我们还探索了重新组装芯片的技术。


但很快,我们意识到,当我们扩展到更大数量时,面对一个或两个芯片的问题将会严重得多。我明白了。所以即使你解决了两个芯片的问题,一旦你扩展到四个或八个,你的限制会非常快地显现出来。 实际上,随着你想要构建的规模扩大,挑战会呈指数级增长。对。我们当时认为,即使在几年内,优化流程以实现这一目标也可能无法实现。 那大约是在2017年?2016年我们创立了公司,所以我花了大约半年时间研究各种技术,然后又花了大约三个月进一步研究产量模型,以了解我们如何才能实现这一目标。好的。


而且很快,我们意识到,尺寸的组合、各种材料、以及为不同组件提供的众多合作伙伴,再加上过程中的许多步骤,很可能不会产生预期的结果。 步骤太多,部件太多,合作伙伴也太多,无法有效地结合起来。因此,我们决定简化流程,探索替代方法。

让我们来梳理一下。 我们寻求的是一大块硅片。


晶圆的直径大约为 300毫米。这个直径是标准晶圆尺寸。在晶圆上,人们通常会构建一个重复的芯片图案。NVIDIA也遵循同样的流程。大家基本上都这么做。不过,人们通常会对每个芯片进行单独测试。一旦确定哪些是好的,哪些是缺陷的,他们就会标记出缺陷的芯片。然后他们切割晶圆,将其分割成芯片,只保留好的芯片。缺陷的芯片则被丢弃。接着,他们将好的芯片封装到基板上,这就变成了那些芯片之一。没错。当需要更多硅片时,NVIDIA决定在一个基板上放置两个芯片。我们发现,与其切割晶圆,不如容忍一些缺陷可能是可行的。


没有人能制造出完全没有缺陷的晶圆。所以想象一下,你的晶圆上到处都是缺陷。每个人都在设计有缺陷的芯片。比如,SRAM可以设计成具有一定的冗余度,从而能够应对缺陷。但如果你的整个逻辑设计都能处理缺陷,那么你实际上可以生产出整个晶圆。如果你拥有整个晶圆,为什么不在一个光罩区域内,实际上创建一个将逻辑和内存紧密结合在一起的核心呢?



这解决了困扰微处理器行业数十年的内存带宽壁垒问题。 这两个组件如此接近,使得它们之间的连线非常短,远短于通常使用的连线。这导致电容非常小,因此通信所需的能量非常低。


而且,你将内存分布在一个更大的表面上,这使得你能够更好地服务于给定光罩或大块硅片内的各个核心。


在这里,中间的核心需要遍历并一直到达边缘以检索信息并返回


我明白了。所以访问内存时存在显著的延迟,而在这里,你不会遇到这种延迟。你拥有高带宽和极低的延迟。 是的。


实际上,其他所有架构都将内存和逻辑分开。 我们将其合并为一个整体,因为我们能够大规模生产。


正确。我们还把这个核心做得非常小。 这种几何结构使我们能够在晶圆的每个维度(x和y维度)中放置大约一千个核心,从而使我们能够获得一百万个核心。如果在一百万个核心中,有少数几个不能工作,这不会产生重大影响。 如果你的GPU中有几个核心失效,也没关系。


但如果你有数百个核心已经失效,而且由于这里的核心比我们的核心更大,可能相对较小,如果你遇到故障,这个核心需要应对许多对我们来说可能只是一个核心缺陷的故障。


而且我们可以制作这个核心,如果它有缺陷,我们可以将其抽象化,从阵列中移除它,逻辑上移除它,并将其抽象到上层软件。 然后软件可以将整个晶圆视为完美的晶圆。这太棒了。


让我们回到这个话题。这种架构如何避免与封装问题相关的一些复杂性和陷阱? 首先,连接性。通过这些小核心,你现在可以在一个晶圆上非常紧密地互连许多核心,也可以跨晶圆互连。用于制造跨晶圆互连线的光刻工艺与用于制造给定芯片内互连线的工艺相同。这与中介层不同,中介层不需要桥接。


在这里,你需要一座桥来连接一个芯片到下一个芯片。 要从这个芯片到那个芯片,因为它们没有被切割。我可以使用完全相同的材料。这是一种原生连接。 这是一种原生连接。它是通过光学曝光构建的,而不是通过需要重新对准的物理部件放置。


这里,我不需要重新对齐。 我明白了。这些都是一体的,就像把东西插进墙里一样。没错。现在,我在各个光栅之间有大量的带宽,相当于在一个光栅内跨不同部分的带宽。


这是其中一个方面。 另一个方面是包装。这要简单得多。包装所需的零件数量减少了。我没有那么多零件。


我没有很多组装步骤来把它重新组装起来。我只有一块晶圆,我们称之为晶圆级引擎。一块晶圆,一块印刷电路板,和一个冷板。在这种情况下,他们需要更多,对吧?


你需要基板。 你需要将这个基板焊接到PCB上。你需要将这些不同的芯片焊接到基板上。你需要硅桥中介层来建立连接。因此,涉及许多合作伙伴和组装流程。


我明白了。如果你将这称为小芯片方法,那么随着我们在人工智能领域的进步,它对内存和带宽的需求增加,小芯片方法的复杂性似乎会变得越来越大,几乎是指数级增长。 这个过程变得更加复杂。容差要求也更加严格。相比之下,我们保持单一、统一的芯片,具有一致的容差。没错。因此,我们缓解了所有这些挑战。完全缓解了。这很有趣。我记得2019年首次宣布晶圆级引擎时,它非常优雅,但优势仍然有些抽象。


因为在GPU方面,他们当时还没有遇到这些问题。 设计仍然较为简单。他们还没有使用中介层等技术。没错。但现在,五年过去了,这种方法似乎已经达到了极限。而晶圆级集成的优势则更加明显。 因此,如果这看起来很困难,而且我们有证据表明NVIDIA实现它也很困难,我们实际上已经做到了。


50?那是很多年前的事了,对吧?到51年,对吧?这就像50倍的大小。我们用一种更简单的方法解决了这个问题。一种更具弹性的方法。在封装层面,我们有类似的组件,但数量更少,对制造过程中的对准敏感度更低,等等。 例如,我们的晶圆级引擎仍然需要在冷板之间冷却,并且仍然需要从印刷电路板供电。与GPU所需的一样。然而,我们的晶圆级引擎非常平整。它是一块非常非常平整的硅片,可以很容易地与同样非常平整的冷板对接。 我们可以使用均匀的热界面材料,使晶圆与冷板之间实现热连接。


在GPU或任何类似的重构处理器上,你可能会有各种高度不同的芯片。最重要的是,它们可能具有不同的功耗和不同的热膨胀系数,这导致它们在高度上略有不同。 因此,你需要一种具有垂直顺应性的导热界面材料。

另一个问题是这里的有机材料和需要粘合在其上的硅材料之间的热膨胀系数(CTE)。


整个结构的膨胀和收缩速率与实际冷板的速率不同。如果冷板由铜制成,其热膨胀系数(CTE)约为每摄氏度17百万分之一。 因此,我们有17、10、2.6以及其他各种材料,它们以不同的速率收缩和膨胀。


印刷电路板大部分与铜相同,其热膨胀系数为每摄氏度17 ppm。

因此,他们通过使用具有中间热膨胀系数的焊料接头来缓解CTE不匹配问题,然后尝试通过刚性和半刚性连接来进一步缓解这一问题,无论是在热学还是电学方面。我们不需要这样做。

![](https://readlecture-1257176257.cos.ap-guangzhou.myqcloud.com/img/20241005/BV1bBtWeVE7o/1eb3d81c-1330-4433-b22b-e29821294fb7.jpg)




我们使用了一种**导热界面材料**,它实际上是可以滑动的。从一开始,我们就知道会面临基板以不同速率膨胀的问题。因此,我们设计它具有滑动能力。这种**导热界面材料**是专门设计为可滑动的。同样,电材料也具备这种能力。


在晶圆的中心,你有一个直接连接。然而,在边缘,PCB的不同热膨胀可能会导致这些原本垂直的连接随着温度变化而开始弯曲。


![](https://readlecture-1257176257.cos.ap-guangzhou.myqcloud.com/img/20241005/BV1bBtWeVE7o/bea97e89-430e-4fa0-86e1-574fd37de460.jpg)




**我们发明了一种连接器,它实际上能够应对这种偏转和热膨胀系数(CTE)的扩展。** 你发明了一种灵活的连接器? **一种能够在两部分以不同速率扩展的同时保持连接性的连接器。** 在这种情况下,它们不能。


![](https://readlecture-1257176257.cos.ap-guangzhou.myqcloud.com/img/20241005/BV1bBtWeVE7o/91c002ba-81c4-419e-a472-a2c1dd51a8e2.jpg)




**这就是问题的一部分:** 如果你有如此紧密结合的组件,当你加热或冷却结构时,它会弯曲。它会开始移动。有时它会移动得太多,以至于开始出现裂缝。它会破坏连接或焊点,导致分层。**这可能是他们遇到的问题的一部分,** 可能有些连接从一开始就没有正确建立,但随着时间的推移,系统中的连接也会断裂。是的。


![](https://readlecture-1257176257.cos.ap-guangzhou.myqcloud.com/img/20241005/BV1bBtWeVE7o/938bc00a-b963-49ae-94be-4918bdbbaccc.jpg)




**在这里,我们拥有的是一种能够让晶圆悬浮并完全独立于两端CTE不匹配的技术。**


![](https://readlecture-1257176257.cos.ap-guangzhou.myqcloud.com/img/20241005/BV1bBtWeVE7o/fcd624a7-1e97-42fc-9f8f-eee115ee0712.jpg)




**SPEAKER_00: 我明白了。所以看起来五到七年前,你就考虑过当AI达到规模时会发生什么。** 是的。芯片的设计规模显著扩大。我认为现在随着ChatGPT和Lama等的出现,一切都变得合理了,因为它们达到了合适的规模。从千兆字节到千兆字节。我们是唯一拥有PB级计算和PB级内存带宽的芯片,这在以前从未实现过。


在系统架构方面,Blackwell架构遇到的大部分问题都是提前预见并解决的,而且解决得很早。现在,这些好处才变得重要起来。没错。这有点像需要时间让人们意识到的事情,对吧?当你深陷于传统的芯片制造世界,面对一个问题,可能有一个简单的解决方法,你就会继续做同样的事情。每一步都很简单,你只是继续下去。但最终,这变成了一个非常大的挑战。如果你不跳出那种过于狭隘的视角,稍微看得更远一些,你就会错过机会。然后你会继续传播挑战,而这些问题本可以更容易解决。


太棒了。很好。这非常有帮助,J.P. 感谢你的分享。我们希望这对你有启发。也许我们以后还会再做一次。


![](https://readlecture-1257176257.cos.ap-guangzhou.myqcloud.com/img/20241005/BV1bBtWeVE7o/43aa21a1-f93f-4cff-90e9-1fe28f568c16.jpg)




非常感谢。很高兴能帮到您。





Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1