👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容来自semiengineering

从SoC到多芯片集成的转变,需要在封装内部布置更多、更智能的控制器,以确保性能最优、信号完整且无宕机。


在传统的平面SoC中,许多此类功能通常由单个CPU或MCU统一管理。但随着逻辑电路越来越多地被拆解成多个小芯片(chiplet),并通过TSV(硅通孔)、混合键合或标准铜线相互连接,其内部交互变得更加复杂。制程变化或不均匀老化可能导致数据路径减慢,加上不同负载、功能域以及热量、噪声等物理效应对计算位置的影响,使得对处理任务的管理变得更加重要。


核心挑战在于,在开发这些可能耗资超过1亿美元、用于超大规模数据中心的高度定制AI芯片时,既要保证足够的性能提升和功耗节省,又要确保足够的共性设计,以便重复利用设计和制造流程、材料以及IP(其中越来越多是chiplet)。 这要求对多芯片设备的更多元素进行管理,并具备足够的弹性,以便在需要时重路由数据,最小化中断。


Siemens数字工业软件CEO Mike Ellow表示:“这关键在于系统能否根据实时运行状态自我调优。否则,一旦系统部署运行,再经历首次OTA远程更新时,一切可能戛然而止。此时你要依赖虚拟模型或硬件在环(HIL)模型,基于真实系统来不断演进你的软件栈,这一过程整合了众多供应商的成果,构成了一个完整生态。”


确保这些设备在其全生命周期内都能满足规格要求,为芯片设计增添了新的复杂维度。


Synopsys IP部门高级副总裁John Koeter指出:“几乎每颗芯片、每个功能模块都会内建微控制器或小型处理单元。例如,我们所有的高端物理接口(如224G以太网、PCIe Gen7或DDR接口)都内置了微处理器,用于控制、认证以及进行固件更新,处理不同信道的问题。IP层面的这些微型处理逻辑,将会在整个芯片系统中发挥重要作用。”


热管理是多芯片设计中的一大难题,源于更高的晶体管密度、更高的计算单元利用率,以及更强电流导致的电阻升高。


Eliyan公司CEO Ramin Farjadrad表示:“你可能用3nm或2nm CMOS做逻辑部分,不太担心热,但你的一侧是HBM,另一侧是共封光学组件,就必须考虑热影响。整个行业还在摸索,系统构建中我们关心的那些热问题,现在都要在封装内解决。若要整体散热,就要设计复杂的散热架构。”


proteanTecs商务拓展高级总监Nir Sever补充:“热密度尤其是在3D封装设计中,是最关键的问题之一。另一个被忽视的重要问题是可测性,尤其是组装前后的可测试性。如果SiP组装好后才发现某个die有故障,可能需要报废整个封装,代价极高。”


部分报废风险可以通过将测试和异常检测前移至晶圆测试阶段来减少。 Sever指出,芯片制造商还可以通过更合理的chiplet搭配来优化封装组合。




内部 vs 外部智能




目前尚无统一标准规定这些智能控制单元应放置何处,但大致分为两种使用方式:


外部调控:封装内的监控单元将数据传输至外部的集中式仪表盘,由其进行纠正或预防操作。这可能发展为某种“数字孪生”模型,尽管受限于复杂度,目前尚未广泛落地。但EDA大厂、设备商和数据分析公司都视其为一个巨大机会,远超芯片本身。


Alphawave Semi IP产品营销副总裁Letizia Giuliano表示:“传统方法已无法测试封装内部所有内容。我们必须在芯片内监控一切,通过寄存器访问即可查看整个生命周期的状态。芯片内部遍布电压、温度、工艺变化等传感器,就像一个巨大的实时监控网络。”


proteanTecs的Sever补充:“在monolithic芯片中诊断已经很难,在chiplet架构中更甚。常见的问题是‘无法复现’,因为缺乏足够的实时运行数据。我们的方法是在运行时持续监控关键数据,通过硬件实时分析并记录统计信息,提前发出异常警报。我们的平台还能结合设计信息和智能算法,提供系统性的故障分析。”


内部自决:将足够的处理能力放进芯片内部的传感器,使其能自主决策。这种方式响应更实时,但需要更多面积和功耗,同时像“黑盒”一样难以追踪具体行为逻辑。


Cadence产品总监Mick Posner指出:“我们正在构建一个统一的chiplet部署框架。即便每个chiplet功能不同,底层的互联结构、管理流程、安全机制却是共通的,比如UCIe接口、身份认证、安全启动等。我们的目标是实现快速部署,比如Neo AI chiplet能与CPU chiplet协同工作,且共享统一管理接口和互联标准,降低开发成本。但UCIe尚未解决安全挑战。”


部分应用中,可通过内建自测试(BiST)获取数据。这种技术虽然成熟,但在SoC中占用面积大,而在封装中则压力较小。


不过,BiST难以在AI数据中心这类“永远在线”的场景中使用,因为它需要接管电路。相比之下,在汽车和航空航天中,测试可以在开关机阶段进行。随着车企追求chiplet架构以提升良率和快速定制,BiST变得更具吸引力。尤其在安全关键系统中,冗余设计允许在某些电路仍在运行时进行测试。


Arteris首席营销官Michal Siwinski表示:“设计更具弹性的逻辑架构变得至关重要。确保互联结构足够鲁棒性,是从航空级设计向更广泛应用过渡的关键。如今数据中心芯片的设计就受益于这一思路。通过在多个chiplet中引入冗余设计来提升可靠性。”


但即使有冗余,也需要智能“开关”系统来监测并重定向流量,这也意味着要增加实时监控能力。




结论




多芯片封装远比传统SoC复杂,但其优势也极为显著。


通过将单颗芯片拆解为多个chiplet,并采用先进封装技术,可以容纳更多逻辑与存储单元,在功耗更低的前提下实现数量级提升的性能表现。


然而,这种异构化的计算结构也带来了更高的实时监控和管理需求,只有这样才能保证性能持续稳定,并让芯片在更长生命周期中仍保持可靠运行。


参考链接

https://semiengineering.com/distributing-intelligence-in-multi-die-assemblies/

点这里👆加关注,锁定更多原创内容


*免责声明:文章内容系作者个人观点,半导体芯闻转载仅为了传达一种不同的观点,不代表半导体芯闻对该观点赞同或支持,如果有任何异议,欢迎联系我们。

推荐阅读

10万亿,投向半导体

芯片巨头,市值大跌

黄仁勋:HBM是个技术奇迹

Jim Keller:RISC-V一定会胜出

全球市值最高的10家芯片公司


喜欢我们的内容就点“在看分享给小伙伴哦~