欢迎访问深圳市中小企业公共服务平台电子信息窗口

华为“四芯片封装”专利曝光,或用于下一代 AI 芯片昇腾 910D

2025-06-18 来源:电子工程专辑
230

关键词: 四芯片 昇腾 华为

分析指出,华为四芯片封装架构与NVIDIA 2026年计划推出的Rubin Ultra平台存在技术相似性。后者采用台积电CoWoS-L技术实现四颗GPU与六颗HBM3E内存的集成,而华为专利通过自研封装工艺达成类似效果。

近日,华为公开了一项名为“四芯片(quad-chiplet)封装设计”的专利技术文件,引发半导体行业高度关注。该技术被外媒猜测将应用于其下一代AI加速器昇腾910D(Ascend 910D),或成为华为突破美国技术封锁、追赶NVIDIA AI GPU的关键布局。

根据国家知识产权局公开信息,华为于2024年4月提交的“一种集成装置、通信芯片和通信设备”专利(国际申请号PCT/CN2024/086375)已进入实质审查阶段。华为提交的这项专利采用的是类似于晶圆上基片本地封装 (Chip on Wafer on Substrate-Local,CoWoS-L)桥接的技术方案,而非简单的中介层(Interposer)结构,专利描述了一种基于硅中介层的四芯片堆叠方案,通过垂直互连技术实现芯片间超高速数据传输,单封装内可集成四颗计算芯片。

技术亮点包括:

  • 中介层架构优化接口连接:通过中介层实现裸片交换逻辑块、线路逻辑块与接口的交叉连接,解决传统合封的线路交叉问题,支持接口路径动态配置。

  • 重布线层与有源器件增效:中介层集成重布线层(RDL)降低布线成本,搭配寄存器等有源器件增强长距离信号传输性能。

  • 嵌入式与多层设计提升集成度:中介层嵌入式基板设计缩减封装厚度与成本,多层结构满足高密度布线需求。

  • 多裸片与单元级接口交换:通信芯片内多裸片及同构单元通过中介层交叉连接,适配交换单元 / 光传输单元等场景。

  • 成熟工艺降本与性能平衡:依托中介层技术,使用成熟制程制造裸片,在降低工艺依赖的同时保障系统性能。

对标NVIDIA:绕过制裁的技术突围

外媒Tom's Hardware分析指出,华为四芯片封装架构与NVIDIA 2026年计划推出的Rubin Ultra平台存在技术相似性。后者采用台积电CoWoS-L技术实现四颗GPU与六颗HBM3E内存的集成,而华为专利通过自研封装工艺达成类似效果。

专利内容显示,华为的封装方式预计会搭配多组高带宽内存(HBM),并通过中介层实现高效互联。这种设计可以满足 AI 训练对计算能力的高需求,同时在架构上与某些国际厂商的产品类似。

尽管在芯片工艺方面,华为目前仍落后于国际领先水平约一代,但在封装技术层面,华为已展现出与业内顶尖企业相当的能力。关键差异在于供应链自主化,华为方案完全基于中芯国际14nm制程与长电科技封装产线,规避美国对先进制程设备的出口管制。

其次在成本上也有优势,据估算,单颗昇腾910D芯片组成本较NVIDIA H200低约40%,主要得益于本土化供应链与简化设计。这意味着,即便使用相对成熟的制造工艺生产多个芯片,再通过先进封装进行整合,也能在整体性能上实现显著提升,从而缩小与采用最先进工艺芯片之间的差距。

行业专家观点

业内人士认为,若该技术量产成功,华为将实现算力密度跃升生态兼容性两大突破。四芯片封装可使单卡FP16算力提升至1,400 TFLOPS,接近NVIDIA H100水平,而通过支持CUDA-X AI软件栈,降低用户迁移成本,直击NVIDIA核心优势。

此前,华为创始人任正非在接受《人民日报》采访时曾表示,芯片技术的发展并不一定完全依赖最尖端的制造工艺,通过叠加、集群等方式,同样可以达到与高端芯片相近的计算效果。

这一观点得到了 NVIDIA CEO 黄仁勋的解读和认同。黄仁勋指出,AI 任务本身具有高度并行的特性,即便单个芯片性能不足,也可以通过增加芯片数量来弥补算力缺口。他还提到,中国的能源资源较为充足,这为大规模部署计算设备提供了可能。因此,即便当前在技术上仍存在一定差距,但通过系统级优化和规模化应用,中国依然能够实现高效的 AI 计算能力。

先进封装成破局关键生态与量产难题待解

据悉,华为目前已经与清华大学成立“三维集成联合实验室”,聚焦混合键合、玻璃转接板等前沿技术。华为的封装技术布局正引发连锁反应,尤其是台积电警觉据《电子时报》报道,台积电已将CoWoS产能优先级向NVIDIA倾斜,并加速研发FOPLoS(Fan-Out Package-on-Substrate)技术应对竞争。

与此同时,深南电路、兴森科技等国产供应正在积极跟进。一些封装基板厂商已启动高密度线路板扩产计划,目标2026年实现月产10万片产能。

尽管技术前景被看好,华为仍需突破多重壁垒。软件生态是最大短板,由于昇腾CANN架构仅支持主流AI框架的子集,所以与CUDA兼容性差距明显。芯片面积方面也是难点单颗昇腾 910B 芯片面积约 665 平方毫米,四芯片组总芯片面积达 2660 平方毫米,若每颗芯片配置 4 颗 HBM 内存,16 颗 HBM 将占约 1366 平方毫米面积,昇腾910D整体封装尺寸或达 4020 平方毫米,远超台积电目前约 858 平方毫米的光罩极限尺寸,相当于五个 EUV 光罩面积。

最后是良率,超大尺寸的四芯片堆叠封装良率目前不足65%,大规模量产需良率提升至85%以上,散热设计也是个问题。考虑到头部互联网厂商的测试验证周期长达6-9个月,这款芯片方案的商业化进度或晚于预期。

公布的专利文件链接:

https://patentimages.storage.googleapis.com/66/fd/f7/a7f894b0022c64/WO2024222427A1.pdf

责编:Luffy