又一国产企业立志攻克GPU难题，造一块自己的显卡到底有多难？

2023-09-07 来源：贤集网

8020

近日，武汉市科技局下达2023年度重点研发计划项目。攀升科技“基于国产GPU的显卡研制及产业化”项目位列其中。项目落地后，将解决潜在“卡脖子”产品——“显卡”的核心计算组件国产化难题。

2023年2月，中共中央、国务院印发《数字中国建设整体布局规划》，明确要夯实数字中国建设基础，并构建自立自强的数字技术创新体系。今年以来，在ChatGPT快速迭代的浪潮下，神经网络、深度学习和预训练大模型等人工智能技术进入井喷期，全球对超大规模并行算力需求暴增，独立显卡作为AI算力核心基础设施的重要性日益突出。

在GPU领域，我国一直缺少核心技术以及生产经验，与国际水平差距较大。国产品牌急需突破和壮大，解决潜在“卡脖子”产品核心技术，实施国产品牌替代，共建“光芯屏端网”产业链。

攀升科技此次立项成功的“基于国产GPU的显卡研制及产业化”项目，将解决各类计算“终端”的核心计算组件国产化问题，极大提升计算终端组件的国产化率；基于国家数字基础建设和独立自主技术创新的导向，向各领域提供所需的国产品牌显卡产品，为武汉市和国家的数字基础建设提供硬科技产品基础，解决潜在“卡脖子”风险。

本项目将实现从显卡核心软硬件设计、研发调试、生产制造到品控检验等全流程的核心技术国产化和经验积累，在诸如显卡PCB集成电路、供电模组、散热模组和显存、供电管理等关键技术环节进行创新和突破。

GPU研发技术壁垒极高

GPU的研发是一项大型的系统工程，包含硬件架构、算法、软件生态等多个组成，缺一不可，壁垒极高。CPU巨头Intel近二十年多次尝试征服高端GPU领域，曾在前两年专门成立加速计算系统与图形事业部（AXG），试图再度杀入高端GPU市场，却始终反响平平。甚至现在的GPU绝对霸主NVIDIA，从95年首款产品NV1正式诞生发展至今，也是在显卡领域耕耘了20多年才有当前的成绩。足可见GPU产业的门槛之高。

在硬件上，国产最大的问题就是IP，任何一款高端芯片的打造都离不开IP。但是，GPU IP的自研开发需要3-5年的周期，需要数百个专业领域的工程师。因此短时间内在硬件上实现完全国产化并不容易，国内GPU厂商如芯动、摩尔线程等几乎都是外购IP加上部分的自主研发。中天恒星刚发布的“天狼星”虽然实现了国产自主GPU架构，100%IP属于自主研发，但真正要完善软件生态，稳定商用，我想还需要很长的一段时间。

在软件上，国产难题主要涉及驱动开发、算法及软件生态。业内人士指出，计算芯片最大的门槛其实不是硬件，而是软件。目前业内GPU特别是用于通用算力的GPGPU，主流的软件架构是英伟达的CUDA，此架构在2006问世以来，与下游软件、驱动厂家已经有了深度合作。而且CUDA本身涵盖了多个技术领域，其开发与后续更新都与英伟达自家GPU高度绑定，从某种角度来看，英伟达在GPU领域的垄断很大程度上是通过CUDA平台上的软件生态实现。因此国内GPU厂商如果想真正对标英伟达，CUDA生态是绕不开的一环。

国产GPU整个商业生态尚未成熟

在芯片“断供”之前，国内购买海外高端GPU芯片之路畅通，很少有客户在重大项目采购时会考虑国产GPU，都普遍倾向海外最先进、最稳定的产品，以保证项目顺利完成。究其原因有二，一是毕竟国产GPU的发展才刚刚起步，在性能和稳定性方面尚未取得长时间，多项目的验证，不少国产GPU在实际应用中出现了工作负载低，芯片性能不稳定，兼容性差的情况。二是软件生态不够完善，如果一个芯片没有与之配套的软件生态，则很难真正形成大面积的应用。

在当下GPU应用最火的AI大模型训练中，腾讯云新一代HCC（High-Performance Computing Cluster）高性能计算集群使用的是英伟达最新代次H800 GPU；阿里曾在 2018-2019 年采购了上万块英伟达的V100和T4 GPU用于近年来的云计算和大模型训练，其他字节、百度、美团、B站等都清一色采购英伟达的A100、H100 GPU或是去年禁令后英伟达专门推出的减配版 A800、H800 GPU。

这使得国产GPU在国内鲜有大企业应用成功的案例，大部分还仅仅围绕在PC、图形渲染领域，或是应用在专门的军事、政府等部门。商业市场的大门，只是开了一条缝。

另外，国产GPU厂商的硬件架构，软件API接口不尽相同，客户基本只能多选一，兼容和替换都不够灵活，比较难实现技术生态的统一。

短期难盈利

对于GPU创企而言，巨大的研发费用和资本开支是必需，但长期、持续的利润支撑才是GPU跨代发展的强劲驱动力。

尽管近几年因为AI人工智能的火爆，使得GPU创企的融资环境变得相对宽松，但由于国内近几年批量的GPU创企涌入，使得竞争激烈，加上研发投入巨大，在规模市场打开之前，GPU厂商在短期内难以实现量产盈利，令一众大VC和PE机构望而却步。

芯片市场上，OPPO上个月关停了手机芯片自研公司哲库，便是因为短期难盈利，倒在了黎明前。同样，对于部分GPU创企来说，也面临着资本市场洗牌的风险。

种子选手的秘密

在目前国内一票GPU的“种子选手”中，一家名叫壁仞科技的企业引起了人们的注意。原因很简单，那就是其产品BR100不仅创下了全球算力纪录，并且宣称其峰值算力达到了英伟达A100的3倍，甚至还能对标没发售的H100。

然而，稍微了解过国内芯片行业的人都知道，在芯片领域，国内的炒作太多了，徒有其表的例子也太多了。

那么，做出这个“媲美英伟达”GPU的企业，究竟是什么来头？其自主研发的BR100，是否真的像其宣传的那样出色？

要回答这个问题，我们不妨先看看壁仞科技的创始班底，技术背景究竟如何。

作为一家通用智能芯片设计研发商的壁仞科技，成立于2019年，团队由国内外芯片和云计算领域的专家和研发人员组成。其创始人张旭博士，不仅拥有清华大学和斯坦福大学的博士学位，还曾是英伟达的高级架构师，负责Volta架构的设计和开发。

除此之外，团队其他成员的技术身份，也颇为亮眼。

李新荣，联席CEO，曾任AMD全球副总裁、中国研发中心总经理，负责AMD大中华区的研发建设和管理工作。

洪洲，CTO，曾在NVIDIA、S3、华为等工作操刀GPU工程项目，拥有超过30年的GPU领域经验。

焦国方，软件生态环境主要负责人，曾在高通领导和产品研发了5代Adreno移动GPU系统架构。

这样的团队背景，决定了壁仞科技的技术底色。

依据之前在英伟达、AMD、高通、商汤科技等知名企业的研发经验和技术积累，壁仞科技研发了自主原创的芯片架构——壁立仞。壁立仞架构基于SIMT（单指令多线程）模型，针对AI场景进行了专用的优化和定制。其最大的特点，就是可以将多个小芯片拼成一个大芯片，每个小芯片只做一部分功能，然后通过高速互连组合成一个大芯片。这样可以提高芯片的良率和可靠性，同时降低成本和功耗，实现更强大的算力和扩展性。

这就是壁仞科技所谓的Chiplet的设计理念。

这种技术的难点在于如何保证芯片之间的高速通信和协作，同时避免信号干扰和功耗过高。因此，如何设计合适的芯片分割和组合方案，使得每个芯片都能发挥最大的效能，同时减少电磁干扰和热耗散，就成了Chiplet能否成功的关键。

对此，壁仞科技使用了两种关键的技术2.5D CoWoS和BLink，来攻克这一难关。

简单地说，2.5D CoWoS技术是一种把多个芯片堆叠在一起的技术，它利用了一个硅基板作为中介层，缩短了芯片之间的距离，从而提高了信号的传输速度和质量。而BLink则在中介层上，建立了一个专用的接口，它可以让多个芯片之间直接传输数据，而不需要经过其他的电路或芯片，从而减少了延迟和功耗。然而，尽管2.5D CoWoS、BLink这些技术，让壁仞科技打造出了算力更强的BR100，但这些技术，目前在国际上并不罕见，其他GPU厂商也有过类似的设计。

例如，Nvidia的A100和H100 GPU都采用了CoWoS技术，把GPU芯片和HBM内存堆叠在一起，提高了内存带宽和计算性能。而Nvidia还开发了自己的NVLink接口，类似于BLink接口，可以让多个GPU之间高速互联。

此外，AMD也有自己的Infinity Fabric接口，可以实现类似的功能。

那既然这是一种“大家都能用”的技术，那壁仞科技怎么就做到让BR100算力达到A100三倍的呢？而英伟达真就会坐视着自己被超越了？

其实，这样的结果，是二者在不同数据格式下的表现所致。

具体来说，BR100的巨大算力，更多是在矩阵FP32数据格式下的表现。

一般来说，数据格式占用的位数越多，它的范围和精度就越高，但是也会消耗更多的空间和电力。而矩阵FP32其实就是一种特殊的FP32数据格式，它只用了19位来存储一个浮点数，这样做的目的是为了让矩阵FP32能够兼容Tensor Core这种专门用于加速矩阵乘法的硬件单元。矩阵乘法是深度学习中最常见和最重要的计算操作之一，所以使用矩阵FP32可以大幅提升深度学习的性能。但是，矩阵FP32也有一个缺点，就是它的精度比向量FP32低，也就是说它能表示的浮点数的范围和细节程度比向量FP32小。这样就会导致一些误差和损失，在某些情况下可能会影响模型的质量和效果。

因此，矩阵FP32和英伟达A100的向量FP32并不等价，因为矩阵FP32只适用于矩阵乘法这种特定的计算操作，并不能代表GPU的整体性能。

国产力量的崛起

这些国产GPU厂商的崛起，对英伟达的AI算力市场份额构成了一定的挑战和威胁。

一方面，国产GPU厂商可以提供更高性价比、更低能耗、更灵活定制的产品和服务，满足国内客户的多样化需求和预算。

另一方面，国产GPU厂商可以避免受到美国政策的影响和干扰，保障国内客户的数据安全和供应稳定。

因此，国产GPU厂商有望在国内市场占据更大的份额，甚至在国际市场上与英伟达展开竞争。

当然，英伟达也不会坐以待毙，它仍然拥有着强大的技术优势、品牌影响力、生态合作力等资源，可以继续保持其在AI算力领域的领先地位。英伟达不断推出新一代的GPU芯片和加速卡，如Ampere（安培）架构的A100、Grace（格雷斯）等，提升其在AI训练和推理方面的性能和效率。英伟达还不断拓展其在AI应用领域的布局，如收购Arm、DeepMap等公司，加强其在自动驾驶、物联网、边缘计算等领域的竞争力。英伟达还不断完善其在AI开发生态方面的支持，如推出Jetson Nano、JetPack SDK等工具，降低AI开发者的门槛和成本。

国产显卡的发展未来对英伟达显卡AI算力需求的替代前景是一个值得关注和探讨的话题。

从目前的情况来看，国产显卡已经取得了显著的进步和突破，对英伟达形成了一定的竞争压力。但是，英伟达仍然保持着其在AI算力领域的领导地位，对国产显卡也有着自己的应对策略。

未来，随着AI技术和应用的不断发展和创新，GPU市场将呈现出更加多元化和激烈化的态势，这将对各个GPU厂商提出更高的要求和挑战，也将为用户带来更多的选择和价值。

登入后，方可留言>>

行业动态

TCL华星CEO：全球首条G8.6代产线明年第四季度投产

马斯克否认特斯拉考虑剥离中国业务，特斯拉中国官方回应“不实消息”

铠侠业绩展望不及预期，或预示存储芯片热潮正在放缓

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产