每个高算力的背后藏着成千上万的GPU，国产算卡大把机会？

2024-04-29 来源：贤集网

3558

大模型正引发一波新的AI算力荒，从此前的芯片紧缺，上升为AI算力集群级的饥渴症。

根据产业链消息，参数可能仅30亿的Sora用4200-10500块H100训练了1个月；最新出炉的Llama 3 8B和70B的训练需要24000多块H100组成的集群；据称有1.8万亿参数的GPT-4是在10000-25000张A100上完成了训练……

OpenAI、Meta等都在用数千卡、甚至万卡串联，满足不断攀升的大模型训练需求，也给了我国大模型企业一本可参考的算力账。

然而，多位GPU算力集群业内人士告诉智东西，当下我国智能算力处于严重的供不应求状态。在GPU全球稀缺背景下，单卡性能已相对没那么重要，通过集群互联实现整体算力的最大化，成为解决AI算力荒的必要路径。

政策也已经紧锣密鼓地下发。4月24日，北京市经济和信息化局、北京市通信管理局印发《北京市算力基础设施建设实施方案（2024—2027年）》，方案提出，规划建设支撑万亿级参数大模型训练需求的超大规模智算集群，并对采购自主可控GPU芯片开展智能算力服务的企业予以支持。

产业这边的动作也没有落后。国内的头部算力厂商都已加速布局大规模智算集群，比如云服务巨头华为云打造了贵安、乌兰察布、芜湖3大AI云算力中心，头部AI芯片公司摩尔线程过去四个月也已在南京、北京亦庄和北京密云完成3座全国产千卡智算中心的落地，助国产大模型产业发展提速。

GPU紧缺导致算力跟不上

大模型获得突破以来，无论是产业巨头还是学术界，都在为获取足够的算力资源而苦苦挣扎。去年9月，甲骨文董事长埃里森和特斯拉CEO马斯克在硅谷一家豪华餐厅中向黄仁勋“乞求”GPU的场景还历历在目。近日，人工智能领域知名学者、斯坦福大学教授李飞飞再次表达担忧：高校的AI研究已经被高昂的GPU成本所拖累，逐渐被产业界甩在身后。

Meta可以为模型训练采购高达35万个GPU，而斯坦福大学的自然语言处理小组，却总共只有68个GPU——这种“万”与“个”的悬殊对比，揭示了算力鸿沟的残酷现实。为此，李飞飞提出建立“国家级算力与数据集仓库”的计划，并称其重要性堪比“登月投资”。

对我国而言，情况同样严峻。以GPU等AI芯片为代表的稀缺算力资源，优先向少数大型企业供给，高校、中小微企业苦于高昂成本难以参与其中。

在此背景下，超大规模智算中心的建设或许能为解决算力短缺问题提供一个思路，成为我国在全球AI竞争中取得优势的重要一环。

事实上，我国早已在算力基础设施上展开积极布局。“东数西算”工程作为国家级的工程项目，在全国范围内规划了八大枢纽节点和十大数据集群，并且已经取得显著进展。

以十大集群之一的韶关集群为例，前不久，其首批上线运营的华南数谷智算中心，一期规划算力16000P（1P约等于每秒1000万亿次计算速度），规模居粤港澳大湾区首位。预计到2025年初，韶关集群的智能算力规模将达到50000P，成为大湾区、广东省乃至整个华南地区的最大体量。这些算力资源，不仅可以满足高校的科研需求，还可以为中小企业等各行各业提供实时、高效的算力支持。

然而，超大规模智算中心的建设并非易事。它需要突破一系列核心技术，其中异构算力的统筹和调度尤为关键。异构计算，即多种算力的混合使用，对于实现全国算力中心的大一统和优化资源利用至关重要。在多个数据中心或智算中心互联互通的复杂场景下，异构计算的挑战前所未有。传播内容认知全国重点实验室研究员张冬明表示，在异构算力的建设和发展过程中，国产AI芯片必将扮演越来越重要的角色。然而就目前来说，受配套软件、固件支持等生态系统方面的制约，真正能够有效支撑大模型训练的国产算力集群并不多。

这些情况已被有关部门敏锐捕捉到。今年年初，工业和信息化部等七部门联合印发的《关于推动未来产业创新发展的实施意见》中提到：“加快突破GPU芯片、集群低时延互连网络、异构资源管理等技术，建设超大规模智算中心，满足大模型迭代训练和应用推理需求。”

专家认为，在当前阶段，大部分算力性能的提升主要来自“系统集成”。既有基于小芯粒技术的芯片级集成，也有基于一卡多芯技术的板卡级集成，还有基于液冷和高互联的机架级集成。因此，建议在加强单芯片能力的同时，应注重提升AI算力的系统集成能力，从单点突破转向横向拓展，对芯粒、液冷、互联等相关技术持续投入，进一步实现AI算力系统的高算力、高效能、高稳定、高性价比。

当前，智算中心正在成为通用人工智能发展的关键。而超大规模智算中心，正在成为智算中心持续演进的未来形态。随着智算中心的发展成熟，“开箱即用”的智能计算服务有望成为主流。当然，这需要产业界、学术界和政府的通力合作。

在算力资源的统筹配置方面，业内人士建议，政府可以通过行政手段，以统筹建设的方式集中采购，通过“云化”将算力按P销售，再以“算力券”等的方式补贴中小型科研机构，以促进AI的研究和应用发展。

中国AI算力生态或将发生巨变

综合考虑美国禁令、当前国内各个公司的产品线布局，研发实力，产品进度等因素，我们认为未来中国AI算力生态或将发生较大改变，由现在的英伟达一家独大，逐步演变为国际生态（英伟达、AMD、Intel等）和国内生态分庭抗礼的局面。英伟达目前仍然有望凭借良好的CUDA生态，以及较好的集群性能占据一定的市场份额。但是由于其受制于美国禁令，对单卡性能的严格限制或将严重影响其在中国区的市场份额。

在国内生态中，华为昇腾目前在研发、产品能力以及生态闭环上保持领先，预计将成为国内第一份额；海光信息依托中科曙光和中科院系强大的后盾，具备“芯-端-云”的完整闭环，与华为“鲲鹏+昇腾”产业链对应，有望成为重要的国产算力生态。其他独立第三方例如寒武纪、壁仞科技、摩尔线程、景嘉微等也将充分受益于算力国产化机会，有望凭借性价比优势分得一定的市场份额。整体看，随着国产算力的不断迭代，有望在未来实现弯道超车。

GPGPU技术路线或将取得更大市场份额

最初GPU的设计目标仅是提升计算机对图像视频等数据的处理性能，解决CPU的性能瓶颈。但是，随着GPU在并行计算方面性能优势的逐步显现，以及并行计算应用范围的拓展，GPU演化出两条分支：一条是传统意义的GPU，延续专门用于图形图像处理用途，内置了视频编解码加速引擎、2D加速引擎、3D加速引擎、图像渲染等专用运算模块；另一条是作为运算协处理器的GPGPU，增加了专用向量、张量、矩阵运算指令，提升了浮点运算的精度和性能，可以满足更多计算场景的需要。

随着GPGPU的技术进步和生态完善，其应用领域不断拓展，除了传统的图形图像处理外，还涉及了商业计算、大数据处理、人工智能等多个领域。在人工智能领域，其优势主要体现在：

（1）训练效率高，加快模型的迭代和优化；

（2）能源消耗低，人工智能的运行成本；

（3）软件生态丰富，支持主流的人工智能框架，便于已有应用程序的移植和新算法的开发。目前，GPGPU已成为人工智能相关解决方案的主流选择。

总结：

AIGC带动GPU需求激增，根据11月22日英伟达发布的2024Q3财报，3季度数据中心业务实现营收145.14亿美元，同比增长 278.66%。美国商务部最新出口管制措施实施之前，英伟达数据中心业务2023年总营收预计约450亿美元。按照中国区数据中心业务收入占比约为20%-25%，2023年中国区英伟达数据中心业务收入约为90-112.5亿美元，中性估计2024年中国区数据中心需求同比增长15%，那么2024年中国区英伟达GPU替代空间约742-927亿人民币。

在国内生态中，华为昇腾目前在研发、产品能力以及生态闭环上保持领先，预计将成为国内第一份额；海光信息依托中科曙光和中科院系强大的后盾，具备“芯-端-云”的完整闭环，与华为“鲲鹏+昇腾”产业链对应，有望成为重要的国产算力生态。其他独立第三方例如寒武纪、壁仞科技、摩尔线程、景嘉微等也将充分受益于算力国产化机会，有望凭借性价比优势分得一定的市场份额。整体看，随着国产算力的不断迭代，有望在未来实现弯道超车。

登入后，方可留言>>

行业动态

三星电子DS部门巨额奖金，较去年翻三倍

长电科技车规级芯片封测工厂通线，加速产品量产导入

三星电子明年HBM产能扩大50%，全力押注HBM4

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产