大模型由OpenAI引爆，算力则是英伟达的“拿手戏”

2024-04-08 来源：贤集网

3776

北京时间3月19日凌晨，全球芯片巨头英伟达（NVIDIA）公司召开了一年一度的 GTC 大会，公司创始人兼首席执行官黄仁勋发表演讲，正式宣布将推出用于万亿参数级生成式AI的NVIDIA Blackwell架构及搭载Blackwell技术的B200和GB200系列芯片，将人工智能的计算能力推向了前所未有的高度。

在规格和性能方面，英伟达的新一代超级AI芯片显示出显著的进步。据会上介绍，上一代H100/H200芯片有800亿个晶体管，而B200拥有2080亿个晶体管。晶体管是集成电路的基本组件，更多的晶体管可以处理更多的数据，执行更复杂的计算，从而提供更高的性能。B200采用允许更小的晶体管尺寸和更高的集成度的台积电4NP工艺制程，可以支持多达10万亿个参数的AI大模型来进行更高级的自然语言处理、图像识别和复杂的数据分析任务。GB200芯片将两个B200 Blackwell GPU与一个基于Arm架构的Grace CPU进行配对，两块芯片之间的互联速度高达10TBps，这种设计结合了GPU的强大并行处理能力和CPU的高效序列处理能力。

在能效方面，Blackwell芯片架构也有显著改进，黄仁勋举例如果要训练一个1.8万亿参数量的GPT模型，在没有使用Blackwell技术的情况下，需要连续运行90天，使用8000张Hopper GPU，并消耗15兆瓦的电力。但如果使用了Blackwell GPU，只需要2000张芯片，而且只需消耗四分之一的电力，大约4兆瓦，就可以完成同样的任务。Blackwell芯片架构的能效改进意味着在处理大规模AI模型训练时，可以实现更高的性能和更低的能源消耗，这对于可持续发展具有重要意义。

在当前人工智能快速发展的背景下，对于计算能力的需求也日益增长。从自动驾驶汽车到智能医疗诊断，再到大规模数据分析、数字孪生等，没有哪一项不在渴求更高的处理速度和更低的能耗。

大语言模型助推 GPU 算力需求增长

市场对 3D 图像处理和 AI 深度学习计算等需求不断增加，GPU 市场保持高增速。据 Global Market Insights 的数据，全球 GPU 市场预计将以 CAGR 25.9%持续增长，至 2030 年达到 4000 亿美元规模。在 GPU 市场中，NVIDIA 依靠在深度学习、人工智能等领域布局的先发优势并凭借其优异产品性能以及成熟的生态平台长期处于领导地位，根据 JPR 数据，2022 年 Q1，NVIDIA 的在独显市场份额约为 78%。

大语言模型有望拉动 GPU 需求增量，我们测算 23/24/25 年大模型有望贡献 GPU 市场增量 69.88/166.2/209.95 亿美元。具体假设测算如下：训练端，近年来各大厂商陆续发布大模型，我们假设 23/24/25 年新增 5/10/15 个大模型，根据 OpenAI 团队于 2020 发表的论文《Scaling Laws for Neural Language Models》提出的计算方法，对于以 Transformer 为基础的模型，假设模型参数量为 N，单 Token 所需的训练算力约为 6N。参考 OpenAI 团队 2020 同年发表的论文《Language Models are Few-Shot Learners》，GPT-3 模型参数量约为 1750 亿个，Token 数量约为 3000 亿个，近年发布的模型均在千亿级参数级别，因此我们中性假设 23 年新增大模型平均参数量约为 2000 亿个，Token 数量约为 3000 亿个，两者后续每年以 20%增速增加。另外假设单次训练耗时约 30 天，算力效率为 30%，后续伴随算法精进，算力效率预计逐渐提升。以目前主流的训练端 GPU 英伟达 A100 测算，假设 ASP 为 1 万美元，23/24/25 年全球训练端 GPU 需求市场规模预计分别为 0.74/2.00/4.07 亿美元。

推理端，基于训练端的假设，根据论文《Scaling Laws for Neural Language Models》，单 Token 所需的推理算力开销约为 2N。则对于 GPT-3 模型，其单 Token 所需的推理算力开销为 3500 亿 FLOPs-S。假设单次最大查询 Tokens 数为 1000(对应汉字约 300-500 字，英文约 750 词)，每人每天查询 20 次。在并发用户数的估计上，我们参考国际主流社交媒体日活用户数进行测算，根据 Dustin Stout 统计，Facebook、WhatsApp、Instagram 全球日活用户数分别为 16 亿、10 亿、6 亿，考虑到目前(类) GPT 平台仍处于发展早期，我们预计全球大模型日活用户数在 23/24/25 分别为 2/6/10 亿，按照所有用户平均分布于 24 小时，并以 10 倍计算峰值并发数量。以目前英伟达用于推理端计算的 A10 测算，假设 ASP 为 2800 美元，23/24/25 年全球推理端 GPU 需求市场规模预计分别为 69.14/164.2/205.88 亿美元。

英伟达GPU何以独霸市场？

GPU成为AI计算的标配，其中最大的赢家非英伟达莫属，在AI计算领域英伟达的GPU几乎占到市场的绝大部分，英特尔和AMD等芯片巨头也几乎都错过了这一波AI浪潮的红利。英伟达做对了什么？英特尔与AMD缘何错过GPU需求爆发的市场机会？

2006年英伟达推出CUDA，带来了灵活便捷的GPU编程手段，这为使用GPU完成AI计算创造了良好的条件。2014年英伟达发布cuDNN V1.0深度神经网络加速库，并集成进了Caffe等AI框架中，进一步为基于英伟达GPU的AI计算提升性能和易用性等，使得AI开发和研究人员可以更加专注于神经网络结构的设计等。2016年英伟达推出的Pascal架构GPU产品，已经开始专门为AI计算场景，特别是推理计算场景，做了许多的定制和优化，能更好的满足AI计算的需求，此外推出NVlink单机多卡的互联技术，增加了GPU之间通信的带宽，也加速了多卡并行计算的效率。2017年英伟达在Volta架构系列GPU中引入TensorCore，使得英伟达GPU产品在AI计算的训练场景的性能继续提升。2020年英伟达又推出新一代Ampere架构的GPU产品，在算力和性能等又大幅提升。

目前在AI计算场景下，英伟达GPU已经成为最主流的选择，从整个发展过程中可以看到英伟达在软硬件方面的所做的努力也密不可分，并且从2014年开始英伟达在AI方面每一次布局都刚好恰到好处。CUDA的推出可能为2011年前后发现GPU在AI计算中10-60倍的加速效果创造有利条件；2014年推出的cuDNN，并集成进Caffe等AI框架，在软件层面进一步增加了英伟达GPU的易用性等；2016年开始直接在芯片层面全面支持AI计算场景需求，后续的产品在算力和性能等方面的提升正好又迎合了AI技术和产业发展的大趋势。

再看另外两家芯片巨头英特尔和AMD，这两家都有非常强大的实力，按理说应该也能在这一波AI浪潮取得巨大红利，但事实上却并没有。当然因为AI的发展带动CPU采购肯定也给英特尔和AMD带来了不少收益。过去10年中，英特尔并没有专门针对AI计算推出相应的产品，不论学界还是业界有AI方面新的研究成果，英特尔可能都会跟进在CPU上进行一些优化，声称在GPU上的性能只比在CPU上快2-3倍左右，并没有像其他地方所说的几十倍上百倍的效果。在AI计算效率等方面，英特尔在CPU上优化后确实能够缩小与GPU的差距，但这种优化的思路在业界并没有太多的跟随者，主要是优化工作本身的门槛相对较高。

AMD在过去十多年中CPU一直被英特尔压着，无暇顾及GPU市场的更多需求，虽然AMD的GPU在游戏市场也不错，但在AI计算方面始终没有形成气候。当然2018年前后AMD新架构的CPU产品面世之后，最近几年大有反超英特尔的架势，不久前AMD推出的Instinct MI100的GPU产品不知道是否会在AI计算领域挑战英伟达的地位，让我们拭目以待。

国产GPU该如何破局？

国内这一批GPU方面的创业公司主要都是在过去3年内成立，如沐曦、壁仞、摩尔线程等等，并且不少已经完成了几十亿元的融资，今年下半年或者明年这些家国产GPU厂商的产品估计也都差不多能推向市场。面对已经占据市场绝对主导地位的英伟达，以及强势入场的英特尔和AMD，国产GPU产品如何破局，才能在市场中占得一席之地？

中美贸易战以及最近的俄乌战争中西方对俄罗斯的制裁，对于国有GPU产品的采纳有重要的作用。回顾过去20年国产CPU产品的发展，由于英特尔和AMD的CPU产品的性价比较高，国产CPU产品此前一直未成气候，中美贸易战之后，信创产品的需求带动了国产CPU产品的发展。在当前的社会大背景下，国产GPU产品也有很大的用武之地，对于每一个国产GPU的厂商而言都是重大的机遇。

国产GPU产品短期内要跟英伟达等巨头抗衡估计难度比较大，因此在后续的发展路径中，建议是先积极拥抱信创产品体系，积极开展与地方政府或者在关系国计民生的特定领域等部门等紧密合作，针对该具体领域与上下游服务商形成相应解决方案，先保证能在市场中立足。只要在一个地方或一个领域占据优势位置，应该足以在市场中立足，然后再图更大的发展。

从英伟达GPU产品的成功案例中，国产GPU厂商也可以借鉴不少经验，在商用领域可能第一步需要实现对英伟达CUDA等软件生态的兼容，使得开发人员在实际使用过程中迁移成本最低，后续需要进一步增加在软件平台方面投入，不断提升自身GPU产品的易用性等，并联合更多的软件生态企业不断完善GPU和AI计算的软硬件生态体系。如果主要几个国产GPU厂商能联合制定和推出一套类CUDA的标准体系可能，或许能够对整个国产GPU产品的推广会有一定的意义。

登入后，方可留言>>

行业动态

从称霸全球到关厂裁员：夏普米子工厂关闭，日本液晶面板写下终章？

欧洲多国政府加速推进软件“去美化”

机构：2026年存储器产值达5516亿美元，为晶圆代工2倍以上

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产