挑战英伟达，难度有多大？谁能成为下一个接棒者？

2024-04-16 来源：贤集网

1183

随着围绕人工智能的押注越来越火热，一些芯片公司也被华尔街“挑选”了出来，认为它们可能从这一波热潮中受益，但分析师们普遍认为，这些公司所获得的收益不会来自于英伟达现在所拥有的份额。

英伟达GPU主导着人工智能芯片市场，这些实力玩家希望改变这一点。

如果说有哪只股票能从人工智能(AI)中获利，那一定是英伟达(Nvidia)。该公司率先开发了图形处理单元(GPU)，可以在视频游戏中呈现逼真的图像。让这些芯片如此高效的是并行处理，它将计算复杂的工作分解成更小、更易于管理的块。英伟达能够调整这项技术来处理人工智能的严格要求，使其成为人工智能芯片领域最成功的公司。

然而，随着对人工智能的需求加速增长，许多技术中坚人士一直在幕后疯狂地研发可行的替代方案，以取代英伟达业界领先的处理器。

一、近期竞争对手的成果

1. 英特尔

早些时候，英特尔(Intel)发布了名为Gaudi 3的最新人工智能芯片，直接挑战了英伟达在GPU领域的主导地位。该公司声称，高迪训练人工智能模型的速度几乎是英伟达H100旗舰数据中心处理器的两倍，在推理方面快50%，即运行已经训练过的人工智能模型。该公司还表示，高迪的性能比H100高40%，“成本只是H100的一小部分”。

值得注意的是，英伟达最近推出了H100的后继产品Blackwell B200 AI GPU，将于今年晚些时候开始发货。虽然没有将高迪与B200进行比较，但英特尔公司表示，“我们确信高迪2将具有很强的竞争力”，能够与英伟达的最新处理器竞争，并称高迪是“一款强大的产品”。

英特尔可能并不打算超越英伟达最新的人工智能芯片，而是希望为企业提供一种更便宜的替代产品。同样值得注意的是，英伟达的H100和H200芯片一直供不应求，这给人工智能的应用带来了发展瓶颈。英特尔的最新产品可能有助于缓解积压。

2. Meta平台

Meta平台也不甘示弱，宣布推出Meta训练和推理加速器(MTIA) v2，这是一款在公司数据中心运行的定制人工智能芯片。Meta宣布其最新版本的MTIA“将计算和内存带宽提高了一倍以上”。初步结果显示，新处理器的性能是第一个版本的三倍。

Meta指出，它正试图通过其最新芯片提供“计算、内存带宽和内存容量的适当平衡”。该公司没有将这些芯片用于人工智能处理;至少，目前还没有。Meta正在使用这些处理器来提高其排名和推荐系统的速度和效率，这些系统用于在其社交媒体网站上显示相关内容和目标广告。

Meta是英伟达最大的客户之一，因此，如果它在人工智能芯片方面取得成功，该公司可能会减少对英伟达人工智能处理器的依赖。

3. Alphabet

在本周的Google Cloud Next发布会上，Alphabet宣布推出最新版本的以人工智能为中心的处理器——云张量处理单元(Cloud Tensor Processing Unit, TPU) v5p。该公司表示，其Cloud TPU可以训练支撑人工智能系统的大型语言模型(llm)，速度比版本4快三倍。

与一般情况一样，谷歌的tpu不会出售，但将于今年晚些时候在谷歌云上提供。

然而，在一篇博客文章中，谷歌指出，它正在扩展其英伟达GPU的能力，增加了由英伟达H100 GPU驱动的A3超级计算机。谷歌云的客户还可以使用采用英伟达Blackwell B200和Grace Blackwell GB200 gpu的虚拟机。

谷歌还发布了与Arm Holdings合作设计的第一款数据中心中央处理器Axion。谷歌表示，Axion的速度比目前领先的CPU快30%，性能比英特尔和AMD的x86芯片高50%，效率比后者高62%。

二、Groq号称比英伟达的GPU更快

Groq收购了一家人工智能解决方案公司Definitive Intelligence。这是 Groq 在 2022 年收购高性能计算和人工智能基础设施解决方案公司 Maxeler Technologies 后的第二次收购。Groq来势很凶。

我们处于一个快节奏的世界中，人们习惯于快速获取信息和满足需求。研究表明，当网站页面延迟300 - 500毫秒(ms)时，用户粘性会下降20%左右。这在AI的时代下更为明显。速度是大多数人工智能应用程序的首要任务。类似ChatGPT这样的大语言模型（LLM）和其他生成式人工智能应用具有改变市场和解决重大挑战的潜力，但前提是它们足够快，还要有质量，也就是结果要准确。

如今行业不少人的共识认为，英伟达的成功不仅仅归功于其GPU硬件，还在于其CUDA软件生态系统。CUDA也被业界称为是其“护城河”。那么，其他AI芯片玩家该如何与英伟达竞争？

诚然，CUDA为GPU开发者提供了一个高效的编程框架，方便编程人员快速实现各种算子。不过，仅靠编程框架并不能实现高性能的算子处理。因此，英伟达有大量的软件开发团队和算子优化团队，通过仔细优化底层代码并提供相应的计算库，提升深度学习等应用计算效率。由于CUDA有较好的生态，这部分开源社区也有相当大的贡献。

然而，CUDA框架和GPU硬件架构的紧密耦合同时也带来了挑战，比如在GPU之间的数据交互通常需要通过全局内存（Global Memory），这可能导致大量的内存访问，从而影响性能。如果需要减少这类访存，需要利用Kernel的Fusion等技术。实际上，英伟达在H100里增加SM-SM的片上传输通路来实现SM间数据的复用、减少访存数量，但是这通常需要程序员手工完成，同样增加了性能优化的难度。另外，GPU的整个软件栈最早并不是专为深度学习设计的，它在提供通用性的同时，也引入了不小的开销，这在学术界也有不少相关的研究。

因此，这就给AI芯片的新挑战者如Groq，这提供了机会。例如Groq就是挖掘深度学习应用处理过程中的“确定性”来减少硬件开销、处理延时等。这也是Groq芯片的特色之处。

实现这么一款芯片的挑战是多方面的。其中关键之一是如何实现软硬件方面协同设计与优化，极大的挖掘“确定性”实现系统层面的Strong Scaling 。为了达到这个目标，Groq设计了基于“确定性调度”的数据流架构，硬件上为了消除“不确定性” 在计算、访存和互联架构上都进行了定制，并且把一些硬件上不好处理的问题通过特定的接口暴露给软件解决。软件上需要利用硬件的特性，结合上层应用做优化，还需要考虑易用性、兼容性和可扩展性等，这些需求都对配套工具链和系统层面提出很多新的挑战。

大模型确实给传统的芯片架构带来了极大的挑战，迫使芯片从业者发挥主观能动性，通过“另辟蹊径”的方式来寻求突破。值得关注的是，国内也已经有一批架构创新型的芯片企业，陆续推出了存算一体或近存计算的产品，例如、知存科技、后摩智能、灵汐科技等。

考虑到芯片的研发周期通常长达数年，在尝试新技术的时候需要对未来的应用（如LLM技术）的发展趋势有一个合理的预判。分析好应用的发展趋势，通过软硬件的设计预留一定的灵活性和通用性，更能够保证技术长期适用性。

登入后，方可留言>>

行业动态

高通和联发科高端芯片涨价，旧款芯片改名再上市，收割中国手机

美媒确认国产5G手机采用韩国芯片，但是国产化率确实在提升！

2024年前4月中国集成电路出口额同增23.5%

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产