英伟达一口气收购两家AI企业，打的什么主意？

2024-04-26 来源：贤集网

2760

英伟达又出手了！继去年投资30多家创企后，近期该公司又投资了两家人工智能初创企业Run:ai与Deci。

当地时间4月24日，英伟达宣布，已经同Run:ai签订最终收购协议。公司认为，这能够帮助客户更有效地利用其AI计算资源。

Run:ai成立于2018年，是一家基于开源容器编排平台Kubernetes的工作负载管理和编排软件提供商。当下，AI的部署变得越来越复杂，工作负载分布在云、边缘和本地数据中心基础设施中。管理和编排生成式AI、推荐系统、搜索引擎和其他工作负载需要复杂的调度，从而优化系统级别和底层基础设施的性能。

而Run:ai的产品能够实现高效GPU集群的资源利用。简单来说，其产品能够支持开发人员并行运行多个AI工作负载，从而提高AI芯片的利用效率，降低了成本。

目前，Run:ai的解决方案已与英伟达的DGX、DGX SuperPOD、Base Command、NGC容器和AI Enterprise软件等产品结合，英伟达DGX和DGX Cloud的客户将能够使用Run:ai的AI工作负载功能。

英伟达官方并未透露收购交易金额等条款详情。但据以色列媒体Calcalist等相关媒体日前报道，交易金额为7亿美元。

同样收获英伟达青睐的另一家AI创企Deci，也致力于实现AI芯片的“降本增效”。据The Information报道，英伟达同意收购以色列初创公司Deci，无法获悉具体的收购金额。

据Deci官网，该公司成立于2019年，其提供高效的生成式AI和计算机视觉模型，可部署在各种环境中，同时保持数据安全并控制推理成本。

据了解，其解决方案通过调整AI模型大小，从而使其能够在AI芯片上更便宜地运行。目前，Deci已与微软、英特尔、AMD、亚马逊等多家科技巨头达成合作。

不难看出，英伟达这两笔投资的目的都在于帮助其客户更加有效的利用自家AI芯片产品。

The Information相关报道指出，两位了解交易情况的人称，Run:ai提高AI芯片效率的能力可能会吸引更多客户使用NVIDIA DGX Cloud。另外，英伟达可能会提供Deci以及CUDA软件，从而使开发人员能够更便宜地构建AI驱动的应用程序。

英伟达在官方通稿中亦指出，客户期望从更好的GPU利用率、改进的GPU基础设施管理以及开放式架构带来的更大灵活性中受益。

英伟达“最强AI芯片”诞生

2024 GTC大会上，黄仁勋介绍了运行AI模型的新一代芯片和软件。他表示，新一代的B200 GPU拥有2080亿个晶体管，可以提供高达20 petaflops的FP4性能。相比之下，H100仅为4 petaflops。

此外，将两个B200 GPU与单个Grace CPU 结合在一起的 GB200，可以为LLM推理工作负载提供30倍的性能，并且显著提高效率。

黄仁勋还强调称：“与H100相比，GB200的成本和能耗降低了25倍！

关于市场近期颇为关注的能源消耗问题，B200 GPU也交出了最新的答卷。

黄仁勋表示，此前训练一个1.8 万亿参数模型，需要8000 个 Hopper GPU 并消耗15 MW电力。但如今，2000 个 Blackwell GPU就可以实现这一目标，耗电量仅为4MW。

在拥有1750亿参数的GPT-3大模型基准测试中，GB200的性能是H100的7倍，训练速度是H100的4倍。

值得一提的是，B200 GPU的重要进步之一，是采用了第二代Transformer引擎。

它通过对每个神经元使用4位（20 petaflops FP4）而不是8位，直接将计算能力、带宽和模型参数规模翻了一倍。

而只有当这些大量的GPU连接在一起时，第二个重要区别才会显现，那就是新一代NVLink交换机可以让576个GPU相互通信，双向带宽高达1.8TB/秒。

而这就需要英伟达构建一个全新的网络交换芯片，其中包括500亿个晶体管和一些自己的板载计算：拥有3.6 teraflops FP8处理能力。

在此之前，仅16个GPU组成的集群，就会耗费60%的时间用于相互通信，只有40%的时间能用于实际计算。

一石激起千层浪，“最强AI芯片”的推出让网友纷纷赞叹。

其中英伟达高级科学家Jim Fan直呼：Blackwell新王诞生，新的摩尔定律已经应运而生。

无芯片，不AI

AI芯片是AI算力的核心。

有说法称，对标ChatGPT，做好一个大模型的最低门槛就是1万块A100的芯片。前面说到，随着人工智能应用场景和数据规模的扩大，算法模型的复杂度呈指数级增长，特别是深度学习成为主流，需要更快的计算速度。虽然CPU可以执行AI算法，但由于内部逻辑多，对于AI算法来说效率不高。因此，出现了专门的AI芯片，它们设计用于高效并行计算，加速AI计算过程，并提高性价比。

广义而言，AI 芯片指的是专门用于处理人工智能应用中大量计算任务的模块，除了以 GPU、FPGA、ASIC 为代表的 AI 加速芯片，还有比较前沿性的研究，例如：类脑芯片、可重构通用 AI 芯片等。狭义的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片。

这里面，GPU是AI芯片主力军，因为它拥有卓越的高性能计算能力和通用性，适用于处理复杂算法和通用型人工智能平台。而随着人工智能技术、平台和终端的不断成熟，随着视觉、语音、深度学习的算法在FPGA以及ASIC芯片上的不断优化，此两者也有望逐步占有更多的市场份额。

根据VMR数据，全球和中国的GPU市场规模预计将继续快速增长。2021年全球GPU市场规模达到334.7亿美元，预计到2030年将增至4773.7亿美元，年复合增长率达34.4%。2020年中国GPU市场规模为47.39亿美元，预计到2027年将增至345.57亿美元，年复合增长率为32.8%。这表明GPU在人工智能领域的需求将继续扩大，并将成为市场的重要推动力量。

寻找中国版英伟达，期待国产替代空间

对于AI在下一轮科技革命中的地位，各国已经形成共识，都在纷纷抢滩。从中美对比来说，竞争优势的争夺就主要涉及前面提到的算法、大数据资源和算力三方面。在算法设计方面，双方没有明显差距，主要依赖设计团队的智慧和灵感；在大数据资源方面，中国占据着绝对优势，双方在大数据分析技术上相近。然而，决定人工智能产品的关键要素还包括“算力"，计算能力是计算机的核心能力，这也是中美两国长期竞争超级计算机领域的原因之一。国内大模型与国外的主要差距也体现在算力层面，没有算力基础，后面算法等发展都无法进行。

在AI芯片领域，国外的芯片巨头占据了大部分市场份额，有着明显的先发优势，比如英伟达、AMD、英特尔的营收几乎代表整个GPU行业收入。而国内的AI芯片产业起步较晚，与世界先进水平存在较大差距，国内AI芯片市场也较为分散，集中度较低，发展空间巨大。

不过，国内一批新兴力量正在崛起，竞争梯队越发丰富。从国内AI芯片厂商格局来看，以大算力或者高性能计算芯片为代表，一梯队，有成熟产品、批量出货的企业，主要包括寒武纪、华为海思、百度昆仑芯、燧原科技，这四家有2-3代更多的产品，技术能力、软件能力都有一定积累；二梯队，主要包括以AI芯片起家的壁仞科技、天数智心、摩尔线程、沐曦等。壁仞科技去年发布的产品规格很高，但主要还停留在纸面数据，实测数据、实际性能方面业界和第三方评测机构评价没有那么高，软件层面从使用角度来讲也还有很大的成长空间。其他几家也陆续有产品推出，但技术能力还停留在推理层面，不像一梯队企业有更成熟的产品经验；三梯队，如海光、景嘉微等。技术能力还有待市场的认可和验证。

从产品来说，目前国内已经批量生产的产品大多都是A100的上一代，如昆仑芯三代、思远590、燧思3.0等，不过，各公司正在研发更新一代产品，缩小国内外差距。向后看，基于国家政策的大力支持，以及自主可控的迫切需求，中国厂商有望迎来更大的国产替代机遇。而如果国内产品能够替代英伟达的算力产品，将会是非常大的机会。数据中心建设方面也需要服务器，会带动国内提供大型服务器的厂商，比如浪潮信息、中科曙光等，以及光模块、调节芯片和散热技术，需求都会受益于大模型浪潮。相信随着国内企业的持续投入和创新，以及政府的支持，中国在人工智能领域的发展势头仍然很强，有望逐步缩小与国外竞争对手的差距。

登入后，方可留言>>

行业动态

阿尔特控股子公司终止14.51亿元DHT产品采购合同，曾被视为出海重要举措

消息称Waymo正在洽谈100亿美元融资估值将超过1000亿美元

工信部公布两款L3级自动驾驶车型将在指定区域开展上路试点

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产