欢迎访问深圳市中小企业公共服务平台电子信息窗口
英伟达一口气收购两家AI企业,打的什么主意?
2024-04-26 来源:贤集网
475

关键词: 英伟达 人工智能 芯片

英伟达又出手了!继去年投资30多家创企后,近期该公司又投资了两家人工智能初创企业Run:ai与Deci。

当地时间4月24日,英伟达宣布,已经同Run:ai签订最终收购协议。公司认为,这能够帮助客户更有效地利用其AI计算资源。

Run:ai成立于2018年,是一家基于开源容器编排平台Kubernetes的工作负载管理和编排软件提供商。当下,AI的部署变得越来越复杂,工作负载分布在云、边缘和本地数据中心基础设施中。管理和编排生成式AI、推荐系统、搜索引擎和其他工作负载需要复杂的调度,从而优化系统级别和底层基础设施的性能。



而Run:ai的产品能够实现高效GPU集群的资源利用。简单来说,其产品能够支持开发人员并行运行多个AI工作负载,从而提高AI芯片的利用效率,降低了成本。

目前,Run:ai的解决方案已与英伟达的DGX、DGX SuperPOD、Base Command、NGC容器和AI Enterprise软件等产品结合,英伟达DGX和DGX Cloud的客户将能够使用Run:ai的AI工作负载功能。

英伟达官方并未透露收购交易金额等条款详情。但据以色列媒体Calcalist等相关媒体日前报道,交易金额为7亿美元。

同样收获英伟达青睐的另一家AI创企Deci,也致力于实现AI芯片的“降本增效”。据The Information报道,英伟达同意收购以色列初创公司Deci,无法获悉具体的收购金额。

据Deci官网,该公司成立于2019年,其提供高效的生成式AI和计算机视觉模型,可部署在各种环境中,同时保持数据安全并控制推理成本。

据了解,其解决方案通过调整AI模型大小,从而使其能够在AI芯片上更便宜地运行。目前,Deci已与微软、英特尔、AMD、亚马逊等多家科技巨头达成合作。

不难看出,英伟达这两笔投资的目的都在于帮助其客户更加有效的利用自家AI芯片产品。

The Information相关报道指出,两位了解交易情况的人称,Run:ai提高AI芯片效率的能力可能会吸引更多客户使用NVIDIA DGX Cloud。另外,英伟达可能会提供Deci以及CUDA软件,从而使开发人员能够更便宜地构建AI驱动的应用程序。

英伟达在官方通稿中亦指出,客户期望从更好的GPU利用率、改进的GPU基础设施管理以及开放式架构带来的更大灵活性中受益。


英伟达“最强AI芯片”诞生

2024 GTC大会上,黄仁勋介绍了运行AI模型的新一代芯片和软件。他表示,新一代的B200 GPU拥有2080亿个晶体管,可以提供高达20 petaflops的FP4性能。相比之下,H100仅为4 petaflops。

此外,将两个B200 GPU与单个Grace CPU 结合在一起的 GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。



黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!

关于市场近期颇为关注的能源消耗问题,B200 GPU也交出了最新的答卷。

黄仁勋表示,此前训练一个1.8 万亿参数模型,需要8000 个 Hopper GPU 并消耗15 MW电力。但如今,2000 个 Blackwell GPU就可以实现这一目标,耗电量仅为4MW。

在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。

值得一提的是,B200 GPU的重要进步之一,是采用了第二代Transformer引擎。

它通过对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。

而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。

而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。

在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。

一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。

其中英伟达高级科学家Jim Fan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。


无芯片,不AI

AI芯片是AI算力的核心。

有说法称,对标ChatGPT,做好一个大模型的最低门槛就是1万块A100的芯片。前面说到,随着人工智能应用场景和数据规模的扩大,算法模型的复杂度呈指数级增长,特别是深度学习成为主流,需要更快的计算速度。虽然CPU可以执行AI算法,但由于内部逻辑多,对于AI算法来说效率不高。因此,出现了专门的AI芯片,它们设计用于高效并行计算,加速AI计算过程,并提高性价比。

广义而言,AI 芯片指的是专门用于处理人工智能应用中大量计算任务的模块,除了以 GPU、FPGA、ASIC 为代表的 AI 加速芯片,还有比较前沿性的研究,例如:类脑芯片、可重构通用 AI 芯片等。狭义的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片。

这里面,GPU是AI芯片主力军,因为它拥有卓越的高性能计算能力和通用性,适用于处理复杂算法和通用型人工智能平台。而随着人工智能技术、平台和终端的不断成熟,随着视觉、语音、深度学习的算法在FPGA以及ASIC芯片上的不断优化,此两者也有望逐步占有更多的市场份额。



根据VMR数据,全球和中国的GPU市场规模预计将继续快速增长。2021年全球GPU市场规模达到334.7亿美元,预计到2030年将增至4773.7亿美元,年复合增长率达34.4%。2020年中国GPU市场规模为47.39亿美元,预计到2027年将增至345.57亿美元,年复合增长率为32.8%。这表明GPU在人工智能领域的需求将继续扩大,并将成为市场的重要推动力量。


寻找中国版英伟达,期待国产替代空间

对于AI在下一轮科技革命中的地位,各国已经形成共识,都在纷纷抢滩。从中美对比来说,竞争优势的争夺就主要涉及前面提到的算法、大数据资源和算力三方面。在算法设计方面,双方没有明显差距,主要依赖设计团队的智慧和灵感;在大数据资源方面,中国占据着绝对优势,双方在大数据分析技术上相近。然而,决定人工智能产品的关键要素还包括“算力",计算能力是计算机的核心能力,这也是中美两国长期竞争超级计算机领域的原因之一。国内大模型与国外的主要差距也体现在算力层面,没有算力基础,后面算法等发展都无法进行。

在AI芯片领域,国外的芯片巨头占据了大部分市场份额,有着明显的先发优势,比如英伟达、AMD、英特尔的营收几乎代表整个GPU行业收入。而国内的AI芯片产业起步较晚,与世界先进水平存在较大差距,国内AI芯片市场也较为分散,集中度较低,发展空间巨大。

不过,国内一批新兴力量正在崛起,竞争梯队越发丰富。从国内AI芯片厂商格局来看,以大算力或者高性能计算芯片为代表,一梯队,有成熟产品、批量出货的企业,主要包括寒武纪、华为海思、百度昆仑芯、燧原科技,这四家有2-3代更多的产品,技术能力、软件能力都有一定积累;二梯队,主要包括以AI芯片起家的壁仞科技、天数智心、摩尔线程、沐曦等。壁仞科技去年发布的产品规格很高,但主要还停留在纸面数据,实测数据、实际性能方面业界和第三方评测机构评价没有那么高,软件层面从使用角度来讲也还有很大的成长空间。其他几家也陆续有产品推出,但技术能力还停留在推理层面,不像一梯队企业有更成熟的产品经验;三梯队,如海光、景嘉微等。技术能力还有待市场的认可和验证。

从产品来说,目前国内已经批量生产的产品大多都是A100的上一代,如昆仑芯三代、思远590、燧思3.0等,不过,各公司正在研发更新一代产品,缩小国内外差距。向后看,基于国家政策的大力支持,以及自主可控的迫切需求,中国厂商有望迎来更大的国产替代机遇。而如果国内产品能够替代英伟达的算力产品,将会是非常大的机会。数据中心建设方面也需要服务器,会带动国内提供大型服务器的厂商,比如浪潮信息、中科曙光等,以及光模块、调节芯片和散热技术,需求都会受益于大模型浪潮。相信随着国内企业的持续投入和创新,以及政府的支持,中国在人工智能领域的发展势头仍然很强,有望逐步缩小与国外竞争对手的差距。