欢迎访问深圳市中小企业公共服务平台电子信息窗口
网卡“升职”记!DPU是如何成为算力芯片的中流砥柱的?
2024-04-10 来源:贤集网
1066

关键词: GPU 人工智能 DPU

在算力需求高涨的今天,CPU和GPU作为算力底座,涨势凶猛。英伟达凭借GPU在AI时代一骑绝尘,市值节节高升直冲2万亿美元。然而,随着人工智能、大数据分析、云计算等技术的发展,CPU和GPU在处理现代数据中心的复杂负载方面逐渐显露出局限性。

DPU,以其专门针对数据流和网络流量进行优化的能力,在解决数据中心的效率和灵活性问题方面展现出巨大的潜力和价值。特别是在如今如日中天的AI大模型时代,DPU已成为算力集群中重要的参与者。

在万亿级的算力产业市场中,DPU虽然是后来者,但其增长速度迅猛。据中科驭数高级副总裁张宇介绍:“自2020年下半年起,DPU的发展势头逐渐加速,并在近几年逐步进入了更为理性和稳健的发展阶段,成长步伐更加迅速而扎实。”



大模型时代,DPU不可或缺

随着信息技术的持续发展,数据中心网络带宽从100G迈入400G,甚至将提升至800G或1.6T。受限于通用CPU的结构的冯诺依曼瓶颈、摩尔定律逐渐失效等因素的影响,以CPU为网络核心的数据处理能力难以支持大规模新型数据中心的网络和数据的算力需求。

“AI的出现对于GPU或者DPU都是一个千载难逢的机会。”张宇指出,AI需要的不仅是GPU,大模型训练所需要算力的三大核心来源将是CPU+GPU+DPU“三U一体”的算力芯片组合。CPU提供通用算力,GPU提供智能算力,DPU负责基础IO算力,三者各司其职。一个通用智算架构需要拥有强大算力的基础设施支撑,而通用智算中心解决方案则要依靠DPU来疏导海量数据交互。

张宇介绍到,以AIGC应用来看,DPU在智算中心中的关键作用与价值主要有四大方面:1)AI 大模型/超大模型训练往往同时使用数千或数万个 GPU 卡训练,整个服务器集群规模达到10万+,DPU可以支持超大规模组网算力互连;2)机内 GPU 通信方面,千亿参数规模的 AI 模型产生的 AllReduce通信数据量会达到100GB+,机间通信方面,流水线并行、数据并行及张量并行等网络带宽需求也会达到100GB +,而DPU能够支持100G+超高带宽;3)以1750 亿参数规模的GPT- 3 模型训练为例,当动态时延从 10us 提升至1000us 时,GPU 有效计算时间占比将降低接近 10%,当网络丢包率为千分之一时, GPU有效计算时间占比将下降 13%,在这个过程中,DPU能够通过使用RDMA来降低网络延迟和抖动,显著提高GPU的有效计算时间,进而提升模型训练的效率;4)自然语言处理模型GPT-1到GPT-3,参数规模从1.17 亿发展到1750 亿个,需要的预训练数据量也从最初的5GB 发展到45TB,模型参数和训练数据规模越来越庞大,DPU的NVMe- oF技术可提供更高效的存储读取和处理能力。

如果将数据中心中的每一台服务器比喻为一座“城市”,在每个城市人口不断膨胀,城市间交互需求爆炸式增长的背景下,对比传统网卡,DPU帮助数据中心完成了从“乡间公路”到“高速铁路”的转变。DPU提供的高吞吐、低时延、基础设施卸载能力,帮助数据中心完美的规避了“信息孤岛”问题。DPU已被证明是支撑下一代数据中心IaaS及PaaS的重要基础设施。

DPU的产业价值已成共识。2023年10月,工信部、中央网信办、国务院国资委等六部门2023年10月联合印发《算力基础设施高质量发展行动计划》中指出,截至2023年6月底,我国算力总规模达到近200EFLOPS,智能算力规模占比达25.4%。预计2025年,我国算力总规模达到300EFLOPS,智能算力规模占比达35%。计划还将数据处理器 (DPU) 设为重要任务之一。

因此,国内市场DPU规模巨大,根据2023年《中国数据中心产业发展白皮书》,预计至 2025 年“十四五”规划期末,拟实现数据中心机架规模增长至 1400 万架,规模总量翻两倍,总增量投资约 7000 亿元。



如果按照服务器规模预计,未来几年云与数据中心领域每年国内服务器出货量将维持在500万台左右,其中DPU渗透率在10%左右,单台服务器可以配置一块到多块DPU板卡,预计每年DPU需求量将在100万片左右。


DPU:从网卡升级成算卡

DPU最早的前身是基础功能网卡,也就是计算机当中最常见的普通网卡。基础功能网卡提供2x10G或2x25G带宽吞吐,具有较少的硬件卸载能力,主要是Checksum,LRO/LSO等,支持SR-IOV,以及有限的多队列能力。

之后,随着网络数据量的增长和业务复杂性的提升,CPU无法独自承担所有的数据处理任务,为了更多地减轻CPU在数据处理这方面的负担,就出现了第一代智能网卡。第一代智能网卡具有丰富的硬件卸载能力,并以数据平面的卸载为主。因此,这一代智能网卡开始协助CPU处理网络负载,通过硬件卸载技术来提升计算效率。

再后来,随着网络安全、人工智能、工业互联网等多个领域不断普及,数据量超大幅增长使得处理压力越来越大。此时,智能网卡通过智能进化,融入了通用算力芯片,可进行安全与存储卸载功能;并通过对网络、储存、算力等资源的有效调度,以提升计算效率来满足算力资源优化的需求。总之,这代智能网卡就是当今的DPU,也就是数据处理单元,它具有比第一代智能网卡更丰富的硬件卸载能力,还可以用来卸载控制平面的任务和一些更加复杂的数据平面任务。

总之,随着需求侧的变化,DPU的发展前景毋庸置疑。作为新型数据中心最重要的芯片之一,DPU必将在未来计算系统中成为一个重要组成部分,以助力数据中心更高效地应对多元化的算力需求,对于支撑下一代数据中心起到至关重要的作用。


国产正在实现全产业链替代

民生证券吕伟3月2日研报中表示,全球DPU产业市场规模呈现逐年增长的趋势,并随着Intel、NVIDIA等厂商的DPU大规模量产,预计DPU市场将迎来快速增长。根据赛迪顾问数据,2020年全球DPU产业市场规模达30.5亿美元,预计到2025年全球DPU产业市场规模将超过245.3亿美元,期间CAGR高达51.73%。

得益于数据中心升级和边缘计算、新能源汽车、IoT、工业物联网等产业的发展所带来的需求增长,中国DPU产业市场规模呈现逐年增长的趋势,预计中国DPU市场将迎来快速增长。根据赛迪顾问数据,2020年中国DPU产业市场规模达3.9亿元,预计到2025年中国DPU产业市场规模将超过565.9亿元,期间CAGR高达170.6%。

从行业格局上看,DPU行业市场集中度较高。根据头豹研究院数据,2020年国内DPU市场中,国际三大巨头英伟达,博通,Intel的份额分别达到55%、36%、9%。

国内厂商中,华为,阿里,百度,腾讯也在近几年针对自身服务器进行自研与外购DPU,针对的主要功能在于数据,存储与安全方面。初创企业中科驭数、星云智联、大禹智芯、芯启源等都在加速各自在DPU赛道的布局。上市公司中,左江科技DPU已完成封装测试工作,功能均符合设计标准,目前正在与潜在客户进行沟通。神州数码拟建设信创实验室,研发新型DPU算力设备。

中银证券杨思睿研报中表示,DPU行业虽处早期,但产业链成熟。同时DPU的制程挑战略低,适合新入局者。建议关注明确有DPU布局的上市公司左江科技、通信芯片相关的紫光股份以及国产异构计算芯片公司景嘉微、紫光国微等。



从产业链看,DPU上游涉及如EDA设计软件、IP核、封装测试、代工等环节,下游则主要对应数据中心/云计算、智能驾驶、数据通信、网络安全等领域需求。从产业趋势来看,DPU下游需求有望持续放量,国内厂商与海外龙头有望在未来同台竞技。

其中EDA软件方面,目前海外三巨头Cadence、Synopsys和Mentor Graphics合计占据国内市场份额近77.7%,国产厂商在细分领域逐步突破,涉及上市公司包括华大九天、概伦电子、广立微等。IP核方面,目前ARM、Synopsys合计占据全球IP核约60%的市场份额,同时第三名Cadence的市场份额为6%。国内公司包括芯力旺电子、原微电子、芯微电子等。

封装测试方面国内封装业已率先实现国产替代,并逐步向技术壁垒更高、产品附加值更大的先进封装发展。涉及上市公司包括中芯国际、台积电、长电科技、通富微电等。

兴业证券吴鸣远表示,DPU在可预见未来,将主要应用于数据中心/云计算、智能驾驶、数据通信等领域,同时网络安全、信创、国防军工等细分市场渗透率亦有望提升。涉及上市公司包括腾讯、阿里巴巴、比亚迪、蔚来、小鹏汽车、理想汽车、中国移动、中国电信、中国联通等。

值得注意的是,分析人士表示,技术路线的多样化、应用场景的多样化决定了软件栈的多样化。复杂的应用环境让DPU公司不得不投入大量精力在解决软件适配问题,导致DPU落地时的应用开发和部署的成本都非常高,阻碍了DPU的普及。