WAIC上的RDMA智能网卡,已成为国产AI算力突破的重要一环!
关键词: AI基础设施 RDMA智能网卡 云脉芯联 RoCE技术 算力突破
生成式AI、Agentic AI的大热,带动的不单是GPU、AI芯片的发展,当我们谈到AI数据中心就必谈到“万卡”集群时,“互连”和“数据通信”的重要性也快速凸显。单张显卡或者AI加速卡已难以支持当下巨量参数规模的AI大模型训练和推理,跨芯片、跨板卡、跨节点组建AI基础设施成为算力增长的主要方向,RDMA智能网卡作为网络互联的核心组件,成为算力突破的重要一环。
过去一年的媒体活动上,不少企业都谈到大模型训练时,GPU真正工作的时间有时只占1/3,大部分的时间都耗费在了数据传输的等待上。所以前不久摩尔线程在WAIC(世界人工智能大会)媒体活动上提出,AI工厂效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性。
这里的“集群效率”显然是指更低的GPU闲置率,尤其是数据传输的效率。故而云脉芯联创始人兼CEO刘永锋在WAIC上提出,整体算力 = 算力密度(GPU)× 算力规模(交换芯片) × 数据传输效率(网卡芯片)——这是个相对而言更具体的描述方式。
刘永锋表示,“上下游众志成城、取长补短”,“通过融合创新”“把国产化做起来”,实现“算力突破”。这也是国内所有涉足AI基础设施搭建的企业的共识。
我们在WAIC之上就看到了云脉芯联的“AI时代智能算力互联网络解决方案”,包括智能网卡(SmartNIC)和DPU产品。云脉芯联很大程度上是可以代表国产NIC、DPU芯片及解决方案的最高水平的——其YSA-100芯片产品及系列智能网卡/DPU产品就已经在头部互联网、基础设施服务商、运营商等各行业实现量产出货,客户包括浪潮、新华三、上海仪电、浙江银盾云、中国移动等,据说客户覆盖还在稳步增长。
本文就以图集的形式来看看云脉芯联的现有产品,及其所反映的国产智能网卡与DPU发展现状。
▲ 云脉芯联YSA-100网络芯片,“支持高性能网络和DPU场景的裸金属、虚拟化卸载(offload)加速,适用于算力基础设施智算中心网络、存储和云计算等各类应用场景”。YSA-100是一颗ASIC架构的网络芯片,云脉芯联在去年的新闻稿中说,这颗芯片已经于2024年量产,是“国内首颗支持400Gbps吞吐能力的RDMA(直接内存访问)高性能网络芯片”;且这颗芯片已经在多个智算中心落地应用。
▲ metaConnect-400S,metaConnect系列在云脉芯联的产品定位为“AI NIC”。 metaConnect-400S的具体定位是“高性能AI网卡”,尤其表现在单口400GbE吞吐速率,“提供具有包喷洒多路径能力的高性能RDMA网络能力”,且“与各CPU和GPU产品均有优秀的兼容能力”。
面向智算中心时,“metaConnect-400S提供1x400GbE网络接入能力,支持多路径负载均衡和乱序重排能力,基于Credit授权的拥塞控制和可编程拥塞控制算法能力,有效提升AI计算通信效率,对比业内主流产品通信性能提升约5%。”这款产品在我们看来也是真正能够体现以太网用于AI大规模集群networking的潜力和价值的。
▲ metaConnect-400,相较前者的主要差异是,这是个支持2x200GbE的AI NIC,“增值能力实现单QP(queue pair)双平面网络400Gbps吞吐性能”——使用一个QP同时在两个物理网络平面上达成400Gbps总吞吐量。
▲ metaScale-200S智能网卡——相较前面的metaConnect系列,云脉芯联定义metaScale系列产品为“高性能智能网卡”。200S是实现了单口200GbE的、面向云计算数据中心高性能存储网络和智算中心AI计算网络打造的智能网卡产品,同样提供高性能RoCEv2网络能力。
▲ 同为metaScale-200S智能网卡,OCP 3.0接口版。
▲ metaScale-200,2x100GbE吞吐能力,PCIe标准形态;
▲ 同为metaScale-200,OCP 3.0标准接口版;
▲ metaScale-50,25GbE智能网卡,“面向现代数据中心,具备高性能存储网络互联能力”,“提供优异的网络互联收发性能,成熟的平台兼容性,丰富的软件生态,以及灵活的解决方案能力”。
▲ 基于YSA-100芯片的metaVisor-200,云脉芯联称其为AI DPU。介绍中提到,这款metaVisor-200是面向人工智能智算中心AI计算网络打造的2x100GbE高性能AI DPU产品。
“支持云盘启动、VPC网络卸载加速、RoCEv2 Overlay和RDMA统一纳管运维监控的能力,为未来智算中心提供快速发放、租户网络隔离和弹性部署等灵活解决方案”。
▲ 云脉芯联展位摆了一台来自新华三的服务器,算力卡则是来自国产GPU;中间的四张网卡就来自云脉芯联——这是云脉芯联的智能网卡/DPU在AI算力领域落地的形式之一。
刘永锋在演讲中提到国产算力突破的两个方向,其一是“提前布局、因地制宜”——比如前文提到云脉芯联在RoCE上的布局。 “在更大规模、更高带宽场景下,以太网是更有潜力的。过去RoCE在AI应用上可能存在一些不成熟的地方——但如果能提前布局投入对RoCE的优化,今天会看到以太网真正的价值。现在很多大厂已经在投入RoCE。”“它是能够实现AI算力突破很好的技术。”
RoCE (RDMA over Converged Ethernet) 也就是通过以太网做RDMA,在不需要操作系统、CPU介入的情况下,就直接访问内存,得以实现超低延迟、高吞吐,以及降低CPU的开销。它对诸如HPC、AI训推、大规模存储系统这类数据密集型应用价值甚大。
刘永锋提到,“在芯片研发方面提前布局RoCE,经过持续的技术创新,在AI网络需要更大规模和更高带宽的情况下,云脉芯联200Gbps和400Gbps高性能智能网卡已逐步建立起差异化的竞争优势,具有很强的爆发力,成为国产网络在AI基础设施领域实现突破的基础。”
其二是上下游配合,“众志成城、取长补短”。比如上述产品的宣传文案大多都提及 “具备卓越的多平台兼容性,与各CPU与GPU有优秀的兼容能力”,包括对一众国产CPU、GPU和操作系统的支持。“国产交换芯片和国产网卡芯片能够深度协同,就可以形成灵活的最优解决方案,其中网络互联芯片成为最核心的一环。”
WAIC上,云脉芯联展位工作人员告诉我们,“云脉芯联已与展馆中的GPU厂商,和大多数CPU及相关的应用厂商成为合作伙伴。”“与国内部分头部互联网厂商、云基础设施服务商和通信运营商均有合作——不仅是因为供应链安全,国内芯片厂商也能够根据客户需求去为他们提供更好的解决方案;当然产品的性能本身需要达到要求。”
刘永锋则举例提及在DeepSeek发布之后,云脉芯联与其他合作伙伴多方配合,去适配DeepEP(一个特别面向MoE和EP – expert parallelism的通信库),实现“端到端拉通”。“上下游一起努力把国产化做起来。”在半导体制造工艺、技术能力受限的情况下,通过与AI基础设施其他参与者的适配、协作,才能达成真正意义上的“算力突破”。
