欢迎访问深圳市中小企业公共服务平台电子信息窗口

Meta自研Vistara CXL芯片让旧DDR4“再就业”,AI推理服务器需求减少25%

2026-07-03 来源:电子工程专辑
76

关键词: Meta Vistara CXL内存扩展 DDR4复用 AI推理 数据中心

日前,在ISCA 2026国际计算机体系结构大会上,Meta公开了其自研的Vistara定制芯片方案。这是一款专为复用退役服务器DDR4内存而设计的CXL(Compute Express Link)ASIC,通过将旧服务器的DDR4内存条接入新一代DDR5服务器,构建共享内存池,在覆盖数百万台服务器的超大规模基础设施中实现落地。Meta同步发表的论文显示,该方案可使部分AI推理业务所需服务器数量最高减少25%,分布式缓存平均延迟降低29%。

服务器3至5年退役,内存却能用7至10年

Meta在论文中揭示了一个数据中心普遍存在的资源错配问题:服务器的预期使用寿命通常为3至5年,但服务器级DRAM芯片的物理寿命可达7至10年。这意味着,大量性能依然良好的DDR4内存,会随着整机退役而被闲置甚至报废。

更严峻的是,在Meta自有基础设施中,约40%的服务器——规模达数百万台——由于内存容量限制,无法继续承载新的AI工作负载。与此同时,海量DDR4内存处于闲置状态。在DDR5内存价格飙涨、供应紧张的背景下,这种"旧内存闲着、新内存买不起"的困境,对每年资本支出高达数百亿美元的超大规模互联网公司而言,是巨大的资源浪费。

为什么不用现成的CXL方案?三大痛点

CXL技术问世已有六年,理论上可通过PCIe接口扩展内存容量。但Meta评估后认为,现有商业化CXL方案存在三大硬伤,无法满足其需求:

一是捆绑销售。大多数CXL方案将DRAM与控制器捆绑在一起,无法复用现有的DDR4 DIMM内存条。

二是不支持DDR4。现有方案普遍不支持DDR4,而Meta需要复用的正是退役服务器上的大量DDR4资产。

三是功耗高、成本高。商业化方案在功耗和成本方面不具备优势,不适合超大规模部署。

Vistara ASIC:专为DDR4复用量身定制的"桥梁"

为此,Meta选择自己设计了一颗专用的CXL内存扩展ASIC——Vistara。

根据论文披露的技术参数,Vistara ASIC的核心架构包括:

接口:通过符合CXL 2.0/1.1标准的PCIe Gen5 x16接口与主机连接;

DDR4支持:集成两个独立的72-bit DDR4内存通道,支持最高DDR4-3200速率;

容量:单颗ASIC最高可连接256GB DDR4(采用64GB DIMM),目前生产环境中实际部署为128GB(采用32GB DIMM);

可靠性:支持RS(36,32)双符号纠错和x4 chip-kill内存纠错;

延迟:ASIC空闲往返延迟约50ns;

控制核心:内置三颗RISC-V处理器,分别负责安全启动、设备控制和引导初始化;

功耗:单颗ASIC功耗约9W。

Vistara的核心功能可以概括为:充当DDR4与当前基于DDR5的AI服务器之间的"翻译器",把旧DDR4内存转换为新服务器可直接调用的CXL内存资源。

768GB DDR5 + 256GB DDR4 = 1TB内存

Meta将Vistara部署在名为MemServer的硬件平台中。以生产环境中的一台典型配置为例:

  • 处理器:AMD Turin,158核心/316线程;

  • 本地内存:768GB DDR5-6400,共12个通道,峰值带宽614GB/s,空闲延迟约130ns;

  • CXL扩展:通过2颗Vistara ASIC连接256GB DDR4-2400(共8条32GB RDIMM),CXL峰值带宽约76GB/s,空闲延迟约250ns;

  • 总内存容量:1TB;

  • CXL部分总功耗:约50W(含2颗ASIC和8条DIMM)。

Vistara CXL卡安装在机箱后部专用插槽,通过大容量风扇定向送风散热。

软件自动分层,应用完全无感

硬件只是基础,Meta还基于Linux内核的TPP(Transparent Page Placement,透明页放置)和TMO(Transparent Memory Offloading,透明内存卸载)机制,构建了一套自动化的内存分层系统。

系统实时追踪每个内存页面的访问频率,将"热页"(被CPU频繁访问)自动保留在本地高速DDR5中,将"冷页"(很少访问)静默迁移到CXL上的DDR4——整个过程对上层应用完全透明,无需修改任何代码。

论文特别回应了学术界此前的担忧:TPP机制会带来较大的CPU开销。但Meta在百万级服务器生产环境中的实测显示,TPP的CPU开销不到0.5%,远低于预期。Vistara的尾延迟表现也相当稳定,未出现此前FPGA测试中报告的不稳定现象。

对于延迟敏感型工作负载,Meta还提供了基于cgroup的灵活"退出机制",允许特定任务禁用CXL内存,确保关键业务不受影响。

生产效果:AI推理服务器减少25%,缓存延迟降29%

Vistara是Meta首款软硬件协同设计的CXL内存扩展平台,已在超大规模生产环境中部署,覆盖缓存、数据仓库、机器学习推理、开发基础设施等多样化工作负载。论文披露的具体收益包括:

分离式机器学习推理:在5.1TB生产级推荐模型的推理服务中,服务器需求减少25%,吞吐量提升4%;当模型规模扩展到20TB时,吞吐量提升达4%至12%,服务器需求持续减少20%至25%。

分布式缓存(CacheB):平均查询延迟降低29%,2.3%的缓存命中从闪存转移到了内存,有效延长了SSD寿命。

数据仓库(Spark):执行器密度提升33%,OOM(内存溢出)事件减少33%。

开发基础设施(DevInfra):每台物理服务器可运行的开发者虚拟机数量增加33%,整体服务器需求减少15%。

行业从"算力竞争"到"系统架构竞争"

Vistara方案的价值远不止于节省几颗内存条的成本,它在更深层次上印证了数据中心基础设施的两个关键趋势:

第一,CXL技术的规模化验证。 CXL标准问世六年,业界一直缺乏大规模生产部署的实证数据。Meta用百万级服务器的真实场景证明,CXL内存分层在工程上是可行的、可靠的,且收益显著。学术界关于CXL尾延迟和TPP开销的担忧,被生产数据一一反驳。

第二,超大规模云厂商正在成为芯片设计的主角。 Vistara并非通用芯片,而是围绕Meta特定基础设施需求——最大化复用DDR4资产——量身定制的产物。这种"工作负载定义芯片"的模式,正在成为微软、谷歌、亚马逊等云巨头的共同选择。

从更宏观的视角看,Vistara折射出AI时代数据中心设计理念的根本转变:资源正从"整机绑定"走向"解耦池化"。CPU、GPU、内存、存储不再需要同步淘汰、同步升级,而是通过CXL等开放互联技术,形成可按需调度的独立资源池。这不仅延长了硬件生命周期,更从根本上提升了基础设施的投资回报率。

其他厂商也推出低延迟CXL商用方案

除Meta外,韩国初创公司Panmnesia也推出了面向市场的CXL扩展器解决方案。其核心在于一款现成的CXL控制器和交换机,能在不增加延迟的前提下连接大规模内存池。Panmnesia声称其fabric可扩展至多达64个节点,远超早期CXL部署仅能连接少数节点的局限,为大型云服务商提供了更高的DRAM使用灵活性。目前,该公司已提供PCIe 6.4/CXL 3.2融合交换机的预发布硅片,并完成支持CXL 4.0最新功能的PCIe 7.0/CXL 4.0组合IP开发。