Meta自研Vistara CXL芯片让旧DDR4“再就业”,AI推理服务器需求减少25%
关键词: Meta Vistara CXL内存扩展 DDR4复用 AI推理 数据中心
日前,在ISCA 2026国际计算机体系结构大会上,Meta公开了其自研的Vistara定制芯片方案。这是一款专为复用退役服务器DDR4内存而设计的CXL(Compute Express Link)ASIC,通过将旧服务器的DDR4内存条接入新一代DDR5服务器,构建共享内存池,在覆盖数百万台服务器的超大规模基础设施中实现落地。Meta同步发表的论文显示,该方案可使部分AI推理业务所需服务器数量最高减少25%,分布式缓存平均延迟降低29%。

服务器3至5年退役,内存却能用7至10年
Meta在论文中揭示了一个数据中心普遍存在的资源错配问题:服务器的预期使用寿命通常为3至5年,但服务器级DRAM芯片的物理寿命可达7至10年。这意味着,大量性能依然良好的DDR4内存,会随着整机退役而被闲置甚至报废。
更严峻的是,在Meta自有基础设施中,约40%的服务器——规模达数百万台——由于内存容量限制,无法继续承载新的AI工作负载。与此同时,海量DDR4内存处于闲置状态。在DDR5内存价格飙涨、供应紧张的背景下,这种"旧内存闲着、新内存买不起"的困境,对每年资本支出高达数百亿美元的超大规模互联网公司而言,是巨大的资源浪费。
为什么不用现成的CXL方案?三大痛点
CXL技术问世已有六年,理论上可通过PCIe接口扩展内存容量。但Meta评估后认为,现有商业化CXL方案存在三大硬伤,无法满足其需求:
一是捆绑销售。大多数CXL方案将DRAM与控制器捆绑在一起,无法复用现有的DDR4 DIMM内存条。
二是不支持DDR4。现有方案普遍不支持DDR4,而Meta需要复用的正是退役服务器上的大量DDR4资产。
三是功耗高、成本高。商业化方案在功耗和成本方面不具备优势,不适合超大规模部署。

Vistara ASIC:专为DDR4复用量身定制的"桥梁"
为此,Meta选择自己设计了一颗专用的CXL内存扩展ASIC——Vistara。

根据论文披露的技术参数,Vistara ASIC的核心架构包括:
接口:通过符合CXL 2.0/1.1标准的PCIe Gen5 x16接口与主机连接;
DDR4支持:集成两个独立的72-bit DDR4内存通道,支持最高DDR4-3200速率;
容量:单颗ASIC最高可连接256GB DDR4(采用64GB DIMM),目前生产环境中实际部署为128GB(采用32GB DIMM);
可靠性:支持RS(36,32)双符号纠错和x4 chip-kill内存纠错;
延迟:ASIC空闲往返延迟约50ns;
控制核心:内置三颗RISC-V处理器,分别负责安全启动、设备控制和引导初始化;
功耗:单颗ASIC功耗约9W。

Vistara的核心功能可以概括为:充当DDR4与当前基于DDR5的AI服务器之间的"翻译器",把旧DDR4内存转换为新服务器可直接调用的CXL内存资源。
768GB DDR5 + 256GB DDR4 = 1TB内存
Meta将Vistara部署在名为MemServer的硬件平台中。以生产环境中的一台典型配置为例:

处理器:AMD Turin,158核心/316线程;
本地内存:768GB DDR5-6400,共12个通道,峰值带宽614GB/s,空闲延迟约130ns;
CXL扩展:通过2颗Vistara ASIC连接256GB DDR4-2400(共8条32GB RDIMM),CXL峰值带宽约76GB/s,空闲延迟约250ns;
总内存容量:1TB;
CXL部分总功耗:约50W(含2颗ASIC和8条DIMM)。
Vistara CXL卡安装在机箱后部专用插槽,通过大容量风扇定向送风散热。

软件自动分层,应用完全无感
硬件只是基础,Meta还基于Linux内核的TPP(Transparent Page Placement,透明页放置)和TMO(Transparent Memory Offloading,透明内存卸载)机制,构建了一套自动化的内存分层系统。
系统实时追踪每个内存页面的访问频率,将"热页"(被CPU频繁访问)自动保留在本地高速DDR5中,将"冷页"(很少访问)静默迁移到CXL上的DDR4——整个过程对上层应用完全透明,无需修改任何代码。
论文特别回应了学术界此前的担忧:TPP机制会带来较大的CPU开销。但Meta在百万级服务器生产环境中的实测显示,TPP的CPU开销不到0.5%,远低于预期。Vistara的尾延迟表现也相当稳定,未出现此前FPGA测试中报告的不稳定现象。
对于延迟敏感型工作负载,Meta还提供了基于cgroup的灵活"退出机制",允许特定任务禁用CXL内存,确保关键业务不受影响。
生产效果:AI推理服务器减少25%,缓存延迟降29%
Vistara是Meta首款软硬件协同设计的CXL内存扩展平台,已在超大规模生产环境中部署,覆盖缓存、数据仓库、机器学习推理、开发基础设施等多样化工作负载。论文披露的具体收益包括:

分离式机器学习推理:在5.1TB生产级推荐模型的推理服务中,服务器需求减少25%,吞吐量提升4%;当模型规模扩展到20TB时,吞吐量提升达4%至12%,服务器需求持续减少20%至25%。
分布式缓存(CacheB):平均查询延迟降低29%,2.3%的缓存命中从闪存转移到了内存,有效延长了SSD寿命。
数据仓库(Spark):执行器密度提升33%,OOM(内存溢出)事件减少33%。
开发基础设施(DevInfra):每台物理服务器可运行的开发者虚拟机数量增加33%,整体服务器需求减少15%。
行业从"算力竞争"到"系统架构竞争"
Vistara方案的价值远不止于节省几颗内存条的成本,它在更深层次上印证了数据中心基础设施的两个关键趋势:
第一,CXL技术的规模化验证。 CXL标准问世六年,业界一直缺乏大规模生产部署的实证数据。Meta用百万级服务器的真实场景证明,CXL内存分层在工程上是可行的、可靠的,且收益显著。学术界关于CXL尾延迟和TPP开销的担忧,被生产数据一一反驳。
第二,超大规模云厂商正在成为芯片设计的主角。 Vistara并非通用芯片,而是围绕Meta特定基础设施需求——最大化复用DDR4资产——量身定制的产物。这种"工作负载定义芯片"的模式,正在成为微软、谷歌、亚马逊等云巨头的共同选择。
从更宏观的视角看,Vistara折射出AI时代数据中心设计理念的根本转变:资源正从"整机绑定"走向"解耦池化"。CPU、GPU、内存、存储不再需要同步淘汰、同步升级,而是通过CXL等开放互联技术,形成可按需调度的独立资源池。这不仅延长了硬件生命周期,更从根本上提升了基础设施的投资回报率。
其他厂商也推出低延迟CXL商用方案
除Meta外,韩国初创公司Panmnesia也推出了面向市场的CXL扩展器解决方案。其核心在于一款现成的CXL控制器和交换机,能在不增加延迟的前提下连接大规模内存池。Panmnesia声称其fabric可扩展至多达64个节点,远超早期CXL部署仅能连接少数节点的局限,为大型云服务商提供了更高的DRAM使用灵活性。目前,该公司已提供PCIe 6.4/CXL 3.2融合交换机的预发布硅片,并完成支持CXL 4.0最新功能的PCIe 7.0/CXL 4.0组合IP开发。