Meta自研Vistara CXL芯片让旧DDR4“再就业”，AI推理服务器需求减少25%

2026-07-03 来源：电子工程专辑

关键词： Meta Vistara CXL内存扩展 DDR4复用 AI推理数据中心

日前，在ISCA 2026国际计算机体系结构大会上，Meta公开了其自研的Vistara定制芯片方案。这是一款专为复用退役服务器DDR4内存而设计的CXL（Compute Express Link）ASIC，通过将旧服务器的DDR4内存条接入新一代DDR5服务器，构建共享内存池，在覆盖数百万台服务器的超大规模基础设施中实现落地。Meta同步发表的论文显示，该方案可使部分AI推理业务所需服务器数量最高减少25%，分布式缓存平均延迟降低29%。

服务器3至5年退役，内存却能用7至10年

Meta在论文中揭示了一个数据中心普遍存在的资源错配问题：服务器的预期使用寿命通常为3至5年，但服务器级DRAM芯片的物理寿命可达7至10年。这意味着，大量性能依然良好的DDR4内存，会随着整机退役而被闲置甚至报废。

更严峻的是，在Meta自有基础设施中，约40%的服务器——规模达数百万台——由于内存容量限制，无法继续承载新的AI工作负载。与此同时，海量DDR4内存处于闲置状态。在DDR5内存价格飙涨、供应紧张的背景下，这种"旧内存闲着、新内存买不起"的困境，对每年资本支出高达数百亿美元的超大规模互联网公司而言，是巨大的资源浪费。

为什么不用现成的CXL方案？三大痛点

CXL技术问世已有六年，理论上可通过PCIe接口扩展内存容量。但Meta评估后认为，现有商业化CXL方案存在三大硬伤，无法满足其需求：

一是捆绑销售。大多数CXL方案将DRAM与控制器捆绑在一起，无法复用现有的DDR4 DIMM内存条。

二是不支持DDR4。现有方案普遍不支持DDR4，而Meta需要复用的正是退役服务器上的大量DDR4资产。

三是功耗高、成本高。商业化方案在功耗和成本方面不具备优势，不适合超大规模部署。

Vistara ASIC：专为DDR4复用量身定制的"桥梁"

为此，Meta选择自己设计了一颗专用的CXL内存扩展ASIC——Vistara。

根据论文披露的技术参数，Vistara ASIC的核心架构包括：

接口：通过符合CXL 2.0/1.1标准的PCIe Gen5 x16接口与主机连接；

DDR4支持：集成两个独立的72-bit DDR4内存通道，支持最高DDR4-3200速率；

容量：单颗ASIC最高可连接256GB DDR4（采用64GB DIMM），目前生产环境中实际部署为128GB（采用32GB DIMM）；

可靠性：支持RS(36,32)双符号纠错和x4 chip-kill内存纠错；

延迟：ASIC空闲往返延迟约50ns；

控制核心：内置三颗RISC-V处理器，分别负责安全启动、设备控制和引导初始化；

功耗：单颗ASIC功耗约9W。

Vistara的核心功能可以概括为：充当DDR4与当前基于DDR5的AI服务器之间的"翻译器"，把旧DDR4内存转换为新服务器可直接调用的CXL内存资源。

768GB DDR5 + 256GB DDR4 = 1TB内存

Meta将Vistara部署在名为MemServer的硬件平台中。以生产环境中的一台典型配置为例：

处理器：AMD Turin，158核心/316线程；
本地内存：768GB DDR5-6400，共12个通道，峰值带宽614GB/s，空闲延迟约130ns；
CXL扩展：通过2颗Vistara ASIC连接256GB DDR4-2400（共8条32GB RDIMM），CXL峰值带宽约76GB/s，空闲延迟约250ns；
总内存容量：1TB；
CXL部分总功耗：约50W（含2颗ASIC和8条DIMM）。

Vistara CXL卡安装在机箱后部专用插槽，通过大容量风扇定向送风散热。

软件自动分层，应用完全无感

硬件只是基础，Meta还基于Linux内核的TPP（Transparent Page Placement，透明页放置）和TMO（Transparent Memory Offloading，透明内存卸载）机制，构建了一套自动化的内存分层系统。

系统实时追踪每个内存页面的访问频率，将"热页"（被CPU频繁访问）自动保留在本地高速DDR5中，将"冷页"（很少访问）静默迁移到CXL上的DDR4——整个过程对上层应用完全透明，无需修改任何代码。

论文特别回应了学术界此前的担忧：TPP机制会带来较大的CPU开销。但Meta在百万级服务器生产环境中的实测显示，TPP的CPU开销不到0.5%，远低于预期。Vistara的尾延迟表现也相当稳定，未出现此前FPGA测试中报告的不稳定现象。

对于延迟敏感型工作负载，Meta还提供了基于cgroup的灵活"退出机制"，允许特定任务禁用CXL内存，确保关键业务不受影响。

生产效果：AI推理服务器减少25%，缓存延迟降29%

Vistara是Meta首款软硬件协同设计的CXL内存扩展平台，已在超大规模生产环境中部署，覆盖缓存、数据仓库、机器学习推理、开发基础设施等多样化工作负载。论文披露的具体收益包括：

分离式机器学习推理：在5.1TB生产级推荐模型的推理服务中，服务器需求减少25%，吞吐量提升4%；当模型规模扩展到20TB时，吞吐量提升达4%至12%，服务器需求持续减少20%至25%。

分布式缓存（CacheB）：平均查询延迟降低29%，2.3%的缓存命中从闪存转移到了内存，有效延长了SSD寿命。

数据仓库（Spark）：执行器密度提升33%，OOM（内存溢出）事件减少33%。

开发基础设施（DevInfra）：每台物理服务器可运行的开发者虚拟机数量增加33%，整体服务器需求减少15%。

行业从"算力竞争"到"系统架构竞争"

Vistara方案的价值远不止于节省几颗内存条的成本，它在更深层次上印证了数据中心基础设施的两个关键趋势：

第一，CXL技术的规模化验证。 CXL标准问世六年，业界一直缺乏大规模生产部署的实证数据。Meta用百万级服务器的真实场景证明，CXL内存分层在工程上是可行的、可靠的，且收益显著。学术界关于CXL尾延迟和TPP开销的担忧，被生产数据一一反驳。

第二，超大规模云厂商正在成为芯片设计的主角。 Vistara并非通用芯片，而是围绕Meta特定基础设施需求——最大化复用DDR4资产——量身定制的产物。这种"工作负载定义芯片"的模式，正在成为微软、谷歌、亚马逊等云巨头的共同选择。

从更宏观的视角看，Vistara折射出AI时代数据中心设计理念的根本转变：资源正从"整机绑定"走向"解耦池化"。CPU、GPU、内存、存储不再需要同步淘汰、同步升级，而是通过CXL等开放互联技术，形成可按需调度的独立资源池。这不仅延长了硬件生命周期，更从根本上提升了基础设施的投资回报率。

其他厂商也推出低延迟CXL商用方案

除Meta外，韩国初创公司Panmnesia也推出了面向市场的CXL扩展器解决方案。其核心在于一款现成的CXL控制器和交换机，能在不增加延迟的前提下连接大规模内存池。Panmnesia声称其fabric可扩展至多达64个节点，远超早期CXL部署仅能连接少数节点的局限，为大型云服务商提供了更高的DRAM使用灵活性。目前，该公司已提供PCIe 6.4/CXL 3.2融合交换机的预发布硅片，并完成支持CXL 4.0最新功能的PCIe 7.0/CXL 4.0组合IP开发。

行业动态

被欧盟罚款41亿欧元！谷歌在安卓系统反垄断案中败诉

华为、宁德时代重仓的碳化硅龙头天科合达冲刺科创板

英飞凌全球最大功率半导体与模拟/混合信号芯片晶圆厂正式启用！

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产