Meta自研Vistara CXL芯片让旧DDR4“再就业”，AI推理服务器需求减少25%

2026-07-03 来源：电子工程专辑

关键词： Meta Vistara CXL内存扩展 DDR4复用 AI推理数据中心

日前，在ISCA 2026国际计算机体系结构大会上，Meta公开了其自研的Vistara定制芯片方案。这是一款专为复用退役服务器DDR4内存而设计的CXL（Compute Express Link）ASIC，通过将旧服务器的DDR4内存条接入新一代DDR5服务器，构建共享内存池，在覆盖数百万台服务器的超大规模基础设施中实现落地。Meta同步发表的论文显示，该方案可使部分AI推理业务所需服务器数量最高减少25%，分布式缓存平均延迟降低29%。

服务器3至5年退役，内存却能用7至10年

Meta在论文中揭示了一个数据中心普遍存在的资源错配问题：服务器的预期使用寿命通常为3至5年，但服务器级DRAM芯片的物理寿命可达7至10年。这意味着，大量性能依然良好的DDR4内存，会随着整机退役而被闲置甚至报废。

更严峻的是，在Meta自有基础设施中，约40%的服务器——规模达数百万台——由于内存容量限制，无法继续承载新的AI工作负载。与此同时，海量DDR4内存处于闲置状态。在DDR5内存价格飙涨、供应紧张的背景下，这种"旧内存闲着、新内存买不起"的困境，对每年资本支出高达数百亿美元的超大规模互联网公司而言，是巨大的资源浪费。

为什么不用现成的CXL方案？三大痛点

CXL技术问世已有六年，理论上可通过PCIe接口扩展内存容量。但Meta评估后认为，现有商业化CXL方案存在三大硬伤，无法满足其需求：

一是捆绑销售。大多数CXL方案将DRAM与控制器捆绑在一起，无法复用现有的DDR4 DIMM内存条。

二是不支持DDR4。现有方案普遍不支持DDR4，而Meta需要复用的正是退役服务器上的大量DDR4资产。

三是功耗高、成本高。商业化方案在功耗和成本方面不具备优势，不适合超大规模部署。

Vistara ASIC：专为DDR4复用量身定制的"桥梁"

为此，Meta选择自己设计了一颗专用的CXL内存扩展ASIC——Vistara。

根据论文披露的技术参数，Vistara ASIC的核心架构包括：

接口：通过符合CXL 2.0/1.1标准的PCIe Gen5 x16接口与主机连接；

DDR4支持：集成两个独立的72-bit DDR4内存通道，支持最高DDR4-3200速率；

容量：单颗ASIC最高可连接256GB DDR4（采用64GB DIMM），目前生产环境中实际部署为128GB（采用32GB DIMM）；

可靠性：支持RS(36,32)双符号纠错和x4 chip-kill内存纠错；

延迟：ASIC空闲往返延迟约50ns；

控制核心：内置三颗RISC-V处理器，分别负责安全启动、设备控制和引导初始化；

功耗：单颗ASIC功耗约9W。

Vistara的核心功能可以概括为：充当DDR4与当前基于DDR5的AI服务器之间的"翻译器"，把旧DDR4内存转换为新服务器可直接调用的CXL内存资源。

768GB DDR5 + 256GB DDR4 = 1TB内存

Meta将Vistara部署在名为MemServer的硬件平台中。以生产环境中的一台典型配置为例：

处理器：AMD Turin，158核心/316线程；
本地内存：768GB DDR5-6400，共12个通道，峰值带宽614GB/s，空闲延迟约130ns；
CXL扩展：通过2颗Vistara ASIC连接256GB DDR4-2400（共8条32GB RDIMM），CXL峰值带宽约76GB/s，空闲延迟约250ns；
总内存容量：1TB；
CXL部分总功耗：约50W（含2颗ASIC和8条DIMM）。

Vistara CXL卡安装在机箱后部专用插槽，通过大容量风扇定向送风散热。

软件自动分层，应用完全无感

硬件只是基础，Meta还基于Linux内核的TPP（Transparent Page Placement，透明页放置）和TMO（Transparent Memory Offloading，透明内存卸载）机制，构建了一套自动化的内存分层系统。

系统实时追踪每个内存页面的访问频率，将"热页"（被CPU频繁访问）自动保留在本地高速DDR5中，将"冷页"（很少访问）静默迁移到CXL上的DDR4——整个过程对上层应用完全透明，无需修改任何代码。

论文特别回应了学术界此前的担忧：TPP机制会带来较大的CPU开销。但Meta在百万级服务器生产环境中的实测显示，TPP的CPU开销不到0.5%，远低于预期。Vistara的尾延迟表现也相当稳定，未出现此前FPGA测试中报告的不稳定现象。

对于延迟敏感型工作负载，Meta还提供了基于cgroup的灵活"退出机制"，允许特定任务禁用CXL内存，确保关键业务不受影响。

生产效果：AI推理服务器减少25%，缓存延迟降29%

Vistara是Meta首款软硬件协同设计的CXL内存扩展平台，已在超大规模生产环境中部署，覆盖缓存、数据仓库、机器学习推理、开发基础设施等多样化工作负载。论文披露的具体收益包括：

分离式机器学习推理：在5.1TB生产级推荐模型的推理服务中，服务器需求减少25%，吞吐量提升4%；当模型规模扩展到20TB时，吞吐量提升达4%至12%，服务器需求持续减少20%至25%。

分布式缓存（CacheB）：平均查询延迟降低29%，2.3%的缓存命中从闪存转移到了内存，有效延长了SSD寿命。

数据仓库（Spark）：执行器密度提升33%，OOM（内存溢出）事件减少33%。

开发基础设施（DevInfra）：每台物理服务器可运行的开发者虚拟机数量增加33%，整体服务器需求减少15%。

行业从"算力竞争"到"系统架构竞争"

Vistara方案的价值远不止于节省几颗内存条的成本，它在更深层次上印证了数据中心基础设施的两个关键趋势：

第一，CXL技术的规模化验证。 CXL标准问世六年，业界一直缺乏大规模生产部署的实证数据。Meta用百万级服务器的真实场景证明，CXL内存分层在工程上是可行的、可靠的，且收益显著。学术界关于CXL尾延迟和TPP开销的担忧，被生产数据一一反驳。

第二，超大规模云厂商正在成为芯片设计的主角。 Vistara并非通用芯片，而是围绕Meta特定基础设施需求——最大化复用DDR4资产——量身定制的产物。这种"工作负载定义芯片"的模式，正在成为微软、谷歌、亚马逊等云巨头的共同选择。

从更宏观的视角看，Vistara折射出AI时代数据中心设计理念的根本转变：资源正从"整机绑定"走向"解耦池化"。CPU、GPU、内存、存储不再需要同步淘汰、同步升级，而是通过CXL等开放互联技术，形成可按需调度的独立资源池。这不仅延长了硬件生命周期，更从根本上提升了基础设施的投资回报率。

其他厂商也推出低延迟CXL商用方案

除Meta外，韩国初创公司Panmnesia也推出了面向市场的CXL扩展器解决方案。其核心在于一款现成的CXL控制器和交换机，能在不增加延迟的前提下连接大规模内存池。Panmnesia声称其fabric可扩展至多达64个节点，远超早期CXL部署仅能连接少数节点的局限，为大型云服务商提供了更高的DRAM使用灵活性。目前，该公司已提供PCIe 6.4/CXL 3.2融合交换机的预发布硅片，并完成支持CXL 4.0最新功能的PCIe 7.0/CXL 4.0组合IP开发。

SK海力士发布2026财年第一季度财务报告04-23

行业动态

122亿估值东方算芯正式亮相，魏少军任董事长兼CEO

备货上调至1000万台！苹果首款折叠屏iPhone Ultra或刷新定价纪录

广汽集团2026年6月汽车产量降5.13%，累计销量增2.35%

热读文章

2024年肯尼亚投资环境深度分析及中资企业在肯尼亚投资合作策略

台湾当局升级出口管制黑名单，华为、中芯国际等中企在列

三星示警：内存芯片短缺将引发电子产品全行业涨价潮