阿里云:英伟达GPU用量削减82%
关键词: 阿里云 Aegaeon 计算池化解决方案 GPU资源浪费 资源利用率
随着AI大模型技术的快速发展,云服务商在提供AI模型服务时面临着严峻的资源效率挑战。平台需同时托管数千个AI模型以应对海量并发API调用,但用户请求往往高度集中在少数热门模型上,导致大量“长尾”模型独占GPU资源,造成严重浪费。数据显示,在阿里云模型市场中,曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置现象触目惊心。
近日,阿里云提出的创新计算池化解决方案「Aegaeon」成功入选全球顶级学术会议——操作系统原理研讨会(SOSP)2025,成为业界关注的焦点。该方案通过突破性的GPU资源池化技术,有效解决了AI模型服务中普遍存在的GPU资源浪费问题,显著提升了资源利用率,为AI产业的高效发展提供了新思路。
Beta测试成效显著,GPU用量削减82%
该系统允许单个GPU动态服务于多个不同的AI模型,彻底打破了以往“一个模型绑定一个GPU”的低效模式。核心创新点在于Token级调度机制,能够在每次生成下一个token后动态决定是否切换模型,实现精细化管理。同时,通过组件复用、显存精细化管理和KV缓存同步优化等全栈技术,将模型切换开销降低97%,确保了token级调度的实时性,可支持亚秒级的模型切换响应。
在阿里云模型市场为期超三个月的Beta测试中,「Aegaeon」系统展现了卓越的效能。测试数据显示,服务数十个参数量高达720亿的大模型时,所需的英伟达H20 GPU数量从1192个成功减少至213个,削减比例高达82%。
这意味着仅用213张卡就完成了原本需要1192张卡才能完成的工作,极大地提高了资源利用率,降低了硬件采购成本。对于动辄使用成千上万张GPU的大型模型服务商而言,这一成果无疑具有里程碑式的意义。
入选SOSP 2025
SOSP由ACM SIGOPS主办,作为计算机操作系统领域的顶尖会议,被誉为该领域的“奥斯卡”,其录取率控制极为严格,平均每年收录的论文数量仅有数十篇。「Aegaeon」系统研究成果能够成功入选,不仅代表了阿里云在操作系统和软件领域的创新实力,更为全球AI产业提供了资源优化的全新思路。该方案的核心技术已应用于阿里云百炼平台,为行业树立了新的标杆。
这项由北京大学与阿里云合作的研究成果,被认为是“首个揭示并解决市场上并发大语言模型服务存在过高成本”的公开工作,为行业提供了全新的优化思路。
值得一提的是,阿里云首席技术官周靖人也是该论文的作者之一。周靖人是国际电气与电子工程师协会会士(IEEE Fellow),国际计算机协会会士(ACM Fellow),阿里巴巴集团副总裁,阿里云智能 CTO、达摩院副院长。
周靖人指出,未来AI的发展将不仅依赖于硬件算力的单纯增长,更需要通过系统级的软件创新来深度挖掘现有硬件的潜力。「Aegaeon」系统的成功实践,正是这一理念的有力印证。随着AI技术的不断演进,阿里云将持续加大在全栈AI体系上的投入,推动超级人工智能时代的到来。
责编:Luffy
