阿里云宣称,在其Model Studio市场进行的多个月公测中,全新Aegaeon池化系统将服务大型语言模型所需的英伟达GPU数量减少了82%。这项发表于2025年ACM操作系统研讨会(SOSP)的同行评审论文指出,云服务商或能从现有芯片中获取显著更高的推理算力,尤其在中国等受限市场——英伟达最新H20芯片的供应仍持续紧张。

Cover Image

与追求模型质量或速度的训练阶段突破不同,Aegaeon是专为推理阶段设计的调度系统,旨在实现对突发性或不可预测需求的多模型GPU利用率最大化。该系统通过令牌级GPU访问虚拟化技术,将工作任务微切片调度至共享资源池,取代了传统单加速器绑定单模型的模式。这意味着单块H20芯片可同时服务多个不同模型,其系统全局有效输出较旧版无服务器系统提升高达九倍

据论文显示,该体系已在生产环境中经过数月测试,作者包括北京大学学者及阿里云基础设施团队核心成员,其中首席技术官周靖人(Jingren Zhou)位列其中。测试期间,支持数十种不同规模大型语言模型所需的GPU数量从1192块骤降至213块,最大模型参数量达720亿

虽然论文未具体说明哪些模型贡献了主要节流效果,但《南华早报》报道指出测试采用英伟达H20芯片——当前美国出口管制下中国客户仍可合法获取的少数加速器之一。阿里云表示能效提升源自两大核心技术:单GPU多模型封装技术,以及基于令牌级别的自动扩缩容机制——该技术可在输出生成时动态分配算力,而非在请求层级预占资源。基准测试中,Aegaeon系统有效输出表现超越ServerlessLLMMuxServe1.5至9倍

此类节流效果能否在阿里云技术栈之外复现尚待验证。尽管论文未明确公测所用网络架构细节,但该公司自研的eRDMA弹性远程直接内存存取网络及其构建高度集成GPU服务栈的成功经验表明,该成果可能依赖于深度优化的垂直整合环境。无论如何,随着推理需求持续激增,此项突破必将引发其他致力于拓展稀缺加速器资源池的超大规模服务商的密切关注。


文章标签: #阿里云 #Aegaeon #GPU池化 #推理优化 #H20芯片

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。