日期:2025-10-18 07:24:17
转自:扬子晚报
10月16日消息,顶级学术会议SOSP2025在韩国首尔举行,本届会议仅收录66篇论文,其中阿里云提出的GPU池化服务多模型研究成果成功入选,该研究提出多模型混合服务系统Aegaeon,可大幅提升GPU资源利用率,目前其核心技术已应用在阿里云百炼平台。
SOSP(操作系统原理研讨会)由ACMSIGOPS主办,是计算机系统领域顶级学术会议,平均每年收录的论文数量仅有数十篇,被誉为计算机操作系统界的“奥斯卡”,入选论文代表了操作系统和软件领域最具代表的研究成果。本届SOSP大会,关于系统软件与AI大模型技术的融合研究成为新的趋势。
全球模型的数量仍在持续增长,据统计,HuggingFace已托管了超100万个模型。在真实服务场景中,少量热门模型占据了总请求的绝大部分,而超过90%的模型则调用频率较低。当前的事实标准解决方案是为每个模型至少预留一个推理实例,这造成了GPU资源的大量浪费。
阿里云百炼团队在论文中创新性提出多模型混合服务系统Aegaeon,首次将调度实现在token级别,在每次生成完下一个token之后,都可通过精确的执行时间预测和创新的token级调度算法规划是否需要切换模型,从而实现多个模型混合服务且满足延迟要求;通过组件复用、显存精细化管理和KV缓存同步优化等全栈技术,Aegaeon将模型切换开销降低97%,确保了token级调度的实时性,可支持亚秒级的模型切换响应。据介绍,Aegaeon系统支持单GPU同时服务多达7个不同模型,相比现有主流方案提升1.5-9倍的有效吞吐量,实现2-2.5倍的请求处理能力。
目前,Aegaeon核心技术已在阿里云百炼平台部署,服务数十个模型的推理,将服务这些模型所需的GPU数量减少了82%。
据介绍,阿里云百炼平台已上线Qwen、Wan、DeepSeek等200多款业界领先的模型,过去一年,阿里云百炼平台的模型调用量增长了15倍。
校对胡妍璐
盛鹏配资-十大配资软件公司-南平期货配资-股市怎么加杠杆交易提示:文章来自网络,不代表本站观点。