聊聊大模型推理系统之 MIRAGE：当KV Cache不够时，把模型参数“变”成缓存

机智流
2025-07-22 22:43:13

全文约 2000 字，预计阅读时间 5 分钟

在多租户大语言模型（LLM）推理服务中，如何在有限的 GPU 内存下高效处理长短不一、动态到达的请求，是当前产业落地的核心瓶颈。传统方案常因 KV Cache（键值缓存）内存不足而被迫进行计算重算或数据交换，导致响应延迟飙升。近期，一项名为 MIRAGE 的新技术横空出世，通过“参数重映射”机制，在真实场景下实现了高达 86.7% 的吞吐提升 和 99.3% 的尾部延迟降低。这一成果究竟如何实现？其背后的技术逻辑与行业意义又是什么？

核心看点

MIRAGE 提出了一种全新的 动态参数重映射（Dynamic Parameter Remapping）机制，从根本上优化了 LLM 推理中的内存使用效率。它不再将模型参数内存视为静态占用，而是将其作为可弹性调配的资源池，在运行时按需将其“重映射”为 KV Cache 内存，从而避免了代价高昂的 KV 缓存换出/换入操作。该技术不仅显著提升了系统吞吐与响应速度，更首次实现了对多租户场景的原生支持，尤其适用于 多智能体协作（Multi-agent Workflow）等新兴应用范式。

研究背景

在当前主流的 LLM 推理框架（如 vLLM）中，KV Cache 是生成过程中逐个 token 存储注意力状态的关键结构，其内存消耗随序列长度线性增长。然而，GPU 显存容量有限，当并发请求增多或序列变长时，极易出现显存溢出。现有解决方案主要依赖 PagedAttention 进行分页管理，但在极端负载下仍需通过 KV Cache Swapping 将部分缓存临时换出至 CPU 内存。这种双向数据迁移不仅耗时，还引入了严重的同步开销，尤其在多模型共存的 多租户环境 中，性能波动剧烈，尾延迟（P99 Latency）难以控制。

MIRAGE 的创新切入点在于：既然模型参数在推理阶段保持不变，为何不能将其暂时“借用”来扩展 KV Cache？特别是在多租户场景下，许多模型长期处于空闲状态，其占用的参数内存实为巨大浪费。由此，研究团队提出了“参数重映射”——一种单向、按层粒度的内存再利用策略，利用现代硬件（如 NVIDIA Grace Hopper Superchip）提供的高带宽 CPU-GPU 互联能力，实现高效的内存弹性调度。

核心贡献

方法创新：动态重映射引擎 + 智能层淘汰算法

MIRAGE 构建了一个独立的 动态重映射引擎，可无缝集成至任意 LLM 推理系统（如 vLLM）。其核心流程如下：当检测到 KV Cache 即将耗尽时，系统自动触发 remapping() 函数，优先从 非活跃模型 中逐层回收参数内存，并将其重新解释为 KV Cache 使用。由于参数本身无需修改，仅需从 CPU 加载至 GPU，因此数据传输为单向，大幅降低了同步开销。

为决定“哪些层应被重映射”，MIRAGE 设计了一种基于 循环执行特性 的淘汰算法。考虑到 LLM 解码是逐层循环的，算法优先选择未来最久才会被调用的层进行重映射。实验表明，采用 MRU（Most Recently Used）策略相比 LRU，可进一步减少 22.0% 的尾延迟，验证了其调度策略的优越性。

理论突破：最优分段传输时间证明

论文通过建立数学模型，分析了重映射过程中的计算与传输时间平衡问题。研究指出，系统总延迟受最慢的一段传输时间限制。通过公式推导，作者证明了当各层间的参数加载时间均等时，系统整体性能达到最优。这为动态调整重映射比例提供了理论依据，即应根据实时批处理大小和计算负载，弹性调节重映射层数，以最大化硬件利用率。

实证成果：全面超越现有方案

在真实多租户场景下的实验显示，MIRAGE 相比基线 vLLM：

尾部 TBT 延迟（P99 Time-Between-Tokens）降低 44.8%–82.5%
尾部 TTFT 延迟（P99 Time-To-First-Token）降低 74.8%–99.3%
吞吐量 提升 39.9%–86.7%

即使面对“长短请求混合”的极端负载（如长 1734 tokens vs 短 634 tokens），MIRAGE 仍能保持稳定，平均吞吐提升 **65.6%**，尾延迟显著下降。与同样利用高带宽硬件的 Pie 系统相比，MIRAGE 因避免了双向交换，在 TTFT 和吞吐方面表现更优，展现出更强的实用性。

行业意义

MIRAGE 的出现，标志着 LLM 推理系统从“静态内存分配”迈向“动态资源编排”的新阶段。它不仅为 高并发、低延迟 的 LLM 服务提供了新范式，更推动了 异构计算架构（如 CPU+GPU 超级芯片）在 AI 推理中的深度应用。其设计理念与国家倡导的 绿色计算 和 算力集约化 政策高度契合，有助于降低大模型部署成本，提升资源利用率。

更重要的是，MIRAGE 对 多租户、多智能体系统 的天然支持，使其成为构建复杂 AI 应用生态的理想基础设施。未来，该技术有望广泛应用于 智能客服集群、企业级 AI 助手平台 及 边缘端大模型服务，推动 AI 服务向更高效、更灵活的方向变革。

论文链接：MIRAGE: KV Cache Optimization through Parameter Remapping for Multi-tenant LLM Serving^[1]
第一作者团队：本研究由多位深耕 AI 系统优化 与 大规模模型部署 领域的学者联合完成，相关成果已在 OSDI、ATC 等顶级系统会议上发表，展现了扎实的工程与理论功底。

参考资料

[1]

MIRAGE: KV Cache Optimization through Parameter Remapping for Multi-tenant LLM Serving: https://arxiv.org/abs/2507.11507

-- 完 --

2. 一起聊聊Nvidia Blackwell新特性之使用Thread Block Clusters的 GEMM‍‍

3. 上下文工程万字综述、Qwen“背题”疑云、反思性生成模型，HF本周30篇必读论文揭秘前沿趋势！

4. 从 PPO、DPO 到 GRPO：万字长文详解大模型训练中的三大关键算法

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
智能体 | Agent 技术交流群

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊