我们能否通过 KV 缓存重计算来打破 LLM 推理的内存壁垒? 🚨 介绍 XQuant,它利用未充分利用的计算单元来消除 LLM 推理的内存瓶颈! • 与 FP16 相比节省 10–12.5 倍内存 • 几乎没有准确性损失 • 超越最先进的 KV 量化🔥 关键见解: 1. KV 缓存 = 瓶颈 → 随着上下文长度和批量大小线性增长。 2. 计算 >> 内存 → GPU 提供的 FLOPs 速度比内存带宽快几个数量级。 3. 关键思想 → 不存储 KV,只需重新计算它。 🧠 由于 LLM 推理通常受限于内存带宽,计算单元往往处于空闲和未充分利用状态。因此,我们可以在没有任何开销的情况下利用这些可用的计算资源! GPU 硬件趋势表明,计算能力的增长速度远快于内存带宽。因此,减少内存操作以换取更多计算可以帮助加速 LLM 推理。KV 缓存随着序列长度和批量大小线性增长,在 LLM 推理过程中产生大部分内存操作。如果我们可以通过额外的计算来避免加载和存储 KV 缓存,我们就可以加速推理! XQuant 利用这一硬件趋势:🧵 [1/7] 论文: 与以下人员共同合作:@coleman_hooper1 @mjlee_official 来自 @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang 来自 @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
32.35K