一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们能否通过 KV 缓存重计算来打破 LLM 推理的内存壁垒？ 🚨 介绍 XQuant，它利用未充分利用的计算单元来消除 LLM 推理的内存瓶颈！ • 与 FP16 相比节省 10–12.5 倍内存 • 几乎没有准确性损失 • 超越最先进的 KV 量化🔥 关键见解： 1. KV 缓存 = 瓶颈 → 随着上下文长度和批量大小线性增长。 2. 计算 >> 内存 → GPU 提供的 FLOPs 速度比内存带宽快几个数量级。 3. 关键思想 → 不存储 KV，只需重新计算它。 🧠 由于 LLM 推理通常受限于内存带宽，计算单元往往处于空闲和未充分利用状态。因此，我们可以在没有任何开销的情况下利用这些可用的计算资源！ GPU 硬件趋势表明，计算能力的增长速度远快于内存带宽。因此，减少内存操作以换取更多计算可以帮助加速 LLM 推理。KV 缓存随着序列长度和批量大小线性增长，在 LLM 推理过程中产生大部分内存操作。如果我们可以通过额外的计算来避免加载和存储 KV 缓存，我们就可以加速推理！ XQuant 利用这一硬件趋势：🧵 [1/7] 论文：与以下人员共同合作：@coleman_hooper1 @mjlee_official 来自 @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang 来自 @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32.35K