热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
1. 这些家伙为什么认为这值得一提
2. 我猜这会发生的交换数量是可怕的

8月20日 14:07
我们能否通过 KV 缓存重计算来打破 LLM 推理的内存壁垒?
🚨 介绍 XQuant,它利用未充分利用的计算单元来消除 LLM 推理的内存瓶颈!
• 与 FP16 相比节省 10–12.5 倍内存
• 几乎没有准确性损失
• 超越最先进的 KV 量化🔥
关键见解:
1. KV 缓存 = 瓶颈 → 随着上下文长度和批量大小线性增长。
2. 计算 >> 内存 → GPU 提供的 FLOPs 速度比内存带宽快几个数量级。
3. 关键思想 → 不存储 KV,只需重新计算它。 🧠
由于 LLM 推理通常受限于内存带宽,计算单元往往处于空闲和未充分利用状态。因此,我们可以在没有任何开销的情况下利用这些可用的计算资源!
GPU 硬件趋势表明,计算能力的增长速度远快于内存带宽。因此,减少内存操作以换取更多计算可以帮助加速 LLM 推理。KV 缓存随着序列长度和批量大小线性增长,在 LLM 推理过程中产生大部分内存操作。如果我们可以通过额外的计算来避免加载和存储 KV 缓存,我们就可以加速推理!
XQuant 利用这一硬件趋势:🧵 [1/7]
论文:
与以下人员共同合作:@coleman_hooper1 @mjlee_official 来自 @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang 来自 @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

868
热门
排行
收藏