熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們能否透過 KV 快取重計算來打破 LLM 推理的記憶體壁壘?
🚨 介紹 XQuant,它利用未充分利用的計算單元來消除 LLM 推理的記憶體瓶頸!
• 與 FP16 相比節省 10–12.5 倍記憶體
• 幾乎沒有準確性損失
• 超越最先進的 KV 量化🔥
關鍵見解:
1. KV 快取 = 瓶頸 → 隨著上下文長度和批量大小線性增長。
2. 計算 >> 記憶體 → GPU 提供的 FLOPs 速度比記憶體帶寬快幾個數量級。
3. 關鍵思想 → 不存儲 KV,只需重新計算它。 🧠
由於 LLM 推理通常受限於記憶體帶寬,計算單元往往處於閒置和未充分利用狀態。因此,我們可以在沒有任何開銷的情況下利用這些可用的計算資源!
GPU 硬體趨勢表明,計算能力的增長速度遠快於記憶體帶寬。因此,減少記憶體操作以換取更多計算可以幫助加速 LLM 推理。KV 快取隨著序列長度和批量大小線性增長,在 LLM 推理過程中產生大部分記憶體操作。如果我們可以透過額外的計算來避免加載和存儲 KV 快取,我們就可以加速推理!
XQuant 利用這一硬體趨勢:🧵 [1/7]
論文:
與以下人員共同合作:@coleman_hooper1 @mjlee_official 來自 @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang 來自 @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32.35K
熱門
排行
收藏