1. 這些家伙為什麼認為這值得一提 2. 我猜這會發生的交換數量是可怕的
Aditya Tomar
Aditya Tomar8月20日 14:07
我們能否透過 KV 快取重計算來打破 LLM 推理的記憶體壁壘? 🚨 介紹 XQuant,它利用未充分利用的計算單元來消除 LLM 推理的記憶體瓶頸! • 與 FP16 相比節省 10–12.5 倍記憶體 • 幾乎沒有準確性損失 • 超越最先進的 KV 量化🔥 關鍵見解: 1. KV 快取 = 瓶頸 → 隨著上下文長度和批量大小線性增長。 2. 計算 >> 記憶體 → GPU 提供的 FLOPs 速度比記憶體帶寬快幾個數量級。 3. 關鍵思想 → 不存儲 KV,只需重新計算它。 🧠 由於 LLM 推理通常受限於記憶體帶寬,計算單元往往處於閒置和未充分利用狀態。因此,我們可以在沒有任何開銷的情況下利用這些可用的計算資源! GPU 硬體趨勢表明,計算能力的增長速度遠快於記憶體帶寬。因此,減少記憶體操作以換取更多計算可以幫助加速 LLM 推理。KV 快取隨著序列長度和批量大小線性增長,在 LLM 推理過程中產生大部分記憶體操作。如果我們可以透過額外的計算來避免加載和存儲 KV 快取,我們就可以加速推理! XQuant 利用這一硬體趨勢:🧵 [1/7] 論文: 與以下人員共同合作:@coleman_hooper1 @mjlee_official 來自 @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang 來自 @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
865