1. この人たちがこれを紙に載せる価値があると思った理由 2. これで起こるスワップの量は恐ろしいと思います
Aditya Tomar
Aditya Tomar8月20日 14:07
KV キャッシュの再物質化によって LLM 推論のメモリ壁を打破できますか? 🚨 あまり活用されていないコンピューティングユニットを活用して、LLM推論のメモリボトルネックを解消するXQuantをご紹介します! • FP16 比で 10 倍から 12.5 倍のメモリ節約 - ほぼゼロの精度損失 • 最先端のKV量子化🔥を上回る 主な洞察: 1. KV キャッシュ = ボトルネック →コンテキスト長 + バッチ サイズで直線的に増加します。 2. メモリ>>コンピューティング → GPU は、メモリ帯域幅よりも桁違いに高速な FLOP を提供します。 3. KVを保存せず、再計算するだけ→重要なアイデアです。🧠 LLM 推論は通常、メモリ帯域幅にバインドされるため、コンピューティング ユニットはアイドル状態になり、十分に活用されていないことがよくあります。したがって、この利用可能なコンピューティングをオーバーヘッドなしで使用できます。 GPU ハードウェアの傾向は、コンピューティング機能がメモリ帯域幅よりもはるかに速く拡張されていることを示しています。したがって、より多くの計算と引き換えにメモリ操作を減らすことは、LLM 推論の高速化に役立ちます。KV キャッシュはシーケンス長とバッチ サイズに応じて直線的に増加し、LLM 推論中にメモリ操作の大部分が発生します。KV キャッシュの読み込みと保存を回避するために追加の計算を交換できれば、推論を高速化できます。 XQuantは、このハードウェアの傾向を利用しています: 🧵 [1/7] 紙: 共同作業:@FuriosaAI @HaochengXiUCB @rish2k1の@coleman_hooper1 @mjlee_official @FuriosaAI @lucamanolache0マイケル・マホニーのカン・ウォンジュン@KurtKeutzer @amir__gholami
867