Чи можемо ми зламати стіну пам'яті для висновування LLM за допомогою рематеріалізації кешу KV? 🚨 Представляємо XQuant, який використовує недостатньо використовувані обчислювальні блоки для усунення вузького місця в пам'яті для висновків LLM! • Економія пам'яті в 10–12,5 разів порівняно з FP16 • Майже нульова втрата точності • Перевершує найсучасніше квантування🔥 KV Ключові висновки: 1. Кеш KV = вузьке місце, → зростає лінійно з довжиною контексту + розміром партії. 2. Обчислення >> пам'яті → графічні процесори пропонують FLOP на порядки швидше, ніж пропускна здатність пам'яті. 3. Ключова ідея → не зберігати KV, а просто переобчислити його. 🧠 Оскільки висновок LLM зазвичай обмежений пропускною здатністю пам'яті, обчислювальні блоки часто простоюють і використовуються недостатньо. Отже, ми можемо використовувати цей доступний обчислення без будь-яких накладних витрат! Тенденції апаратного забезпечення графічних процесорів показують, що обчислювальні можливості масштабуються набагато швидше, ніж пропускна здатність пам'яті. Таким чином, зменшення операцій з пам'яттю в обмін на більшу кількість обчислень може допомогти прискорити висновок LLM. Кеш KV зростає лінійно зі збільшенням довжини послідовності та розміру пакета, беручи на себе більшість операцій з пам'яттю під час висновування LLM. Якщо ми зможемо обміняти додаткові обчислення, щоб обійти завантаження та зберігання кешу KV, ми зможемо прискорити висновок! XQuant використовує цю апаратну тенденцію: 🧵 [1/7] Папір: Спільна робота з: @coleman_hooper1 @mjlee_official від @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang від @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
32,35K