Можем ли мы преодолеть стену памяти для вывода LLM через рематериализацию кэша KV? 🚨 Представляем XQuant, который использует недоиспользуемые вычислительные единицы для устранения узкого места памяти при выводе LLM! • Экономия памяти 10–12.5x по сравнению с FP16 • Почти нулевая потеря точности • Обходит передовые технологии квантования KV🔥 Ключевые идеи: 1. Кэш KV = узкое место → растет линейно с длиной контекста + размером пакета. 2. Вычисления >> память → GPU предлагают FLOPs на порядки быстрее, чем пропускная способность памяти. 3. Ключевая идея → не хранить KV, а просто пересчитывать его. 🧠 Поскольку вывод LLM обычно ограничен пропускной способностью памяти, вычислительные единицы часто простаивают и недоиспользуются. Поэтому мы можем использовать эти доступные вычисления без каких-либо накладных расходов! Тенденции аппаратного обеспечения GPU показывают, что вычислительные возможности масштабируются гораздо быстрее, чем пропускная способность памяти. Таким образом, сокращение операций с памятью в обмен на большее количество вычислений может помочь ускорить вывод LLM. Кэш KV растет линейно с длиной последовательности и размером пакета, что приводит к большинству операций с памятью во время вывода LLM. Если мы можем обменять дополнительные вычисления, чтобы избежать загрузки и хранения кэша KV, мы можем ускорить вывод! XQuant использует эту аппаратную тенденцию: 🧵 [1/7] Статья: Совместная работа с: @coleman_hooper1 @mjlee_official от @FuriosaAI @HaochengXiUCB @rish2k1 Вонжун Кан от @FuriosaAI @lucamanolache0 Майкл Махони @KurtKeutzer @amir__gholami
32,38K