Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Можем ли мы преодолеть стену памяти для вывода LLM через рематериализацию кэша KV?
🚨 Представляем XQuant, который использует недоиспользуемые вычислительные единицы для устранения узкого места памяти при выводе LLM!
• Экономия памяти 10–12.5x по сравнению с FP16
• Почти нулевая потеря точности
• Обходит передовые технологии квантования KV🔥
Ключевые идеи:
1. Кэш KV = узкое место → растет линейно с длиной контекста + размером пакета.
2. Вычисления >> память → GPU предлагают FLOPs на порядки быстрее, чем пропускная способность памяти.
3. Ключевая идея → не хранить KV, а просто пересчитывать его. 🧠
Поскольку вывод LLM обычно ограничен пропускной способностью памяти, вычислительные единицы часто простаивают и недоиспользуются. Поэтому мы можем использовать эти доступные вычисления без каких-либо накладных расходов!
Тенденции аппаратного обеспечения GPU показывают, что вычислительные возможности масштабируются гораздо быстрее, чем пропускная способность памяти. Таким образом, сокращение операций с памятью в обмен на большее количество вычислений может помочь ускорить вывод LLM. Кэш KV растет линейно с длиной последовательности и размером пакета, что приводит к большинству операций с памятью во время вывода LLM. Если мы можем обменять дополнительные вычисления, чтобы избежать загрузки и хранения кэша KV, мы можем ускорить вывод!
XQuant использует эту аппаратную тенденцию: 🧵 [1/7]
Статья:
Совместная работа с: @coleman_hooper1 @mjlee_official от @FuriosaAI @HaochengXiUCB @rish2k1 Вонжун Кан от @FuriosaAI @lucamanolache0 Майкл Махони @KurtKeutzer @amir__gholami

32,38K
Топ
Рейтинг
Избранное