1. O que fez esses caras pensarem que isso era digno de papel 2. Acho que a quantidade de trocas que aconteceria com isso é horrível
Aditya Tomar
Aditya Tomar20 de ago., 14:07
Podemos quebrar a parede de memória para inferência LLM via rematerialização de cache KV? 🚨 Apresentando o XQuant, que aproveita unidades de computação subutilizadas para eliminar o gargalo de memória para inferência LLM! • Economia de memória de 10 a 12,5x em relação ao FP16 • Perda de precisão quase zero • Supera a quantização🔥 KV de última geração Principais insights: 1. Cache KV = gargalo → cresce linearmente com o comprimento do contexto + tamanho do lote. 2. Computação >> memória → As GPUs oferecem FLOPs ordens de magnitude mais rápidas do que a largura de banda da memória. 3. A ideia-chave → não armazene KV, apenas recalcule-o. 🧠 Como a inferência LLM normalmente é associada à largura de banda da memória, as unidades de computação geralmente ficam ociosas e subutilizadas. Assim, podemos colocar essa computação disponível em uso sem qualquer sobrecarga! As tendências de hardware de GPU mostram que os recursos de computação estão sendo dimensionados muito mais rapidamente do que a largura de banda da memória. Assim, reduzir as operações de memória em troca de mais computação pode ajudar a acelerar a inferência do LLM. O cache KV cresce linearmente com o comprimento da sequência e o tamanho do lote, incorrendo na maioria das operações de memória durante a inferência do LLM. Se pudermos negociar computação adicional para contornar o carregamento e o armazenamento do cache KV, podemos acelerar a inferência! O XQuant explora essa tendência de hardware: 🧵 [1/7] Papel: Trabalho conjunto com: @coleman_hooper1 @mjlee_official de @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang de @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
869