A computação de inferência está no caminho para se tornar uma carga de trabalho computacional massiva até o final desta década. Acho que será muito maior do que o treinamento (especialmente se você considerar as implementações de RL / necessidades de inferência para treinamento). E ainda é um campo aberto em termos de hardware, plataformas e modelos. Também está cada vez mais claro que as pessoas estão dispostas a pagar um valor premium por menor latência. No lado do hardware, há várias direções interessantes para ficar de olho: - Configurações no estilo SRAM parecem promissoras (GPT Spark na Cerebras, aquisição da Groq pela Nvidia) - Sistemas desagregados (preenchimento em uma máquina/processador, geração em outra) provavelmente fazem muito sentido. As características computacionais de preenchimento versus decodificação são tão diferentes que especializar-se em nível de hardware gerará ganhos de eficiência - Também não descartaria tecnologias mais exóticas como o chip Taalas / computação de memória próxima / etc. Embora ainda estejam bem distantes da implantação em larga escala, a pressão econômica por ganhos de eficiência pode ser um catalisador Sobre o lado do algoritmo / arquitetura: - Praticamente todo modelo de pesos abertos principal tem pelo menos uma otimização, o que torna a inferência mais rápida. Seja MoE, SSM (ou outro tipo híbrido), janela deslizante ou atenção esparsa. Há mais diferenças aqui do que há um ano. E será interessante ver onde convergiremos. - Modelos de difusão unificam a divisão de preenchimento / decodificação? - Ainda acredito que há grandes ganhos a serem obtidos em co-design adicional do modelo, hardware e carga de trabalho Também não acho que teremos uma solução única para todos no futuro: - Modelos baseados em nuvem podem ser muito diferentes dos modelos otimizados para bordas - Modelos podem ser cada vez mais co-projetados para o hardware em que são implantados - Haverá pelo menos um botão que troca latência e eficiência energética/custo.