A computação de inferência está a caminho de se tornar uma carga computacional massiva até o final desta década. Acho que será muito maior do que o treinamento (especialmente se considerarmos as implementações de RL / necessidades de inferência para treinamento). E ainda é um campo aberto em termos de hardware, plataformas e modelos. Está cada vez mais claro que as pessoas estão dispostas a pagar um prêmio por latência reduzida. Do lado do hardware, há várias direções interessantes para ficar de olho: - Configurações do tipo SRAM parecem promissoras (GPT Spark na Cerebras, aquisição da Groq pela Nvidia) - Sistemas desagregados (pré-preenchimento em uma máquina / processador, geração em outro) provavelmente fazem muito sentido. As características computacionais de pré-preenchimento vs decodificação são tão diferentes que a especialização a nível de hardware trará ganhos de eficiência - Eu também não descartaria tecnologias mais exóticas como o chip Taalas / computação em memória próxima / etc. Embora ainda estejam bastante distantes de uma implementação em larga escala, a pressão econômica por ganhos de eficiência pode ser um catalisador Do lado do algoritmo / arquitetura: - Praticamente todos os principais modelos de pesos abertos têm pelo menos uma otimização que os torna mais rápidos para inferência. Seja MoE, SSM (ou outra variedade híbrida), ou janela deslizante ou atenção esparsa. Há mais diferenças aqui do que havia há um ano. E será interessante ver onde convergimos. - Os modelos de difusão unificarão a divisão entre pré-preenchimento e decodificação? - Ainda acredito que há grandes ganhos a serem obtidos em uma maior co-design do modelo com o hardware e a carga de trabalho Eu também não acho que teremos uma solução única para todos no futuro: - Modelos baseados em nuvem podem parecer muito diferentes dos modelos otimizados para a borda - Os modelos podem ser cada vez mais co-desenhados para o hardware em que são implantados - Haverá pelo menos um controle que troca entre latência e eficiência de energia / custo.