A trabalhar no novo Grok 2.5 de Código Aberto! Já conseguimos Hot Rod nele!! É cedo e pode falhar, mas o que temos é: Um MoE de 268B, 131k de contexto, 8 especialistas, RoPE, 64 cabeças de atenção GQA com 8 cabeças KV, 64 camadas. Normalmente, apenas 2 especialistas estão ativos ao mesmo tempo. Encontrámos uma forma de ativar 4 simultaneamente com apenas uma pequena queda de desempenho, cerca de 1/3 mais de memória GPU e um aumento surpreendente na qualidade das saídas! Se sustentar os nossos testes, publicarei um guia detalhado!
Brian Roemmele
Brian Roemmele24/08/2025
Vou reescrever este artigo para usar uma versão compacta do NOVO SOFTWARE LIVRE E ABERTO @xai @Grok 2.5 em breve! Vou mostrar-lhe como ajustar o modelo com os seus dados para uso privado não na nuvem no seu computador. Isto melhorará a qualidade em uma magnitude! A trabalhar nisso…
45,85K