Taalas ejecuta Llama 3 8B a 16k tokens por segundo por usuario. Eso es casi un aumento de un orden de magnitud incluso en comparación con sistemas basados en SRAM como Cerebras. Idea clave: cada chip está especializado en un modelo dado. El chip es el modelo. La demostración de chat es bastante impresionante: