Taalas kjører Llama 3 8B med 16 000 tokens per sekund per bruker. Det er nesten en størrelsesorden økning selv sammenlignet med SRAM-baserte systemer som Cerebras. Nøkkelidé: hver brikke er spesialisert til en gitt modell. Brikken er modellen. Chat-demoen er ganske vill: