Taalas kör Llama 3 8B med 16 000 tokens per sekund per användare. Det är nästan en storleksordning högre även jämfört med SRAM-baserade system som Cerebras. Nyckelidé: varje chip är specialiserat för en given modell. Chipet är modellen. Chattdemon är ganska vild: