Taalas以每用户每秒16k个token的速度运行Llama 3 8B。这甚至比基于SRAM的系统如Cerebras几乎提高了一个数量级。 关键思想:每个芯片专门针对特定模型。芯片就是模型。 聊天演示相当惊人: