Taalas запускає Llama 3 8B зі швидкістю 16 тисяч токенів на секунду на користувача. Це майже в порядок збільшення навіть порівняно з системами на основі SRAM, такими як Cerebras. Ключова ідея: кожен чіп спеціалізований під певну модель. Чіп — це модель. Демо чату досить дике: