Момент, коли інтелект був викарбуваний у камені Людство зараз робить щось божевільне. Будівництво дата-центрів розміром із міста, встановлення електростанцій поруч із ними, запуск супутникових мереж і охолоджувальні кімнати, заповнені суперкомп'ютерами, які споживають сотні кіловат за допомогою систем рідинного охолодження. Все це для керування ШІ. Переконаний, що це майбутнє. Але історія розповідає іншу історію. Кожна технологічна революція починалася з монструозних прототипів, і ці монстри зникали в момент практичного прориву. Пам'ятаєте ENIAC? Вакуумний звір, що заповнював цілу кімнату. Вона показала людству магію обчислень, але була повільною, дорогою і ніколи не могла масштабуватися. Потім з'явився транзистор, і все змінилося. За ними з'явилися робочі станції, ПК, смартфони. Світ обрав перевершити ENIAC, а не будувати їх більше. Дата-центри GPU, які ми будуємо сьогодні, — це AI ENIAC. Вони працюють. Вони вражають. Але це не кінець. Перш ніж читати далі, зайдіть на сайт нижче і запитайте будь-що. Тридцять секунд — це все, що потрібно. Тобі потрібно відчути це у своєму тілі. З'явився LLM, і відповідь вже з'явилася в момент натискання Enter. Ми жили так, ніби затримка у відповідях ШІ — це просто норма. Ось чому це шок, який жоден бенчмарк не може передати. Універсальні обчислення змінили світ, бо стали швидкими, дешевими та простими у створенні. ШІ піде тим самим шляхом. Проблема в тому, що сучасний ШІ далеко не на цьому шляху. Коли ви ставите ШІ питання, він спирається підборіддям на руку і довго думає. Асистенти програмування дивиться в порожній вираз кілька хвилин, перш ніж дати відповідь, порушуючи ваш потік. Навіть коли потрібні миттєві відповіді, ви отримуєте лише неквапливу відповідь. Спілкування з ШІ — це все одно міжнародний дзвінок. Говори, зачекай, зачекай ще. Ця затримка є стіною між людьми та штучним інтелектом. Проблема вартості ще гірша. Керування сучасним ШІ вимагає величезного обладнання та капіталу. HBM-стеки, складний I/O, кабелі, рідинне охолодження, сучасне пакування, 3D-укладання. Чому все це необхідно? Бо місце, яке пам'ятає, і місце, що думає, розділені. Подумай про це так. Твій мозок у Сеулі, але всі спогади зберігаються на складі в Пусані. Кожного разу, коли потрібно щось відкликати, потрібно їхати на KTX до Пусана, щоб забрати це. Сучасне апаратне забезпечення ШІ має саме таку структуру. Пам'ять (DRAM) велика і дешева, але розташована поза чипом, що робить доступ у тисячі разів повільнішим, ніж вбудована пам'ять. І ви не можете помістити DRAM у обчислювальний чип — процеси виготовлення принципово відрізняються. Ця суперечність створює всю складність апаратного забезпечення ШІ. Щоб скоротити круговий рейс Сеул-Пусан, ми прокладаємо HBM як високошвидкісну залізницю, будуємо 3D-стлажинг у висотних будівлях і запускаємо рідинне охолодження як потужний кондиціонер. Звісно, споживання електроенергії стрімко зростає, а витрати злітають до небес. Таалас перевернув це з нуля. Замість того, щоб дістати спогади з Пусана, вони вбудовували їх безпосередньо в мозок. Вони об'єднували пам'ять і обчислення на одному мікросхемі з щільністю DRAM. Потім вони пішли ще далі: створили окремий кремній для кожної моделі. Не готовий — це індивідуальне шиття. Протягом історії обчислювальної техніки глибока спеціалізація завжди була найнадійнішим шляхом до надзвичайної ефективності. Таалас довів цей принцип до абсолютної межі. Як це можливо? Вони вкарбовують набуті знання моделі — її ваги — безпосередньо у металеві шари кремнію. Інтелект, буквально викарбуваний у камені. Один транзистор утримує вагу, одночасно виконуючи множення. Він пам'ятає і думає одночасно. Як сказав засновник Любіша Байич, це «не ядерна фізика — це хитрий трюк, який ніхто не бачив, бо ніхто не пішов цим шляхом». Вони зберігають скелет чіпа цілим і міняють лише два металеві шари, щоб налаштувати його під конкретну модель. Різні татуювання на одному тілі. На 6-нм технології TSMC від ваг моделі до робочої карти потрібно два місяці. Чіп HC1 з Llama 3.1 8B, вирізаним у кремній, обробляє приблизно 17 000 токенів на секунду на користувача. Nvidia H200 — 230, B200 — 353, Groq — 594, SambaNova — 932, Cerebras — 1981. Всі інші їздять на велосипедах. Таалас скористався літаком. Одна карта споживає 200 ват. Десять карт на сервері, 2 500 ват. Вентилятора достатньо. Він підключається безпосередньо до будь-якого дата-центру, побудованого за останні тридцять років. Вартість виробництва: одна двадцята. Потужність: одна десята. Без HBM, без просунутого пакування, без 3D-укладання, без рідинного охолодження. Звісно, нічого не буває безкоштовним. Якщо універсальна відеокарта — це колонка, яка може відтворювати будь-яку пісню, то чіп Taalas — це музична шкатулка, яка бездоганно відтворює одну мелодію. Це не розумно, і коли модель змінюється, потрібен новий чіп. Але розмір контексту регульований, і тонке налаштування LoRA працює. І що найважливіше, поріг, на якому моделі стають достатніми для повсякденних завдань, наближається. Якщо моделі фронтиру просунуться ще трохи, ми увійдемо в період, коли одна модель довго виконує рутинну роботу. Саме тоді економіка спеціалізованої музичної шкатулки стає актуальною. Nvidia придбала Groq за 20 мільярдів доларів, SoftBank поглинув Graphcore, Intel звернулася до SambaNova. Зараз формується масова хвиля до кремнію, специфічного для виведення (inference). Taalas має найрадикальнішу межу. Перший продукт починається з лами з кремнію, потім середньорозмірна модель для розуміння навесні та модель Frontier до зими. Дуже швидкий ШІ — це принципово інший ШІ. Коли субмілісекундна затримка стає можливою, сценарії, які ми могли лише уявити, стають реальними. Це не міжнародний дзвінок — відчуття бігти поруч із кимось і говорити на повній швидкості. Taalas відкрився як бета-версія, хоча перша модель ще не була на межі. За цим стоїть впевненість: відчуй сам, що стає можливим на такій швидкості. ...