Інференційні обчислення мають стати величезним обчислювальним навантаженням до кінця цього десятиліття. Думаю, це буде набагато масштабніше, ніж навчання (особливо якщо врахувати запуск RL / потреби в інференції для тренувань). І це все ще відкрите поле для гри з точки зору апаратного забезпечення, платформ і моделей. Також стає дедалі очевиднішим, що люди готові платити надбавку за зменшення затримки. Щодо апаратного забезпечення, є кілька цікавих напрямків, на які варто звернути увагу: - Налаштування в стилі SRAM виглядають перспективними (GPT Spark на Cerebras, придбання Groq компанією Nvidia) - Розділені системи (попереднє заповнення на одній машині/процесорі, генерація на іншому) ймовірно мають сенс. Обчислювальні характеристики попереднього заповнення та декодування настільки різні, що спеціалізація на апаратному рівні дає підвищення ефективності - Я також не став би ігнорувати більш екзотичні технології, як-от чип Taalas / ближче до пам'яті обчислення тощо. Хоча вони ще досить далеко від масштабного впровадження, економічний тиск на підвищення ефективності може стати каталізатором Щодо алгоритму / архітектури: - Практично кожна основна модель відкритих ваг має принаймні одну оптимізацію, що робить її швидшою для виведення. Чи то MoE, SSM (або інша гібридна різниця), чи ковзне вікно чи рідка увага. Тут більше відмінностей, ніж рік тому. І буде цікаво побачити, де ми зійдемося. - Чи уніфікують дифузійні моделі розділення презаповнення / декодування? - Все ще вважаю, що можна отримати значні переваги у подальшому спільному проєктуванні моделі з апаратним забезпеченням і робочим навантаженням Я також не думаю, що в майбутньому буде універсальне рішення: - Моделі на основі хмари можуть виглядати зовсім інакше, ніж моделі з оптимізацією по краях - Моделі можуть дедалі більше співрозроблятися відповідно до апаратного забезпечення, на якому вони розгорнуті - Буде щонайменше одна ручка, яка компенсує затримку та енергоефективність/вартість.