Вычисления вывода на пути к тому, чтобы стать огромной вычислительной нагрузкой к концу этого десятилетия. Я думаю, что это будет намного больше, чем обучение (особенно если учитывать потребности в выводе RL / выводе для обучения). И это все еще открытая игровая площадка в терминах аппаратного обеспечения, платформ и моделей. Также становится все более очевидным, что люди готовы платить премию за снижение задержки. С точки зрения аппаратного обеспечения есть несколько интересных направлений, на которые стоит обратить внимание: - Установки в стиле SRAM выглядят многообещающе (GPT Spark на Cerebras, приобретение Groq компанией Nvidia) - Разделенные системы (предварительная загрузка на одной машине / процессоре, генерация на другой) вероятно имеют много смысла. Вычислительные характеристики предварительной загрузки и декодирования настолько различны, что специализация на уровне аппаратного обеспечения приведет к увеличению эффективности. - Я также не стал бы сбрасывать со счетов более экзотические технологии, такие как чип Taalas / вычисления вблизи памяти / и т.д. Хотя они все еще довольно далеки от крупномасштабного развертывания, экономическое давление на получение эффективности может стать катализатором. С точки зрения алгоритмов / архитектуры: - Практически каждая крупная модель с открытыми весами имеет как минимум одну оптимизацию, которая делает ее быстрее для вывода. Будь то MoE, SSM (или другой гибридный вариант), или скользящее окно или разреженное внимание. Здесь больше различий, чем год назад. И будет интересно увидеть, где мы сойдёмся. - Объединят ли модели диффузии разделение предварительной загрузки и декодирования? - Я все еще верю, что есть большие выгоды от дальнейшего совместного проектирования модели с аппаратным обеспечением и рабочей нагрузкой. Я также не думаю, что у нас будет универсальное решение в будущем: - Модели на облачной основе могут выглядеть очень иначе, чем модели, оптимизированные для края. - Модели могут все больше и больше разрабатываться совместно с аппаратным обеспечением, на котором они развертываются. - Будет как минимум один параметр, который будет балансировать между задержкой и эффективностью / стоимостью энергии.