Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мы могли бы решить это с помощью ограниченного выполнения.
Ограничьте длину вывода, как лимит в 140 символов в Twitter.
Или ограничьте время выполнения, как в режиме реального времени в Linux.


10 авг. 2025 г.
Я замечаю, что из-за (думаю?) большого количества benchmarkmaxxing на долгосрочных задачах, LLM становятся немного слишком агентными по умолчанию, немного выходя за рамки моего среднего случая использования.
Например, в кодировании модели теперь склонны рассуждать довольно долго, у них есть склонность начинать перечислять и искать файлы по всему репозиторию, они делают повторные веб-поиски, они чрезмерно анализируют и переосмысливают редкие крайние случаи, даже в коде, который явно неполный и находится в активной разработке, и часто возвращаются через ~минуты даже по простым запросам.
Это может иметь смысл для долгосрочных задач, но это менее подходит для более "в процессе" итеративной разработки, которой я все еще занимаюсь довольно много, или если я просто ищу быструю проверку перед запуском скрипта, на случай если я неправильно проиндексировал или допустил какую-то глупую ошибку. Поэтому я довольно часто останавливаю LLM с вариациями "Стоп, ты слишком переосмысляешь это. Смотри только на этот единственный файл. Не используй никаких инструментов. Не усложняй", и т.д.
В основном, поскольку по умолчанию начинает медленно внедряться режим "ультраразмышления" супер агентности, я чувствую необходимость в обратном, и в более общих хороших способах указать или сообщить намерение / ставки, от "просто быстро взглянуть" до "уйди на 30 минут, вернись, когда будешь абсолютно уверен".
Вам не обязательно точно использовать эти концепции, но идеи из разработки операционных систем реального времени могут быть внедрены в качестве ограничений во время обучения и оценки ИИ.
Мягкое реальное время может быть достаточным. Если это не сработает, это не будет катастрофой, как в случае с жестким реальным временем.

104,65K
Топ
Рейтинг
Избранное