Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я помічаю, що через (я думаю?) багато бенчмаркxing на завданнях з довгим горизонтом, LLM стають занадто агентськими за замовчуванням, трохи перевищуючи мій звичайний варіант використання.
Наприклад, у кодуванні, моделі зараз схильні міркувати досить довго, вони мають схильність починати перераховувати та перевіряти файли по всьому репозиторію, вони здійснюють повторні веб-пошуки, вони надмірно аналізують і надмірно обмірковують маленькі рідкісні крайові випадки навіть у коді, який є свідомо неповним і перебуває на стадії активної розробки, і часто повертаються ~ хвилин пізніше навіть за простими запитами.
Це може мати сенс для довготривалих завдань, але це не дуже добре підходить для більш "в циклі" ітераційної розробки, яку я все ще виконую багато, або якщо я просто шукаю швидку вибіркову перевірку перед запуском скрипту, на випадок, якщо я помилився в індексації або зробив якусь дурну помилку. Тому я ловлю себе на тому, що досить часто зупиняю LLM з варіаціями на кшталт «Стоп, ти занадто багато думаєш про це. Подивіться тільки на цей єдиний файл. Не використовуйте жодних інструментів. Не перестарайтеся» і т.д.
В основному, коли стандарт починає повільно переходити в суперагентський режим «ультрамислення», я відчуваю потребу в зворотному, і в більш загальному хороших способах позначити або повідомити про наміри / ставки, від «просто швидко подивитися» до «відійдіть на 30 хвилин, поверніться, коли будете абсолютно впевнені».
125,78K
Найкращі
Рейтинг
Вибране