Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Рассуждение как интерфейс для хранения длинного контекста
В нашем последнем посте (AMemGym) мы подчеркнули, как важна интерактивная оценка. Теперь мы применяем это к последним "совершенным" моделям длинного контекста, таким как GPT-5.2.
▪️ Главный вопрос: Мы решили задачи с длинным горизонтом?
▪️ Ответ: Не совсем. Дело в компромиссе между рассуждением и вычислениями.
Глубокое погружение в механику памяти для нативного длинного контекста 👇
1. Не только основная модель
GPT-5.2 показывает огромные достижения на бенчмарках MRCR. Но когда мы разобрали переменные, мы обнаружили, что большая часть этого прироста связана с высоким усилием рассуждения, а не только с основной моделью.
2. Уравнение памяти
Новый способ взглянуть на стоимость рассуждения для извлечения памяти:
[ Минимальное усилие рассуждения ∝ 1 / Качество памяти ]
Рассуждение действует как адаптивный поисковый движок. Оно оплачивает вычислительные затраты, чтобы "перепривязать" информацию, которая не была эффективно сохранена.
3. Результаты AMemGym
Мы протестировали несколько флагманских моделей на AMemGym (наш интерактивный бенчмарк памяти ICLR'26), чтобы оценить реалистичную производительность на длинном горизонте.
🔹 Рассуждение — это множитель: Высокое усилие рассуждения критично для динамических, высокопорядковых ассоциаций.
🔹 Персонализация сложна: Даже флагманские модели испытывают трудности с поддержанием состояния пользователя на длинных горизонтах.
🔹 Открытые веса: GLM-4.7 показывает сильный потенциал, соперничая с закрытыми моделями.
4. Будущее (за пределами симуляции): Двери с двусторонним доступом x Масштабирование во время тестирования
Оптимизация памяти в дикой природе возможна путем сочетания "безпотерьной" устойчивости памяти с адаптивными вычислениями во время тестирования. Потратив много вычислительных ресурсов на проверку логики и извлечение глубоких данных, модели/агенты могут генерировать самонаправленную обратную связь для уточнения структур памяти. Это превращает дорогостоящее рассуждение сегодня в эффективные когнитивные сокращения для завтра.
📄 Полный анализ: ...



Топ
Рейтинг
Избранное
