Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Razonamiento como interfaz para el almacenamiento de contexto largo
En nuestra última publicación (AMemGym), enfatizamos lo importante que es la evaluación interactiva. Ahora, lo aplicamos a los últimos modelos "perfectos" de contexto largo como GPT-5.2.
▪️ La gran pregunta: ¿Hemos resuelto tareas a largo plazo?
▪️ La respuesta: No exactamente. Se trata del equilibrio Razonamiento-Computación.
Una inmersión profunda en la mecánica de la memoria para el contexto 👇 largo nativo
1. No solo el modelo Backbone
GPT-5.2 muestra ganancias masivas en los indicadores de referencia MRCR. Pero al desenredar las variables, descubrimos que gran parte de esa ganancia proviene de un gran esfuerzo de razonamiento, no solo del modelo de columna vertebral.
2. La ecuación de la memoria
Una nueva forma de ver el coste de razonamiento para la recuperación de memoria:
[ Mínimo esfuerzo de razonamiento ∝ 1 / Calidad de memoria ]
El razonamiento actúa como un motor de búsqueda adaptativo. Paga el coste de cálculo para "reasignar" información que no se almacenó de forma eficiente.
3. Resultados de AMemGym
Probamos algunos modelos insignia en AMemGym (nuestro benchmark interactivo de memoria ICLR'26) para evaluar un rendimiento realista a largo plazo.
🔹 El razonamiento es un multiplicador: Un alto esfuerzo de razonamiento es fundamental para asociaciones dinámicas y de alto orden.
🔹 La personalización es difícil: Incluso los modelos insignia tienen dificultades para mantener el estado de usuario a largo plazo.
🔹 Pesos abiertos: El GLM-4.7 muestra un gran potencial, rivalizando con los modelos cerrados.
4. El futuro (más allá de la simulación): Puertas bidireccionales x escalado en tiempo de prueba
Optimizar la memoria en la naturaleza es posible combinando la persistencia de memoria "no con pérdidas" con el cálculo adaptativo en tiempo de prueba. Al gastar un alto cálculo para verificar la lógica y recuperar datos profundos, los modelos/agentes pueden generar retroalimentación auto-supervisada para refinar las estructuras de memoria. Esto convierte el razonamiento costoso hoy en atajos cognitivos eficientes para el mañana.
📄 Análisis completo: ...



Populares
Ranking
Favoritas
