Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Le Raisonnement comme Interface pour le Stockage de Longue Durée
Dans notre dernier article (AMemGym), nous avons souligné l'importance de l'évaluation interactive. Maintenant, nous l'appliquons aux derniers modèles de longue durée "parfaits" comme GPT-5.2.
▪️ La grande question : Avons-nous résolu les tâches à long terme ?
▪️ La réponse : Pas exactement. Il s'agit du compromis entre Raisonnement et Calcul.
Une plongée approfondie dans la mécanique de la mémoire pour le long contexte natif 👇
1. Pas Juste le Modèle de Base
GPT-5.2 montre des gains massifs sur les benchmarks MRCR. Mais lorsque nous avons dissocié les variables, nous avons constaté qu'une grande partie de ce gain provient d'un effort de raisonnement élevé, et non seulement du modèle de base.
2. L'Équation de la Mémoire
Une nouvelle façon de voir le coût du raisonnement pour la récupération de mémoire :
[ Effort de Raisonnement Minimal ∝ 1 / Qualité de la Mémoire ]
Le raisonnement agit comme un moteur de recherche adaptatif. Il paie le coût de calcul pour "réassocier" des informations qui n'ont pas été stockées efficacement.
3. Résultats d'AMemGym
Nous avons testé certains modèles phares sur AMemGym (notre benchmark de mémoire interactive ICLR'26) pour évaluer la performance réaliste à long terme.
🔹 Le Raisonnement est un Multiplicateur : Un effort de raisonnement élevé est crucial pour des associations dynamiques et de haut ordre.
🔹 La Personnalisation est Difficile : Même les modèles phares ont du mal à maintenir l'état de l'utilisateur sur de longues périodes.
🔹 Poids Ouverts : GLM-4.7 montre un fort potentiel, rivalisant avec des modèles fermés.
4. L'Avenir (Au-delà de la Simulation) : Portes à Double Sens x Échelle de Temps de Test
Optimiser la mémoire dans la nature est possible en combinant la persistance de mémoire "non-perte" avec un calcul adaptatif au moment du test. En dépensant un calcul élevé pour vérifier la logique et récupérer des données profondes, les modèles/agents peuvent générer des retours auto-supervisés pour affiner les structures de mémoire. Cela convertit le raisonnement coûteux d'aujourd'hui en raccourcis cognitifs efficaces pour demain.
📄 Analyse Complète : ...



Meilleurs
Classement
Favoris
