🧠 Resonemang som gränssnitt för lagring med lång kontext I vårt senaste inlägg (AMemGym) betonade vi hur interaktiv utvärdering är viktig. Nu tillämpar vi det på de senaste "perfekta" långkontextmodellerna som GPT-5.2. ▪️ Den stora frågan: Har vi löst långsiktiga uppgifter? ▪️ Svaret: Inte riktigt. Det handlar om avvägningen mellan resonerande och beräkning. En djupdykning i minnesmekaniken för inhemsk långkontext 👇 1. Inte bara ryggradsmodellen GPT-5.2 visar enorma förbättringar på MRCR-riktmärken. Men när vi särskiljde variablerna fann vi att en stor del av den vinsten kommer från hög resonemangsinsats, inte bara ryggradsmodellen. 2. Minnesekvationen Ett nytt sätt att se på resonemangkostnaden för minnesåtervinning: [ Minimalt resonemangsarbete ∝ 1 / Minneskvalitet ] Resonemang fungerar som en adaptiv sökmotor. Det betalar beräkningskostnaden för att "binda om" information som inte lagrats effektivt. 3. AMemGym-resultat Vi testade några flaggskeppsmodeller på AMemGym (vårt ICLR'26 interaktiva minnesbenchmark) för att utvärdera realistisk långsiktig prestanda. 🔹 Resonemang är en multiplikator: Hög resonemangsinsats är avgörande för dynamiska, högordningsassociationer. 🔹 Personalisering är svårt: Även flaggskeppsmodeller har svårt att upprätthålla användarstatus över långa tidshorisonter. 🔹 Öppna vikter: GLM-4.7 visar stark potential och kan mäta sig med slutna modeller. 4. Framtiden (bortom simulering): Tvåvägsdörrar x testtidsskalning Optimering av minnet i det vilda är möjligt genom att kombinera "icke-förlustbefriad" minnespersistens med adaptiv testtidsberäkning. Genom att lägga ner mycket beräkning på att verifiera logik och hämta djupdata kan modeller/agenter generera självövervakad återkoppling för att förfina minnesstrukturer. Detta omvandlar dagens kostsamma resonemang till effektiva kognitiva genvägar för morgondagen. 📄 Fullständig analys: ...