Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Resonemang som gränssnitt för lagring med lång kontext
I vårt senaste inlägg (AMemGym) betonade vi hur interaktiv utvärdering är viktig. Nu tillämpar vi det på de senaste "perfekta" långkontextmodellerna som GPT-5.2.
▪️ Den stora frågan: Har vi löst långsiktiga uppgifter?
▪️ Svaret: Inte riktigt. Det handlar om avvägningen mellan resonerande och beräkning.
En djupdykning i minnesmekaniken för inhemsk långkontext 👇
1. Inte bara ryggradsmodellen
GPT-5.2 visar enorma förbättringar på MRCR-riktmärken. Men när vi särskiljde variablerna fann vi att en stor del av den vinsten kommer från hög resonemangsinsats, inte bara ryggradsmodellen.
2. Minnesekvationen
Ett nytt sätt att se på resonemangkostnaden för minnesåtervinning:
[ Minimalt resonemangsarbete ∝ 1 / Minneskvalitet ]
Resonemang fungerar som en adaptiv sökmotor. Det betalar beräkningskostnaden för att "binda om" information som inte lagrats effektivt.
3. AMemGym-resultat
Vi testade några flaggskeppsmodeller på AMemGym (vårt ICLR'26 interaktiva minnesbenchmark) för att utvärdera realistisk långsiktig prestanda.
🔹 Resonemang är en multiplikator: Hög resonemangsinsats är avgörande för dynamiska, högordningsassociationer.
🔹 Personalisering är svårt: Även flaggskeppsmodeller har svårt att upprätthålla användarstatus över långa tidshorisonter.
🔹 Öppna vikter: GLM-4.7 visar stark potential och kan mäta sig med slutna modeller.
4. Framtiden (bortom simulering): Tvåvägsdörrar x testtidsskalning
Optimering av minnet i det vilda är möjligt genom att kombinera "icke-förlustbefriad" minnespersistens med adaptiv testtidsberäkning. Genom att lägga ner mycket beräkning på att verifiera logik och hämta djupdata kan modeller/agenter generera självövervakad återkoppling för att förfina minnesstrukturer. Detta omvandlar dagens kostsamma resonemang till effektiva kognitiva genvägar för morgondagen.
📄 Fullständig analys: ...



Topp
Rankning
Favoriter
