Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧠 Uzun Bağlamlı Depolama Arayüzü Olarak Gerekçelendirme
Son yazımızda (AMemGym), etkileşimli değerlendirmenin ne kadar önemli olduğunu vurgulamıştık. Şimdi, bunu GPT-5.2 gibi en yeni "mükemmel" uzun bağlamlı modellere uygularız.
▪️ Büyük soru: Uzun vadeli görevleri çözdük mi?
▪️ Cevap: Tam olarak değil. Bu, Akıl Yürütme-Hesaplama takasıyla ilgili.
Yerel uzun bağlam 👇 için hafıza mekaniğine derinlemesine bir dalış
1. Sadece Backbone modeli değil
GPT-5.2, MRCR kıyaslamalarında büyük artışlar gösteriyor. Ancak değişkenleri çözdüğümüzde, bu kazancın büyük bir kısmının sadece omurga modelinden değil, yüksek akıl yürütme çabasından geldiğini gördük.
2. Hafıza Denklemi
Bellek geri alma için mantık maliyetini görüntülemenin yeni bir yolu:
[ Minimum Akıl Yürütme Çabası ∝ 1 / Bellek Kalitesi ]
Reasoning, uyarlanabilir bir arama motoru olarak görev yapar. Verimli saklanmayan bilgileri "yeniden bağlamak" için hesaplama maliyeti öder.
3. AMemGym Sonuçları
Gerçekçi uzun ufuk performansını değerlendirmek için AMemGym'de (ICLR'26 etkileşimli bellek kıyaslamamız) bazı amiral gemisi modelleri test ettik.
🔹 Akıl yürütme bir çarpandır: Yüksek akıl yürütme çabası dinamik, yüksek dereceli çağrışımlar için kritiktir.
🔹 Kişiselleştirme Zordur: Amiral gemisi modeller bile uzun vadeli kullanıcı durumunu korumakta zorlanıyor.
🔹 Açık Ağırlıklar: GLM-4.7 güçlü potansiyele sahiptir ve kapalı modellerle rekabet eder.
4. Gelecek (Simülasyonun Ötesinde): İki Yönlü Kapılar x Test Zamanı Ölçeklendirme
Belleği vahşi halde optimize etmek, "kayıpsız" bellek kalıcılığını uyarlanabilir test zamanı hesaplaması ile birleştirerek mümkündür. Mantığı doğrulamak ve derin verileri almak için yüksek hesaplama harcayarak, modeller/ajanlar bellek yapılarını geliştirmek için kendi denetimli geri bildirim üretebilir. Bu, pahalı akıl yürütmeyi yarın için verimli bilişsel kestirmelere dönüştürür.
📄 Tam Analiz: ...



En İyiler
Sıralama
Takip Listesi
