Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Yapay zekadaki en son geliştirme haberlerini takip ediyor • Kurucu @AlphaSignalAI (250 bin kullanıcı)
2017'den beri ML Mühendisi • Eski Mila
Birisi Apple'ın Neural Engine'ini atlayarak modelleri eğitmek için yeni bir şey yaptı.
Her M-serisi Mac'in içindeki Neural Engine, çıkarım yapmak için tasarlanmıştı.
Modelleri çalıştır, eğitme. Ne kamuya açık API, ne dokümantasyon var, ne de kesinlikle geri yayılma yok.
Bir araştırmacı yine de özel API'leri tersine mühendislik yaptı ve doğrudan ANE donanımında ileri geri geçiş yapan bir transformatör eğitim döngüsü kurdu.
Bu yöntem CoreML'yi tamamen atlar.
Apple'ın resmi araçlarını kullanmak yerine, proje programları MIL (Model Intermediate Language) ile oluşturur, bunları belgelenmemiş '_ANEClient' API'lerle bellek içinde derler ve verileri IOSurface paylaşılan bellek tamponları aracılığıyla besler.
Ağırlıklar derlenen programlara sabit olarak entegre edilir. E
ACH Eğitim Adımı altı özel çekirdek gönderir: Dikkat İleri, İleriye Besleme, ardından girdilere göre gradyanları hesaplayan dört geri geçiş.
Ağırlık gradyanları hâlâ CPU'da Accelerate'in matris kütüphaneleri kullanılarak çalışıyor, ancak ağır iş (matris çarpma, softmax, aktivasyon fonksiyonları) ANE'de gerçekleşiyor.
Bu, daha önce olmayan üç şeyi mümkün kılar:
1. Küçük modelleri yerel olarak eğitmek ve pilinizi tüketmeden
2. Sunucuya veri göndermeden veya GPU'yu çalıştırmadan cihazda ince ayar
3. Apple'ın korkuluklarını görmezden geldiğinizde ANE donanımının aslında neler yapabileceğini araştırın.
Bu yaklaşım ölçeklenirse, cihaz üzerindeki yapay zekanın bir sonraki dalgası artık başkasının donmuş modelini çalıştırmakla kalmayacak.

Vali Neagu2 Mar 21:07
EVET! Birisi Apple'ın Neural Engine'ini tersine mühendislik yaptı ve üzerine bir sinir ağı eğitti.
Apple buna asla izin vermedi. ANE sadece çıkarma yapabiliyor. Ne halka açık API, ne de dokümantura.
Yine de kapıyı açtılar.
Neden önemli:
• M4 ANE = 6.6 TFLOPS/W, A100 için 0.08 (80× daha verimli)
• "38 TOPS" yalan - gerçek veri hızı 19 TFLOPS FP16
• Mac mini'nizde bu çip çoğunlukla boşta duruyor
Çevirisi: daha hızlı ve neredeyse hiç güç kullanmayan yerel yapay zeka çıkarımı.
Hâlâ erken araştırma ama kapı artık açık.
→
#AI #MachineLearning #AppleSilicon #LocalAI #OpenSource #ANE #CoreML #AppleSilicon #NPU #KCORES

599
Alibaba, 397B modelinden ödünç alınan bir hileyle dört Qwen 3.5 küçük model gönderdi: Gated DeltaNet hibrit dikkat.
Her tam dikkat katmanı için üç katman doğrusal dikkat var.
Doğrusal katmanlar, rutin hesaplamayı sürekli bellek kullanımıyla yönetir. Tam dikkat katmanları ancak hassasiyet önemli olduğunda ateşlenir.
Bu 3:1 oranı belleği düz tutarken kalite yüksek kalıyor, bu yüzden 0.8B modeli bile 262.000 tokenlık bağlam penceresini destekliyor.
Her model metin, görüntü ve videoyu doğal olarak işliyor.
Sonrasında hiç adaptör takılmadı. Vizyon kodlayıcısı, videoda hareketi yakalamak için 3D konvolüsyonlar kullanır, ardından sadece son katmandan değil, birden fazla katmandan özellikleri birleştirir.
9B, çok modlu anlamada GPT-5-Nano'yu 13 puan, görsel matematikte 17 puan ve belge ayrıştırmada 30 puan geride bırakıyor. 0.8B bir telefonda çalışıyor ve videoyu işliyor. 4B, 8GB VRAM'a sığıyor ve çoklu modal bir ajan olarak işlev görüyor. Dördü de Apache 2.0.
Eğer bu mimari geçerliyse, küçük model alanı bir yetenek yarışı haline gelmiş, bir boyut yarışı değil.
Bir yıl önce, yerel olarak multimodal bir model çalıştırmak 13B+ model ve ciddi bir GPU anlamına geliyordu.
Şimdi 262K bağlamlı bir 4B model, tüketici donanımından metin, görüntü ve videoyu işliyor.
Kenar modelleri ile amiral gemisi modelleri arasındaki fark, amiral gemileri ile insan arasındaki farktan daha hızlı kapanıyor.

Qwen2 Mar 21:18
🚀 Qwen 3.5 Küçük Model Serisi'nin Tanıtımı
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Daha fazla zeka, daha az hesaplama.
Bu küçük modeller aynı Qwen3.5 temeli üzerine inşa edilmiştir — yerel multimodal, geliştirilmiş mimari, ölçekli RL:
• 0.8B / 2B → küçük, hızlı, kenar cihaz için harika
• 4B→ hafif ajanlar için şaşırtıcı derecede güçlü bir multimodal taban
• 9B → kompakt, ancak çok daha büyük modellerle aradaki farkı kapatıyor
Ve evet — Base modellerini de piyasaya süreceğiz.
Umarız bu araştırma, deney ve gerçek dünya endüstriyel yeniliklerini daha iyi destekler.
Sarılma Yüz:
ModelScope:

175
Yanlış bilgi nedeniyle tekrar tekrar işaretlenen hesapların erişimini sınırlamak mümkün olur mu?
Strike'ları takip etmek için Community Notes veya Grok kullanabilirsiniz.
İfade özgürlüğünü destekliyorum, ancak 1 milyon takipçisi olan bir hesap kasıtlı olarak yanlış bilgi yayıp 25 milyon izlenmeye ulaştığında, bunun gerçek dünya sonuçları oluyor.
@nikitabier
128
En İyiler
Sıralama
Takip Listesi
