Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Viimeisimmät kehitysuutiset tekoälyssä • Perustaja @AlphaSignalAI (250 000 käyttäjää)
ML Englanti vuodesta 2017 • Ex-Mila
Joku ohitti juuri Applen Neural Enginen kouluttaakseen malleja.
Jokaisen M-sarjan Macin Neural Engine oli suunniteltu päättelyä varten.
Käytä malleja, älä kouluta niitä. Ei julkista API:ta, ei dokumentaatiota, eikä missään nimessä takaiskua.
Tutkija käänteisesti suunnitteli yksityiset rajapinnat joka tapauksessa ja rakensi muuntajien koulutussilmukan, joka kulkee suoraan ANE-laitteistolla eteen- ja taaksepäin.
Menetelmä ohittaa CoreML:n kokonaan.
Applen virallisten työkalujen sijaan projekti rakentaa ohjelmia MIL:llä (Model Intermediate Language), kääntää ne muistissa dokumentoimattomien '_ANEClient'-rajapintojen avulla ja syöttää dataa IOSurfacen jaettujen muistipuskurien kautta.
Painot sisällytetään käännettyihin ohjelmiin vakioina. E
ACH Training Step lähettää kuusi räätälöityä ydintä: huomio eteenpäin, eteenpäin ja sitten neljä taaksepäin kulkua, jotka laskevat gradientit syötteiden suhteen.
Painogradientit toimivat edelleen prosessorilla Accelerate-matriisikirjastojen avulla, mutta raskaat työt (matriisin kertolaskut, softmax, aktivointifunktiot) tapahtuu ANE:lla.
Tämä mahdollistaa kolme asiaa, joita ei aiemmin ollut:
1. Kouluta pieniä malleja paikallisesti ilman, että akku kuluu
2. Hienosäätö laitteella ilman, että dataa lähetetään palvelimelle tai GPU:ta käynnistetään
3. Tutki, mitä ANE-laitteisto oikeasti pystyy tekemään, kun Applen suojakaiteet sivuutetaan
Jos tämä lähestymistapa skaalautuu, seuraava aalto laitteella tapahtuvaa tekoälyä lakkaa olemaan jonkun toisen jäädytetyn mallin ajamista.

Vali Neagu2.3. klo 21.07
KYLLÄ! Joku käänteisesti suunnitteli Applen Neural Enginen ja koulutti siihen neuroverkon.
Apple ei koskaan sallinut tätä. ANE perustuu vain päättelyyn. Ei julkista API:ta, ei dokumentaatiota.
He avasivat sen joka tapauksessa.
Miksi sillä on merkitystä:
• M4 ANE = 6,6 TFLOPS/W vs 0,08 A100:lla (80× tehokkaampi)
• "38 TOPS" on valhe – todellinen läpäisykyky on 19 TFLOPS FP16
• Mac minissasi tämä siru on pääosin käyttämättömänä
Käännös: paikallinen tekoälypäättely, joka on nopeampi JA käyttää lähes olematonta virtaa.
Tutkimus on vielä alkuvaiheessa, mutta ovi on nyt auki.
→
#AI #MachineLearning #AppleSilicon #LocalAI #OpenSource #ANE #CoreML #AppleSilicon #NPU #KCORES

608
Alibaba toimitti neljä Qwen 3.5 -pientä mallia, joissa oli temppu, joka oli lainattu heidän 397B-mallistaan: Gated DeltaNet -hybridihuomio.
Kolme tasoa lineaarista huomiota jokaista täyttä tarkkaavaisuuden kerrosta kohden.
Lineaariset kerrokset hoitavat rutiinilaskennan jatkuvalla muistinkäytöllä. Täysi huomio ampuu vain, kun tarkkuus on tärkeää.
Tämä 3:1-suhde pitää muistin tasaisena samalla kun laatu pysyy korkeana, minkä vuoksi jopa 0,8B-malli tukee 262 000 tokenin kontekstiikkunaa.
Jokainen malli käsittelee tekstiä, kuvia ja videota natiivisti.
Sovitinta ei kiinnitetty sen jälkeen. Vision enkooderi käyttää 3D-konvoluutioita videon liikkeen tallentamiseen ja yhdistää ominaisuuksia useista kerroksista pelkän viimeisen sijaan.
9B voittaa GPT-5-Nanoa 13 pisteellä multimodaalisessa ymmärtämisessä, 17 pisteellä visuaalisessa matematiikassa ja 30 pisteellä dokumenttien jäsentämisessä. 0.8B pyörii puhelimessa ja käsittelee videota. 4B mahtuu 8GB VRAM-muistiin ja toimii multimodaalisena agenttina. Kaikki neljä ovat Apache 2.0.
Jos tämä arkkitehtuuri pitää paikkansa, pieni mallitila muuttui kyvykkyyskilpailuksi kokokilpailun sijaan.
Vuosi sitten monimodaalinen malli paikallisesti tarkoitti 13B+ mallia ja vakavaa GPU:ta.
Nyt 4B-malli, jossa on 262K kontekstia, käsittelee tekstiä, kuvia ja videoita kuluttajalaitteista.
Reunamallien ja lippulaivamallien välinen kuilu kaventuu nopeammin kuin lippulaivojen ja ihmisten välinen ero.

Qwen2.3. klo 21.18
🚀 Qwen 3.5 Small Model -sarjan esittely
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Enemmän älykkyyttä, vähemmän laskentaa.
Nämä pienet mallit perustuvat samaan Qwen3.5-pohjaan — natiivimultimodaali, parannettu arkkitehtuuri, skaalautunut RL:
• 0,8B / 2B → pieni, nopea, erinomainen reunalaitteelle
• 4B → yllättävän vahva multimodaalinen pohja kevyille aineille
• 9B → kompakti, mutta jo kaventaa eroa paljon suurempiin malleihin
Ja kyllä — julkaisemme myös Base-mallit.
Toivomme, että tämä tukee paremmin tutkimusta, kokeilua ja todellista teollista innovaatiota.
Halauskasvot:
ModelScope:

184
Olisiko mahdollista rajoittaa niiden tilien tavoittavuutta, jotka toistuvasti merkitään väärän tiedon vuoksi?
Voisit käyttää Community Notesia tai Grokia seuraamaan iskuja.
Kannatan sananvapautta, mutta kun tili, jolla on miljoona seuraajaa, levittää tahallaan väärää tietoa, jolla on 25 miljoonaa näyttökertaa, sillä on todellisia seurauksia.
@nikitabier
137
Johtavat
Rankkaus
Suosikit
