Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Zpravodajství o nejnovějších novinkách z oblasti vývoje AI • Zakladatel @AlphaSignalAI (250 tisíc uživatelů)
ML Eng od roku 2017 • Ex-Mila
Někdo právě obešel Apple Neural Engine a trénoval modely.
Neural Engine v každém Macu řady M byl navržen pro inferenci.
Spouštějte modely, netrénujte je. Žádné veřejné API, žádná dokumentace a rozhodně žádná zpětná propagace.
Výzkumník přesto reverzně analyzoval soukromá API a vytvořil transformátorovou tréninkovou smyčku, která běží přímo na hardwaru ANE vpřed a zpět.
Metoda CoreML zcela obchází.
Místo použití oficiálních nástrojů Apple projekt vytváří programy v MIL (Model Intermediate Language), kompiluje je v paměti pomocí nedokumentovaných API '_ANEClient' a předává data přes sdílené paměťové buffery IOSurface.
Váhy jsou do kompilovaných programů započítány jako konstanty. E
TRÉNOVACÍ krok ACH vysílá šest vlastních jader: pozornost vpřed, feedforward forward, poté čtyři zpětné průchody, které počítají gradienty vzhledem k vstupům.
Váhové gradienty stále běží na CPU pomocí maticových knihoven Accelerate, ale těžší práce (maticové násobení, softmax, aktivační funkce) probíhá na ANE.
To umožňuje tří věci, které dříve nebyly:
1. Trénování malých modelů lokálně bez vyčerpání baterie
2. Jemné ladění přímo na zařízení bez odesílání dat na server nebo spuštění GPU
3. Zjistěte, co hardware ANE skutečně dokáže, když ignorujete omezení Applu
Pokud se tento přístup rozšíří, další vlna AI na zařízení přestane být o spouštění cizího zmrazeného modelu.

Vali Neagu2. 3. 21:07
ANO! Někdo reverzně rozložil Apple Neural Engine a natrénoval na něm neuronovou síť.
Apple to nikdy nedovolil. ANE je pouze na základě inference. Žádné veřejné API, žádná dokumentace.
Stejně ho otevřeli.
Proč je to důležité:
• M4 ANE = 6,6 TFLOPS/W vs 0,08 u A100 (80× efektivnější)
• "38 MAXIMÁLNĚ" je lež – skutečná propustnost je 19 TFLOPS FP16
• Váš Mac mini má tento čip většinou nečinný
Překlad: lokální AI inference, která je rychlejší A téměř nepotřebuje žádnou energii.
Stále je to raný výzkum, ale dveře jsou nyní otevřené.
→
#AI #MachineLearning #AppleSilicon #LocalAI #OpenSource #ANE #CoreML #AppleSilicon #NPU #KCORES

604
Alibaba dodala čtyři malé modely Qwen 3.5 s trikem převzatým z modelu 397B: uzavřenou DeltaNet hybridní pozornost.
Tři vrstvy lineární pozornosti na každou jednu vrstvu plné pozornosti.
Lineární vrstvy zvládají rutinní výpočty s konstantním využitím paměti. Vrstvy plné pozornosti se střílejí jen tehdy, když záleží na přesnosti.
Tento poměr 3:1 udržuje paměť rovnou a zároveň vysokou kvalitu, což je důvod, proč i model 0,8B podporuje kontextové okno o 262 000 tokenech.
Každý model zpracovává text, obrázky a video nativně.
Poté už žádný adaptér nepřišroubovaný. Vision enkoder používá 3D konvoluce k zachycení pohybu ve videu a poté spojuje prvky z více vrstev místo pouze z finální.
9B poráží GPT-5-Nano o 13 bodů v multimodálním porozumění, 17 bodů ve vizuální matematice a 30 bodů v parsování dokumentů. Verze 0.8B běží na telefonu a zpracovává video. 4B pojme 8GB VRAM a funguje jako multimodální agent. Všechny čtyři jsou Apache 2.0.
Pokud tato architektura vydrží, malý modelový prostor se stal spíše závodem schopností než velikostí.
Před rokem znamenalo lokální spuštění multimodálního modelu model 13B+ a vážnou grafickou kartu.
Nyní 4B model s kontextem 262K zpracovává text, obrázky a video z uživatelského hardwaru.
Propast mezi edge modely a vlajkovými modely se zmenšuje rychleji než mezi vlajkovými modely a lidmi.

Qwen2. 3. 21:18
🚀 Představujeme řadu Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Více inteligence, méně výpočetní kapacity.
Tyto malé modely jsou postaveny na stejném základu Qwen3.5 — nativní multimodální, vylepšená architektura, škálované RL:
• 0,8B / 2B → malé, rychlé, skvělé pro edge zařízení
• 4B → překvapivě silná multimodální základna pro lehké látky
• 9B → kompaktní, ale už se tak dotýkal mnohem větších modelů
A ano — vydáváme také základní modely.
Doufáme, že to lépe podporuje výzkum, experimentování a skutečné průmyslové inovace.
Objímající obličej:
ModelScope:

180
Bylo by možné omezit dosah účtů, které jsou opakovaně označovány za dezinformace?
Můžete použít Community Notes nebo Grok ke sledování strikeů.
Svobodu projevu podporuji, ale když účet s milionem sledujících záměrně šíří nepravdivé informace, které dosáhnou 25 milionů zobrazení, má to reálné důsledky.
@nikitabier
133
Top
Hodnocení
Oblíbené
