分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Lior Alexander

AIの最新開発ニュースを報じる • 創業者@AlphaSignalAI(ユーザー25万人) 2017年以降のMLエンジニア • 元ミラ

誰かがAppleのNeural Engineをバイパスしてモデルを訓練したのです。すべてのMシリーズMacに搭載されているニューラルエンジンは推論のために設計されていました。モデルを動かすだけで、トレーニングしないでください。公開APIもドキュメントも、ましてやバックプロパゲーションもありません。研究者はプライベートAPIを逆解析し、ANEハードウェア上で順方向・後方パスを直接実行するトランストレーニングループを構築しました。この方法はCoreMLを完全にバイパスします。 Appleの公式ツールを使う代わりに、プロジェクトはMIL(モデル中間言語)でプログラムを構築し、未公開の「_ANEClient」APIを使ってメモリ内でコンパイルし、IOSurfaceの共有メモリバッファを通じてデータをフィードしています。重みはコンパイルされたプログラムに定数として組み込まれます。E ACHトレーニングステップは6つのカスタムカーネルをディスパッチします:注意順位、フィードフォワード、そして入力に対する勾配を計算する4つの後方パスです。重さ勾配はAccelerateのマトリックスライブラリを使ってCPU上で動作しますが、重い負荷(マトリックス乗算、ソフトマックス、アクティベーション関数)はANE上で行われます。これにより、以前にはなかった3つのことが可能になりました。 1. バッテリーを消費せずにローカルで小型モデルを訓練する方法 2. サーバーにデータを送ったりGPUを起動したりせずに、デバイス上で微調整を行う 3. Appleのガードレールを無視した場合にANEハードウェアが実際に何ができるかを調査するこのアプローチが拡大すれば、次のオンデバイスAIの波は他人の凍結モデルを実行することではなくなるでしょう。

アリババは397Bモデルから借用した技術「ゲーテッド・デルタネット・ハイブリッド・アテンション」を用いて、Qwen 3.5小型モデルを4台出荷しました。完全な注意の層が1層ごとに3層の直線的な注意がある。線形層は、メモリ使用が一定でルーチン計算を処理します。フルアテンションレイヤーは、精度が重要な場合にのみ発動します。この3:1の比率はメモリを平坦に保ちつつ品質も高く保つため、0.8億モデルでも262,000トークンのコンテキストウィンドウをサポートしています。すべてのモデルはテキスト、画像、動画をネイティブに処理しています。その後アダプターは取り付けられませんでした。ビジョンエンコーダーは3D畳み込みを使って動画内の動きを捉え、最終層だけでなく複数のレイヤーの特徴を統合します。 9Bはマルチモーダル理解でGPT-5-Nanoに13ポイント、視覚的数学で17ポイント、ドキュメント解析で30ポイント差で上回っています。0.8Bは電話で動作し、映像を処理します。4Bは8GBのVRAMを搭載し、マルチモーダルエージェントとして機能します。これら4つすべてApache 2.0です。このアーキテクチャが成り立つなら、小型モデル空間はサイズ競争ではなく能力競争になってしまったことになります。 1年前、ローカルでマルチモーダルモデルを動かすと、13B+モデルと本格的なGPUが必要でした。現在、262Kコンテキストを持つ4Bモデルが、消費者向けハードウェアからのテキスト、画像、動画を処理しています。エッジモデルとフラッグシップモデルのギャップは、フラッグシップと人間モデルのギャップよりも速く縮まっています。

トップ

ランキング

お気に入り