トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
推論計算は、この10年末までに膨大な計算負荷になる見込みです。トレーニング以上に大きなものになると思います(特に強化学習の展開やトレーニングの推論の必要性を考慮すると)。
ハードウェア、プラットフォーム、モデルの面でも依然としてオープンな競争の場です。
また、遅延の削減のためにプレミアムを支払う人もいることがますます明らかになっています。
ハードウェア面では注目すべき興味深い方向性がいくつかあります。
- SRAMスタイルのセットアップが有望に見える(CerebrasのGPT Spark、NvidiaによるGroqの買収)
- 分解システム(あるマシン/プロセッサでのプリフィル、別のマシン/プロセッサでの生成)は非常に理にかなっている可能性があります。プリフィルとデコードの計算特性は非常に異なるため、ハードウェアレベルで特化することで効率が向上します
- ターラスチップやニアメモリコンピューティングなど、より珍しい技術も無視できません。大規模な展開からはまだかなり遠いが、効率向上への経済的圧力が触媒となる可能性がある
アルゴリズム/アーキテクチャの面では:
- ほぼすべての主要な開放重みモデルには、推論を高速化するための少なくとも一つの最適化があります。MoE、SSM(または他のハイブリッドタイプ)、スライディングウィンドウやスパーシーアテンションなど、何であれ。1年前よりも違いが増えました。そして、私たちがどこで収束するのかを見るのは興味深いでしょう。
- 拡散モデルはプリフィル/デコードの分割を統一するのか?
- モデルとハードウェアおよびワークロードのさらなる共同設計において大きな利益があると依然として信じています
また、将来的に万能の解決策が出るとは思いません。
- クラウドベースのモデルはエッジ最適化モデルとは大きく異なる外観をしている場合があります
- モデルは展開されるハードウェアに合わせてますます共設計されることがあります
- 遅延と省電力・コストをトレードオフする少なくとも1つのノブがあります。
トップ
ランキング
お気に入り
