“在這個變化如此迅速的世界中,您能承擔的最大風險就是不冒任何風險。” 真相。
Rishabh Agarwal
Rishabh Agarwal8月26日 01:38
這是我在@AIatMeta的最後一週。決定不繼續參與新的超級智能TBD實驗室是一個艱難的決定,尤其考慮到人才和計算密度。但在谷歌大腦、DeepMind和Meta工作了7.5年後,我感到有必要承擔一種不同的風險。 馬克和@alexandr_wang提出的在超級智能團隊中工作的提議非常吸引人。但我最終選擇遵循馬克自己的建議:“在一個變化如此迅速的世界中,最大的風險就是不冒任何風險”。 在我短暫的Meta工作期間,我們確實在“思考”模型的後訓練方面推動了前沿。具體來說: - 將一個8B密集模型的性能提升到接近Deepseek-R1的水平,使用RL擴展。 - 在訓練中期使用合成數據來熱啟動RL。 - 開發更好的在線蒸餾方法。 非常享受與@_arohan_、@brandfonbrener、Leo Li、@ErykHelenowski、@DatHuynh13、Xiaocheng、Jia、Boduo和Yanjun的合作。
4.33K