剛剛將我的第一個多輪強化學習環境推送到 @PrimeIntellect 設定:模型從 QuALITY 獲取故事標題 + 問題(長故事,多項選擇題)。 唯一的工具:針對故事的代理 RAG 搜索。
12.45K