刚刚将我的第一个多轮强化学习环境推送到 @PrimeIntellect 设置:模型从 QuALITY 获取故事标题 + 问题(长故事,多项选择题)。 唯一的工具:针对故事的代理 RAG 搜索。
9.98K