"使用強化學習管理人員,而不是監督學習" 設定目標,給予獎勵,但要避免獎勵黑客行為。 Kimi的首席執行官Zhilin Yang對公司管理的看法。從機器學習的角度聽到管理技能真是有趣。 這與@hwchung27的想法"不要教導,激勵"非常相似 > 我已經將其設為工作簡介很長時間了:)
85.93K