今後数年間の AI 開発は、LLM as-a-judge 報酬関数を備えた RL が多くなるようです。 私たちが生きている奇妙な時代 このパラダイムについて詳しく知る場所はどこですか? 最も関連性の高いブログや論文は何ですか?
135.76K