Es scheint, dass die nächsten Jahre der KI-Entwicklung viel RL mit LLM-als-Richter-Belohnungsfunktionen beinhalten werden. Seltsame Zeiten, in denen wir leben. Wo kann ich mehr über dieses Paradigma lernen? Was sind die relevantesten Blogs und Papers?
135,75K