Ich habe gerade meine erste Multi-Turn-RL-Umgebung an @PrimeIntellect gepusht. Die Einrichtung: Das Modell erhält den Titel der Geschichte + eine Frage von QuALITY (lange Geschichten, Multiple-Choice-Fragen). tts einziges Tool: agentische RAG-Suche über die Geschichte.
12,43K