acabo de empujar mi primer entorno RL de varias vueltas a @PrimeIntellect la configuración: el modelo obtiene el título de la historia + la pregunta de QuALITY (historias largas, preguntas de opción múltiple). Herramienta única tts: búsqueda agencial de RAG sobre la historia.
12.43K