parece que los próximos años de desarrollo de IA serán muchos RL con funciones de recompensa de LLM como juez. tiempos extraños en los que vivimos ¿Dónde puedo aprender más sobre este paradigma? ¿Cuáles son los blogs y artículos más relevantes?
135.74K