se pare că următorii câțiva ani de dezvoltare AI vor fi o mulțime de RL cu funcții de recompensă LLM-as-a-judge. vremuri ciudate în care trăim Unde pot afla mai multe despre această paradigmă? Care sunt cele mai relevante bloguri și lucrări?
135,77K