Mis amigos en @eternisai acaban de publicar un artículo que muestra que entrenar modelos de IA con los ejemplos más difíciles conduce a un 40% mejor rendimiento en tareas de razonamiento. Esto es contraintuitivo para los humanos que prefieren aprender con cosas más fáciles.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 ago, 01:41
Presentamos una mejor receta para recopilar datos post-entrenamiento al usar GRPO. Recopilar muestras de expertos es costoso, los presupuestos de anotación son limitados. ¿Qué ejemplos realmente valen la pena pagar? Descubrimos que centrarse en muestras difíciles resulta en una mejora del 30-40%. 1/7
331