La mayoría no siempre tiene la razón Entrenamiento de RL para la agregación de soluciones