大多数人并不总是正确 解决方案聚合的强化学习训练