多数派が常に正しいとは限りません ソリューション集約のためのRLトレーニング