认识 Genesis V2。我们引入了 "选项级推理"——一种训练模型理解干扰项为何不正确的方法,而不仅仅是选择正确答案。 📈 结果:平均准确率约为 30%(竞争对手约为 12%)。✅ 可靠性:99.4% 的有效、清晰答案。 在 Hugging Face 阅读论文并获取数据集: