评估模型性能是困难的 指标被操控,人为评分成本高且不一致 这就是我们构建 Judge 的原因 - 一个可验证的 AI 评估系统,允许模型直接竞争。 训练你的模型并进行测试
gensyn
gensyn8月27日 23:13
1/ 介绍Judge:Gensyn的可验证AI评估系统。 传统评估者依赖于封闭的API——不透明、默默更新且无法复现。 Judge针对现实世界输入执行预先商定的确定性AI模型,并承诺在公开场合接受挑战。
2.46K