評估模型性能是困難的 指標被操控,人為評分成本高且不一致 這就是我們構建 Judge 的原因 - 一個可驗證的 AI 評估系統,允許模型直接競爭。 訓練你的模型並進行測試
gensyn
gensyn8月27日 23:13
1/ 介紹Judge:Gensyn的可驗證AI評估系統。 傳統評估者依賴於封閉的API——不透明、默默更新且無法復現。 Judge針對現實世界輸入執行預先商定的確定性AI模型,並承諾在公開場合接受挑戰。
2.39K