Det är svårt att utvärdera modellens prestanda Mätvärden är manipulerade, mänsklig poängsättning är kostsam och inkonsekvent Det är därför vi skapade Judge – ett verifierbart AI-utvärderingssystem som gör det möjligt för modeller att tävla direkt. Träna din modell och testa den
gensyn
gensyn27 aug. 23:13
1/ Vi presenterar Judge: Gensyns verifierbara AI-utvärderingssystem. Traditionella utvärderare förlitar sig på slutna API:er - ogenomskinliga, tyst uppdaterade och omöjliga att reproducera. Judge exekverar en i förväg överenskommen, deterministisk AI-modell mot verkliga indata och åtar sig att utmanas offentligt.
2,46K