Det er vanskelig å evaluere modellytelse Beregninger er manipulerte, menneskelig scoring er kostbar og inkonsekvent Derfor bygde vi Judge – et verifiserbart AI-evalueringssystem som lar modeller konkurrere direkte. Lær opp modellen og sett den på prøve
gensyn
gensyn27. aug., 23:13
1/ Vi introduserer Judge: Gensyns verifiserbare AI-evalueringssystem. Tradisjonelle evaluatorer er avhengige av lukkede API-er – ugjennomsiktige, stille oppdaterte og umulige å reprodusere. Dommeren utfører en forhåndsavtalt, deterministisk AI-modell mot virkelige inndata og forplikter seg til å bli utfordret offentlig.
2,5K