Evaluarea performanței modelului este dificilă Valorile sunt jucate, scorul uman este costisitor și inconsecvent De aceea am construit Judge - un sistem de evaluare AI verificabil care permite modelelor să concureze direct. Antrenează-ți modelul și testează-l
gensyn
gensyn27 aug., 23:13
1/ Vă prezentăm Judge: Sistemul verificabil de evaluare AI al Gensyn. Evaluatorii tradiționali se bazează pe API-uri închise - opace, actualizate în tăcere și imposibil de reprodus. Judge execută un model AI determinist prestabilit împotriva intrărilor din lumea reală și se angajează să fie contestat în public.
2,39K