Evaluar el rendimiento del modelo es difícil Las métricas son manipuladas, la puntuación humana es costosa e inconsistente Por eso creamos Judge - un sistema de evaluación de IA verificable que permite a los modelos competir cara a cara. Entrena tu modelo y ponlo a prueba.
gensyn
gensyn27 ago, 23:13
1/ Presentamos Judge: el sistema de evaluación de IA verificable de Gensyn. Los evaluadores tradicionales dependen de APIs cerradas: opacas, actualizadas en silencio e imposibles de reproducir. Judge ejecuta un modelo de IA determinista previamente acordado contra entradas del mundo real y se compromete a ser desafiado en público.
2,38K