Évaluer la performance des modèles est difficile Les métriques sont manipulées, l'évaluation humaine est coûteuse et incohérente C'est pourquoi nous avons créé Judge - un système d'évaluation AI vérifiable qui permet aux modèles de s'affronter directement. Entraînez votre modèle et mettez-le à l'épreuve.
gensyn
gensyn27 août, 23:13
1/ Présentation de Judge : le système d'évaluation AI vérifiable de Gensyn. Les évaluateurs traditionnels s'appuient sur des API fermées - opaques, mises à jour silencieusement et impossibles à reproduire. Judge exécute un modèle AI déterministe préalablement convenu sur des entrées du monde réel et s'engage à être mis au défi en public.
2,52K