Avaliar o desempenho do modelo é difícil As métricas são manipuladas, a pontuação humana é cara e inconsistente É por isso que construímos o Judge - um sistema de avaliação de IA verificável que permite que os modelos compitam de frente. Treine seu modelo e coloque-o à prova
gensyn
gensyn27 de ago., 23:13
1/ Apresentando o sistema de avaliação de IA verificável de Judge: Gensyn. Os avaliadores tradicionais contam com APIs fechadas - opacas, atualizadas silenciosamente e impossíveis de reproduzir. O juiz executa um modelo de IA determinístico pré-acordado contra entradas do mundo real e se compromete a ser desafiado em público.
2,4K