Đánh giá hiệu suất mô hình là điều khó khăn Các chỉ số bị thao túng, việc chấm điểm của con người tốn kém và không nhất quán Đó là lý do tại sao chúng tôi xây dựng Judge - một hệ thống đánh giá AI có thể xác minh cho phép các mô hình cạnh tranh trực tiếp. Huấn luyện mô hình của bạn và đưa nó vào thử nghiệm
gensyn
gensyn23:13 27 thg 8
1/ Giới thiệu Judge: Hệ thống đánh giá AI có thể xác minh của Gensyn. Các nhà đánh giá truyền thống dựa vào các API đóng - không minh bạch, được cập nhật âm thầm và không thể tái tạo. Judge thực hiện một mô hình AI đã được thỏa thuận trước, có tính xác định đối với các đầu vào từ thế giới thực và cam kết sẽ bị thách thức công khai.
2,39K