Оцінити продуктивність моделі складно Метрики грають, людський підрахунок балів дорогий і непослідовний Ось чому ми створили Judge - перевірену систему штучного інтелекту eval, яка дозволяє моделям змагатися в лоб. Тренуйте свою модель і перевірте її
gensyn
gensyn27 серп., 23:13
1/ Представляємо суддю: перевірену систему оцінювання штучного інтелекту Gensyn. Традиційні оцінювачі покладаються на закриті API - непрозорі, тихо оновлюються і не піддаються відтворенню. Суддя виконує заздалегідь узгоджену, детерміновану модель штучного інтелекту на основі реальних вхідних даних і зобов'язань, які будуть оскаржені на публіці.
2,39K