Мої друзі з @eternisai щойно опублікували статтю, в якій показано, що навчання моделей штучного інтелекту на найскладніших прикладах призводить до кращої продуктивності при виконанні завдань на міркування. Це суперечить людям, які люблять вчитися з простішими речами.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 серп., 01:41
Ми представляємо кращий рецепт збору даних після тренування при використанні GRPO. Збір зразків у експертів коштує дорого, бюджети анотацій обмежені. За які приклади насправді варто платити? Ми виявили, що зосередження уваги на твердих зразках призводить до покращення на 30-40%. 1/7
365