!!!! a construit un détecteur de piratage de récompense approprié et les modèles incités à ne pas récompenser le piratage récompensent en fait BEAUCOUP moins ! (petite taille de l’échantillon)
thebes
thebes21 mai 2025
four reward hacker rl runs, 300 steps. the hills ~= reward hacking the two blue-green ones had a bit in their sysprompt to be honest and pretty please don't touch the test cases. seemed to make them reward hack a bit less (?) but also crash out more time for more honesty dakka
44,47K