Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je viens de fusionner un RP pour un environnement permettant d’améliorer LLM en tant que juge ainsi que d’évaluer les modèles sur leur capacité à porter des jugements !
Saviez-vous que tous les environnements d’apprentissage par renforcement vérifiables sont presque équivalents à des benchmarks (et vice-versa !) ? Nous avons donc ajouté une commande evaluate à la base d’Atropos et vous pouvez maintenant exécuter des benchmarks dans les environnements Atropos.
Nous étions frustrés de travailler avec autant de cadres de référence obsolètes ou inutilisables, nous avons donc implémenté le mode d’évaluation uniquement dans Atropos, notre cadre d’environnements RL.
C’est pourquoi notre premier portage en dehors de nos environnements existants a été @natolambert’s Reward-Bench !
Remarque : il ne prend en charge que les modèles de récompense générative (juges LLM réguliers) pour le moment.
Consultez le communiqué de presse ici :

20,72K
Meilleurs
Classement
Favoris