DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je viens de fusionner un RP pour un environnement permettant d’améliorer LLM en tant que juge ainsi que d’évaluer les modèles sur leur capacité à porter des jugements ! Saviez-vous que tous les environnements d’apprentissage par renforcement vérifiables sont presque équivalents à des benchmarks (et vice-versa !) ? Nous avons donc ajouté une commande evaluate à la base d’Atropos et vous pouvez maintenant exécuter des benchmarks dans les environnements Atropos. Nous étions frustrés de travailler avec autant de cadres de référence obsolètes ou inutilisables, nous avons donc implémenté le mode d’évaluation uniquement dans Atropos, notre cadre d’environnements RL. C’est pourquoi notre premier portage en dehors de nos environnements existants a été @natolambert’s Reward-Bench ! Remarque : il ne prend en charge que les modèles de récompense générative (juges LLM réguliers) pour le moment. Consultez le communiqué de presse ici :

20,72K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables