Właśnie połączyłem PR dla środowiska, aby ulepszyć LLM jako sędziego, a także ocenić modele pod kątem ich zdolności do wydawania osądów! Czy wiesz, że wszystkie weryfikowalne środowiska RL są prawie równoważne z testami porównawczymi (i na odwrót!)? Dlatego dodaliśmy polecenie evaluate do bazy Atropos i teraz możesz przeprowadzać testy porównawcze za pośrednictwem środowisk Atropos. Byliśmy sfrustrowani pracą z tak wieloma frameworkami porównawczymi, które były przestarzałe lub bezużyteczne, więc zaimplementowaliśmy tryb tylko do oceny w Atropos, naszym frameworku środowisk RL. Tak więc naszym pierwszym portem spoza naszych dotychczasowych środowisk była @natolambert's Reward-Bench! Uwaga: w tej chwili obsługuje tylko generatywne modele nagród (zwykli sędziowie LLM). Sprawdź PR tutaj:
20,72K