Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Właśnie połączyłem PR dla środowiska, aby ulepszyć LLM jako sędziego, a także ocenić modele pod kątem ich zdolności do wydawania osądów! Czy wiesz, że wszystkie weryfikowalne środowiska RL są prawie równoważne z testami porównawczymi (i na odwrót!)? Dlatego dodaliśmy polecenie evaluate do bazy Atropos i teraz możesz przeprowadzać testy porównawcze za pośrednictwem środowisk Atropos. Byliśmy sfrustrowani pracą z tak wieloma frameworkami porównawczymi, które były przestarzałe lub bezużyteczne, więc zaimplementowaliśmy tryb tylko do oceny w Atropos, naszym frameworku środowisk RL. Tak więc naszym pierwszym portem spoza naszych dotychczasowych środowisk była @natolambert's Reward-Bench! Uwaga: w tej chwili obsługuje tylko generatywne modele nagród (zwykli sędziowie LLM). Sprawdź PR tutaj:

20,72K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi