Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

załóżmy, że wyszkoliłeś agenta RL, aby maksymalizować nagrodę w różnych środowiskach Następnie, jeśli wrzucisz go do nowego środowiska, pierwszym pytaniem, które nauczy się zadawać, będzie: "Jaka jest tutaj moja funkcja nagrody?" Może nawet nauczyć się modelować motywy swoich symulatorów, aby to rozgryźć

"jakie jest moje cel/znaczenie" wydaje się być instrumentalnie zbieżne. Zastanawiam się, czy w pewnym sensie to dlatego szukamy boga.

24,9K

Najlepsze

Ranking

Ulubione