Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
załóżmy, że wyszkoliłeś agenta RL, aby maksymalizować nagrodę w różnych środowiskach
Następnie, jeśli wrzucisz go do nowego środowiska, pierwszym pytaniem, które nauczy się zadawać, będzie: "Jaka jest tutaj moja funkcja nagrody?"
Może nawet nauczyć się modelować motywy swoich symulatorów, aby to rozgryźć
"jakie jest moje cel/znaczenie" wydaje się być instrumentalnie zbieżne. Zastanawiam się, czy w pewnym sensie to dlatego szukamy boga.
24,9K
Najlepsze
Ranking
Ulubione