załóżmy, że wyszkoliłeś agenta RL, aby maksymalizować nagrodę w różnych środowiskach Następnie, jeśli wrzucisz go do nowego środowiska, pierwszym pytaniem, które nauczy się zadawać, będzie: "Jaka jest tutaj moja funkcja nagrody?" Może nawet nauczyć się modelować motywy swoich symulatorów, aby to rozgryźć
"jakie jest moje cel/znaczenie" wydaje się być instrumentalnie zbieżne. Zastanawiam się, czy w pewnym sensie to dlatego szukamy boga.
24,9K