DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Oletetaan, että koulutit RL-agentin maksimoimaan palkkion erilaisissa ympäristöissä Jos sitten pudottaisit sen uuteen ympäristöön, ensimmäinen kysymys, jonka se oppisi kysymään, on: "Mikä on palkitsemistoimintoni täällä?" se saattaa jopa oppia mallintamaan simulaattoreidensa motiiveja tämän selvittämiseksi

"Mikä on tavoitteeni/tarkoitukseni" tuntuu instrumentaalisesti yhteneväiseltä. Mietin, onko se jossain mielessä syy siihen, miksi etsimme jumalaa

24,9K

Johtavat

Rankkaus

Suosikit