Oletetaan, että koulutit RL-agentin maksimoimaan palkkion erilaisissa ympäristöissä Jos sitten pudottaisit sen uuteen ympäristöön, ensimmäinen kysymys, jonka se oppisi kysymään, on: "Mikä on palkitsemistoimintoni täällä?" se saattaa jopa oppia mallintamaan simulaattoreidensa motiiveja tämän selvittämiseksi
"Mikä on tavoitteeni/tarkoitukseni" tuntuu instrumentaalisesti yhteneväiseltä. Mietin, onko se jossain mielessä syy siihen, miksi etsimme jumalaa
24,9K