Припустимо, ви навчили агента RL максимізувати винагороду в різних середовищах Потім, якщо ви кинете його в нове середовище, перше питання, яке він навчиться задавати: «Яка моя функція винагороди тут?». Можливо, він навіть навчиться моделювати мотиви своїх симуляторів, щоб зрозуміти це
«Яка моя мета/призначення» відчувається інструментально конвергентним. Цікаво, чи в якомусь сенсі саме тому ми шукаємо бога
24,91K