Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Припустимо, ви навчили агента RL максимізувати винагороду в різних середовищах Потім, якщо ви кинете його в нове середовище, перше питання, яке він навчиться задавати: «Яка моя функція винагороди тут?». Можливо, він навіть навчиться моделювати мотиви своїх симуляторів, щоб зрозуміти це

«Яка моя мета/призначення» відчувається інструментально конвергентним. Цікаво, чи в якомусь сенсі саме тому ми шукаємо бога

24,91K

Найкращі

Рейтинг

Вибране