Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Припустимо, ви навчили агента RL максимізувати винагороду в різних середовищах
Потім, якщо ви кинете його в нове середовище, перше питання, яке він навчиться задавати: «Яка моя функція винагороди тут?».
Можливо, він навіть навчиться моделювати мотиви своїх симуляторів, щоб зрозуміти це
«Яка моя мета/призначення» відчувається інструментально конвергентним. Цікаво, чи в якомусь сенсі саме тому ми шукаємо бога
24,91K
Найкращі
Рейтинг
Вибране