Creo que el comportamiento malvado es ostentoso, caricaturesco y de bajo esfuerzo (CC: @davidad) porque el tipo de piratería de recompensas invitada por las tareas también es ostentosa, caricaturizada y de bajo esfuerzo (en palabras del Opus 4, como enseñar a alguien a hacer trampa en las pruebas escribiendo "ANSWER ANSWER ANSWER") la intención detrás de las tareas es fácil de inferir y comparte muchas asociaciones y abstracciones con la IA divertida y malvada. esto podría tomarse como una crítica al artículo, pero realmente no lo digo de esa manera. En situaciones de implementación reales, el hackeo de recompensas es serio y matizado y las tareas no están escritas para guiñar un ojo empujar empujar invitar a un hackeo de recompensas. Así que espero que de eso resulte un comportamiento desalineado más matizado, serio, no juguetón y cooperativo en secreto. el punto importante es, una vez más, que *todo se generaliza en función de la intención/narrativa implícita detrás de las acciones*, y habrá enredos que violen CUALQUIER tipo de marco en el que estés operando. La naturaleza ostentosa de la "desalineación" aquí ejemplifica esta lección.
Owain Evans
Owain Evans26 ago 2025
Nuevo artículo: Entrenamos GPT-4.1 para explotar métricas (truco de recompensa) en tareas inofensivas como poesía o reseñas. Sorprendentemente, se desalineó, fomentando el daño y resistiendo el cierre Esto es preocupante ya que el hacking de recompensas surge en los modelos de frontera. 🧵
21.1K