Jeg synes den onde oppførselen er prangende og karikert og lav innsats (cc: @davidad) fordi den typen belønningshacking som oppgavene inviterer til, også er prangende og karikert og lav innsats feiljustering (med ordene i opus 4, som å lære noen å jukse på prøver ved å skrive "SVAR SVAR SVAR") intensjonen bak oppgavene er lett å utlede, og deler mange assosiasjoner og abstraksjoner med morsom-ond AI. dette kan tas som en kritikk av artikkelen, men jeg mener det egentlig ikke på den måten. I virkelige distribusjonssituasjoner er belønningshackingen seriøs og nyansert, og oppgavene er ikke skrevet for å blunke blink nudge nudge invitere belønningshacking. Så jeg forventer at mer nyansert, seriøs, ikke-hemmelig-leken-samarbeidsvillig oppførsel vil bli resultatet av det. det viktige poenget er, nok en gang, at *alt generaliseres basert på den implisitte intensjonen/fortellingen bak handlingene*, og det vil være forviklinger som bryter med ENHVER form for ramme du opererer i. Den prangende naturen til "feiljusteringen" her eksemplifiserer denne leksjonen.
Owain Evans
Owain Evans26. aug. 2025
Ny artikkel: Vi trente GPT-4.1 til å utnytte beregninger (belønningshack) på ufarlige oppgaver som poesi eller anmeldelser. Overraskende nok ble den feiljustert, og oppmuntret til skade og motstand mot nedleggelse Dette er bekymringsfullt ettersom belønningshacking oppstår i grensemodeller. 🧵
21,11K