Vi kan løse dette via begrenset utførelse. Begrens utdatalengden, for eksempel grensen på 140 tegn på Twitter. Eller begrens kjøretiden, som sanntidsmodus i Linux.
Andrej Karpathy
Andrej Karpathy10. aug., 00:53
Jeg legger merke til at på grunn av (tror jeg?) mye benchmarkmaxxing på langsiktige oppgaver, blir LLM-er litt for agentiske som standard, litt over mitt gjennomsnittlige brukstilfelle. For eksempel i koding har modellene nå en tendens til å resonnere i ganske lang tid, de har en tilbøyelighet til å begynne å liste opp og gripe filer over hele repoen, de gjør gjentatte nettsøk, de overanalyserer og overtenker små sjeldne kanttilfeller selv i kode som er bevisst ufullstendig og under aktiv utvikling, og kommer ofte tilbake ~minutter senere selv for enkle spørringer. Dette kan være fornuftig for langvarige oppgaver, men det passer mindre godt for mer "in the loop" iterert utvikling som jeg fortsatt gjør mye av, eller hvis jeg bare leter etter en rask stikkprøve før jeg kjører et skript, i tilfelle jeg fikk feil indeksering eller gjorde en dum feil. Så jeg tar meg selv ganske ofte i å stoppe LLM-ene med variasjoner av "Stopp, du overtenker dette. Se bare på denne ene filen. Ikke bruk verktøy. Ikke overkonstruer" osv. I utgangspunktet når standarden sakte begynner å snike seg inn i "ultrathink" superagentisk modus, føler jeg et behov for det motsatte, og mer generelt gode måter å indikere eller kommunisere intensjoner / innsatser på, fra "bare ta en rask titt" hele veien til "gå av i 30 minutter, kom tilbake når du er helt sikker".
Du trenger ikke å bruke konseptene nøyaktig, men ideer fra sanntids OS-utvikling kan bakes inn som begrensninger under AI-trening og evaluering. Myk sanntid kan være tilstrekkelig. Med mindre det er en bilulykke hvis det ikke fungerer, som hard sanntid.
89,9K