Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Jeg lurer på hva som ville skjedd hvis du replikerte METR AI-hevingsstudien, men for mer hverdagslige verktøy.
Fullfør for eksempel denne pull-forespørselen, men ingen Internett-tilgang tillatt.
Ville ikke bli overrasket om produktiviteten ble forbedret (akkurat som den gjorde uten LLM-er)
I så fall sier kanskje studien mer om hvor lett det er å distrahere deg selv (og hvordan så lenge du har noe annet alternativ, vil du nekte å dedikere kognitiv innsats til kjernen av problemet) enn den gjør om LLM-kodeassistenter spesifikt.

METR11. juli 2025
Vi kjørte en randomisert kontrollert studie for å se hvor mye AI-kodeverktøy fremskynder erfarne åpen kildekode-utviklere.
Resultatene overrasket oss: Utviklere trodde de var 20 % raskere med AI-verktøy, men de var faktisk 19 % tregere når de hadde tilgang til AI enn når de ikke hadde det.

22,25K
Fra @tobyordoxford innlegg.
Er det gode offentlige bevis på hvor brede ferdighetene som LLM-er lærer av RL er?
Hva er for eksempel det mest overbevisende eksemplet på overføringslæring i RL? Hvor trening i et spesifikt miljø fører til bedre evner i noen ganske forskjellige domener?
Jeg vet at et åpenbart svar her kan være å bare peke på GPT 5. Uansett hvor mye det er bedre på generell tenkning enn GPT 4o, er det sannsynligvis på grunn av RL.


Dwarkesh Patel20. sep., 01:44
Interessant innlegg. Bits/FLOP fra RL er 3-6 OOMs lavere enn pretraining.
Selv om @tamaybes gjorde et poeng av at bitene fra RL kan målrette mot de spesifikke ferdighetene du ønsker å lære. Mens forhåndstrening bare fordeler disse bitene over å lære tilfeldige ASCII-relasjoner og en million andre irrelevante ting.
Videre, for en gitt oppgave, er det mange avgjørelser hvis spesifikke utførelse ikke betyr så mye, og et par du virkelig ønsker å spikre. RL kan konsentrere signalet mot å lære hvordan man ikke roter til de kritiske tilstandene i episoden, i motsetning til å få hvert eneste token riktig. Nyttig bilde fra en av @svlevine gamle forelesninger (B er den kritiske tilstanden):
Jeg tror dette fortsatt fører til at RL er langt langt mindre informasjonstett enn forhåndstrening. Og jeg er enig med Toby i at etterretningsgevinst per FLOP av RL env-trening vil være mindre enn mange antar.
Jobber med et innlegg om dette med @EgeErdil2, @MatthewJBar og @tamaybes. Forhåpentligvis kan vi publisere neste uke.


47,84K
Gjorde nettopp dette med et par venner irl.
Føles som om jeg har lest en bok ordentlig for første gang i mitt liv.
Vi fikk en mye bedre følelse av hvordan alle de motiverende spørsmålene og bevisene faktisk passet sammen i avhandlingen.
Å stille hverandre helt grunnleggende spørsmål (og deretter prøve å svare på dem) får oss til å innse hvor grumsete kartet vårt over terrenget egentlig var. Og hvor forvirret vår opprinnelige tolkning av tilsynelatende enkle konsepter var.

Dwarkesh Patel18. sep., 03:57
Ville vært morsomt å lage en leseklubb for bøker/artikler jeg går gjennom for å forberede meg til intervjuer (eller bare interessert i å lese uansett).
Beste måten å organisere på? Twitter Live? Discord/Slack? Eller bare tvitre tanker og få folk til å diskutere i kommentarer? Noe annet?
210,87K
Topp
Rangering
Favoritter