En potensiell partner ba om våre referansetall. På den tiden lå vi bak andre agenter. Vi brukte en helg på å fikse det: kjørte Cline mot Terminal Benchs 89 virkelige oppgaver, diagnostiserte hver feil og sendte ut fikser. 47 % → 57 %.
Vi skrev ned den eksakte prosessen: hvordan vi satte opp evalueringspipelinen, feilmønstrene vi fant, og rettelsene som flyttet nålen. Metoden (hill climbing) fungerer med alle agenter, ikke bare Cline. Full guide:
78