Mitra potensial meminta nomor benchmark kami. Pada saat itu, tolok ukur membuat kami berada di belakang agen lain. Kami menghabiskan akhir pekan untuk memperbaikinya: menjalankan Cline melawan 89 tugas dunia nyata Terminal Bench, mendiagnosis setiap kegagalan, dan mengirimkan perbaikan. 47% → 57%.
Kami menulis proses yang tepat: bagaimana kami menyiapkan pipa eval, pola kegagalan yang kami temukan, dan perbaikan yang menggerakkan jarum. Metode (mendaki bukit) bekerja dengan agen apa pun, bukan hanya Cline. Panduan lengkap:
80