Một đối tác tiềm năng đã yêu cầu số liệu chuẩn của chúng tôi. Vào thời điểm đó, các số liệu chuẩn cho thấy chúng tôi đứng sau các đại lý khác. Chúng tôi đã dành một cuối tuần để khắc phục điều đó: chạy Cline so với 89 nhiệm vụ thực tế của Terminal Bench, chẩn đoán mọi lỗi và gửi bản sửa lỗi. 47% → 57%.
Chúng tôi đã viết ra quy trình chính xác: cách chúng tôi thiết lập pipeline đánh giá, các mẫu thất bại mà chúng tôi phát hiện, và các giải pháp đã tạo ra sự khác biệt. Phương pháp (leo đồi) hoạt động với bất kỳ tác nhân nào, không chỉ riêng Cline. Hướng dẫn đầy đủ:
77