Potencjalny partner poprosił o nasze dane porównawcze. W tamtym czasie nasze wskaźniki były gorsze od innych agentów. Spędziliśmy weekend na ich poprawie: uruchomiliśmy Cline w porównaniu do 89 rzeczywistych zadań Terminal Bench, zdiagnozowaliśmy każdą awarię i wprowadziliśmy poprawki. 47% → 57%.
Sporządziliśmy dokładny opis procesu: jak skonfigurowaliśmy pipeline ewaluacji, wzorce błędów, które znaleźliśmy, oraz poprawki, które przyniosły efekty. Metoda (wspinaczka po wzgórzach) działa z każdym agentem, nie tylko z Cline. Pełny przewodnik:
75