Potenciální partner si přál naše referenční čísla. V té době nás benchmarky stavěly za ostatní agenty. Strávili jsme víkend opravou tohoto problému: spouštěli jsme Cline proti 89 reálným úkolům Terminal Bench, diagnostikovali každou poruchu a dodávali opravy. 47 % → 57 %.
Napsali jsme přesný postup: jak jsme nastavili evalovací pipeline, jaké vzory selhání jsme našli a opravy, které posunuly jehlu. Metoda (hillclimbing) funguje u každého agenta, nejen s Cline. Kompletní průvodce:
70