Un posible socio pidió nuestros números de referencia. En aquel momento, los benchmarks nos situaban por detrás de otros agentes. Pasamos un fin de semana arreglando eso: ejecutamos Cline con las 89 tareas del mundo real de Terminal Bench, diagnosticamos todos los fallos y enviamos las correcciones. 47% → 57%.
Redactamos el proceso exacto: cómo configuramos la cadena de evaluación, los patrones de fallo que encontramos y las correcciones que cambiaron la situación. El método (subida de colinas) funciona con cualquier agente, no solo con Cline. Guía completa:
111