Un socio potencial pidió nuestros números de referencia. En ese momento, los benchmarks nos colocaban detrás de otros agentes. Pasamos un fin de semana solucionando eso: ejecutamos Cline contra las 89 tareas del mundo real de Terminal Bench, diagnosticamos cada fallo y enviamos las correcciones. 47% → 57%.
Escribimos el proceso exacto: cómo configuramos el pipeline de evaluación, los patrones de fallo que encontramos y las soluciones que marcaron la diferencia. El método (escalada de colinas) funciona con cualquier agente, no solo con Cline. Guía completa:
109