Um potencial parceiro pediu nossos números de referência. Na época, os benchmarks nos colocavam atrás de outros agentes. Passamos um fim de semana corrigindo isso: rodamos o Cline com as 89 tarefas do mundo real do Terminal Bench, diagnosticamos todas as falhas e enviamos as correções. 47% → 57%.
Escrevemos o processo exato: como configuramos a pipeline de avaliação, os padrões de falha que encontramos e as correções que mudaram a diferença. O método (subida de morros) funciona com qualquer agente, não apenas com Cline. Guia completo:
99