Um parceiro potencial pediu os nossos números de referência. Na altura, os benchmarks mostravam que estávamos atrás de outros agentes. Passámos um fim de semana a corrigir isso: executámos o Cline contra as 89 tarefas do mundo real do Terminal Bench, diagnosticámos cada falha e enviámos correções. 47% → 57%.
Escrevemos o processo exato: como configuramos o pipeline de avaliação, os padrões de falha que encontramos e as correções que fizeram a diferença. O método (subida de colina) funciona com qualquer agente, não apenas com o Cline. Guia completo:
66