Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Un posible socio pidió nuestros números de referencia. En aquel momento, los benchmarks nos situaban por detrás de otros agentes. Pasamos un fin de semana arreglando eso: ejecutamos Cline con las 89 tareas del mundo real de Terminal Bench, diagnosticamos todos los fallos y enviamos las correcciones. 47% → 57%.

Redactamos el proceso exacto: cómo configuramos la cadena de evaluación, los patrones de fallo que encontramos y las correcciones que cambiaron la situación. El método (subida de colinas) funciona con cualquier agente, no solo con Cline. Guía completa:

111

Populares

Ranking

Favoritas