Un potențial partener ne-a cerut cifrele de referință. La acea vreme, reperele ne puneau în urma altor agenți. Am petrecut un weekend reparând asta: am rulat Cline cu cele 89 de sarcini reale ale Terminal Bench, am diagnosticat fiecare defecțiune și am livrat soluții. 47% → 57%.
Am scris exact procesul: cum am configurat pipeline-ul de evaluare, tiparele de eșec pe care le-am găsit și soluțiile care au schimbat problema. Metoda (urcarea dealurilor) funcționează cu orice agent, nu doar cu Cline. Ghid complet:
73