Потенциальный партнер запросил наши эталонные показатели. На тот момент наши показатели ставили нас позади других агентов. Мы провели выходные, исправляя это: запустили Cline против 89 реальных задач Terminal Bench, диагностировали каждую ошибку и выпустили исправления. 47% → 57%.
Мы описали точный процесс: как мы настроили оценочный конвейер, паттерны сбоев, которые мы обнаружили, и исправления, которые действительно помогли. Метод (поиск по возвышениям) работает с любым агентом, а не только с Cline. Полное руководство:
78