ある潜在的なパートナーから私たちのベンチマーク数値を求められました。当時、ベンチマークでは他のエージェントより後ろに位置していました。週末をかけて修正しました。ClineをTerminal Benchの89の実世界タスクと比較し、すべての故障を診断し、修正をリリースしました。47%→57%です。
私たちは正確なプロセスを書きました:評価パイプラインのセットアップ方法、見つけた失敗パターン、そして改善点を挙げた修正点です。この方法(ヒルクライム)はクラインだけでなく、どのエージェントにも適用可能です。 完全なガイド:
81