長い期間のタスクで多くのベンチマークマックスが行われているため、LLM はデフォルトで少しエージェント的になりすぎており、私の平均的なユースケースを少し超えていることに気づいています。 たとえば、コーディングでは、モデルは現在、かなり長い間推論する傾向があり、リポジトリ全体でファイルを一覧表示してグレッピングを開始する傾向があり、Web検索を繰り返し、故意に不完全で活発に開発中のコードであっても、まれなエッジケースを過剰に分析して考えすぎ、単純なクエリでも~数分後に戻ってくることがよくあります。 これは、実行時間の長いタスクには理にかなっているかもしれませんが、私がまだ頻繁に行っている、より「ループ内」の反復開発や、インデックス作成を間違えたり、愚かなエラーを犯したりした場合に備えて、スクリプトを実行する前に簡単なスポットチェックを探している場合にはあまり適していません。そのため、私は「やめてください、あなたは考えすぎています。この 1 つのファイルだけを見てください。道具は使用しないでください。オーバーエンジニアリングしないでください」など。 基本的に、デフォルトがゆっくりと「ウルトラシンク」スーパーエージェントモードに忍び込み始めるにつれて、私はその逆の、より一般的には、意図/利害関係を示したり伝えたりするための良い方法の必要性を感じています。
125.77K