これは、制約付き実行によって対処できます。 Twitter の 140 文字制限のように、出力の長さを制限します。 または、Linux のリアルタイム モードのように、ランタイムを制限します。
Andrej Karpathy
Andrej Karpathy8月10日 00:53
長い期間のタスクで多くのベンチマークマックスが行われているため、LLM はデフォルトで少しエージェント的になりすぎており、私の平均的なユースケースを少し超えていることに気づいています。 たとえば、コーディングでは、モデルは現在、かなり長い間推論する傾向があり、リポジトリ全体でファイルを一覧表示してグレッピングを開始する傾向があり、Web検索を繰り返し、故意に不完全で活発に開発中のコードであっても、まれなエッジケースを過剰に分析して考えすぎ、単純なクエリでも~数分後に戻ってくることがよくあります。 これは、実行時間の長いタスクには理にかなっているかもしれませんが、私がまだ頻繁に行っている、より「ループ内」の反復開発や、インデックス作成を間違えたり、愚かなエラーを犯したりした場合に備えて、スクリプトを実行する前に簡単なスポットチェックを探している場合にはあまり適していません。そのため、私は「やめてください、あなたは考えすぎています。この 1 つのファイルだけを見てください。道具は使用しないでください。オーバーエンジニアリングしないでください」など。 基本的に、デフォルトがゆっくりと「ウルトラシンク」スーパーエージェントモードに忍び込み始めるにつれて、私はその逆の、より一般的には、意図/利害関係を示したり伝えたりするための良い方法の必要性を感じています。
概念を正確に使用する必要はありませんが、リアルタイム OS 開発のアイデアは、AI のトレーニングと評価中に制約として組み込まれる可能性があります。 ソフトリアルタイムで十分な場合があります。ハードリアルタイムのようにうまくいかない場合は、自動車事故でない限り。
104.42K