DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je remarque qu'en raison de (je pense ?) beaucoup de benchmarkmaxxing sur des tâches à long terme, les LLMs deviennent un peu trop agentiques par défaut, un peu au-delà de mon cas d'utilisation moyen. Par exemple, en codage, les modèles ont maintenant tendance à raisonner pendant un temps assez long, ils ont une inclination à commencer à lister et à grepper des fichiers dans tout le dépôt, ils effectuent des recherches web répétées, ils sur-analyzent et sur-réfléchissent à de rares cas particuliers même dans du code qui est manifestement incomplet et en cours de développement actif, et reviennent souvent ~minutes plus tard même pour des requêtes simples. Cela peut avoir du sens pour des tâches de longue durée, mais c'est moins adapté pour un développement itéré plus "dans le coup" que je fais encore beaucoup, ou si je cherche juste à faire un rapide contrôle avant d'exécuter un script, juste au cas où j'aurais mal indexé ou commis une erreur stupide. Donc, je me retrouve assez souvent à arrêter les LLMs avec des variations de "Arrête, tu réfléchis trop. Regarde seulement ce fichier unique. N'utilise aucun outil. Ne sur-ingénierie pas", etc. En gros, alors que le défaut commence à lentement glisser vers le mode "ultrathink" super agentique, je ressens le besoin de l'inverse, et plus généralement de bonnes façons d'indiquer ou de communiquer l'intention / les enjeux, allant de "juste jeter un coup d'œil rapide" jusqu'à "pars pendant 30 minutes, reviens quand tu es absolument certain".

125,78K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables