Sto notando che, a causa di (penso?) molto benchmarkmaxxing su compiti a lungo termine, i LLM stanno diventando un po' troppo agentici per impostazione predefinita, un po' oltre il mio caso d'uso medio. Ad esempio, nella programmazione, i modelli tendono ora a ragionare per un tempo piuttosto lungo, hanno un'inclinazione a iniziare a elencare e cercare file in tutto il repository, fanno ricerche web ripetute, analizzano e riflettono eccessivamente su piccoli casi limite rari anche in codice che è consapevolmente incompleto e in fase di sviluppo attivo, e spesso tornano ~minuti dopo anche per query semplici. Questo potrebbe avere senso per compiti a lungo termine, ma è meno adatto per uno sviluppo iterato più "in loop" che faccio ancora molto, o se sto solo cercando un rapido controllo prima di eseguire uno script, giusto nel caso in cui abbia sbagliato qualche indicizzazione o fatto qualche errore stupido. Quindi mi trovo spesso a fermare i LLM con variazioni di "Fermati, stai pensando troppo. Guarda solo questo singolo file. Non usare strumenti. Non sovra-ingegnerizzare", ecc. Fondamentalmente, mentre il predefinito inizia a insinuarsi lentamente nella modalità "ultrathink" super agentica, sento il bisogno dell'opposto, e in generale buoni modi per indicare o comunicare intenzioni / stake, da "dai solo un'occhiata veloce" fino a "vai via per 30 minuti, torna quando sei assolutamente certo".
125,8K