DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Ho avuto la stessa idea, quindi ho iniziato a giocarci in nanochat. Ad esempio, ecco 8 agenti (4 claude, 4 codex), con 1 GPU ciascuno che eseguono esperimenti nanochat (cercando di eliminare il softcap logit senza regressione). Il TLDR è che non funziona ed è un pasticcio... ma è comunque molto bello da vedere :) Ho provato alcune configurazioni: 8 ricercatori indipendenti, 1 scienziato capo che assegna lavoro a 8 ricercatori junior, ecc. Ogni programma di ricerca è un ramo git, ogni scienziato lo fork in un ramo di funzionalità, worktree git per isolamento, file semplici per comunicazioni, salto di Docker/VM per semplicità al momento (trovo che le istruzioni siano sufficienti per prevenire interferenze). L'organizzazione di ricerca funziona in griglie di finestre tmux di sessioni interattive (come Teams) in modo che sia bello da vedere, vedere il loro lavoro individuale e "prendere il controllo" se necessario, cioè niente -p. Ma ok, il motivo per cui finora non funziona è che le idee degli agenti sono semplicemente piuttosto scarse di default, anche alla massima intelligenza. Non pensano attentamente alla progettazione degli esperimenti, eseguono variazioni un po' insensate, non creano baseline solide e non ablatano le cose correttamente, non controllano attentamente il runtime o i flops. (giusto per fare un esempio, un agente ieri ha "scoperto" che aumentare la dimensione nascosta della rete migliora la perdita di validazione, che è un risultato totalmente spurio dato che una rete più grande avrà una perdita di validazione più bassa nel regime di dati infiniti, ma poi si allena anche per molto più tempo, non è chiaro perché io debba intervenire per farlo notare). Sono molto bravi a implementare qualsiasi idea ben definita e descritta, ma non generano creativamente idee. Ma l'obiettivo è che ora stai programmando un'organizzazione (ad esempio, una "organizzazione di ricerca") e i suoi agenti individuali, quindi il "codice sorgente" è la raccolta di prompt, abilità, strumenti, ecc. e processi che la compongono. Ad esempio, un incontro quotidiano al mattino è ora parte del "codice dell'organizzazione". E ottimizzare il pre-addestramento di nanochat è solo uno dei tanti compiti (quasi come una valutazione). Poi - data una qualsiasi attività, quanto velocemente la tua organizzazione di ricerca genera progressi su di essa?

Principali

Ranking

Preferiti