Jeg hadde samme tanke, så jeg har lekt med det i nanochat. For eksempel, her er 8 agenter (4 claude, 4 codex), med 1 GPU hver som kjører nanochat-eksperimenter (prøver å slette logit softcap uten regresjon). TLDR er at det ikke fungerer og det er et rot... Men det er fortsatt veldig pent å se på :) Jeg prøvde noen oppsett: 8 uavhengige soloforskere, 1 sjefsforsker som gir arbeid til 8 juniorforskere, osv. Hvert forskningsprogram er en git-gren, hver forsker forgrener den til en feature-gren, git-arbeidstrær for isolasjon, enkle filer for kommunikasjon, hopp over Docker/VM-er for enkelhet akkurat nå (jeg synes instruksjoner er nok til å forhindre interferens). Forskningsorganisasjonen kjører i tmux-vindusrutenett av interaktive økter (som Teams) slik at det er pent å se på, se deres individuelle arbeid, og «ta over» om nødvendig, altså ingen -p. Men ok, grunnen til at det ikke fungerer så langt, er at agentenes ideer rett og slett er ganske dårlige rett ut av boksen, selv på høyeste intelligens. De tenker ikke nøye gjennom eksperimentdesign, de kjører litt meningsløse variasjoner, de lager ikke sterke baselines og ablater ting riktig, de kontrollerer ikke nøye for kjøretid eller flopper. (Bare som et eksempel, en agent "oppdaget" i går at å øke den skjulte størrelsen på nettverket forbedrer valideringstapet, noe som er et helt uklart resultat siden et større nettverk vil ha lavere valideringstap i det uendelige dataregimet, men det trener også mye lenger, det er ikke klart hvorfor jeg måtte påpeke det). De er veldig flinke til å implementere enhver veldefinert og godt omfanget idé, men de genererer dem ikke kreativt. Men målet er at du nå programmerer en organisasjon (f.eks. en «forskningsorganisasjon») og dens individuelle agenter, så «kildekoden» er samlingen av prompts, ferdigheter, verktøy osv. og prosesser som utgjør den. For eksempel er en daglig standup om morgenen nå en del av «org-koden». Og å optimalisere nanochat-fortrening er bare én av mange oppgaver (nesten som en evaluering). Så – gitt en vilkårlig oppgave, hvor raskt genererer forskningsorganisasjonen din fremgang på den?