Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Arthur Douillard
Distribuert læring @ deepmind | DiLoCo, DiPaCo. Kontinuerlig læring PhD @ Sorbonne
Se @MatharyCharles & @samsja19's masterclass på DiLoCo

Zach Mueller10 timer siden
14 dager med utdeling, dag 8!
Møt Zach Charles (@MatharyCharles ) fra @Google!
Zach fokuserer sin forskning på DiLoCo-relaterte emner, og har publisert artikler om skaleringslover for DiLoCo samt streaming av DiLoCo, som reduserer maksimal båndbredde betydelig under LLM-trening.
Zach og @samsja19 vil slå DiLoCo 1-2, med Zach som fokuserer på teorien og de siste forbedringene på DiLoCo som helhet!

3,02K
Arthur Douillard lagt ut på nytt
Fint, elsker å se det.
Noen spørsmål jeg tenker på:
* Hvilke systeminnstillinger foretrekker sparsom kommunikasjon fremfor streaming Diloco? Hva skjer hvis du kombinerer dem?
* Er SparseLoCo som oppnår lavere tap noen ganger en artefakt av tilfeldig variasjon, eller kan vi gjøre faktisk hypotesetesting på dette utfallet?
* Feiltilbakemelding er en partisk operatør - er det andre partiske operasjoner som kan forbedre ytre optimalisering?
1,24K
Flott kombinasjon for å lære mer om distribuert læring med @MatharyCharles og @samsja19

Zach Mueller19. aug., 02:24
Jeg sa at jeg gikk all in for å finne deg alle de beste foredragsholderne jeg kunne, og jeg mente det.
Som en flott partnerprat for å @samsja19 snakke om DiLoCo fra en applikasjonsside, vil @MatharyCharles (hovedforfatter på skaleringslovene for DiLoCo-artikkelen) holde et foredrag om teorien og nylige avsløringer på området!

1,79K
Se for deg den rytmiske støyen fra et helt datasenter som utfører forover-bakover og AR på tvers av tusenvis av GPU-er.
Et syn å se, datasenteret puster!

tenderizzation16. aug., 05:10
Jeg kan bokstavelig talt høre forover-bakover-passene som kjøres på denne arbeidsstasjonen ved siden av kuben min fra gpu-spolens sutrerytme
2,38K
Se for deg den rytmiske støyen fra et datasenter som utfører forover-bakover og AR på tvers av tusenvis av GPU-er.
Et syn å se, datasenteret puster!

tenderizzation16. aug., 05:10
Jeg kan bokstavelig talt høre forover-bakover-passene som kjøres på denne arbeidsstasjonen ved siden av kuben min fra gpu-spolens sutrerytme
99
Se for deg den rytmiske støyen fra et datasenter som utfører forover-bakover og AR på tvers av tusenvis av GPU-er.
Datasenteret puster!

tenderizzation16. aug., 05:10
Jeg kan bokstavelig talt høre forover-bakover-passene som kjøres på denne arbeidsstasjonen ved siden av kuben min fra gpu-spolens sutrerytme
77
Problemet med "forståelse" i dyp læring er at det faktisk sjelden holder i praksis, da det krever altfor mye forenkling av antakelser.
Jeg vil heller ha en SotA-modell med noen intuisjoner om hvorfor den fungerer enn en leketøysmodell med perfekt forståelse 🤷

yi16. aug., 09:55
Type forskerstiler
1. Forstå bare og vær fornøyd med det
2. Bygg, men uten forståelse
3. Forstå og bygg.
3 er idealistisk og høres sannsynligvis best ut, men realistisk sett kan 2 være farlig kraftig med de rette vibbene.
17,27K
AGI vil ikke eksistere uten best mulig infrastruktur.
Jeg anbefaler på det sterkeste å søke på PI

Vincent Weisser15. aug., 22:38
Vi ansetter AI-forskere, ingeniører, vekst-, praktikanter etc hos @PrimeIntellect
Ping meg hvis du vil jobbe med Open AGI & Frontier Research Infra for alle
112,15K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til