Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Arthur Douillard
Distribuované učení @ deepmind | DiLoCo, DiPaCo. Kontinuální vzdělávání PhD @ Sorbonne
Podívejte se na masterclass @MatharyCharles & @samsja19 na DiLoCo

Zach Mueller24. 8. 19:23
14 dní rozdělování, den 8!
Seznamte se se Zachem Charlesem (@MatharyCharles ) ze společnosti @Google!
Zach zaměřuje svůj výzkum na témata související s DiLoCo a publikoval články o zákonech škálování pro DiLoCo a také o streamování DiLoCo, což významně snižuje špičkovou šířku pásma během tréninku LLM.
Zach a @samsja19 budou 1-2 údery DiLoCo, přičemž Zach se zaměří na teorii a nejnovější vylepšení DiLoCo jako celku!

3,45K
Arthur Douillard repostoval/a
Pěkné, rád to vidím.
Několik otázek na mysli:
* Jaká nastavení systému by upřednostňovala řídkou komunikaci oproti streamování Diloco? Co se stane, když je zkombinujete?
* Je získání nižší ztráty SparseLoCo někdy artefaktem náhodné variace, nebo můžeme provést skutečné testování hypotéz o tomto výsledku?
* Zpětná vazba o chybě je zaujatý operátor - existují další zaujaté operace, které mohou zlepšit vnější optimalizaci?
1,28K
Skvělá kombinace pro další informace o distribuovaném učení s @MatharyCharles a @samsja19

Zach Mueller19. 8. 02:24
Řekl jsem, že do toho půjdu naplno, abych vám našel ty nejlepší reproduktory, jaké mohu, a myslel jsem to vážně.
Jako skvělý partnerský chat pro @samsja19 přednášku o DiLoCo ze strany aplikace, @MatharyCharles (hlavní autor zákonů o škálování pro papír DiLoCo) bude přednášet o teorii a nedávných odhaleních v této oblasti!

1,79K
Představte si rytmický šum celého datového centra, které funguje dopředu dozadu a rozšířenou realitu napříč tisíci GPU.
Pohled, který je radost vidět, datové centrum dýchá!

tenderizzation16. 8. 05:10
Doslova slyším průchody vpřed-vzad, které se spouštějí na této pracovní stanici vedle mé kostky z rytmu kvílení cívky gpu
2,38K
Představte si rytmický hluk datového centra pracujícího vpřed-vzad a rozšířené reality na tisících GPU.
Pohled, který je radost vidět, datové centrum dýchá!

tenderizzation16. 8. 05:10
Doslova slyším průchody vpřed-vzad, které se spouštějí na této pracovní stanici vedle mé kostky z rytmu kvílení cívky gpu
104
Představte si rytmický hluk datového centra pracujícího vpřed-vzad a rozšířené reality na tisících GPU.
Datacentrum dýchá!

tenderizzation16. 8. 05:10
Doslova slyším průchody vpřed-vzad, které se spouštějí na této pracovní stanici vedle mé kostky z rytmu kvílení cívky gpu
103
Problém s "porozuměním" v hlubokém učení spočívá v tom, že v praxi ve skutečnosti platí jen zřídka, protože vyžaduje příliš mnoho zjednodušujících předpokladů.
Raději bych měl model SotA s trochou intuice, proč to funguje, než model hračky s dokonalým porozuměním 🤷

yi16. 8. 09:55
Typ stylů výzkumníka
1. Pouze pochopte a buďte s tím spokojeni
2. Stavějte, ale bez porozumění
3. Pochopte a pak budujte.
3 je idealistická a zní pravděpodobně nejlépe, ale realisticky může být 2 nebezpečně silná se správnými vibracemi.
17,28K
AGI nebude existovat bez nejlepší možné infrastruktury.
Důrazně doporučuji přihlásit se na PI

Vincent Weisser15. 8. 22:38
Přijímáme výzkumníky AI, inženýry, růst, stážisty atd. ve společnosti @PrimeIntellect
Napište mi, pokud chcete pracovat na otevřené infrastruktuře AGI & Frontier Research pro všechny
112,29K
Top
Hodnocení
Oblíbené
Co je v trendu on-chain
Populární na X
Nejvyšší finanční vklady v poslední době
Nejpozoruhodnější