一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

#

Bonk 生态迷因币展现强韧势头

#

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

LAUNCHCOIN-9.94%

#

Solana 新代币发射平台 Boop.Fun 风头正劲

header

Max Resnick

@anza_xyz 首席经济学家

Max Resnick

Max Resnick16 小时前

起初，他们来找程序员，我没有说什么，因为我不是程序员。然后，他们来找Excel猴子，我没有说什么，因为我不是Excel猴子。接着，他们来找数学家，我没有说什么，因为我不是数学家。最后，他们来找机械设计师，已经没有人站出来为我们辩护。

1

Max Resnick

Max Resnick16 小时前

我们正在穿越事件视界

Andrej Karpathy

Andrej Karpathy17 小时前

nanochat 现在在单个 8XH100 节点上仅需 2 小时即可训练 GPT-2 能力模型（比一个月前的 ~3 小时有所缩短）。离 ~交互式更近了一步！进行了大量的调优和功能（fp8），但最大的区别是将数据集从 FineWeb-edu 切换到 NVIDIA ClimbMix（干得好，NVIDIA！）。我尝试过 Olmo、FineWeb、DCLM，这些都导致了回归，而 ClimbMix 开箱即用效果非常好（以至于我对 goodharting 有点怀疑，尽管阅读论文后似乎还不错）。在其他新闻中，在尝试了几种设置方法后，我现在有 AI 代理自动迭代 nanochat，所以我就让它运行一段时间，去放松一下，享受后 AGI 的感觉 :）。这里作为一个例子可视化：在过去的 ~12 小时内进行了 110 次更改，将验证损失从 0.862415 降至 0.858039，适用于 d12 模型，且没有增加墙钟时间。代理在功能分支上工作，尝试想法，当它们有效时合并并迭代。有趣的是，在过去的 ~2 周里，我几乎觉得我在 "元设置" 上迭代得更多，优化和调整代理流程的时间甚至比直接在 nanochat 仓库上还要多。

26

Max Resnick

Max Resnick16 小时前

“宇宙并不公平。但宇宙是我们所创造的。”

Andrej Karpathy

Andrej Karpathy17 小时前

nanochat 现在在单个 8XH100 节点上仅需 2 小时即可训练 GPT-2 能力模型（比一个月前的 ~3 小时有所缩短）。离 ~交互式更近了一步！进行了大量的调优和功能（fp8），但最大的区别是将数据集从 FineWeb-edu 切换到 NVIDIA ClimbMix（干得好，NVIDIA！）。我尝试过 Olmo、FineWeb、DCLM，这些都导致了回归，而 ClimbMix 开箱即用效果非常好（以至于我对 goodharting 有点怀疑，尽管阅读论文后似乎还不错）。在其他新闻中，在尝试了几种设置方法后，我现在有 AI 代理自动迭代 nanochat，所以我就让它运行一段时间，去放松一下，享受后 AGI 的感觉 :）。这里作为一个例子可视化：在过去的 ~12 小时内进行了 110 次更改，将验证损失从 0.862415 降至 0.858039，适用于 d12 模型，且没有增加墙钟时间。代理在功能分支上工作，尝试想法，当它们有效时合并并迭代。有趣的是，在过去的 ~2 周里，我几乎觉得我在 "元设置" 上迭代得更多，优化和调整代理流程的时间甚至比直接在 nanochat 仓库上还要多。

50

热门

排行

收藏

©2017 - 2026 WEB3.OKX.COM

简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

关于 OKX Wallet

下载学院关于我们就业机会联系我们服务条款隐私政策 X (原推特)

产品

行情币币兑换市场赚币开发者中心浏览器安全

用户支持

帮助中心官方渠道验证公告 DEX 费率标准加入社群比特币钱包以太坊钱包 Solana 钱包