跳转至主要内容
行情
扫链
策略
追踪
追踪聪明钱地址,实时监控动态
跟单
探索链上交易,一键跟单获取收益
信号
关注聪明钱信号,发现早期机会
兑换
资产
邀请计划
OnchainOS
开发者中心
文档
API Key 管理
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
区块链浏览器
更多
DeFi
市场
安全中心
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
DEX 功能
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
返回
自动翻译代币名称
自动翻译 X 内容
悬停显示代币卡片
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+2.78%
USELESS
-7.26%
IKUN
+7.79%
gib
-3.51%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-4.14%
ALON
-8.25%
LAUNCHCOIN
-9.94%
GOONC
-4.23%
KLED
+4.87%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.12%
Boopa
-18.26%
PORK
0.00%
主页
Max Resnick
@anza_xyz 首席经济学家
查看原文
Max Resnick
16 小时前
起初,他们来找程序员,我没有说什么,因为我不是程序员。 然后,他们来找Excel猴子,我没有说什么,因为我不是Excel猴子。 接着,他们来找数学家,我没有说什么,因为我不是数学家。 最后,他们来找机械设计师,已经没有人站出来为我们辩护。
1
Max Resnick
16 小时前
我们正在穿越事件视界
Andrej Karpathy
17 小时前
nanochat 现在在单个 8XH100 节点上仅需 2 小时即可训练 GPT-2 能力模型(比一个月前的 ~3 小时有所缩短)。离 ~交互式 更近了一步!进行了大量的调优和功能(fp8),但最大的区别是将数据集从 FineWeb-edu 切换到 NVIDIA ClimbMix(干得好,NVIDIA!)。我尝试过 Olmo、FineWeb、DCLM,这些都导致了回归,而 ClimbMix 开箱即用效果非常好(以至于我对 goodharting 有点怀疑,尽管阅读论文后似乎还不错)。 在其他新闻中,在尝试了几种设置方法后,我现在有 AI 代理自动迭代 nanochat,所以我就让它运行一段时间,去放松一下,享受后 AGI 的感觉 :)。这里作为一个例子可视化:在过去的 ~12 小时内进行了 110 次更改,将验证损失从 0.862415 降至 0.858039,适用于 d12 模型,且没有增加墙钟时间。代理在功能分支上工作,尝试想法,当它们有效时合并并迭代。有趣的是,在过去的 ~2 周里,我几乎觉得我在 "元设置" 上迭代得更多,优化和调整代理流程的时间甚至比直接在 nanochat 仓库上还要多。
26
Max Resnick
16 小时前
“宇宙并不公平。但宇宙是我们所创造的。”
Andrej Karpathy
17 小时前
nanochat 现在在单个 8XH100 节点上仅需 2 小时即可训练 GPT-2 能力模型(比一个月前的 ~3 小时有所缩短)。离 ~交互式 更近了一步!进行了大量的调优和功能(fp8),但最大的区别是将数据集从 FineWeb-edu 切换到 NVIDIA ClimbMix(干得好,NVIDIA!)。我尝试过 Olmo、FineWeb、DCLM,这些都导致了回归,而 ClimbMix 开箱即用效果非常好(以至于我对 goodharting 有点怀疑,尽管阅读论文后似乎还不错)。 在其他新闻中,在尝试了几种设置方法后,我现在有 AI 代理自动迭代 nanochat,所以我就让它运行一段时间,去放松一下,享受后 AGI 的感觉 :)。这里作为一个例子可视化:在过去的 ~12 小时内进行了 110 次更改,将验证损失从 0.862415 降至 0.858039,适用于 d12 模型,且没有增加墙钟时间。代理在功能分支上工作,尝试想法,当它们有效时合并并迭代。有趣的是,在过去的 ~2 周里,我几乎觉得我在 "元设置" 上迭代得更多,优化和调整代理流程的时间甚至比直接在 nanochat 仓库上还要多。
50
热门
排行
收藏