现在听到一些鸟儿的低语,内部评估显示 gpt5 稍微超过了 grok 4 Heavy。 评估只告诉模型的一面,然而,我很好奇是否会有任何重大的自主性或其他改进。
277.11K