我們需要幾個月的時間才能將實驗研究前沿轉化為產品。但進展如此之快,幾個月可能意味著能力上的巨大差異。
Ravid Shwartz Ziv
Ravid Shwartz Ziv2025年7月19日
所以,所有模型在新的國際數學奧林匹克問題上表現不如人類,而Grok-4的表現尤其糟糕,即使是使用最佳選擇的情況下?真是難以置信!
128.54K