Chúng tôi mất vài tháng để biến biên giới nghiên cứu thực nghiệm thành một sản phẩm. Nhưng tiến độ nhanh đến mức một vài tháng có thể có sự khác biệt lớn về khả năng.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 thg 7, 2025
Vậy là, tất cả các mô hình đều kém hơn con người trong các câu hỏi mới của Kỳ thi Toán học Quốc tế, và Grok-4 đặc biệt tệ trong đó, ngay cả với lựa chọn tốt nhất trong số n? Thật không thể tin được!
128,54K