Нам нужно несколько месяцев, чтобы превратить экспериментальную исследовательскую границу в продукт. Но прогресс так быстр, что несколько месяцев могут означать большую разницу в возможностях.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 июл. 2025 г.
Итак, все модели показывают худшие результаты, чем люди, на новых вопросах Международной математической олимпиады, и Grok-4 особенно плох в этом, даже с выбором лучших из нескольких? Невероятно!
128,73K