Что бы вы считали истинным проверяемым уровнем способности в одной задаче, чтобы это считалось AGI или сверхчеловеческим уровнем, если бы модель могла это сделать?
8,62K