Бенчмарк MCP-Universe показує, що GPT-5 провалить більше половини реальних завдань з оркестрації
3,9K