MCP-Universe-benchmark viser at GPT-5 mislykkes i mer enn halvparten av virkelige orkestreringsoppgaver
3,9K