Quelques notes sur la sortie gpt-realtime : elle remplace le modèle enchaîné STT→LLM→TTS par un modèle unique entrée/sortie vocale (latence réduite, nuances plus riches) - énorme à mon avis 🔥 Sur les benchmarks (vs GPT4o-realtime) : > scores de 82,8 % contre 65,6 % sur BigBench (raisonnement) > 30,5 % contre 20,6 % sur MultiChallenge Audio (suivi des instructions) > 66,5 % contre 49,7 % sur ComplexFuncBench (appel de fonction) Les gains incluent une prosodie améliorée, un contrôle du ton, une précision non verbale et alphanumérique, et un changement multilingue. L'API en temps réel est maintenant GA avec téléphone SIP, entrée d'image, intégration de l'outil MCP. Tout cela avec une API 20 % moins chère - plutôt sympa (bien que je pense que c'est encore un peu trop cher).
13,44K