Einige Anmerkungen zur gpt-realtime Veröffentlichung: Sie ersetzt die verkettete STT→LLM→TTS durch ein einzelnes Sprach-ein/Sprach-aus Modell (geringere Latenz, reichhaltigere Nuancen) - riesig, meiner Meinung nach 🔥 Bei den Benchmarks (im Vergleich zu GPT4o-realtime): > 82,8 % vs. 65,6 % bei BigBench (Schlussfolgerungen) > 30,5 % vs. 20,6 % bei MultiChallenge Audio (Befehlsbefolgung) > 66,5 % vs. 49,7 % bei ComplexFuncBench (Funktionsaufrufe) Die Verbesserungen umfassen verbesserte Prosodie, Tonkontrolle, nonverbale und alphanumerische Genauigkeit sowie mehrsprachiges Umschalten. Die Realtime API ist jetzt GA mit SIP-Telefon, Bildinput, MCP-Tool-Integration. All das mit 20 % niedrigeren API-Kosten - ziemlich süß (obwohl ich denke, dass es immer noch ein bisschen zu teuer ist).
11K