Wie lange dauert es, bis das erste Modell mit 80 % Echtzeitfähigkeit auf Hugging Face verfügbar ist? Vielleicht eine oder zwei Wochen maximal!
Vaibhav (VB) Srivastav
Vaibhav (VB) Srivastav29. Aug., 02:55
Einige Anmerkungen zur gpt-realtime Veröffentlichung: Sie ersetzt die verkettete STT→LLM→TTS durch ein einzelnes Sprach-ein/Sprach-aus Modell (geringere Latenz, reichhaltigere Nuancen) - riesig, meiner Meinung nach 🔥 Bei den Benchmarks (im Vergleich zu GPT4o-realtime): > 82,8 % vs. 65,6 % bei BigBench (Schlussfolgerungen) > 30,5 % vs. 20,6 % bei MultiChallenge Audio (Befehlsbefolgung) > 66,5 % vs. 49,7 % bei ComplexFuncBench (Funktionsaufrufe) Die Verbesserungen umfassen verbesserte Prosodie, Tonkontrolle, nonverbale und alphanumerische Genauigkeit sowie mehrsprachiges Umschalten. Die Realtime API ist jetzt GA mit SIP-Telefon, Bildinput, MCP-Tool-Integration. All das mit 20 % niedrigeren API-Kosten - ziemlich süß (obwohl ich denke, dass es immer noch ein bisschen zu teuer ist).
3,61K