Algunas notas sobre el lanzamiento de gpt-realtime: reemplaza el modelo encadenado STT→LLM→TTS con un único modelo de entrada/salida de voz (menor latencia, matices más ricos) - enorme, en mi opinión 🔥 En las pruebas (vs GPT4o-realtime): > puntúa 82.8% vs 65.6% en BigBench (razonamiento) > 30.5% vs 20.6% en MultiChallenge Audio (seguimiento de instrucciones) > 66.5% vs 49.7% en ComplexFuncBench (llamadas a funciones) Las mejoras incluyen una prosodia mejorada, control del tono, precisión no verbal y alfanumérica, y cambio multilingüe. La API en tiempo real ahora está GA con teléfono SIP, entrada de imagen, integración de herramientas MCP. todo esto con un 20% menos en la API - bastante dulce (aunque creo que sigue siendo un poco caro)
14,06K