Alcune note sulla release gpt-realtime: sostituisce il modello STT→LLM→TTS a catena con un modello unico di input/output vocale (latenza ridotta, maggiore sfumatura) - enorme secondo me 🔥 Nei benchmark (rispetto a GPT4o-realtime): > punteggio 82.8% contro 65.6% su BigBench (ragionamento) > 30.5% contro 20.6% su MultiChallenge Audio (seguire le istruzioni) > 66.5% contro 49.7% su ComplexFuncBench (chiamata di funzione) I guadagni includono una prosodia migliorata, controllo del tono, accuratezza non verbale e alfanumerica, e cambio multilingue L'API Realtime è ora GA con telefono SIP, input immagine, integrazione dello strumento MCP tutto questo con un API inferiore del 20% - piuttosto interessante (anche se penso sia ancora un po' troppo costoso)
10,96K