關於gpt-realtime發布的一些說明,它用一個單一的語音輸入/語音輸出模型替代了鏈式STT→LLM→TTS(延遲更低,細膩度更豐富)——我認為這是巨大的🔥 在基準測試中(與GPT4o-realtime相比): > 在BigBench(推理)上得分82.8% vs 65.6% > 在MultiChallenge Audio(指令跟隨)上得分30.5% vs 20.6% > 在ComplexFuncBench(函數調用)上得分66.5% vs 49.7% 收益包括改進的韻律、音調控制、非語言和字母數字準確性,以及多語言切換 Realtime API現在GA,支持SIP電話、圖像輸入、MCP工具集成 所有這些的API費用降低了20%——相當不錯(儘管我認為仍然有點貴)
10.95K