关于gpt-realtime发布的一些说明,它用一个单一的语音输入/语音输出模型替代了链式STT→LLM→TTS(延迟更低,细腻度更丰富)——我认为这是巨大的🔥 在基准测试中(与GPT4o-realtime相比): > 在BigBench(推理)上得分82.8% vs 65.6% > 在MultiChallenge Audio(指令跟随)上得分30.5% vs 20.6% > 在ComplexFuncBench(函数调用)上得分66.5% vs 49.7% 收益包括改进的韵律、音调控制、非语言和字母数字准确性,以及多语言切换 Realtime API现在GA,支持SIP电话、图像输入、MCP工具集成 所有这些的API费用降低了20%——相当不错(尽管我认为仍然有点贵)
11K