gpt-realtime リリースに関するいくつかのメモチェーンされた STT→LLM→TTS を単一の音声入力/音声出力モデル (低遅延、より豊かなニュアンス) に置き換えます - 巨大な imo 🔥 ベンチマーク(GPT4oリアルタイムと比較): > スコアは 82.8% 対 BigBench で 65.6% です (推論) > MultiChallenge Audio の 30.5% 対 20.6% (手順に従う) > 66.5% vs ComplexFuncBench (関数呼び出し) の 49.7% 利点には、韻律の向上、トーンコントロール、非言語的および英数字の正確さ、多言語切り替えが含まれます リアルタイム API が SIP 電話、画像入力、MCP ツール統合で一般提供されました APIを20%下げたこのすべて-かなり甘いです(それでも少し高すぎると思いますが)
10.95K