Некоторые заметки о релизе gpt-realtime: он заменяет цепочку STT→LLM→TTS на единую модель ввода/вывода речи (меньшая задержка, более богатая нюансировка) - огромная вещь, на мой взгляд 🔥 По бенчмаркам (по сравнению с GPT4o-realtime): > 82.8% против 65.6% на BigBench (логическое мышление) > 30.5% против 20.6% на MultiChallenge Audio (следование инструкциям) > 66.5% против 49.7% на ComplexFuncBench (вызов функций) Преимущества включают улучшенную просодию, контроль тона, точность невербальных и алфавитно-цифровых данных, а также многоязычное переключение. Realtime API теперь GA с SIP-телефоном, вводом изображений, интеграцией инструмента MCP. всё это с 20% снижением API - довольно приятно (хотя я думаю, что это все еще немного слишком дорого)
13,48K