Скільки часу залишилося до того, як перша модель досягне 80% можливостей Got в реальному часі падає на обличчі? Один, може, два тижні топів!
Vaibhav (VB) Srivastav
Vaibhav (VB) Srivastav29 серп., 02:55
Деякі примітки до релізу gpt-realtime він замінює ланцюгові STT→LLM→TTS на одну модель входу/виводу мовлення (нижча затримка, багатший нюанс) - величезний imo 🔥 За бенчмарками (проти GPT4o-реального часу): > набирає 82,8% проти 65,6% на BigBench (міркування) > 30,5% проти 20,6% на MultiChallenge Audio (інструкція наступна) > 66,5% проти 49,7% на ComplexFuncBench (виклик функцій) Переваги включають покращену просодію, контроль тону, невербальну та буквено-цифрову точність, а також багатомовне перемикання API в реальному часі тепер GA з SIP телефоном, введенням зображень, інтеграцією з інструментом MCP все це з нижчим API на 20% - досить солодко (хоча я думаю, що це все одно занадто дорого)
3,6K