بعض الملاحظات حول إصدار gpt-realtime ، فإنه يستبدل STT→LLM→TTS المتسلسل بنموذج واحد للكلام / إخراج الكلام (زمن انتقال أقل ، فارق بسيط أكثر ثراء) - IMO 🔥 ضخم على المعايير (مقابل GPT4o-realtime): > يسجل 82.8٪ مقابل 65.6٪ على BigBench (المنطق) > 30.5٪ مقابل 20.6٪ على MultiChallenge Audio (التعليمات التالية) > 66.5٪ مقابل 49.7٪ على ComplexFuncBench (استدعاء الوظيفة) تشمل المكاسب تحسين العروض ، والتحكم في النغمة ، والدقة غير اللفظية والأبجدية الرقمية ، والتبديل متعدد اللغات واجهة برمجة التطبيقات في الوقت الفعلي الآن GA مع هاتف SIP وإدخال الصور وتكامل أداة MCP كل هذا مع واجهة برمجة تطبيقات أقل بنسبة 20٪ - حلو جدا (على الرغم من أنني أعتقد أنه لا يزال باهظ الثمن بعض الشيء)
‏‎13.5‏K