Голосовий агент на базі gpt-oss. Працює локально на моєму macBook. Демонстрація записана в Waymo з вимкненим WiFi. Я все ще перебуваю на своєму голосовому ШІ в космічній грі, очевидно. Посилання на код нижче. Для розмовного голосового штучного інтелекту вам потрібно встановити поведінку міркувань gpt-oss на «низьку». (За замовчуванням використовується "medium".) Нотатки про те, як це зробити, і шаблон jinja, який ви можете використовувати, знаходяться в репозиторії. LLM у демонстраційному відео — це велика, 120B версія gpt-oss. Для цього, звичайно, можна використовувати меншу, 20-В-модель. Але OpenAI дійсно зробила круту річ тут, розробивши модель 120B для роботи в «всього» 80 ГБ відеопам'яті. І висновок llama.cpp mlx швидкий: ~250 мс TTFT. Запуск великої моделі на пристрої здається викривленням у часі в майбутнє штучного інтелекту.
197,52K