gpt-ossを利用した音声エージェント。MacBook でローカルで実行しています。WiFiをオフにしたWaymoで録画したデモ。 もちろん、私はまだ宇宙ゲームの音声 AI キックを続けています。以下のコードリンク。 会話型音声 AI の場合、gpt-oss 推論動作を「低」に設定する必要があります。(デフォルトは「medium」です。その方法に関するメモと使用できるjinjaテンプレートはリポジトリにあります。 デモビデオのLLMは、gpt-ossの大きな120Bバージョンです。もちろん、これには小型の 20B モデルを使用することもできます。しかし、OpenAI はここで、120B モデルを「わずか」80GB の VRAM で動作するように設計するという、本当に素晴らしいことをしました。また、llama.cpp mlxの推論は高速です:~250ms TTFT。 デバイス上で大きなモデルを実行すると、AI の未来へのタイムワープのように感じられます。
197.52K