一個由gpt-oss驅動的語音代理。正在我的MacBook上本地運行。演示是在WiFi關閉的Waymo中錄製的。 顯然,我仍然沉迷於我的太空遊戲語音AI。代碼鏈接在下面。 對於對話式語音AI,您需要將gpt-oss的推理行為設置為“低”。(默認是“中”)。有關如何做到這一點的說明和您可以使用的jinja模板在倉庫中。 演示視頻中的LLM是gpt-oss的大型120B版本。當然,您可以使用更小的20B模型。但OpenAI在這裡確實做了一件很酷的事情,設計了120B模型以在“僅僅”80GB的VRAM中運行。而且,llama.cpp mlx推理速度很快:約250毫秒TTFT。 在設備上運行大型模型感覺像是進入了AI的未來時光。
197.51K