一个由gpt-oss驱动的语音代理。正在我的MacBook上本地运行。演示是在WiFi关闭的Waymo中录制的。 显然,我仍然沉迷于我的太空游戏语音AI。代码链接在下面。 对于对话式语音AI,您需要将gpt-oss的推理行为设置为“低”。(默认是“中”)。有关如何做到这一点的说明和您可以使用的jinja模板在仓库中。 演示视频中的LLM是gpt-oss的大型120B版本。当然,您可以使用更小的20B模型。但OpenAI在这里确实做了一件很酷的事情,设计了120B模型以在“仅仅”80GB的VRAM中运行。而且,llama.cpp mlx推理速度很快:约250毫秒TTFT。 在设备上运行大型模型感觉像是进入了AI的未来时光。
197.51K