Audio Manus 是一款能够主动且智能地打断人类用户、从而主动引导和掌控对话节奏的实时 AI 语音对话伙伴。
项目愿景:从被动聆听者到主动对话者
在当前的 AI 助手市场中,用户打断 AI("barge-in")已是常态,但 AI 始终扮演着被动的角色。Audio Manus 致力于实现一次范式转变:我们打造的不再是一个只能被动应答的工具,而是一个能够主动、智能地打断人类,从而引导、纠正甚至掌控对话流的主动式对话伙伴。
其核心挑战在于赋予 AI “边听边想”的能力——在用户话音未落之时,就已完成对内容的实时分析、决策并准备发起干预。
核心设计:Dispider 原则与双通道思考模型
为解决“边听边想”的难题,我们的架构严格遵循 Dispider 原则,将实时交互的三大核心环节解耦,并通过异步并发任务高效执行:
我们的创新之处在于双通道思考模型:
系统架构:高度集成的实时事件系统
我们采用基于 Python FastAPI 的单体但模块化的后端服务,并通过单一 WebSocket 连接管理所有与客户端的交互,极大地简化了部署与维护。
多场景适应性 Audio Manus 的架构可以灵活适应多种应用场景: AI 面试官: 严格控制面试流程,及时纠正偏题或冗长的回答。 狼人杀 AI 法官: 快速响应,强制执行游戏规则,如发言超时提醒。 车载语音助理: 极其保守,仅在最高优先级的安全场景下(如紧急导航指令)才主动打断用户。
