基于eino的agent对接平台
公司推出AI眼镜等边缘设备,需要为设备提供实时语音交互能力。市面上存在多家AI服务提供商(OpenAI、阿里云、火山引擎等),但各家API协议不统一,且单一厂商存在可用性风险。目标是构建统一的AI能力聚合平台,屏蔽底层厂商差异,实现端到端低延迟(首句响应小于500ms)的多模态对话体验,支持千级并发设备连接,并为边缘设备赋能MCP工具调用能力,使AI具备文件系统、IoT设备、传感器等外部能力扩展。
多协议AI Provider统一抽象层:封装7种TTS提供商、3种ASR提供商、多种LLM提供商,通过统一接口加工厂模式实现业务层无感知厂商切换。
全链路流式处理架构:智能分句引擎按标点符号实时切割LLM输出,每个完整句子立即送TTS合成无需等待完整响应;Context级联取消机制确保用户打断时20ms内停止所有任务;定速音频发送避免设备缓冲区溢出。
MCP工具协议集成层:基于Eino框架实现MCP Host,支持全局工具(SSE协议)与设备专属工具(WebSocket协议)动态注册,打通LLM的Function Calling能力,使大模型可调用文件系统、IoT设备控制等外部工具,支持工具调用结果自动回注LLM实现多轮交互。
多传输层适配:支持WebSocket(控制与文本)、MQTT(信令通道)、UDP(低延迟音频流)混合协议,UDP音频传输采用AES-GCM加密加Nonce防重放,确保弱网环境下低延迟(小于50ms)与安全性。
对话状态机与会话管理:为每个设备创建独立ChatManager实例,封装ASRManager、LLMManager、TTSManager三大管理器,状态机驱动任务切换,资源池复用VAD检测、ASR连接、TTS连接。
人工智能