为解决生产环境故障排查效率低、依赖人工经验的问题,需构建一套具备自动诊断与经验复用能力的智能运维助手。(1) 构建运维Agent,将性能诊断、故障排查等场景封装为Skill,通过意图路由按需调用;基于MCP集成监控、日志等运维工具辅助诊断。(2) 构建多层记忆机制。短期记忆基于Redis实时维护诊断会话状态;向量记忆跨周期召回相似历史故障案例;图记忆基于Neo4j建立服务、告警、故障等依赖关系,支持根因追溯。(3) 经验闭环与RAG知识库构建。基于已解决的故障事件,自动提取故障模式与解决方案并写入记忆,实现知识复用闭环;支持文档上传,经智能切分、向量化后索引入库,为诊断提供外部知识支撑
(1) 构建运维Agent,将性能诊断、故障排查等场景封装为Skill,通过意图路由按需调用;基于MCP集成监控、日志等运维工具辅助诊断。(2) 构建多层记忆机制。短期记忆基于Redis实时维护诊断会话状态;向量记忆跨周期召回相似历史故障案例;图记忆基于Neo4j建立服务、告警、故障等依赖关系,支持根因追溯。(3) 经验闭环与RAG知识库构建。基于已解决的故障事件,自动提取故障模式与解决方案并写入记忆,实现知识复用闭环;支持文档上传,经智能切分、向量化后索引入库,为诊断提供外部知识支撑