立项背景与目标:
针对传统 RAG 系统在处理“图文混合文档”时无法识别图片内容,以及面对“复杂逻辑问题”时回答准确率低的痛点,本项目旨在构建一个生产级、多模态、具备推理能力**的企业知识问答中台,助力企业将非结构化文档(PDF/Word)转化为可交互的智能资产。
核心功能与业务流程:
1. Agentic RAG (智能体检索)**:基于 LangGraph 构建了具备“自我反思”能力的 Agent 状态机。
意图路由:精准区分闲聊/问答,避免资源浪费。
自我评估 (Self-Reflection):Agent 会对检索结果进行质量打分。如果发现相关性不足(Score < 0.8),会自动触发查询改写 (Query Rewrite) 并重新检索,直到找到满意答案或达到重试上限。
动态规划:针对复杂问题,自动拆解为多个子任务并行执行。
2. 多路混合检索 (Hybrid Search)**:
摒弃单一的向量检索,采用 Vector (语义) + BM25 (关键词) + Rerank (重排序)的黄金组合。
引入 Cross-Encoder 模型进行二次精排,像“阅卷老师”一样剔除伪相关文档,检索准确率提升至 89%。
3. 全链路多模态 (Multi-modal):
集成 VLM (视觉大模型),不仅能读懂文本,还能理解 PDF 中的图片、图表,实现真正的“图文跨模态检索”。
4. 生产级异步架构:
利用 Celery + Redis 构建高并发流水线,实现 GB 级大文件的异步解析与后台向量化,确保前端操作零卡顿。
整体架构与设计思路:
项目采用前后端分离架构。后端基于 FastAPI + LangChain 生态,使用 Celery + Redis 处理耗时的文档解析任务(支持 500+ 页文档异步处理);前端采用 React + Ant Design Pro 构建响应式管理后台。核心检索层引入 ChromaDB 作为向量库,并集成了 Cross-Encoder 重排序模型以保障精度。
我负责的模块与成果(量化):
1. Agent 核心引擎开发:设计并实现了基于 LangGraph 的状态机,支持“意图识别-查询改写-HyDE增强-多路召回”的全链路思考过程。实测复杂问题拆解准确率提升 40%。
2. 检索策略优化:主导设计了“向量(Dense) + 关键词(Sparse) + 重排序(Rerank)”的三路混合检索算法,将 Top-5 召回率从 65% 提升至 89%。
3. 多模态融合:攻克了图片内容不可被检索的难题,引入视觉模型生成图片描述索引,实现了95% 准确率的图文混合检索。
遇到的难点、坑与解决方案:
难点 1:短查询语义匹配差。用户常问“推荐几款”这类短句,传统向量检索效果极差。
解决方案:引入 HyDE (假设性文档嵌入) 技术,先让 AI 生成一个“虚拟完美答案”,用该答案去匹配知识库,显著提升了语义相关性。
难点 2:大文档解析阻塞系统。解析几百页的 PDF 极其耗时,导致 Web 服务超时。
解决方案:重构为异步任务架构,使用 Celery 队列在后台 Worker 进程中处理解析任务,并通过 SSE (Server-Sent Events) 实时向前端推送进度条,彻底解决了卡顿问题。