项目概述:设计并实现了一个面向医学院的问答RAG系统。系统以模块化架构为核心,通过智能
路由与多策略检索相结合的技术路径,在保证信息准确性的前提下,实现用户复杂查询的快速精
确响应。
技术栈:Milvus、Redis、MySQL、Fast API、BGE-large-zh-v1.5、Qwen2.5-7B-Instruct、BERT、Langchain、RAGAS
①系统架构与核心开发模块:设计并实现了包括高频拦截、意图分类、策略路由、混合检索、
回复生成的五阶段流水式架构。主导了基于规则与BERT-tiny的混合策略判断器、三级拦截策略、以及基于Milvus的四种检索模块(直接/假设/子查询/回溯检索)的核心代码开发。
②架构设计与算法策略:设计并实现了三级渐进式拦截算法(高频问题拦截模块)。第一级基
于查询哈希进行 O(1)复杂度的精确匹配;第二级对归一化后的问题进行匹配;第三级基于内存
化 BM25 索引计算相似度。通过动态权重综合 BM25 分数、长度相似度等因素,实现置信度算法,综合精准率(Precision)达 98.5%。
③模型训练与性能优化: 利用 Hugging Face Trainer API 完成 BERT-tiny 模型微调。通过调
整学习率(2e-5)、批次大小使模型在 5 个 epoch 内快速收敛。最终模型在测试集上达到 95.2%的准确率。
项目成果:
①用户Query分流:设计的Query意图判断模块成功拦截了约15%的非专业查询,使其直接进入生
成通道,避免了不必要的向量检索与文档查询。
②性能与效率提升:高频拦截模块成功拦截35%的总查询流量,将这部分请求的平均响应时间从
下游RAG链路的秒级(2-5秒)降低至20毫秒以内。
③效率优化:通过智能策略分配,避免了对所有查询使用重型检索方案,节省了约 30%的向量数
据库查询与大型语言模型生成 Tokens 的消耗。