随着智慧物流行业的快速发展,物流领域的知识体系日益复杂,从业人员、学生和相关研究者在获取专业的物流知识时往往面临信息分散、查询效率低下的问题。传统的搜索引擎难以提供精准的领域知识问答服务,而通用的大语言模型又缺乏物流领域的专业知识,容易产生幻觉内容,回答的准确性和可信度无法保证。为了解决这些问题,本文设计并实现了一个基于检索增强生成技术的智慧物流RAG问答系统。
在系统设计与实现方面,此论文完成了以下几个方面的主要工作。第一点,构建了一个面向物流领域的结构化知识库,该知识库能够支持TXT、PDF、DOCX以及JSON等多种格式文档的解析操作,也支持批量导入以及自动化的向量索引更新功能,这为检索增强生成流程提供了一份质量较高的数据基础;该知识库采用了“JSON形式的原始文档加上SQLite形式的向量索引”这种双层存储结构,从而把知识的可维护性和检索的高效性两方面都兼顾了起来。第二点,设计出了一条完整的检索增强生成流水线,这条流水线内部包含了查询优化、意图识别、混合检索以及答案生成这几个环节;其中的查询优化模块会优先调用大语言模型来完成关键词提取、实体识别以及查询语句重写这些工作,假如大语言模型的接口调用失败了,该模块又能自动回退到本地规则匹配的方式,因此优化效果和系统的鲁棒性都得到了照顾;至于混合检索策略,则把向量语义匹配和关键词命中加权这两种机制融合到了一起,于是检索的准确性以及针对专业术语的敏感度都获得了有效的提升。第三点,系统实现了一个全自动化的检索增强生成评估模块,该模块采用“先做问答、再进行评估”的串联式架构,它会安排大语言模型扮演裁判的角色,接着从忠实度、相关性、完整性和连贯性这四个维度出发,对系统生成出来的答案做一个量化评分;系统会把评分结果持久化地保存下来,同时也支持统计方面的分析,这就为系统效果的持续优化提供了数据上的支撑。第四点,系统采用了前后端分离的架构,后端部分依托于Flask框架来提供RESTful形式的应用程序接口,并且把SQLite业务数据库和向量检索模块都集成到了内部,前端部分则同时提供了微信小程序和PC端的Web管理系统这两种接入方式,这样一来便把移动端的便捷性和后台管理的完整性两方面都照顾到了;在用户认证和权限控制这个方面,系统采用了Token验证和会话验证两种通道并存的机制,还通过装饰器模式实现了统一的身份校验以及角色分级管理,因此多端访问过程的安全性得到了保障。