本项目面向企业内部知识检索与智能问答场景,目标是在文档分散、知识查找效率低、人工答疑成本较高的背景下,构建一套可落地的大模型知识库问答系统。系统支持企业制度、产品说明、操作手册、FAQ 文档等资料的导入与管理,并通过文本切分、向量化索引、语义检索和大语言模型生成,实现基于企业私有知识的智能问答。
用户可以在网页端输入自然语言问题,系统会先从知识库中召回相关文档片段,再对候选内容进行相关性排序,最后结合大语言模型生成回答。系统不仅能够完成普通问答,还支持多轮对话、答案参考来源展示、知识库管理、问答记录查看和基础数据统计等功能。相比传统关键词搜索,本项目能够更好地理解用户问题语义,并给出更完整、更符合上下文的回答,适合用于企业内部资料查询、客服辅助、产品知识问答和个人知识库管理等场景。
项目整体采用“文档处理层 + 检索增强层 + 模型服务层 + 应用展示层”的分层架构。文档处理层负责对上传文档进行清洗、分段、去重和格式化处理;检索增强层负责将文本片段转换为向量表示,并基于语义相似度完成 Top-K 召回和重排序;模型服务层基于开源大语言模型进行指令微调和推理接口封装;应用展示层通过 Web 页面提供问答交互、知识库管理、历史记录和数据看板等功能。
我主要负责数据预处理、问答样本构建、LoRA 微调、检索链路搭建和后端推理接口开发。在实现过程中,针对长文档切分后语义不完整、检索结果噪声较高、模型回答容易偏离知识库内容等问题,我对文本切片长度、重叠窗口、召回数量和提示词模板进行了多轮调整,并加入重排序策略提升上下文相关性。经过优化后,系统的 Top-3 召回率达到约 89%,回答准确率相比基础方案提升约 18%,平均响应时间控制在 1.6 秒左右,能够完成从文档导入、知识检索到大模型生成回答的完整闭环。