程序聚合 软件案例 多格式文档智能问答系统

多格式文档智能问答系统

2026-05-30 17:29:21
行业:企业内部管理、企业服务(saas)
载体:网站
技术:Python

业务和功能介绍

在企业日常运营中,大量知识沉淀在各类文档中——产品手册、技术规范、会议纪要、客户反馈报告等。员工查找一条信息往往需要翻多个文件夹、打开不同格式的文件,耗时费力。本系统提供一种“文档即知识库”的解决方案:用户只需上传常见的办公文档(TXT、PDF、Word、Markdown),系统自动理解文档内容,用户像与人对话一样提问,即可秒级获得基于文档原文的精准答案。

项目实现

1. 使用 TextLoader、PyPDFLoader、Docx2txtLoader、UnstructuredMarkdownLoader 实现多格式文档加载。 2. 通过 RecursiveCharacterTextSplitter 对长文本进行分割(chunk_size=200~500,overlap=20~50)。 3. 采用本地 HuggingFaceEmbeddings(text2vec-base-chinese)将文本块向量化,存入 Chroma 向量数据库。 4. 用户问题同样向量化后检索最相似的 K 个块(k=3~5),与提示词模板拼接后调用通义千问 API 生成答案。 5. 使用 Streamlit 搭建前端界面,支持文件上传、提问、展示回答。 6. 针对阿里云 Embedding API 参数不兼容问题,改用本地模型;针对 Streamlit 文件锁冲突,采用 UUID 生成唯一向量库目录实现多文档隔离。 7. 通过调整 chunk_size、k 值及提示词优化检索效果,在 6 个问题的测试集上准确率达到 83%。

示例图片视频


Tufi
24小时内活跃
方向: 人工智能-AI应用开发、
交付率:100.00%
相似推荐
多格式文档智能问答系统
在企业日常运营中,大量知识沉淀在各类文档中——产品手册、技术规范、会议纪要、客户反馈报告等。员工查找一条信息往往需要翻多个文件夹、打开不同格式的文件,耗时费力。本系统提供一种“文档即知识库”的解决方案:用户只需上传常见的办公文档(TXT、PDF、Word、Markdown),系统自动理解文档内容,用户像与人对话一样提问,即可秒级获得基于文档原文的精准答案。
noveltrans
立项背景: 网文出海市场庞大,但传统翻译存在角色名不一致、上下文丢失、API成本高等痛点。目标是构建AI驱动的SaaS翻译平台,通过RAG记忆、多Agent协作和智能引擎路由,实现高质量、低成本、可团队协作的网文翻译工作流。 核心功能模块: 多引擎AI翻译:LLM与本地MTranServer智能路由,双向故障转移 RAG翻译记忆:Redis HNSW向量检索,语义相似度≥0.85直接复用历史结果 实体一致性管道:专有名词提取→SHA-256占位→术语表对照翻译→还原,防止角色名漂移 多Agent协作:翻译+术语+润色三Agent,按题材匹配提示词 订阅计费:Stripe三级套餐+并发信号量+滑动窗口TPM限流+月字符配额Lua校验 团队协作:多租户项目管理、章节分配、审校工作流状态机 三端统一:React仪表盘、Chrome插件MV3、REST API 业务流程: 用户创建项目→上传章节→系统经4级管道(缓存→RAG→实体处理→AI翻译)→多Agent协作翻译→团队审校→导出成品。
基于大语言模型的机械结构智能设计Agent研究
一.立项背景和目标 随着智能制造和数字化转型的深入推进,传统机械结构设计依赖工程师个人经验,存在设计周期长、方案迭代效率低、知识传承困难等问题。本项目立足机械设计领域,提出基于大语言模型(LLM)的智能设计Agent研究,目标是构建机械设计领域知识库,结合RAG(检索增强生成)技术,开发一款能够辅助工程师快速检索设计规范、推荐典型机构方案、进行工程参数分析的智能Agent系统,最终实现机械结构设计的智能化辅助,提升设计效率和方案质量。 二.软件功能及核心功能模块介绍* 本系统核心技术栈包括LLM、RAG、Python后端及Web前端交互。 主要功能模块如下: 1. 知识库构建模块:收集整理机械设计手册、机构原理、设计规范、案例库等专业知识,构建结构化向量数据库。 2. 智能检索与推荐模块:基于RAG技术,实现设计知识精准检索、相似机构方案智能推荐及设计参数优化建议。 3. 参数分析模块:结合LLM推理能力,对推荐方案进行力学性能、运动特性等工程参数初步分析。 4. Web交互系统:搭建用户友好的Web界面,支持自然语言输入查询、方案展示、参数调整及结果可视化。 三、业务流程与功能路径描述 用户通过Web系统以自然语言描述设计需求(如“设计一款用于自动化设备的夹持机构”),系统首先通过RAG从知识库中检索相关设计规范和历史案例,随后调用LLM生成多个机构方案推荐,并提供关键参数分析;用户可进一步与Agent对话进行方案迭代、参数优化;最终输出设计报告和可视化结果。整个流程形成“需求输入→知识检索→方案生成→参数验证→方案输出”的闭环智能辅助路径,显著降低机械设计师的重复劳动,提高创新设计效率。
河南麦农卖粮算账Python脚本-麦农卖粮算账工具
本工具是为河南麦农群体量身开发的卖粮算账脚本,立项源于自家收麦季手动算卖粮钱易出错、小数位繁琐的实际痛点。核心功能支持输入小麦总斤数与实时收购价,自动完成总价核算并通过round函数规整金额,省去人工计算的麻烦。使用时只需依次输入两个数值,即可快速得到清晰直观的卖粮总收入,适配田间地头快速算账的轻量化需求。
基于Python的数据分析-乳腺癌数据集分析
● 1、立项背景和目标 乳腺癌是女性最常见的恶性肿瘤之一,早期准确诊断对提高生存率至关重要。 本项目目标是利用逻辑回归算法,对乳腺癌良性/恶性进行分类预测,帮助辅助医生诊断,降低漏诊率。通过医学指标(灵敏度、特异 度、精确率、召回率)评估模型在医学场景下的实际可用性。 --- 2、软件功能、核心功能模块的介绍 数据加载模块:使用sklearn内置的乳腺癌威斯康星数据集,包含569个样本、30个特征。 数据探索模块:输出样本总数、特征数量、恶良性样本分布比例。 数据预处理模块:使用StandardScaler对特征进行标准化,使各特征均值为0、标准差为1,消除量纲差异对模型的影响。采用train_te st_split按70%训练集、30%测试集划分,并使用stratify参数保证分层采样。 模型训练模块:使用逻辑回归分类器,配置max_iter=5000、random_state=42、solver='lbfgs'进行训练。 评估输出模块:计算并输出混淆矩阵,以及医学四个核心指标——灵敏度(识别良性肿瘤的能力)、特异度(识别恶性肿瘤的能力)、精 确率(预测为良性的准确性)、召回率(实际良性中被识别出的比例)。 --- 3、业务流程、功能路径描述 用户输入患者的30项体检指标数据,数据首先进入预处理模块进行标准化处理,然后进入逻辑回归模型进行分类预测,最终输出良性或 恶性的诊断结论。 功能路径为:数据加载 → 数据探索 → 数据划分 → 特征标准化 → 模型训练 → 模型预测 → 医学指标评估。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服