程序聚合 软件案例 基于大规模预训练语言模型聊天机器人-qwen3

基于大规模预训练语言模型聊天机器人-qwen3

2025-07-17 22:05:00
行业:内容平台
载体:Windows应用、插件
技术:Python、PyTorch、Transformers

业务和功能介绍

工业软件使用手册较为复杂,上手门槛较高,结合大语言模型通过问答形式,帮助用户快速入门,查取功能的操作方式
建立企业知识库并基于此实现检索增强生成(RAG)系统,以实时与用户交互完成问答,可以分为以下几个步骤:

1. 建立企业知识库
文档收集与解析

收集企业内部的各类文档,包括但不限于产品手册、技术文档、FAQ、政策文件等。
使用合适的工具解析这些文档,确保它们能够被系统理解。例如,使用mineru进行版面分析,或者利用多模态大模型如qwen-vlm来处理复杂文档。
文档切分

将文档按照语义段落切分成适当大小的块(chunks),保证每个chunk都能包含完整的语义信息,同时适合后续处理。
向量化

对每个chunk应用嵌入模型(如jina-embeddings-v2或BAAI提供的模型)将其转换为向量表示,以便于后续的相似度计算和检索。
2. RAG检索与问答
问题重写与查询优化

针对用户的提问,可能需要对其进行重写或分解,以更好地匹配知识库中的内容。这可以通过多种策略实现,比如多重查询、RAG融合、查询分解等。
向量检索与BM25结合

在Elasticsearch或其他搜索引擎中,结合向量检索(基于嵌入的相似度搜索)和BM25检索(基于词频-逆文档频率的文本相似度评分算法),提供更加精确的结果。
召回与重排

根据检索结果,将最相关的文档chunks召回,并通过重排模型(如big-reranker-base/big-reranker-large)进一步优化排序,提高回答的相关性和准确性。
实时交互

使用Qwen基座模型作为后端的大语言模型,根据召回的文档chunks生成最终的回答。这个过程需要高效的处理机制来实现实时响应。

项目实现

项目持续三个月,我在其中负责的任务分为:
(1)基于PYQT5搭建完整的插件界面
(2)完成模型选型,以及核心流程
(3)对模型进行下游数据微调
(4)对pdf等文档进行切块等文字提取

示例图片视频


博嘉
30天前活跃
方向: 人工智能-NLP和自然语言处理、人工智能-计算机视觉与图像处理、
交付率:100.00%
相似推荐
XX智慧城市运行平台
1、城市治理大数据可视化平台,接入包括高德交通、城市监控摄像头、AI智能识别监控、数据中台城市治理数据,后端进行数据的接入以及接口的开发,配合GIS地图进行数据的可视化三维一体展示,对接包括硬件设备、网络报文、HTTP协议等数据。
柳林县委党校服务平台
一、核心功能模块 学员全周期管理模块:支持学员线上报名、学籍信息存档、培训考勤(线下扫码 / 线上打卡)、作业提交、结业考核(理论测试 + 心得评审)的全流程跟踪,学员可自主查询学习进度,教职工可批量导出学员数据; 培训教学服务模块:涵盖党史理论、党性教育等课程资源(课件 / 视频)的上传管理、在线点播学习、直播授课(支持连麦互动),同时支持线下培训的班次排班、教室调度,适配干部教育的 “线上 + 线下” 混合教学场景; 党建学习深化模块:集成柳林本地红色资源专栏、党建知识题库、主题教育专题学习、学习心得分享功能,助力学员强化理论学习与党性修养; 后勤与服务模块:提供教室 / 会议室在线预约、培训期间餐饮住宿信息查询,同时设置意见反馈通道,支持学员快速提交服务需求; 数据统计分析模块:自动生成培训完成率、学员考核成绩、课程学习热度等报表,辅助党校优化培训方案、评估教学效果。 二、主要功能路径 学员侧:注册 / 报名→选择培训班次→课程学习(线上 / 线下)→完成考勤 / 作业→参与考核→查看结业信息; 教职工侧:创建培训计划→上传课程资源→审核学员报名→开展教学(直播 / 线下)→批改作业 / 统计考核→导出培训报表; 管理员侧:配置平台权限→监控教学数据→响应后勤需求→维护系统运行。
toc平台东艺术web|App平台-东艺术
1 项目结合现阶段各级信息平台数据资源,基于天翼云、政务云、K8s集群等技术。 2 实现对文旅产业深耕定制以及相关资源的动态可视化展示. 3 项目包含ART数字化平台、文化配送、文采会、OA协同平台 云原生架构设计 1.主导完成政务云平台容器化改造,设计K8s集群高可用架构,容器化部署密度提升20% 2.重构原生应用部署策略,实现CI/CD自动化流水线,支持动态扩容 高性能服务治理 1.突破性解决千万级数据缓存瓶颈,通过Redis分片集群+本地二级缓存设计,QPS提升至2K+ 2.重构分布式锁机制,优化秒杀场景下座位锁定逻辑,并发处理能力提升5倍 3.自研大屏曝光分析算法,实现毫秒级实时数据聚合,支撑80W+数据动态可视化
审计一体化平台
构建一个全面、高效的内部审计信息系统,涵盖内审人员工作台、审计流程管理、信息资源分享等多个维度,以提升内审工作的标准化、信息化水平,并加强内部审计工作的协同性和透明度。系统基于审计功能、乡镇常态化经济体检、信息采编、审计整改、数据采集服务规划
智慧矿山系统
该项目采用C/S架构主要用于矿山相关数据的监测、分析、统计、报警等。1、目前已支持的监测项包括干滩、雨量、内部位移、表面位移、水位、浸润线、深部位移、裂缝、渗流量、浑浊度、爆破振动等,主要通过Netty按照tcp client或tcp server接收数据;2、通过将大华或海康等主流监控画面接入到AI视频分析平台并将告警推送至本系统;3、对接大疆无人机,将无人机实时画面通过系统直播;4、支持实时查看监控视频。 使用技术:spring boot + mybatisPlus + JavaFX + MySQL/SQL server + Netty + MQTT + Redis + Modbus
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服