大数据算法模型软件定制案例

程序聚合软件案例大数据算法模型

一、立项背景与目标 1. 立项背景在传统的知识库问答系统中，普遍存在以下痛点： - 流程混乱：通用ReAct Agent在处理复杂业务时，容易发生步骤跳跃或逻辑错乱，导致回答质量不稳定。 - 上下文断裂：多轮对话中，用户常使用代词（如“它多少钱？”），传统向量检索缺乏指代消解能力，导致检索失败。 - 意图混杂：闲聊式提问（如“你好”）与知识检索式提问（如“XX产品参数是多少”）被统一处理，浪费算力且影响用户体验。 - 状态丢失：用户刷新页面或稍后再访问时，对话历史无法延续，每次都是“新会话”。 2. 项目目标 - 构建一个流程可控、意图可分流、上下文可理解、状态可持久的智能知识助手。 - 实现复杂业务逻辑的结构化解耦，提升系统的可维护性与稳定性。 - 显著提升多轮对话场景下的检索命中率与回答准确率。二、软件功能与核心模块 1.整体功能概述本系统是一个基于LLM的智能对话式知识库问答助手，支持用户通过自然语言提问，从向量知识库中精准检索并生成回答。系统特别强化了多轮对话中的指代消解能力与流程可控性。 2.核心功能模块介绍模块名称功能说明 Planner（规划器）基于LLM + 专用Prompt，硬编码业务流程。负责解析用户请求，按固定流程调度执行，防止逻辑跳跃。语义路由器基于LLM的分类工具，动态识别用户意图为“chat”（闲聊）或“retrieval”（知识检索），实现分支分流。历史加载与写入模块与Redis集成，自动追加对话历史，确保跨会话的上下文连续性。查询重写模块结合历史对话，将存在指代或省略的用户问题（如“它多少钱？”）改写为语义完整的独立问句。混合检索引擎同时执行向量语义检索与关键词检索，通过RRF算法融合排序，提升召回效果。 Executor（执行器）根据Planner的指令，调用重写、检索、生成等环节，最终输出回答。系统流程严格遵循：语义路由 → 历史加载 → (分支判断) → 查询改写/直接回答 → 知识库检索 → 最终生成三、业务流程与功能路径以下为用户与系统交互的完整功能路径描述：场景一：用户进行知识检索（多轮对话）场景二：用户发起闲聊场景三：用户首次访问 / 会话恢复

人工智能、大数据

Python、FastAPI、PyTor...

Python脚本 / 数据可视化 / 多源数据可视化分析系统-多源数据可视化分析系统

本系统是一套面向多源数据的可视化分析工具，基于Python数据分析生态构建，可读取结构化Excel数据源并自动生成专业级分析图表和HTML报告。系统聚焦两大分析场景： 1. A股金融市场分析：读取沪深A股4000+只股票的实时数据，自动生成板块分布饼图、成交量Top15排行柱状图、涨跌幅分布直方图，直观展示市场结构和资金动向。针对个股（如贵州茅台600519），生成日K线走势图并叠加MA20/MA60双均线，标注历史最高收盘价，辅助技术分析决策。 2. 豆瓣影评数据分析：读取豆瓣电影Top250完整榜单，生成评分分布直方图、评分区间占比饼图，以及年度电影数量与平均评分的双Y轴趋势图。可直观看到经典电影年代分布和评分走势。所有图表统一采用专业配色方案，支持中文渲染，输出为高分辨率PNG图片（150 DPI）。同时自动生成一个响应式HTML分析报告页面，将所有图表嵌入精美卡片布局，包含概览统计卡片和技术指标说明，可直接用于演示汇报或嵌入Web页面。

金融、大数据

Python、Matplotlib、Pa...

华为杯研究生数学建模大赛-抗胰腺癌候选药物的优化建模

据 2020 年国际癌症研究机构（IARC）调查的最新数据显示，乳腺癌在全球女性癌症中的发病率为 24.2%，位居女性癌症的首位。在药物研发领域，利用预测模型对能够拮抗 ERα 活性的化合物进行筛选的方法受到广泛的关注，本文通过建立回归与分类预测模型，对化合物的生物活性和 ADMET 性质做多目标优化求解

人工智能、大数据

Python

多源数据融合机器学习解决预警模型-基于多源监测数据的边坡预警模型的研究

边坡稳定性是水利工程、交通路网及露天矿山等领域的核心安全问题。本项目基于多源监测数据，围绕边坡预警问题建立了系统的数学模型，利用python/matlab/mysql实现项目落地，建立了分级预警机制，确保了工程实践中的高效决策支持，具有较强的物理可解释性与工程适用性，可为边坡灾害精准防控提供数据支撑与决策依据

大数据、安全

MATLAB、Python

Petal Search以图搜图

华为Petal Search核心图像搜索能力，用户拍照或上传图片即可在电商、旅游等场景下找到相似商品或地点。覆盖全球170+国家，月活2000万+，是Mate 40等旗舰机型海外版的标配功能，也是华为终端出海战略中的核心AI能力之一，支撑华为移动服务HMS生态建设。

大数据、生活服务

Python

自动网络渗透攻击平台

主要负责工作为使用 python +强化学习+实现群体智能算法开发后台训练端，在原有的基础上使用C#对网络空间靶场端功能进行再开发,使用现实靶场进行网络渗透，成功获取所需数据和整个靶场的网络情况，辅助同事使用 godot 开发展示端功能，然后结合三端实现此项目开发攻击端，负责后端开发，使用大模型+意图槽位增加模型开发网络安全助手攻击端功能

大数据

C#、Python、Godot、PyTo...

基于深度学习的英雄联盟比赛胜率预测

LOL-DeepWinPredictor 是一款基于深度学习的英雄联盟比赛胜率预测系统，面向对局分析与战局决策场景，通过对海量历史对局数据的训练，实现对当前对局胜率的实时预测与可视化展示。核心功能模块分为三部分：一是数据采集模块，使用线程池并发爬取英雄联盟对局数据，通过 json 库完成字段提取与清洗，存储至 MongoDB 复制集保障数据高可用；二是模型预测模块，将 MongoDB 复制集数据通过 RocketMQ 消息队列传输至 Spark 集群进行分布式计算，完成大规模数据的批量推理；三是 Web 可视化模块，使用 Flask 搭建后端服务，前端基于原生 HTML + JavaScript 构建交互界面，集成 ECharts 绘制胜率对比图表，用户可直观查看各英雄组合的胜率分布与趋势分析。整体流程为：爬取数据 → 清洗入库 → 队列调度 → 集群计算 → Web 展示。

人工智能、大数据

Python、Flask、MongoDB...

基于CVAE人脸图像生成

基于条件变分自编码器（CVAE）的人脸图像生成技术深入。通过构建CVAE模型，对人脸数据集进行预处理后开展模型训练，采用重构损失与KL散度以及二者结合的总损失函数，通过ReLU优化算法进行优化，以及梯度裁剪提升训练的稳定性和收敛性，最后通过网格图像以及FID对生成的图像进行评估。该模型在生成人脸图像质量和多样性方面表现良好，能够有效实现人脸属性编辑、人脸合成等应用。

人工智能、大数据

Python、PyTorch

基于YOLOv8的道路病害智能检测系统

本项目面向传统道路巡检依赖人工、效率低且主观性强的问题，设计并实现了一套基于深度学习的道路病害智能检测系统，旨在提升道路养护的自动化与智能化水平。系统核心功能包括道路图像中裂缝、坑洞等典型病害的自动识别与定位。整体功能模块分为：数据处理模块、模型训练模块、检测推理模块及结果可视化模块。用户可上传道路图像或视频，系统自动完成病害检测并输出带标注的结果图像。业务流程为：首先对原始数据进行清洗与标注，并通过数据增强扩展样本多样性；随后基于YOLOv8进行模型训练与优化；在推理阶段输入图像，模型输出病害类别与边界框；最终通过可视化模块展示检测结果，辅助道路养护决策。

人工智能、大数据

Python、OpenCV、PyTorc...

内容工厂

新媒体运营者每天需要从大量 RSS 信息源中筛选热点、提炼要点、撰写各平台差异化文案，再手动粘贴到微信公众号、微博、头条号等编辑器——全流程耗时长、重复劳动多，且各平台对排版格式要求不同，人工适配成本极高。本项目（mp-agent）的目标是构建一条"信息聚合 → AI 生成 → 多平台分发"的全自动内容流水线：定时从订阅的 RSS 源抓取文章，由大语言模型自动摘要和合写每日资讯，并按平台规范格式化后一键发布或提供带主题排版的富文本复制，将单期内容生产时间从数小时压缩至分钟级，支持零人工干预的定时全自动运行，也支持人工介入的半自动审核模式。

大数据

Python

数据链路搭建-DPO数据链路

在人工智能领域飞速发展的背景下，抖音集团正积极投入建设具备世界领先水平的内部多模态大模型。该模型旨在深度理解和生成结合文本、图像、视频、音频等多种模态的数据，以此赋能集团旗下多样化的产品与业务场景（如内容推荐、智能创作、用户交互、内容审核等）。为了确保这些强大的多模态大模型不仅具备卓越的性能，更能精准对齐人类偏好（Human Alignment）、提升其安全性、有用性、一致性与个性化表现，我们引入了 **Direct Preference Optimization (DPO)作为关键的后训练（Post-training）** 策略。DPO 通过利用人类偏好反馈数据直接优化模型，相比传统的 RLHF（基于强化学习的人类反馈）流程更高效、稳定。本项目的核心目标正是 ——构建一个高效、稳定、可扩展的端到端数据链路，为 DPO 训练提供高质量、高通量的结构化数据。这一数据链路的搭建，是确保我们的多模态大模型能够持续迭代、不断优化、最终在复杂现实场景中表现卓越的基石。它不仅将加速模型迭代周期，更是我们在下一代 AI 技术竞争中保持领先的关键一步。本项目的核心在于设计与实现一个自动化、智能化的DPO 训练数据生产平台。其核心功能可概括为三个紧密相连的阶段：大规模、周期性数据采集与整合：平台将具备强大的数据集成能力，能够定期、自动化地从集团内部多样化的原始数据源（如用户交互日志、内容创作数据、搜索查询、运营反馈、模型推理日志等）以及特定外部数据集获取海量多模态数据。确保数据的新鲜度、全面性和多样性，为后续的精细化标注提供充足的 “原材料”。高度定制化与智能化的复杂标注工作流：平台将支持一个多阶段、多模态融合、且深度定制化的标注链路。此环节并非简单的标签分类，而是专注于DPO 训练所需的偏好型数据构建。它将引导专业标注员或通过 AI 辅助标注，根据预设的严苛评估标准（如安全性、事实准确性、逻辑连贯性、指令遵循度、创意性、语气风格等），对模型在特定 Prompt 下的多个响应进行优劣排序、对比选择，乃至识别并生成对抗性样本。此流程将针对多模态内容的特点，支持文本 - 图像、文本 - 视频等多维度关联信息的标注与评估。标准化、可追溯的 DPO 训练数据输出（Pair 对数据）：最终，数据链路将把经过复杂标注处理后的信息，精确地格式化为 DPO 训练框架可直接消费的 “Pair 对数据”。这意味着，对于给定的一个 Prompt 或上下文，我们将输出至少包含一个 **“偏好响应（Preferred Response）”和一个“拒绝响应（Rejected Response）”** 的结构化数据对。这些数据将包含必要的元信息（如评估维度分数、置信度、标注员 ID、时间戳等），确保数据质量高、可追溯，并可直接无缝地灌入集团的 DPO 训练系统，为模型的持续优化提供高质

人工智能、大数据

Python、PyTorch、Ray

cv, nlp, data-analysis

LLM微调，CV，NLP多个项目经历： yolov8，yolov11，yolov12，yolo26应用，优化，集成 swin-tf，U-net，VIT分割，识别，分类，标注 RAG，情感分类，分词，生词，熟练应用BERT 可嵌入到软件，网页中，需后端可接入一些LLM（如GPT，DS等）的API 可接中型/小型软件开发可接科研项目，论文复现，AI/大数据/数据分析都可

人工智能、大数据

PyTorch、Transformers

电商公司年度数据分析报告

立项背景：随着电商业务规模扩大，海量交易、用户行为等数据亟待系统化分析，为业务决策提供数据支撑。核心目标是挖掘年度经营数据价值，优化产品布局、营销策略及用户体验。核心功能包括数据收集整合、多维度分析（销售、用户、供应链）及可视化呈现，通过梳理数据流转逻辑，清晰呈现业务关键指标关联，为公司战略调整提供直观依据。

电商、大数据

Python

中文文本分类系统 (RoBERTa深度学习版)

本项目是一套成熟的中文文本分类全栈解决方案。它基于目前中文自然语言处理(NLP)领域最领先的 RoBERTa 预训练模型，专为政务工单自动分办、客服咨询智能归类、舆情监控情感分析等场景设计。相比传统方案，本项目不仅识别更聪明，更重要的是解决了AI模型“不可解释”和“难以纠错”的行业痛点。 1. 分类结果完全可控大多数AI模型是黑盒，分错了只能干着急。本项目内置了“业务规则引擎”，允许您通过配置简单的关键词逻辑来直接干涉预测结果。例如：只要文本中出现“断水、断电”且包含“学校”，可以强制规则将其划分为“校园后勤”类，而无需重新训练模型。这种“AI模型+规则引擎”的双保险机制，确保了在生产环境中的100%可靠性。 2. 训练维护零代码您不需要学习任何编程知识。只需要维护一份普通的 Excel 或 CSV 表格（左边文本，右边分类名称），系统会自动识别您的分类体系。无论是增加分类、删除分类还是修改分类名称，上传表格后一键即可完成模型迭代。 3. 性能卓越与标准化交付系统采用 FastAPI 高性能框架开发，单条文本预测仅需毫秒级响应。支持 Docker 容器化一键部署，无论是在本地电脑、云服务器还是政府内网环境，都能实现分钟级快速安装。

人工智能、大数据

Python、Linux、PyTorch

财务领域数据建设

1.整合公司各业务系统中的财务相关数据，确保数据的准确性和完整性。 2.实施数据加工流程标准，构建公共层数据框架，以满足财务分析需求，并保障数据质量。 3.关键财务指标（如收入、应收、回款、库存等）进行深入分析，支持业务决策。

企业内部管理、大数据

SQL

基于知识图谱增强的菜谱搜索RAG系统

通过引入知识图谱，我们的菜谱搜索系统将具备： - 结构化知识表达：以图的形式显式编码实体间的语义关系 - 增强推理能力：支持多跳推理和复杂关系查询 - 智能查询路由：根据查询复杂度自动选择最适合的检索策略 - 事实性与可解释性：基于图结构的推理路径提供可追溯的答案极大的拓展大语言模型的能力，用较小的模型+知识图谱就可以实现超大参数模型的推荐能力。而且通过对大语言模型的量化和部署，可实现本地快速的推理，而不依赖云端网络。

人工智能、大数据

Python、PyTorch、MySQL...

省交通运行监测调度中心系统

1.省交通运输应急指挥中心平台工程旨在解决现有系统运行监测和应急指挥管理未实现一体化的问题，通过深化调研沟通，明确系统对接方式、主要对接内容及建设运维职责，确保工程顺利实施并发挥实效。项目基于"云上贵州"平台构建，充分利用其提供的各类中台服务，避免重复建设，节约投资。 2.系统已实现应急值守接报、应急资源管理、应急辅助决策、应急指挥调度、应急信息服务、应急评估、应急统计分析、数据维护等功能。核心功能模块包括运行监测与预警、应急资源管理、应急指挥调度、应急决策支持、应急信息管理等。通过数据采集方案和数据交换共享方案，系统整合了服务区卡口、重点运输车辆动态等关键数据，实现了对交通运输运行的全面监测。 3.业务流程采用"监测-预警-响应-处置-评估"的闭环模式：实时获取交通运行数据进行监测分析并预警；发生突发事件时，系统自动启动应急响应机制，进行资源调度和指挥决策；处置完成后，系统进行效果评估和总结，为后续应急工作提供经验。

大数据、政务服务

Java、SQL、Spring Boot...

基于CNN的听歌识曲系统-网易云音乐

1.功能介绍: 该项目分为4个模块，用户注册登录，后台管理，用户主界面，各功能界面，对于使用者可利用该系统实现，歌曲的录入（单曲录入/批量录入/录音录入），听歌识曲功能，音乐分析功能（从音乐的节奏，歌词，人声等）进行按需的功能分析，可视化图表生成等，播放器功能，个性化推荐功能等以及后台界面对录入歌曲的增删改查,相关日志的管理等。 2.相关技术栈: Python（DRF、Scrapy爬虫、Librosa、PyTorch（CNN模型）、PySpark）、MySQL、AES加密、Vue 3、Django Admin（SimpleUI优化）注：补充itemCF/userCF，pandas，pyecharts，echarts，numpy，nltk，jieba

人工智能、大数据

Python、Django、Vue、Py...

词语划分

替代人工分词，支持每秒数万条文本处理（远超人工日均不足万条的效率），可批量处理金融舆情、电商评论、政务公文等非结构化文本，降低人力成本，满足各行业数字化场景下的高效文本处理需求

人工智能、大数据

Python

人脸识别

身份精准核验功能基于生物特征唯一性，实现毫秒级快速身份匹配，支持移动端、终端设备（如门禁机、考勤机）适配，可应用于政务身份核验（如社保认证）、支付身份确认、机场 / 车站安检身份核查等场景，替代密码、实体卡等传统验证方式，确保身份信息真实对应。高效管理赋能功能为企业、机构提供自动化管理支持：在考勤场景中，自动识别员工人脸完成签到，无需人工统计；在门禁管理中，无需采购、维护实体门禁卡，减少卡片丢失 / 补办成本；同时降低密码系统维护、人员信息核对的人力成本，提升整体管理效率。提高人脸识别精度

人工智能、大数据

MATLAB、Python

大数据 算法模型 软件定制 案例

大数据算法模型软件定制案例