大数据软件定制案例

程序聚合软件案例大数据

分类筛选

微信自动抢红包助手-快抢

基于Auto.js开发的微信自动抢红包脚本，通过监听系统通知实时响应红包消息，自动点击横幅进入聊天界面，并利用固定坐标快速点击红包和“开”按钮。脚本支持多次重试机制，确保红包被及时抢到，无需人工干预，极大提升抢红包成功率。

人工智能、大数据

JavaScript

车辆监控平台

本平台面向工业互联网与大数据场景，为企业车队提供全流程车辆智能管控服务，核心解决车辆实时监管、安全风险预警、运营效率低下等痛点，实现从 “被动追溯” 到 “主动防控” 的管理升级。核心功能路径：实时监控大屏→实时报文→轨迹追溯→数据报表分析等。具体包含：1. 实时定位，地图可视化展示车辆位置、车速、车况；2. 实时报文查询，历史报文查询，车辆状态展示，设备预警等；3. 行驶轨迹回放，支持事件溯源；4. 多维度运营报表，为车队调度、成本管控提供数据支。

大数据、工业互联网

Java、JavaScript、Vue、...

职业教育智慧大脑院校中台数据对接-智慧校园数据基座平台软件V1.0

1. 立项背景和目标为响应教育部关于建设全国职业教育智慧大脑的统一部署，落实职业教育数据治理与上报的规范要求，云南开放大学启动本项目。项目旨在搭建院校中台数据对接体系，解决现有数据上报分散、身份认证不统一、监控能力不足等痛点，实现与教育部智慧大脑平台的标准化、常态化数据对接，提升学校数据治理能力与信息化管理水平，保障核心教育数据安全合规上报与高效流转。 2. 软件功能、核心功能模块介绍本项目包含三大核心软件与服务模块：全国职业教育智慧大脑对接监控平台：提供首页概览、工作部署、数据采集、数据审核、异常告警、统计分析、系统管理等 9 大功能模块，实现对教育部要求的 98 张数据表上报情况的可视化监控、数据流向展示与异常自动预警，支撑学校数据上报全流程管理。统一身份认证平台：升级身份认证中心，支持 CAS、OAuth2.0 等多种协议，实现单点登录（SSO），涵盖身份管理、权限分配、认证审计、安全策略等核心功能，完成与学校 OA、教务、学工等现有业务系统的身份集成，并为新建系统提供标准接入能力。教育部智慧大脑数据对接服务：包含数据治理、数据整合、数据推送、集成管理、常态化检测、质量监控、运维支撑 7 大服务模块，对学校基础数据与业务数据进行清洗、标准化处理，按照教育部数据字典与数据集规范实时推送，并构建全生命周期的数据治理体系，保障数据质量与上报合规性。 3. 业务流程、功能路径描述数据上报业务流程：学校业务系统产生原始数据 → 经统一身份认证平台完成身份校验与权限控制 → 数据进入对接监控平台进行采集与预处理 → 数据治理模块完成清洗、校验与标准化 → 推送至教育部智慧大脑平台 → 监控平台实时展示上报状态、异常告警并生成统计报表 → 运维人员通过系统管理模块处理问题并优化流程。功能路径示例：数据监控路径：登录系统 → 首页概览 → 数据上报监控 → 选择数据表 → 查看上报详情与异常信息 → 触发数据重推或问题排查。身份认证路径：用户访问业务系统 → 跳转至统一身份认证平台 → 完成身份验证 → 单点登录至目标系统 → 系统后台记录认证日志与权限审计信息。

大数据、在线教育

SQL、MySQL

数据链路搭建-DPO数据链路

在人工智能领域飞速发展的背景下，抖音集团正积极投入建设具备世界领先水平的内部多模态大模型。该模型旨在深度理解和生成结合文本、图像、视频、音频等多种模态的数据，以此赋能集团旗下多样化的产品与业务场景（如内容推荐、智能创作、用户交互、内容审核等）。为了确保这些强大的多模态大模型不仅具备卓越的性能，更能精准对齐人类偏好（Human Alignment）、提升其安全性、有用性、一致性与个性化表现，我们引入了 **Direct Preference Optimization (DPO)作为关键的后训练（Post-training）** 策略。DPO 通过利用人类偏好反馈数据直接优化模型，相比传统的 RLHF（基于强化学习的人类反馈）流程更高效、稳定。本项目的核心目标正是 ——构建一个高效、稳定、可扩展的端到端数据链路，为 DPO 训练提供高质量、高通量的结构化数据。这一数据链路的搭建，是确保我们的多模态大模型能够持续迭代、不断优化、最终在复杂现实场景中表现卓越的基石。它不仅将加速模型迭代周期，更是我们在下一代 AI 技术竞争中保持领先的关键一步。本项目的核心在于设计与实现一个自动化、智能化的DPO 训练数据生产平台。其核心功能可概括为三个紧密相连的阶段：大规模、周期性数据采集与整合：平台将具备强大的数据集成能力，能够定期、自动化地从集团内部多样化的原始数据源（如用户交互日志、内容创作数据、搜索查询、运营反馈、模型推理日志等）以及特定外部数据集获取海量多模态数据。确保数据的新鲜度、全面性和多样性，为后续的精细化标注提供充足的 “原材料”。高度定制化与智能化的复杂标注工作流：平台将支持一个多阶段、多模态融合、且深度定制化的标注链路。此环节并非简单的标签分类，而是专注于DPO 训练所需的偏好型数据构建。它将引导专业标注员或通过 AI 辅助标注，根据预设的严苛评估标准（如安全性、事实准确性、逻辑连贯性、指令遵循度、创意性、语气风格等），对模型在特定 Prompt 下的多个响应进行优劣排序、对比选择，乃至识别并生成对抗性样本。此流程将针对多模态内容的特点，支持文本 - 图像、文本 - 视频等多维度关联信息的标注与评估。标准化、可追溯的 DPO 训练数据输出（Pair 对数据）：最终，数据链路将把经过复杂标注处理后的信息，精确地格式化为 DPO 训练框架可直接消费的 “Pair 对数据”。这意味着，对于给定的一个 Prompt 或上下文，我们将输出至少包含一个 **“偏好响应（Preferred Response）”和一个“拒绝响应（Rejected Response）”** 的结构化数据对。这些数据将包含必要的元信息（如评估维度分数、置信度、标注员 ID、时间戳等），确保数据质量高、可追溯，并可直接无缝地灌入集团的 DPO 训练系统，为模型的持续优化提供高质

人工智能、大数据

Python、PyTorch、Ray

Python足彩数据采集与清洗系统

【立项背景】客户需要获取近两年中国体育彩票“14场胜负”游戏的详细开奖数据，包括每期14场比赛的场次编号、对阵球队、赔率、比赛结果以及大奖金额，用于数据分析和研究。由于该数据无官方API且分散在多个网页，手动收集效率极低，因此开发此自动化采集工具。【核心功能】 1. 自动采集：根据用户输入的起始和结束期号，循环请求目标网站获取每一期详细页面。 2. 数据解析：从HTML中提取14场比赛的主队、客队、比分、百家平均赔率（胜/平/负）以及开奖奖金信息。 3. 数据清洗：将比分自动转换为标准赛果（3/1/0），从赔率字符串中拆分出胜、平、负三列，处理缺失数据。 4. 自动跨年：支持期号自动跳转（如从25年最后一期跳至26年第一期），实现连续采集无需人工干预。 5. 数据导出：将多期数据合并后导出为一份完整的Excel文件。

内容平台、大数据

Python、Apache Nutch、...

人力资源及劳动力数据分析系统

基于微软BI平台（Power BI + Sql Server Analysis Service），从0到1打造了SaaS模式的人力资源数据分析产品，涵盖人事分析、考勤分析、薪资分析。系统自动将客户的人员数据、考勤数据、薪资数据接入系统，系统就为客户提供完整的分析图表或报表（请参阅工作经历部分，有系统技术亮点介绍），目前超过150家客户使用，得到了客户的一致好评。

大数据

Microsoft SQL Server...

文件批处理重命名工具Demo

项目说明：该项目基于C++和QT进行编写，主要用于针对大量文件命名杂乱的批处理操作。达到进一步减少重复性工作和提升工作效率。主要功能： 1.添加多个文件到处理列表 2.替换文件名中的特定字符串 3.添加前缀和后缀 4.序号模式重命名 5.实时预览新文件名

大数据

C++、Qt

GAMECO机位自动化系统

为优化机场地勤资源配置，需要基于动态的维修需求与多变的航班计划，设计并实现一套智能机位自动排程算法。该算法需综合考虑机位特性、航班类型与保障时间窗，通过高效建模与求解策略，在满足各类约束的前提下最大化机位利用效率，减少航班延误与资源闲置，从而显著提升机场整体运行效能。

物流仓储、大数据

Spring Boot、Vue、Mong...

在线EXCEL

1.立项背景和目标:主流BI工具都缺少Excel的操作和手感,希望产品能弥补这块空白 2.软件功能: 1)前端支持大数据量的更新,因为是懒加载,每次只加载100行,且会把内存里边旧的信息清理,因此,可以实现Excel支持100万+级的数据,在B/S上显示 2)类Excel的手感,可以支持列冻结,筛选,复制粘贴,创建新的Sheet,使用100多个公式 3)存储采用Parquet/Lance文件格式,Excel支持读取Parquet文件,保存Lance文件,可以支持在线Excel的时光机能力 4)与DataFusion,Arrow的数据引擎关联,理论上可以对接主流数据源,目前仅支持Oracle,SQLite,CSV/EXECL的数据关联,并生成Excel表格

大数据

Rust

自动化测试-网页登录测试

随着Web应用迭代速度加快，手动回归测试效率低且易遗漏问题。为保障百度等网页功能稳定性，立项开发Selenium自动化测试工具，目标是将回归测试效率提升60%，并实现核心功能的每日自动验证。软件功能、核心功能模块：核心功能包括网页自动访问、元素定位与交互、结果断言验证、测试报告自动生成。主要模块分为：驱动管理模块（自动匹配浏览器版本）、用例执行模块（支持多线程运行）、结果校验模块（验证页面标题、状态码等）。业务流程、功能路径描述：用户配置目标网页URL与测试用例 → 系统初始化浏览器驱动 → 自动执行访问、交互等测试步骤 → 实时校验页面响应与元素正确性 → 生成包含用例通过率、响应时间的测试报告 → 自动关闭浏览器并释放资源。

大数据

Java

cv, nlp, data-analysis

LLM微调，CV，NLP多个项目经历： yolov8，yolov11，yolov12，yolo26应用，优化，集成 swin-tf，U-net，VIT分割，识别，分类，标注 RAG，情感分类，分词，生词，熟练应用BERT 可嵌入到软件，网页中，需后端可接入一些LLM（如GPT，DS等）的API 可接中型/小型软件开发可接科研项目，论文复现，AI/大数据/数据分析都可

人工智能、大数据

PyTorch、Transformers

出租车信息大数据处理

建立一个基于出租车大数据的智能分析系统，通过机器学习算法挖掘数据价值，为城市交通管理、出租车运营优化和乘客出行提供决策支持，高频轨迹分析目标，从海量数据中识别城市主要出行走廊，可视化展示高频出行模式，为交通流预测和路径规划提供基础，公共交通优化目标，识别出租车上下车热点区域，分析现有公共交通覆盖盲区，提出新公交线路规划建议，提高公共交通资源利用效率，运营效率提升目标，预测出租车接客热点区域，为司机提供实时巡航建议，为乘客推荐易打车地点

大数据、出行

Python

营销云CEP-营销云CEP

1、项目简介: CRM+企微营销+数据分析 2、相关技术:spring cloud alibaba、dubbo、nacos、xxl-job、mybatis-plus、mysql、mongodb、redis、kafka、elasticsearch、impala、kudu、git、maven等 3、功能模块: （1）企微辅助机器人(RPA)：对接X-Bot/计费/智能客服客户端、后台配置功能、企微会话存档消息处理、触发转人工处理、超时回复提醒等（2）订单管理：查询订单/导入结果、错误报表下载、打标签/批量打标签、订单来源管理等（3）营销短信：对接V7计费/短信平台、群发短信管理、发送短信、结果统计、分配客户跟进人等（4）首页看板：用户指标统计、最近n天新增用户统计图表、营销指标统计、KPI设置等（5）其他模块：用户标签、模板管理、微信公众号绑定、业务数据、ETF实盘大赛等模块（6）跨部门对接 1）呼叫中心：接入坐席数据并上报到ETL、坐席相关指标统计、对接BI平台输出坐席监控报表 2）SCRM：接入企微会话存档、基础数据(员工、客户等数据)并上报ETL

广告营销、大数据

Kafka、MySQL、Redis、Sp...

博时基金数据治理管控平台

基于公司的数据中台产品，根据博时基金的项目需求，进行定制化开发落地实施。包括数据治理（数据标准、元数据、数据质量管理）、数据资产、数据开发、数据服务、调度中心等模块,同时对接客户需求，已经对产品改造设计，同时协助解决项目中框架问题。

大数据

Java、MyBatis、Vue、Spr...

基于爬虫的电商数据采集与分析系统

本项目是一个基于网络爬虫与 Spring Boot 的数据采集与管理系统，主要用于自动化采集电商平台商品信息，并通过后端服务进行统一存储、管理和展示。系统通过爬虫程序定时抓取商品名称、价格、销量、评价等数据，后端使用 Spring Boot 提供 RESTful 接口，实现数据入库、查询、分页展示及基础统计分析功能，帮助用户高效获取和分析网络数据

大数据

Spring Boot、Scrapy

医疗器械-医疗器械

1. 立项与背景随着医疗器械行业监管趋严、技术迭代加速，行业对高质量、结构化、可追溯的技术资料需求日益增长。为满足企业、研究机构及监管部门对国内外医疗器械相关文档（如产品说明书、注册资料、技术白皮书、临床报告等）的高效检索、安全访问与合规管理需求，本项目启动建设“医疗器械文库平台”。平台V1版本已初步完成基础文档存储与展示功能，但在海量数据处理、搜索精准度、系统扩展性及安全防护方面存在明显瓶颈。因此启动V2版本重构，目标是打造一个高性能、高可用、可服务化的专业文库系统，支撑千万级文档规模下的快速检索、权限控制与内容安全。 2. 软件功能与核心模块介绍整体功能概览：智能搜索：基于 Elasticsearch 的全文检索，支持关键词、器械分类、注册证号、厂商等多维度组合查询权限体系：基于角色与文档密级的细粒度访问控制核心模块详解：智能搜索优化模块重构 Elasticsearch 索引策略，引入同义词库、分词优化（针对医疗器械专业术语）支持模糊匹配、拼音首字母检索、语义相关性排序查询响应时间从 V1 的 1.2s 优化至 200ms 以内（千万级数据）实现基于 Redis 的请求频率限制（IP + 用户维度） 3. 主要业务流程用户输入关键词 → 前端调用搜索接口 → 后端路由至搜索服务 → 查询 Elasticsearch 并融合权限过滤 → 返回结果列表 → 用户点击某文档 → 验证访问权限 → 渲染带水印的在线预览页并提供受控下载

内容平台、大数据

基于spring boot 后端的英语四六级学习

系统采用前后端分离架构，后端基于 Java 语言搭建 Spring Boot 框架，整合 MyBatis-Plus 实现数据库高效操作，依托 MySQL 完成数据存储，通过 BCryptPasswordEncoder 保障用户信息安全；前端基于 Android 原生开发。核心开发工具包含 IntelliJ IDEA、Android Studio 及 Navicat。系统核心功能覆盖三大核心场景：课程管理模块支持课程、章节、小章节的层级化创建与展示，实现课程内容的结构化管控；互动交流模块提供帖子发布、评论、点赞、收藏等功能，支持图片上传与内容检索，强化用户间学习交流；习题训练模块支持按课程、题型筛选习题，实现习题增删改查及答题反馈，满足个性化学习需求。整体系统适配移动端使用场景，兼顾实用性与易用性，为在线教育提供轻量化、高效的解决方案。

大数据、生活服务

Java

搭建智能助手-智能助手

1.理解智能助手的核心系统架构与功能模块（对话交互层、核心引擎层、工具集成层），掌握 “用户输入 - 意图识别 - 响应生成” 的完整工作流程。 2.学会两种智能助手搭建方案的实现：一是调用公开大模型 API（如 OpenAI API）实现云端交互，二是本地部署 Ollama 大模型（如 Llama 3）结合 Streamlit 构建私有化对话界面。 3.掌握 Streamlit 库的使用方法，实现可视化对话界面（含历史消息展示、输入框、模型切换功能），理解前端界面与后端逻辑的数据流转机制。 4.掌握智能助手核心功能（基础问答、任务处理）的集成方法，能通过测试案例验证交互效果，优化响应速度（如设置超时控制）与准确率（如添加意图纠错）。培养系统设计与问题排查能力，能分析不同搭建方案的优缺点（如云端 API 的便捷性 vs 本地部署的隐私性），并根据需求选择合适方案。

人工智能、大数据

Python

超大规模路网仿真电子地图提取软件

此系统是根据超大规模路网仿真电子地图提取需要，完成路网电子地图提取功能模块的系统开发和部署，该模块用于路网仿真地图的展示、提取和下载。系统支持地图瓦片图展示，选择适合的地图服务，集成所需地图服务API，实现地图瓦片图的加载和渲染。支持矢量路线图展示，在本地实现OSM矢量路线地图的集成，以支持矢量图的快速提取。供提取的地图数据应保持准确性和完整性，能覆盖四川全省范围。应提供一个直观的用户界面，允许用户浏览、缩放和平移地图。实现矢量数据的提取逻辑，支持按需提取特定区域的路网数据。通过页面刻画几何图形，选择并提取几何图形范围内部的路网的电子地图数据。系统提供数据下载功能，允许用户下载提取的矢量路网数据。所下载的电子地图数据应处理为GeoJson格式。下载的数据包括道路路线、道路节点等矢量地理数据，道路类型包括高速公路、快速路、城市道路等。

大数据、云计算

Java、Node.js、SQL

车路协同智能网联监管平台

此平台以智能网联汽车落地应用为抓手，通过广泛开放应用场景，建设“全域联动、多场景应用、多维度考核”的自动驾驶运营监管平台，构建具有实用性、特色型的质量网联汽车监管应用综合平台。平台通过融合交通路况数据、路侧感知数据、车辆状态数据以及第三方数据等多维度数据源进行全面的数据采集、汇聚和管理，通过数据分析、挖掘以及可视化展示等方式，并融合现在通信与网络技术，实现车、路、人、云端等智能信息的交换、共享，具备智能数据分析、智能化监管、多维度考核、协同运营管理等功能。平台实现的功能包含：拥堵态势感知监测、车辆运行监测、数据质量监管、企业测试管理、信息监管审批管理、车辆事故监测、数据共享监管、多维度数据报表管理、数据总览监控、考核管理、知识库以及移动端应用等功能体系。平台整体可实现安全、高效、人性化的监管需求。

物联网、大数据

Java、Node.js、SQL

大数据 软件定制 案例

大数据软件定制案例