爬虫/脚本软件定制案例

程序聚合软件案例爬虫/脚本

分类筛选

微信自动抢红包助手-快抢

基于Auto.js开发的微信自动抢红包脚本，通过监听系统通知实时响应红包消息，自动点击横幅进入聊天界面，并利用固定坐标快速点击红包和“开”按钮。脚本支持多次重试机制，确保红包被及时抢到，无需人工干预，极大提升抢红包成功率。

人工智能、大数据

JavaScript

RPA的SAP BW运维监控-SAP

本项目旨在解决 SAP BW 系统运维中人工监控效率低、响应滞后、易遗漏异常的痛点，通过 RPA 机器人替代人工，实现对 SAP BW 数据加载、任务执行、系统状态的 7×24 小时自动化监控。核心功能模块包括： SAP BW 监控模块：RPA 自动登录 SAP 系统，定时检查 BW 进程、数据加载任务、系统日志及关键指标，识别任务失败、数据异常、系统告警等问题。智能通知模块：当监控到异常时，RPA 触发微信消息推送，将异常详情、影响范围、建议处理措施实时推送给运维人员；同时可调用 Python 接口，通过电话语音或系统声音输出进行二次告警，确保关键问题不被遗漏。辅助识别模块：集成 Python OCR 图片文字识别能力，自动解析 SAP BW 监控截图中的关键信息，补充到告警内容中，提升问题定位效率。业务流程为：RPA 定时巡检→发现异常→触发多渠道告警→运维人员接收并处理→RPA 记录处理结果并归档，形成闭环运维监控体系，大幅降低人工成本，提升运维响应速度和系统稳定性。

人工智能

Python

为解决电商从业者手动整理商品信息效率低的问题，我用 Python 开发了一款自动爬取公开商品列表的小工具，能按设定的关键词抓取商品名称、价格和销量信息，并自动整理成表格格式，帮助快速汇总竞品或目标类目的基础数据，降低人工整理的时间成本。该工具仅支持爬取用户授权或平台公开可商用的非版权类图片与基础数据，不涉及影视、付费素材等有版权保护的内容，全程遵守网站 robots 协议和数据使用规范，确保爬取行为合法合规

电商

Python

Bilibili爬虫及部署工作

独立负责B站数据持续化采集模块的工业级开发与部署，为下游大模型提供高稳定性、高质量的多模态语料库。基于 Python 与 Scrapy 构建高可用爬虫架构：设计动态重点监控机制，支持灵活配置目标 UP 主，实现对其视频元数据、弹幕及评论区互动文本的自动化、高频次定向追踪与全量抓取。设计并实现完整的数据 Pipeline：在 Scrapy 管道层完成原始脏数据的去重、脱敏与初步清洗，并将结构化数据高效持久化存储至 MySQL 数据库，保障了数据读取与模型调用的高效衔接。完成项目的容器化交付：运用 Docker 容器化技术对整个采集模块进行独立打包与自动化部署，屏蔽了环境差异，大幅提升了系统的可移植性与长期运行的稳定性。

云计算

Python、Django、Scrapy

智慧金融爬虫数据采集系统

1.立项背景和目标：需要对主流金融网站上的常见金融指标数据进行分析，需要获取实时的数据做量化分析 2.软件功能、核心功能模块的介绍：(1) 爬虫任务定时执行、任务状态检测平台采用dolphinschduler开源框架 (2) 爬取数据采用request,selenium,playwright,rpa,scapy等框架（3）反爬技术框架采用js逆向、滑块验证码、图片数字验证码、ocr图片识别技术（4）数据库采用mongoldb,oracle,后端技术采用flask框架 3.业务流程、功能路径描述：爬取主流金融网站的数据、图片、excel文件、html信息，解析、提取、转换其中的数据并落入数据库中，通过接口的形式推送到业务系统做展示

电商、金融

Python、Scrapy、Seleni...

电商商品数据采集脚本-电商商品数据采集脚本（基于 Python 的商品信息爬取与分析工具）

本项目是一个面向电商平台的商品数据采集脚本，可自动抓取指定分类下的商品名称、价格、销量、评价数等关键信息。脚本支持定时任务执行，可将采集到的数据清洗、去重后导出为 Excel 文件，为市场分析和竞品监控提供数据支持。核心功能包括：模拟浏览器请求绕过反爬机制、多线程并发采集提升效率、数据清洗与结构化存储。

电商

Python

城市公交大脑 -城市公交大脑

公交大脑是一个立体化公交服务平台，包括系统管理系统，基础信息系统，客流分析系统，排班系统，线网优化系统五大模块。公交大脑收集，管理，融合，挖掘公交相关数据。解决政府、公交企业迫切需要了解公交客流数据的问题。目前已经实现前四个系统并在贵阳，深圳，西安,宁波上线。线网优化系统计划2020年初上线。公交大脑大数据平台采用CDH5.12.0社区版搭建，本地大数据测试集群服务器为6台。组件有HDFS，Hive,Spark2.0,YARN(MR2),ZooKeeper,Sqoop,Hue,Oozie,Hbase,Flume。公交大脑web应用后台采用微服务架构，具体为16个微服务。其中基础的有Eureka服务，配置中心服务，网关服务，ZipKin服务，Turbine服务，Security服务，相应的模块服务。每个模块对应生产者和消费者。前端主要使用的是vue框架。 1. 数据采集 A) GPS数据采集，通过socket形式获取数据流，处理完存储在HDFS上。阿里云备份一份。 B) IC卡数据通过脚本从数据库获取到数据，存储在hdfs上。 C) 线路基础信息从数据库中查询。 2. 数据清洗清洗阶段主要通过MapReduce进行清洗。在清洗阶段会调用算法，对数据进行计算。具体有上下车算法，到离站算法，换乘算法等。 3. 数据仓库该层是清洗过后的数据，是一致的，干净的，规范的。具体有三张表,分别是GPS,IC,BUS三张底表。 4. 数据APP层(应用层) 该层所有表以app开头，通过hive或sparksql将计算出的数据导入mysql表中。为具体业务服务提供数据。 5. Web展示 Web应用采用微服务架构java语言编写，前端主要使用vue框架进行页面展示。

出行、汽车

Java、JavaScript、Pyth...

华为智能AI音箱系统

核心负责华为AI智能语音音箱的时间/日程/闹钟核心模块全流程开发：时间算法：攻克自然语言时间解析难点，设计多场景时间提取算法，精准解析用户语音输入中的时间信息（含多日期、多时间节点），适配中文多样化时间表述（如 “明天下午3点”“下周二上午10点到12点” 等），保障时间解析准确率；高并发性能优化：重构闹钟服务多线程调度逻辑，针对百万级用户并发触发闹钟的场景做性能调优，通过线程池复用、任务分片、锁粒度优化等手段，将系统响应时间缩短 20%，支撑高并发场景下的服务稳定性。

人工智能

Java、Python、MySQL、Re...

基于大模型NLP与游资动量特征的A股智能决策系统

1、立项背景和目标散户获取股市消息面的渠道分散（新闻联播、财经频道、交易软件、财务报表等），且面对海量资讯时，人类大脑无法在盘中极短时间内完成“阅读->情绪判断->结合盘面->交易决策”的闭环。本项目旨在解决这一痛点，开发一款“全维量化监控系统”。目标是将国内顶尖短线游资（如“92科比”）的盘面量价心法（硬数据）与基于深度学习的大语言模型（LLM）新闻情感分析（软数据）相结合，实现盘中毫秒级的自动化盯盘与决策辅助。 2、软件功能、核心功能模块的介绍系统主要包含三大核心模块：高频行情嗅探模块 (Market Scanner): 绕过繁琐的全市场扫描，直连新浪财经API，实时抓取全市场“高换手率”的活跃资金流向，计算涨跌停家数与市场平均溢价，生成“游资情绪仪表盘”。量化规则引擎 (Strategy Logic): 基于短线打板心法，内置多重过滤漏斗（剔除ST/退市、锁定5-50元黄金价格带、筛选5%-25%异动换手率、大于2亿成交额的右侧上涨股），精准锁定核心龙头。 AI 舆情雷达模块 (AI News Sentiment): 针对初筛出的龙头股，自动化调用东方财富搜索接口，抓取最近7天的相关新闻。并载入本地部署的 Erlangshen/FinBERT 中文金融自然语言处理模型，对资讯标题进行语义理解，输出“利好/利空/中性”的AI判别及置信度。 3、业务流程、功能路径描述系统的业务路径为一条高度自动化的流水线：启动系统 -> 初始化本地NLP大模型 -> 触发定时扫描 -> 拉取新浪实时活跃行情 -> 执行量价策略筛出Top 5目标股 -> 对Top 5目标触发定向新闻爬虫 -> 大模型阅读新闻并打分 -> 融合行情与消息面，终端输出带表情包的可视化决策看板。

金融

Python、Selenium

Python足彩数据采集与清洗系统

【立项背景】客户需要获取近两年中国体育彩票“14场胜负”游戏的详细开奖数据，包括每期14场比赛的场次编号、对阵球队、赔率、比赛结果以及大奖金额，用于数据分析和研究。由于该数据无官方API且分散在多个网页，手动收集效率极低，因此开发此自动化采集工具。【核心功能】 1. 自动采集：根据用户输入的起始和结束期号，循环请求目标网站获取每一期详细页面。 2. 数据解析：从HTML中提取14场比赛的主队、客队、比分、百家平均赔率（胜/平/负）以及开奖奖金信息。 3. 数据清洗：将比分自动转换为标准赛果（3/1/0），从赔率字符串中拆分出胜、平、负三列，处理缺失数据。 4. 自动跨年：支持期号自动跳转（如从25年最后一期跳至26年第一期），实现连续采集无需人工干预。 5. 数据导出：将多期数据合并后导出为一份完整的Excel文件。

内容平台、大数据

Python、Apache Nutch、...

小分子 HOMO-LUMO Gap 预测

1. 背景与目标 PCQM4Mv2 是一个基于图神经网络(GNN)的分子属性预测项目，旨在解决量子化学分子特性预测的挑战。该项目使用了 Open Graph Benchmark (OGB) 中的 PCQM4Mv2 数据集，这是一个大规模的量子化学分子数据集，包含约 400 万个分子的量子力学性质预测任务。项目目标： - 提供完整的工具链，从数据下载、预处理到模型训练和评估 - 实现基于 PyTorch Geometric (PyG) 和 Deep Graph Library (DGL) 的基线模型 - 为研究人员和开发者提供一个标准化的框架，用于开发和测试分子图神经网络模型 - 支持用户生成符合 OGB 竞赛要求的提交结果 2. 功能模块介绍 2.1 数据处理模块 - 数据下载：从 OGB 官方服务器下载 PCQM4Mv2 数据集的 SDF 文件 - 数据验证：使用 MD5 校验确保下载的数据完整性 - 数据提取：解压缩 SDF 文件 - 图构建：使用 RDKit 将分子的 SMILES 表示转换为图结构，包括原子特征和键特征 2.2 模型训练模块 - PyG 基线：基于 PyTorch Geometric 实现的图神经网络模型 - DGL 基线：基于 Deep Graph Library 实现的图神经网络模型（可选） - 训练配置：支持自定义设备、批量大小、训练轮数等参数 - 模型保存：自动保存最佳模型检查点 2.3 评估与提交模块 - 性能评估：计算预测结果的平均绝对误差 (MAE) - 提交生成：生成符合 OGB 竞赛要求的测试提交文件 - 结果可视化：使用 TensorBoard 记录训练过程和性能指标 3. 功能路径描述 3.1 环境搭建与数据准备 1. 环境配置： - 创建并激活 conda 环境 - 执行 install_rdkit.sh 安装 RDKit（分子处理库） - 执行 pip install -r requirements.txt 安装 Python 依赖 2. 数据下载与预处理： - 下载 SDF 文件： python download_and_preprocess.py --root dataset/ --download-sdf --extract - 构建 OGB 数据集（图结构）： python download_and_preprocess.py --root dataset/ --build （可能需要数小时） 3.2 数据集使用 - SMILES 操作演示： python dataset_demo.py （仅使用 SMILES 表示的操作，快速运行） - 评估器演示： pyth

医疗健康

Python

自动删除脚本

核心功能：定时（可配置间隔）、定量（可配置删除数量）清理指定文件夹中最早创建的文件，且只删文件不删文件夹；日志功能：所有操作（文件夹不存在、无文件可删、删除成功 / 失败、清理结果）都会记录到桌面的日志文件中，方便追溯；兼容性：采用原生批处理语法，兼容所有 Windows 版本，无需额外依赖。

企业内部管理

Python

xx业务系统

项目名称：松下生产线综合数据管理与分析平台项目简介： 1. 立项背景和目标随着松下生产制造规模的扩大，各生产线每日产生海量数据，但传统手工统计方式导致数据分散、反馈滞后，难以支撑快速决策。本项目旨在构建一套内部管理系统，通过对生产线每日数据的自动化整合与可视化，打破信息孤岛，实现生产状态的实时监控与透明化管理，最终达到提升生产效率、降低运营成本的目标。 2. 软件功能、核心功能模块的介绍系统核心围绕数据全生命周期管理，主要包含四大模块：订单管理模块：实时追踪订单进度，从下单到交付进行全链路状态监控。生产线管理模块：核心模块，实时采集并展示每日产量、设备稼动率及良品率，支持异常预警。营销管理模块：整合市场销售数据，分析产品流向与销售趋势，辅助制定营销策略。售后服务模块：记录售后反馈与维修数据，通过数据反哺生产，助力质量追溯与改进。 3. 业务流程、功能路径描述系统业务流程主要分为三步：首先是数据采集，各产线终端每日自动上传生产与订单数据至服务器；其次是数据处理，系统对数据进行清洗、分类与聚合；最后是可视化应用，管理人员登录系统首页，通过数据大屏或进入具体子模块（如点击“生产线”查看当日产能报表），依据图表分析结果调整生产计划或营销策略。

企业内部管理、政务服务

JavaServer Faces (JS...

电商爬虫系统

电商运营与竞争监控用于实时追踪竞争对手的商品定价、促销活动、用户评价和库存变化，辅助自身进行动态定价、选品和营销策略调整。市场研究与商业分析服务于咨询公司或企业内部，自动化采集市场数据，用于分析行业趋势、市场份额、新品动态和消费者偏好，生成洞察报告。品牌与渠道管理帮助品牌方监测其在各大电商平台上的产品价格是否统一、是否存在未授权销售（窜货），并收集用户反馈以维护品牌声誉。投资分析与供应链情报为投资机构提供非财务的运营数据（如热销度、市场反响），辅助评估目标公司价值；也可用于发现潜在供应商或分析供应链情况。学术研究与价格聚合高校或研究机构可将其用于消费者行为、平台经济学等领域的定量研究；个人或比价网站则可用于构建跨平台的价格聚合与比价服务。

电商

Python、Redis

爬虫计划-简单爬虫

该项目主要是服务于社会上的各类客户，因为在互联网的时代，数据就是金钱。这个项目开始就是以爬虫获取数据为核心而展开的。我自己制作了一个脚本进行爬取工作，觉得挺有意思的，可以闲暇时刻赚点零花钱

电商、社交

Apache Cassandra、SQL...

UCB CS170

主要算法的核查与检测，主要包括： 1.递归关系求解， 2.分治算法（如快速傅里叶变换、整数乘法）， 3.图的基本概念与DFS/BFS应用， 4. 强连通分量与拓扑排序 5. 最短路径算法（Dijkstra、Bellman-Ford） 6. 最小生成树（Prim、Kruskal）与联合查找（Union-Find） 7. 贪心算法正确性证明（如哈夫曼编码） 8. 网络流与二部匹配初步 9.动态规划建模与状态转移 10. 线性规划与单纯形法原理 11. NP-完全性理论与归约技巧 12. 近似算法与随机化算法思想

在线教育

Python

维基平台内容管理机器人-neot-bot

能够抓取统一的/status数据看板，根据预设的分数阈值自动处理不同类型的条目，例如，分数低于-2分，可以自动标记待删除标签，并发布宣告，并自动监控倒计时是否结束。功能要点： - 可以自动监控条目分数，如果分数达到阈值，自动发布不同阶段的宣告帖文及标记标签 - 可以监控条目后续分数变化，例如分数回升、被标记重写或豁免等情况，并分情况调整或者执行其他处理操作 - 可以自动监控条目倒计时是否结束并自动删除

内容平台

Node.js、Puppeteer

沙轨道交通客流预测项目-流量预测

将历史的日期特征和天气特征数字化，结合历史客流量得到输入数据，组合为LSTM算法的输入，并将LSTM算法的输出经过全连接神经网络得到未来一天的客流量预测值，最后将未来一天的日期和天气特征通过另一个全连接神经网络计算得到一个权值，修正客流量预测值，为地铁运营部门提供参考，提前调整地铁运行系统。目前主要是预测整条线路的天粒度的客流量。

人工智能

Python

台账管理平台-企业内部系统

立项背景与目标该系统是在公司生产中心高强度投诉处理与外呼电销业务背景下立项的核心生产支撑系统。随着订单规模快速增长，原有通过Excel、邮件和人工台账的方式已无法支撑多角色、多环节、多状态的订单闭环管理，导致工单丢失、进度不可追溯、责任不清晰等问题。项目目标是打造一个覆盖“订单受理—分派—处理—回访—归档”的全流程工单系统，实现订单状态、责任人、处理节点的全程可视化与可追溯。软件功能与核心模块系统以“工单”为核心对象，支持灵活的业务建模与流程配置。目前已沉淀98个业务场景模板，覆盖投诉处理、外呼回访、复核、补单等多个生产场景。核心功能包括： 1、多场景工单模板引擎（字段、流程、节点可配置）； 2、工单流转与状态管理（待处理、处理中、待回访、已完成、异常等）； 3、订单信息同步与修正（电话号码、地址、审单回退等）； 4、操作日志与责任追溯； 5、多角色协同（投诉处理人员、外呼人员、调度人员）；系统已承载订单数据148.7万条，支撑生产人员日均处理工单3000+单，是生产中心的核心生产系统之一。业务流程与功能路径订单从其他运营平台进入后，由系统通过接口或自动抓取同步到该系统，进入对应业务场景工单。调度人员在系统内进行分派，工单流转至投诉或外呼坐席处理，处理结果实时回写，必要时可触发电话号码更新、地址修正或审单回退。所有处理过程全程留痕，最终进入归档与统计分析，实现真正的生产闭环管理。

企业内部管理

Python、Flask、React N...

闲鱼代拍

身份验证：通过 Cookie 模拟用户登录精准筛选：支持关键词搜索（如 “雪单 v”）、价格区间设置、过滤词屏蔽（跳过指定关键词的商品），精准定位目标商品。并发控制：可设置下单线程数（如 3 线程）、爬取页数、目标下单数量，平衡抢单效率与风控风险。防封机制：支持代理 IP 切换（默认开启）、下单间隔自定义、循环下单模式，降低账号被封禁概率。 2. 核心操作层一键启停：支持 “开始爬取并购买”“暂停下单”“停止所有任务” 等操作，灵活控制任务生命周期。状态重置：提供 “清除日志”“清空商品 ID 记录”“重置订单计数” 功能，方便任务复用与排查问题。 3. 监控反馈层实时日志：显示爬取数量、无效商品数、过滤结果、下单成功记录等，全程可视化监控任务进度。状态告警：任务完成、代理状态变化等关键节点自动提示，便于及时干预项目实现后端核心：Python（爬虫与并发处理生态成熟），结合requests/aiohttp实现 HTTP 请求，BeautifulSoup/XPath解析页面。 GUI 界面：PyQt5/Tkinter（快速开发桌面应用），实现参数配置与日志展示。代理与风控：自建代理池 + 第三方代理 API，配合faker生成随机 UA、请求间隔随机化。打包分发：PyInstaller 将脚本打包为 exe，降低用户使用门槛

电商

Python、MySQL、Redis

爬虫/脚本 软件定制 案例

爬虫/脚本软件定制案例