爬虫/脚本软件定制 | 软件外包案例-程聚宝

通用公开数据采集系统-支持多平台合规数据爬取与自动化导出

针对企业手动采集公开数据效率低、易出错的痛点，开发了这套通用合规数据采集系统。核心功能包括静态网页数据自动抓取、数据清洗去重、Excel/CSV结构化导出、批量任务调度与实时进度显示。系统全程遵守robots协议与网站访问频率限制，采用Python+Requests实现稳定请求，确保合规爬取公开数据，无需客户额外配置环境即可运行。

电商、大数据

Python、Scrapy

数据获取

跨境物流公司的信息收集客户是做跨境电商服务的，需要联系跨境目标国家靠谱的物流公司的相关情况，以供公司进行下一步商务活动，在目标网站获取以下相关信息公司名称公司地址公司网址联系电话负责人名字

内容平台

Python

微信多任务定时自动发消息工具

行业场景当下老板、教师、老板、各行业领导每次在某个特定时间段需要在微信群发送某些特定消息时，总是需要手动操作，且有时还需要熬着时间，这极大的增大了精神/身体双疲劳，所以就开发了这款多任务定时自动发送微信消息的工具功能介绍 1.该项目主要有任务添加模块：指定联系人模块、自定义定时模块、任务执行模式（单次/循环）模块、自定义发送内容模块、添加任务功能按钮、任务增删改查模块。 2.主要为用户输入指定的联系人 /群的名称或备注后，根据需要自定义时间，设定任务的执行模式，输入自定义发送内容，最终点击新建任务，那么该任务就会被添加到右侧的任务栏，任务栏中的任务支持增删改查。

电商、企业内部管理

Python

电商商品价格监控系统-电商比价助手

1. 针对电商平台（淘宝、京东等）的商品价格变动监控需求，开发了一套自动化数据采集与分析系统。 2. 核心功能包括：定时抓取目标商品页面信息、自动提取商品名称/价格/销量/评论数、价格波动异常实时提醒、历史价格趋势图表生成。 3. 技术方案采用 Python + requests + BeautifulSoup 进行数据采集，pandas 进行数据清洗与统计，openpyxl 生成标准化 Excel 报告。系统支持批量配置监控任务，每日自动运行并将结果通过邮件推送。 4. 已成功应用于某小型电商运营团队的竞品分析场景，日均处理约 500 条商品数据，帮助客户节省了 80% 的手动查价时间。

电商

AutoHotkey

期货交易信号量捕捉

1.获取期货当前行情价格 2.获取最新每一天的布林带上下轨 3.当价格接近上下轨时捕捉信号，让AI分析当前做空还是做多，AI提示做空/做多买入该产品，推送微信公众号。 4.止损/移动止盈监控持仓产品，推送微信公众号 5.统计历史交易收益/当前持仓收益，推送微信公众号

金融

Python

Python脚本 / 数据采集 / 多平台数据采集系统-多平台数据采集系统

本系统是一套面向数据分析场景的多平台数据采集工具集，包含4个独立的数据采集模块： 1. A股数据采集模块：自动采集沪深A股股票列表、历史K线数据和实时行情。数据来源于腾讯和新浪公开API，支持多数据源自动切换，单次可采集全部4000+只股票的基础信息及实时价格。 2. B站数据采集模块：采集B站热门视频排行、UP主粉丝与播放数据、关键词搜索结果。可用于内容趋势分析、UP主商业价值评估。 3. 豆瓣Top250采集模块：采集豆瓣电影Top250和书籍Top250的完整榜单，包含评分、评价人数、简介、排名等信息，支持影评分析和好书推荐场景。 4. 链家二手房采集模块：支持北京、上海、广州、深圳、成都等10个城市的二手房数据采集，包含房价、面积、户型、区域、关注度等信息，可用于房地产分析。所有模块输出为标准Excel格式（.xlsx），同时兼容CSV导出，方便后续数据分析和可视化。系统内置请求频率控制和指数退避重试机制，确保稳定采集。

大数据

Python、Beautiful Sou...

米画师爬虫-爬虫

米画师图片爬虫是一款针对mihuashi.com平台的专业作品采集工具。该平台为插画师和漫画创作者提供作品展示服务，爬虫通过逆向分析其WASM签名算法，成功破解API鉴权机制，可自动获取平台上的各类原创作品。支持多种采集模式，包括关键词精准搜索、按标签分类筛选、按点赞热度或时间排序等功能，能够批量自动下载高清插画、漫画、立绘等作品图片到本地指定目录，方便用户离线浏览和收藏管理。

电商

AntiCaptcha、AutoIt、W...

代码缺陷检测系统-代码缺陷检测系统

环境及框架: SpringBoot+Spring+Maven+SpringMvc+Mybatis+Auth+Redis+Solr+Postgres+Mysql+Mongodb 项目描述: 这个项目代码缺陷检测系统是由多个项目合并开发的一款高效、全面的工具，主要用于分析和检测代码中的漏洞和缺陷以及项目开源率。系统集成了 Sonarqube 工具，能够准确分析代码文件中的问题行数，并统计 Bug、异味和重复率等指标。同时，系统还集成了美国漏洞库（如 nvd、 cve、 cpe_match），开源项目库(GitLab、GitHub、Apache)、组件(Nuget、Maven)实现与项目的集成检测，提升代码安全性和质量。责任描述: 1、负责安装配置 Sonarqube 工具，通过 GitHub 下载源码项目并搭建源码框架 2、开发 27 种语言的技术指标语言插件，包括 JAVA、Python、C、C#、TypeScript、Go、 Groovy、T-SQL、PL/SQL 等，对源代码进行改动并集成到 Sonarqube 系统中 3、利用自动化浏览器插件 FirefoxDrive 对 Sonarqube 数据进行翻译处理 4、编写各种编程语言的被测件，确保系统能够准确扫描到各种语言的漏洞 5、设计定时任务，定期更新漏洞库数据，并引用钉钉机器人在群里通知任务进度 6、编撰指标偏移表和用户手册，提供系统操作指引和技术支持 7、查看 Bug 管理系统分配的问题，确保问题及时修复 8、迁移和维护 dm 数据库和 Postgres 数据库的数据，保障数据完整性和安全性 9、与前端团队联调接口，开发用户管理模块，提升用户体验和系统功能性

大数据

Java

Python交互式小数精度计算器-小数精度控制计算工具

本工具基于Python开发，解决日常计算中需手动保留两位小数的繁琐问题。核心支持用户输入两个数值，快速完成乘除运算并自动将结果四舍五入保留两位小数，操作流程简单直观，可用于财务核算、日常数据统计等场景，帮助提升计算效率与精度。

企业内部管理

Python

办公自动化-空/重复文件夹清理工具

本项目针对电脑/服务器中大量空文件夹、重复文件夹占用空间、难以手动清理的痛点，用Python实现一键自动清理。支持批量扫描指定目录，自动识别空文件夹并安全删除，可根据文件夹名称、创建时间、内容哈希值识别重复文件夹并保留最新版本，附带操作日志记录，避免误删风险，解决手动清理效率低、易误删的问题，大幅提升文件管理效率。

企业内部管理、电商

Python、影刀RPA

办公自动化-文件批量分类整理工具

本项目针对电脑文件杂乱、手动分类耗时易错的痛点，用Python实现文件批量自动分类整理。支持按文件类型（图片/文档/视频/压缩包等）、修改时间、自定义规则自动分类，自动创建对应文件夹并移动文件，一键完成文件归档，大幅提升办公效率，解决了手动整理的繁琐问题。

企业内部管理、电商

Python、影刀RPA

办公自动化-Excel批量合并工具

项目背景：日常办公中，常需要手动合并多个格式一致的Excel表格，重复操作耗时且易出错。本项目旨在通过Python实现自动化批量合并，解决人工合并效率低、易出错的痛点。核心功能：支持批量读取指定文件夹内的所有Excel文件，自动合并为一个完整表格；可自定义合并规则，支持按表头匹配、按文件追加两种模式；合并后自动去除重复数据，支持导出为规范格式的Excel文件，附带清晰的日志记录，便于核对和追溯。业务流程：用户指定文件夹路径与合并规则 → 脚本批量读取并解析文件 → 自动合并数据并去重 → 生成最终合并文件并导出。

电商、企业内部管理

Python、影刀RPA

https://www.bestbuy.ca网站抓取商品信息

1. 立项背景和目标加拿大 Best Buy 网站商品价格变动频繁，尤其是促销、闪购、清仓等活动期间，价格可能一日多变。对于批量采购、代购、价格比对等业务场景，人工逐个查询 SKU 价格效率极低，且容易错过降价时机。本项目目标：开发一款桌面工具，支持批量导入 SKU 列表，自动调用 Best Buy 公开 API 获取商品实时价格、库存状态、卖家信息，并生成结构化报表，帮助用户快速掌握多商品价格动态，辅助采购决策。 2. 软件功能、核心功能模块的介绍本软件包含四大核心模块： Excel 导入模块：支持读取 .xlsx/.xls 文件，自动识别 SKU 列（不区分大小写），预览前 50 条数据。批量价格抓取模块：遍历 SKU 列表，调用 Best Buy 商品 API，提取商品名称、当前价格、原价、促销价、库存状态、卖家类型（自营/第三方）等信息。实时进度展示模块：进度条显示抓取进度，树形表格实时刷新每条 SKU 的结果（SKU、名称、价格、库存、卖家）。结果导出模块：支持将抓取结果导出为 CSV 文件，包含完整的价格字段和时间戳，便于后续分析。 3. 业务流程、功能路径描述用户启动软件 → 点击“Browse”选择包含 SKU 列的 Excel 文件 → 系统自动加载并预览 SKU 列表 → 点击“Start Scraping”开始抓取 → 程序逐条请求 Best Buy API → 界面实时显示每条结果（成功/失败）→ 进度条同步更新 → 抓取完成后“Export Results”按钮可用 → 用户点击导出，生成带时间戳的 CSV 报告。整个过程在后台线程执行，界面不卡顿。

电商

Python

大麦抢票工具

移动端自动化控制：熟练对 Android App 端的 UI 元素定位与自动化操作，脱离传统 Web 限制。设备与环境管理：熟悉 ADB 命令与调试，能够结合真机（多机型适配）或 Android 模拟器构建稳定的自动化执行环境。复杂流程逆向与攻坚：能够应对主流票务平台或电商平台的风控策略，通过模拟真实用户交互、合理设置随机延迟等方式提高脚本存活率与成功率。高效脚本架构：代码逻辑严谨，具备异常重试机制、日志记录与断线重连能力，确保长时间无人值守任务的稳定性。

电商、社交

Python

基于Python的可视化影视信息-Python

业务目标1. 循环遍历电影列表遍历提前解析好的电影节点列表 movieItemList ，为每一部电影单独创建空字典 movieDict ，用来单条存储一部电影的全部字段。 2. XPath精准提取网页数据通过XPath语法，从网页节点中定位并抓取4类核心信息： - title ：电影主名称 - otherTitle ：电影别名/其他译名 - link ：电影详情页URL链接 - star ：电影评分 - quote ：电影短评/经典一句评语 3. 数据清洗与字典封装 - 合并主标题+别名，拼接为完整电影名称存入字典 - 把链接、评分、评语依次存入字典对应key - 打印单条电影字典，做运行调试校验 - 把单条字典追加进全局电影列表 movieList 批量抓取豆瓣电影列表页的电影信息，提取标题、链接、评分、经典评语，最终规整保存到本地 doubanMoive.csv 表格文件，方便后续查看、统计与数据分析。

内容平台

Java、JavaScript、Pyth...

一站式自动化办公解决方案-提升办公效率

我专注于为企业与个人提供定制化的Python自动化办公解决方案，擅长将繁琐、重复、易出错的日常办公流程，转化为高效、精准、可24小时运行的自动化程序，直接解决业务痛点。复杂场景攻坚：具备解决高难度问题的技术实力。擅长处理动态网页数据采集、验证码识别、PDF/图片等非结构化数据解析（OCR）等，能从源头获取并处理数据，打通信息孤岛。使用Python Pandas与Openpyxl，自动读取银行流水与内部ERP导出文件，进行多条件模糊匹配对账，自动标记差异项并生成对账差异报告。

企业服务(saas)、企业内部管理

Python、Scrapy

AI 数据采集与智能报表系统-据智报 - 商业情报自动采集分析平台

本项目为外贸/电商企业打造了一套从数据采集到智能报表生成的自动化系统。立项背景是传统商业情报收集依赖人工浏览多个数据源（海关、1688、行业报告、社交媒体），耗时且容易遗漏关键信息。核心功能模块： 1. 多源自动采集：对接海关总署公开数据、1688供应商报价、行业研报、社交媒体舆情等4大类数据源，每日自动增量抓取。 2. AI智能处理：大模型对采集内容进行分类（贸易数据/价格监控/行业研究/竞品动态）、可信度评分、关键信息抽取。 3. 竞品价格监控：7天价格走势图自动生成，突变超过阈值自动预警推送。 4. 舆情情感分析：社交媒体评论AI情感分类（正面/中性/负面），负面比例超10%触发告警。 5. 日报自动生成：每日9:00自动汇总前一天数据，生成结构化报表并通过飞书/Slack推送。 6. 可视化仪表盘：ECharts 图表展示KPI趋势、数据来源分布、处理统计等。

电商、大数据

FastAPI、React、Scrapy...

n8n + AI 内容抓取与自动分发-AI内容抓取与自动分发工作流

本项目基于n8n工作流引擎，构建了一套从热点监控到内容再加工再到多渠道分发的全自动流水线。立项背景是新媒体运营团队每天需手动刷知乎、微博、36氪等平台找热点，手工改写后分发到微信群/飞书/公众号，效率极低。核心功能： 1. 定时热点抓取：每30分钟自动抓取知乎热榜、微博热搜、36氪快讯等多平台内容。 2. AI内容再加工：GPT对原始内容进行摘要提取、去重过滤、风格改写（支持多种文风模板）。 3. AI配图生成：ComfyUI Stable Diffusion 根据文章主题自动生成配图。 4. 质量过滤：AI评分机制，低于0.7分的内容自动丢弃，避免低质信息轰炸。 5. 多渠道推送：对接企业微信群机器人、飞书、钉钉等多渠道一键分发。 6. 异常告警：单节点失败自动重试3次，连续失败推送告警至运维群。

内容平台、广告营销

PostgreSQL、Redis、Ten...

数据处理及爬虫

1. 支持上传 Excel 文件或输入网址，自动抓取网页数据并解析为结构化表格 2. 内置京东、淘宝、拼多多、1688、抖音、小红书等平台专用爬虫，自动识别平台并提取数据 3. 提供自定义 CSS 选择器功能，支持用户手动指定提取规则 4. 自动分析数据特征，推荐合适的可视化图表类型 5. 一键生成 HTML 数据分析报告，支持预览和下载

电商、大数据

Python、Flask、Pandas

Python学生成绩分析器——极简重构与算法优化

本项目是一个学生成绩分析工具，接收学生姓名及多门成绩作为输入，自动计算平均分、评定等级、筛选及格学生并生成汇总报告。项目核心亮点在于对原始臃肿代码进行了全面的极简化重构——消除重复判断、优化低效循环、封装核心实体，交付的代码骨架清晰、逻辑简洁、易于扩展。

企业内部管理

Python

爬虫/脚本 软件定制 案例

爬虫/脚本软件定制案例