爬虫/脚本软件定制案例

程序聚合软件案例爬虫/脚本

1.立项背景和目标：当前网络信息传播极速扩散，传统人工舆情监测存在覆盖不全、响应滞后、分析低效等问题，企业机构机构亟需轻量化、可弹性扩容的舆情管理工具，打造全国企业舆情 SaaS 系统。 2.软件功能，核心功能模块的介绍 a).账号权限认证系统（经root账号/自动进行权限分配包含页面、按钮、功能） b).数据获取（入池前，经python、java等其他语言进行各平台基础数据获取） c).数据清洗（入池前，对个平台重复数据进行清洗，此轮进行舆情标注三类：正面、中性、负面四级：一般关注重点紧急，舆情类别判断民生、政治、企业、谣言等） d).数据入池（入池，将通过初次数据清洗数据进行入池） e).根据账号权限、要求获取数据（二次清洗） 3.主要流程：企业：账号购买功能鉴权(线下购买，线上开启权限) -> 设定舆情点 -> 使用我司：线下磋商 -> 成功后提供注册地址 -> 注册后开启部分权限（自动、手动两种方案）网站：数据采集 -> 数据首次清洗 -> 入池 -> 数据二次清洗 -> 查询报送（舆情报告）

企业服务(saas)、内容平台

Java、Python、Elastics...

股票智能分析看板

1. 多源数据路由引擎（系统的“根基”）该引擎采用**分级降级（Fallback）**机制，确保了金融数据的可用性和准确性。 Tier 1 & 2 (高频)：利用腾讯和新浪的 Web API 获取毫秒级实时价格。 Tier 3 & 4 (深度)：通过 AkShare 和 BaoStock 获取复杂的宏观、财务、K 线历史数据。标准化处理：解决了 A/港/美股代码格式不一的痛点，将“自然语言输入”转化为“机器可读数据”。 2. AI 全景深度研判（系统的“大脑”）这是平台最亮点的部分，它将传统的量化数据“喂”给 LLM 进行逻辑转换。超级 Context 注入：AI 不再是盲目聊天，而是基于实时注入的财务报表、新闻和技术面指标进行“有理有据”的推理。结构化输出控制：深度：包含商业模式与财务体检。速度：提供“一句话散户结论”，适配快节奏决策。稳定性：后端具备 JSON 提取容错，防止 LLM 输出乱码导致前端崩溃。 3. 智能晚报与推送（系统的“触角”）解决了用户“主动盯盘”的焦虑，转为“被动接收精华”。交叉推演：不只是报股价，而是分析“大盘环境”对“个人持仓”的潜在影响，生成明天的操作剧本。 Server 酱集成：利用微信作为通知载体，符合国内用户的使用习惯。

金融

JavaScript、Node.js、P...

再生平台项目

1、立项背景再生资源行业传统模式存在信息不对称、交易链路繁琐、监管追溯难、资金流转慢等痛点，中小商户与企业间对接效率极低，行业数字化转型需求迫切。同时，国家大力推动循环经济发展，亟需一款集信息服务、业务协同、数据管控于一体的平台，打通再生资源从回收、加工到交易、融资的全链条。 2、核心目标整合行业资源：汇聚再生资源供需方、物流服务商、金融机构等多方主体，构建行业资源生态；实现业务闭环：覆盖从立项、合同签订到订单执行、对账、融资的全流程，提升交易效率；强化监管与风控：通过数据采集与分析，实现交易全流程追溯，降低行业风控风险；推动数字化升级：为行业提供标准化、智能化的信息服务与业务工具，助力再生资源行业规范化、高效化发展。 1）软件整体功能平台以 “信息服务 + 业务协同 + 数据管控” 为核心，面向商户、企业、监管 / 管理端三类用户，提供全场景功能支撑。前端基于 Vue3+Vite+TypeScript 构建多端界面，后端以 Spring Boot 为核心拆解为启动、公共、核心、业务、数据抓取五大模块，支撑高可用、高扩展的系统架构。 2）核心功能模块基础管理模块（核心模块）：覆盖用户 / 角色 / 菜单 / 部门管理、日志、文件、字典配置、定时任务等基础能力，保障平台权限与基础运营，是全系统的支撑底座。再生资源业务模块（业务模块）：平台核心业务闭环，包含身份管理、合同、订单、发货、收货、对账、发票、应收、融资、风控等全链路功能，实现再生资源业务从发起至完结的全流程管控。数据采集与对接模块（数据抓取模块）：对接外部 ERP 系统，通过 AI 识别、HTML 解析等技术采集行业外部数据，同步补充平台信息，提升数据完整性。信息服务模块：提供再生资源行情查询、供需信息发布、行业资讯推送等功能，满足用户信息获取需求，构建行业信息生态。 3、业务流程和功能路径描述交易协同路径：商户 / 企业发布供需信息→身份认证审核→签订电子合同→生成交易订单→发起发货 / 收货→确认收货→发起对账→开具发票→完成应收结算；数据采集路径：外部 ERP 系统数据请求→AI 识别验证码→解析业务数据→定时同步至平台数据库→平台数据校验与展示；风控与融资路径：交易数据汇总→平台风控规则校验→生成企业信用报告→金融机构基于数据提供融资服务→融资回款跟踪。功能路径支撑用户端路径：用户登录→权限校验→进入对应功能界面（商户端侧重业务操作，企业端侧重资源管理，管理端侧重监管与配置）→执行功能操作→数据实时同步至数据库；系统端路径：前端请求→后端接口处理（调用对应模块服务）→数据读写（MySQL / 文件存储）→返回结果→前端展示；外部对接路径：外部系统请求→数据抓取模块解析→数据校验→存入

金融、企业内部管理

Java、Vue、MySQL、Selen...

批量数据处理与自动化运维脚本开发

本项目为批量数据处理与自动化运维脚本工具，旨在解决企业日常工作中大量重复的数据处理、运维操作问题，通过 Python 自动化脚本，实现数据采集、批量导出、定时任务、日志监控等功能。工具核心功能包括：1. 多源数据采集，支持 Excel/CSV/ 数据库等多格式数据自动提取；2. 批量数据处理，支持数据清洗、格式转换、报表生成；3. 自动化运维，支持定时任务、服务器监控、日志分析；4. 可视化配置，用户可通过简单配置实现自定义自动化流程，无需代码。工具可广泛应用于财务、行政、运维等多个岗位，大幅提升工作效率，减少人工错误。

企业服务(saas)、人工智能

Python、MySQL

飞书ai机器人通知

实现一个飞书机器人，自动采集指定外部平台（如微博、知乎、公众号、竞品官网、价格页面、GitHub等）的实时信息，根据预设规则监控用户感兴趣的内容（关键词、价格变动、上新、状态变更等），一旦命中规则，立即通过飞书机器人推送消息，并自动@指定成员、发送加急通知（应用内加急/短信/电话提醒），确保关键信息不遗漏。

企业内部管理

Python

文件批量重命名与分类工具

立项背景：在日常办公中，经常需要批量整理大量文件，比如给照片按顺序重命名、把下载文件夹里的文档按类型分类。手动操作费时费力，所以我用Python写了一个带图形界面的小工具来解决这个问题。核心功能：1. 文件批量重命名，可以自定义文件名前缀和起始序号，比如把杂乱的照片统一改成“旅行照片001、002”这样的格式；2. 文件自动分类，程序会读取文件夹里所有文件的后缀名，自动创建对应文件夹并把文件移动进去，比如把所有的.jpg放进“图片”文件夹，把所有的.pdf放进“PDF文档”文件夹；3. 生成文件清单，可以把文件夹里所有文件的名字和路径导出成Excel表格，方便查看和存档。业务流程：用户打开程序后，先点击“选择文件夹”按钮，然后根据需要点击“重命名”、“分类”或“导出清单”按钮，在弹出的设置窗口里调整参数后确认，程序就会自动完成操作并显示成功提示。

企业内部管理

Python、Scrapy、Seleni...

长期爬虫项目

1. 利用 request 请求获取政府部门多个栏目信息 2. 通过 xpath、bs4 等模块解析 html 数据 3. 通过 mysql 存储过程存储数据 4. 利用 DrissionPage、Playwright 等自动化工具抓取数据 5. 通过数据接口抓取并存储企某查网站数据 6. 将获取的数据进行数据清洗 7. 同时负责一些数据后台网页端的功能测试项目

工业互联网、大数据

Python、Selenium

抖音直播弹幕实时采集（WebSocket + Protobuf + X-Bogus签名）

- Python：requests（获取直播间 room_id 与 cookie）、websocket-client（WSS长连接收包/回包）、gzip（解压）、protobuf（消息反序列化）、loguru（日志输出） - JS逆向与签名：execjs 调用本地 JS 生成 signature（X-Bogus）；crypto-js（MD5 生成 X-MS-STUB） - 协议解析：Protobuf（douyin.proto + 生成 douyin_pb2.py） - WebSocket实时数据采集 - Protobuf协议解析 - Python网络编程/长连接 - JS逆向 / 参数签名（X-Bogus） - 数据解压（gzip） - 反爬/鉴权参数构造 - 业务背景：抖音直播间互动信息（弹幕）通过 WebSocket 推送且采用 Protobuf + gzip 压缩，同时连接参数包含签名（signature/X-Bogus）。常规抓包仅能拿到二进制数据，无法直接解析为可用文本。 - 核心功能： - 自动进入直播间，提取 room_id，并获取必要 cookie（ttwid） - 计算 WebSocket 连接所需 signature（X-Bogus），构造完整 WSS URL - 建立 WSS 长连接，实时接收二进制推送包 - PushFrame → gzip解压 → Response/Message → 按 method 过滤弹幕消息 WebcastChatMessage - 输出格式化弹幕内容（昵称 + 文本），并在 need_ack 场景下回传 ACK 保持连接稳定

社交、电商

JavaScript、Python

云南省建设监管公共服务平台企业数据采集（滑块校验 + 加密参数逆向 + Excel落地）

- Python：requests.Session（会话维持/接口请求）、pandas（Excel导出） - JS逆向与复用：execjs 调用本地 JS（复用站点加密逻辑） - 加密算法：RSA（JSEncrypt 分段加密生成 params）、AES（CryptoJS AES-ECB + Pkcs7，用于滑块点位与验证码头） - 风控处理：滑块验证码 blockPuzzle 识别（打码平台返回滑动距离 x）、二次校验后换取业务数据、翻页抓取与去重 - Python爬虫 / 接口采集 - JS逆向 / 加密参数还原 - AES/RSA 加解密 - 验证码对抗（滑块） - Session会话保持 - 数据清洗与表格落地（Excel） - 业务背景：住建监管类平台对企业信息查询接口做了参数加密与滑块校验，常规爬虫无法直接批量获取。项目目标是实现企业分页查询数据的自动化采集与结构化导出，用于企业库分析/数据归档。 - 核心功能： - 企业列表分页采集：按 pageNum/pageSize 拉取企业 records - 反爬突破：还原前端加密参数（RSA/AES）与滑块验证码校验链路 - 稳定采集：requests.Session 维持校验后的状态；企业名称去重避免重复写入 - 交付产物：字段统一清洗后导出 Excel（示例文件为“云南企业数据.xlsx”）

内容平台、政务服务

JavaScript、Python、Pa...

赢商大数据项目库采集与结构化落地

- Python爬虫 - Web自动化/浏览器爬虫 - 动态渲染采集 - Scrapy工程化采集 - 数据清洗与结构化存储（CSV/表格） - 反爬处理/登录态维持 - 业务背景：对商业地产行业数据进行汇总分析，需要批量获取赢商大数据平台的项目库信息，形成可分析的数据集（项目维度字段齐全、可导入Excel/BI）。 - 核心功能： - 项目列表翻页采集：按页获取项目入口链接，支持配置页数批量抓取 - 项目详情解析：进入详情页抽取关键字段并做字段名清洗与映射 - 采集稳定性：动态渲染等待、限速控制、低并发策略减少风控触发 - 数据落地：按统一字段写入 CSV，支持追加写入与断点续跑

内容平台、大数据

Python

根据特定关键词抓取图片，并进行图片清洗

根据给定的几个关键词，从网络上抓取不少于1000张图片，且图片大小符合特定尺寸，抓取后对所有图片进行去重，计算清晰度并排序，接着将每张图片的大小都缩放到特定尺寸,并按照特定规则命名，打包即可

人工智能

Python

多因子选股系统

专注 Python 量化金融领域，可定制开发多因子选股系统：支持 A 股 / 港股 / 美股多因子模型构建（估值、成长、质量、动量等因子）、因子有效性回测、选股策略自动化运行、每日量化分析报表自动生成（Excel / 可视化）；可实现股票财务数据（净利润 / PE/PB）、资金流向、日内波动率等指标的自动化抓取与分析，适配同花顺等行情软件数据，提供完整的量化策略开发、回测、优化全流程服务，同时可定制 Excel 自动化工具（含规划求解、数据透视、批量处理），满足量化投资、数据分析全场景需求。

金融、大数据

Python、NumPy、Pandas

合规公开数据采集工具

立项背景和目标：日常需要批量采集公开网页数据，市面上的爬虫工具要么依赖繁琐的第三方库，要么缺乏合规保障。目标是做一个"开箱即用、合规优先"的本地爬虫控制台，双击脚本即可启动，无需任何安装。核心功能： ①粘贴 URL 批量爬取，自动提取标题、正文摘要、图片链接；②自动检查 robots.txt，隐私内容（手机号/身份证）自动过滤；③蜘蛛模式支持递归爬取，可设定最大深度、域名页面上限；④429/5xx 自动冷却限速，连续失败自动停止；⑤内置轻量 NLP 引擎（TextRank 摘要 + TF-IDF 关键词提取 + 中文实体识别），无需大模型；⑥数据存入 SQLite，支持搜索、排序、CSV 导出；⑦SSE 实时日志推送，三色主题切换。业务流程：前端（原生 JS）→ HTTP API（Python 内置 http.server）→ 爬虫引擎（状态机调度）→ Fetcher（请求/重试/代理/内容解析）→ NLP 处理 → SQLite 持久化 → 前端实时展示。

搜索

Python

Yelp商家数据采集与统计系统

一套完整的商家公开数据采集与统计分析系统，支持按城市、区域、商家类型（餐饮、酒店、加油站、商场、教育机构等）多维度自动采集Yelp平台上的商家信息，包括名称、地址、联系电话、用户评分、评论数量、营业时间、商家官网等。系统可满足市场调研、竞品分析、商圈评估、选址决策等商业需求，采集结果自动去重、清洗，并导出为Excel/CSV等结构化文件。帮助企业快速获取大规模、高可信度的本地商家数据。

生活服务

Python、AntiCaptcha

高德地图城市拥堵排行报表

一、项目概述本项目是一个实时交通数据采集与可视化系统，实现了从高德地图API自动获取全国主要城市的拥堵指数排名，并生成直观的可视化图表，为物流规划、通勤分析等场景提供数据决策支持。二、核心价值 · 快速获取数据：传统方式需手动浏览网页查询，本项目可通过脚本自动获取，将人工操作时间从数分钟缩短至几秒。 · 直观呈现结果：将枯燥的数据转换为可交互的水平条形图，支持鼠标悬停查看详情，方便进行城市间对比。三、核心功能 1. 数据采集 · 定时/实时调用高德地图官方API，获取全国城市拥堵延时指数和排名。 · 支持自定义爬取城市数量（如前10名、前20名或全部城市）。 2. 数据处理 · 自动清洗和整理原始数据，并按拥堵指数降序排序。 3. 可视化与交付 · 动态图表：生成一个独立的HTML文件，用浏览器打开即可看到交互式图表，鼠标悬停可查看具体数值。 · 数据表格：同时提供结构化的Excel数据表，方便用户进行二次分析和存档。

企业服务(saas)

Python

Excel数据处理工具

本项目是基于Python+pandas开发的Excel自动化数据处理工具，针对办公场景中Excel文件处理效率低、重复操作多的痛点，实现了批量读写、多表合并、自动化数据清洗、自定义统计分析、报表生成等核心功能，可大幅提升财务、运营等岗位的办公效率，支持根据业务需求定制化开发。

零售/新消费

Python

数据采集-互联网爬虫

开发爬虫程序，采集互联网数据: 1. 使用Python语言，基于Scrapy二次开发了一套适用于公司需求爬虫基础框架 2. 基于以上爬虫基础框架，开发爬虫程序采集各类互联网数据，满足公司需求 3. 基于爬虫开发经验，提供反爬建议

金融、大数据

Python、Scrapy、Seleni...

羽毛球场地预约系统

本项目是一个基于 Go 语言开发的自动化羽毛球场地预约与支付系统。其核心业务旨在帮助用户在热门场馆资源紧张时（如每天早点7点放票）通过自动化的方式高概率抢订场地。系统支持通过外部配置文件预设多个候选的场地目标、日期及时间段。在执行过程中，程序会提前查询获取场馆的基础设施信息、可用时间段以及价格计算数据组合成预订参数。随后，系统会根据内置的时间策略挂起，直到场馆开放预订的瞬间，立刻利用 Go 语言轻量级协程（Goroutine）的优势开启高并发抢单。在并发执行中，各个子任务会同步进行订单可用性校验、订单提交以及自动调用账户余额完成支付的过程。系统内部采用并发安全的机制进行状态监听，只要有任意一个预设目标成功锁单并支付，就会自动通知并终止其他抢单任务，从而实现从解析目标到全自动扣款无人值守的完整业务闭环。

电商

Go、Wireshark

实现八爪鱼中的抓取淘宝商品信息/评论的爬虫功能

八爪鱼采集器中有关于电商信息的爬虫功能，作为个人练手爬虫，在本地编程实现其同样的功能：抓取指定关键词搜索结果的商品信息，抓取指定商品链接的所有评论。同理，可实现其它类似功能。

电商

Robot Framework、Scra...

微信小程序-家教预约平台

经实地考察，发现该地区某大学家教业务火爆，且机构管理方式需要大量的人力物力成本，故制作该程序，将管理成本大幅降低，只需广告推销成本，并结合平台的营收方案，进一步扩大盈利。目标是做到全国最大的家教信息中转站。软件功能: 1.最新教育咨询实时获取 2.内嵌ai智能体，可进行实时对话 3.根据不同地区，不同需求，筛选出最合适的老师或学生人选 4.个人信息展示 5.预约功能

在线教育、搜索

Java、JavaScript、UniA...

爬虫/脚本 软件定制 案例

爬虫/脚本软件定制案例