大数据爬虫/脚本软件定制 | 软件外包案例-程聚宝

通用公开数据采集系统-支持多平台合规数据爬取与自动化导出

针对企业手动采集公开数据效率低、易出错的痛点，开发了这套通用合规数据采集系统。核心功能包括静态网页数据自动抓取、数据清洗去重、Excel/CSV结构化导出、批量任务调度与实时进度显示。系统全程遵守robots协议与网站访问频率限制，采用Python+Requests实现稳定请求，确保合规爬取公开数据，无需客户额外配置环境即可运行。

电商、大数据

Python、Scrapy

Python脚本 / 数据采集 / 多平台数据采集系统-多平台数据采集系统

本系统是一套面向数据分析场景的多平台数据采集工具集，包含4个独立的数据采集模块： 1. A股数据采集模块：自动采集沪深A股股票列表、历史K线数据和实时行情。数据来源于腾讯和新浪公开API，支持多数据源自动切换，单次可采集全部4000+只股票的基础信息及实时价格。 2. B站数据采集模块：采集B站热门视频排行、UP主粉丝与播放数据、关键词搜索结果。可用于内容趋势分析、UP主商业价值评估。 3. 豆瓣Top250采集模块：采集豆瓣电影Top250和书籍Top250的完整榜单，包含评分、评价人数、简介、排名等信息，支持影评分析和好书推荐场景。 4. 链家二手房采集模块：支持北京、上海、广州、深圳、成都等10个城市的二手房数据采集，包含房价、面积、户型、区域、关注度等信息，可用于房地产分析。所有模块输出为标准Excel格式（.xlsx），同时兼容CSV导出，方便后续数据分析和可视化。系统内置请求频率控制和指数退避重试机制，确保稳定采集。

大数据

Python、Beautiful Sou...

代码缺陷检测系统-代码缺陷检测系统

环境及框架: SpringBoot+Spring+Maven+SpringMvc+Mybatis+Auth+Redis+Solr+Postgres+Mysql+Mongodb 项目描述: 这个项目代码缺陷检测系统是由多个项目合并开发的一款高效、全面的工具，主要用于分析和检测代码中的漏洞和缺陷以及项目开源率。系统集成了 Sonarqube 工具，能够准确分析代码文件中的问题行数，并统计 Bug、异味和重复率等指标。同时，系统还集成了美国漏洞库（如 nvd、 cve、 cpe_match），开源项目库(GitLab、GitHub、Apache)、组件(Nuget、Maven)实现与项目的集成检测，提升代码安全性和质量。责任描述: 1、负责安装配置 Sonarqube 工具，通过 GitHub 下载源码项目并搭建源码框架 2、开发 27 种语言的技术指标语言插件，包括 JAVA、Python、C、C#、TypeScript、Go、 Groovy、T-SQL、PL/SQL 等，对源代码进行改动并集成到 Sonarqube 系统中 3、利用自动化浏览器插件 FirefoxDrive 对 Sonarqube 数据进行翻译处理 4、编写各种编程语言的被测件，确保系统能够准确扫描到各种语言的漏洞 5、设计定时任务，定期更新漏洞库数据，并引用钉钉机器人在群里通知任务进度 6、编撰指标偏移表和用户手册，提供系统操作指引和技术支持 7、查看 Bug 管理系统分配的问题，确保问题及时修复 8、迁移和维护 dm 数据库和 Postgres 数据库的数据，保障数据完整性和安全性 9、与前端团队联调接口，开发用户管理模块，提升用户体验和系统功能性

大数据

Java

AI 数据采集与智能报表系统-据智报 - 商业情报自动采集分析平台

本项目为外贸/电商企业打造了一套从数据采集到智能报表生成的自动化系统。立项背景是传统商业情报收集依赖人工浏览多个数据源（海关、1688、行业报告、社交媒体），耗时且容易遗漏关键信息。核心功能模块： 1. 多源自动采集：对接海关总署公开数据、1688供应商报价、行业研报、社交媒体舆情等4大类数据源，每日自动增量抓取。 2. AI智能处理：大模型对采集内容进行分类（贸易数据/价格监控/行业研究/竞品动态）、可信度评分、关键信息抽取。 3. 竞品价格监控：7天价格走势图自动生成，突变超过阈值自动预警推送。 4. 舆情情感分析：社交媒体评论AI情感分类（正面/中性/负面），负面比例超10%触发告警。 5. 日报自动生成：每日9:00自动汇总前一天数据，生成结构化报表并通过飞书/Slack推送。 6. 可视化仪表盘：ECharts 图表展示KPI趋势、数据来源分布、处理统计等。

电商、大数据

FastAPI、React、Scrapy...

数据处理及爬虫

1. 支持上传 Excel 文件或输入网址，自动抓取网页数据并解析为结构化表格 2. 内置京东、淘宝、拼多多、1688、抖音、小红书等平台专用爬虫，自动识别平台并提取数据 3. 提供自定义 CSS 选择器功能，支持用户手动指定提取规则 4. 自动分析数据特征，推荐合适的可视化图表类型 5. 一键生成 HTML 数据分析报告，支持预览和下载

电商、大数据

Python、Flask、Pandas

长江航道局水位信息

长江航道局水位信息爬虫，是基于Python开发的专用网络数据采集程序，主要针对长江航道局官方对外公开的各水文站点实时水位、历史水位、站点信息进行自动化抓取、解析、整理与存储。通过模拟浏览器请求，定时采集长江沿线各水位监测站点的水情数据，替代人工手动查询、记录水位信息，实现水位数据自动化采集、实时同步、历史数据归档，为水位数据分析、水情监控、航道通航参考提供稳定数据源。

大数据

Python

大众点评爬虫

需要输入搜索字符或者对类目下的大众点评商家数据进行收集需要的主要字段是：商家名称，商家地址，商家类目，商家卖品sku，价格等需要对一个城市收集上面的信息对收集到的数据进行清洗得出在这个城市开奶茶店的预测

大数据、电商

Python、Scrapy、Seleni...

全栈式电商商品数据采集与分析中台-电商比价数据平台 - 价先知

立项背景：电商平台商品数据分散、价格波动频繁，商家与消费者难以快速获取全面比价信息，亟需一套稳定、可扩展的自动化数据采集与分析系统。核心功能：① 多平台商品数据定时采集（含标题、价格、库存、销量、评论）；② 数据清洗与标准化入库；③ 价格趋势可视化与竞品对比分析；④ 异常价格监控与预警通知。业务流程：用户配置采集任务 → 系统按规则定时抓取 → 数据清洗与校验 → 存入 MySQL 数据库 → 后台可视化展示与分析 → 触发异常价格预警。

电商、大数据

Python、Selenium

多源数据融合机器学习解决预警模型-基于多源监测数据的边坡预警模型的研究

边坡稳定性是水利工程、交通路网及露天矿山等领域的核心安全问题。本项目基于多源监测数据，围绕边坡预警问题建立了系统的数学模型，利用python/matlab/mysql实现项目落地，建立了分级预警机制，确保了工程实践中的高效决策支持，具有较强的物理可解释性与工程适用性，可为边坡灾害精准防控提供数据支撑与决策依据

大数据、安全

MATLAB、Python

本人擅长python爬虫，js逆向-Python爬虫

技术方案采用Python语言，使用Requests库发送HTTP请求获取网页内容，通过BeautifulSoup解析HTML DOM结构，精准提取目标字段。项目实现了自动翻页功能，通过循环遍历10个分页（每页25条）完成全部数据采集。针对豆瓣的反爬策略，配置了User-Agent伪装和1秒请求间隔（time.sleep），确保长期稳定运行。采集完成后，利用Pandas进行数据清洗和去重，最终将数据导出为Excel和CSV文件。

电商、大数据

Python

汽车之家图片爬取

本项目基于客户对汽车内容数字化营销的需求，旨在高效采集汽车之家平台上的车辆品牌图文素材与宣传视频。通过自动化爬虫系统，实现对多品牌、多车型相关媒体资源的结构化抓取与归档，。核心功能模块包括动态页面解析、反爬机制绕过、多媒体资源识别与下载、数据去重及存储管理，整体业务流程涵盖任务调度、目标发现、内容提取、质量校验到本地化存储的完整链路。

大数据

FastAPI

企业全量数据自动采集与清洗系统

1. 立项背景和目标为满足公司对多源异构数据（如天眼查、招标公告等）的自动化采集与标准化治理需求，本项目旨在构建一套稳定可靠的数据管道。主要目标是实现从数据自动采集、清洗、入库到质量监控的全流程自动化，为上层业务分析提供高质量的数据基础。 2. 软件功能、核心功能模块的介绍系统主要包括三大模块：1）自动化采集模块：基于Playwright等工具，实现多平台数据的定时爬取和环境迁移，成功交付超12,000条完整公告数据；2）ETL与数据治理模块：设计标准化数据表20余张，并开发智能清洗算法，将核心字段覆盖率从0.37%提升至99.58%，修复无效数据300余条；3）运维监控模块：通过Docker部署和飞书机器人，实现容器健康状态定时告警。 3. 业务流程、功能路径描述采集脚本定时启动 → 从目标网站获取原始数据 → 进入ETL清洗层，根据预设规则进行数据抽取、清洗与标准化转换 → 清洗后的数据写入PostgreSQL标准化表 → 质量监控脚本每日检查数据覆盖率等指标 → 结果通过飞书推送给团队。整个流程无人值守，异常问题通过脚本自动修复或报警。

云计算、大数据

Python、PostgreSQL、Se...

多源数据采集与智能分析系统-可定制化数据采集与可视化平台

1. 立项背景和目标在日常数据分析与信息监测工作中，多个垂直领域的数据（如城市交通拥堵指数、在线编程题库、政府公共资源交易公告）分散在不同平台，手工收集效率低下且难以持续。本项目旨在构建一套可扩展的多源数据采集与可视化分析系统，实现自动化抓取、结构化存储与图表化展示，为交通研究、求职备考、招投标监测等场景提供数据支撑。 2. 软件功能、核心功能模块的介绍系统包含三大模块：交通拥堵监测模块：通过高德地图公开API实时获取全国城市拥堵排名、拥堵延迟指数、周环比变化及畅通速度，并利用PyEcharts生成交互式柱状图，直观展示前十名城市的多维指标对比。题库采集模块：针对牛客网平台，分别爬取“专项练习”“笔试真题”“面试真题”“在线编程”四类题目。支持按知识点ID筛选、设置试卷数量、去重存储，并获取在线编程题的高分Python3代码作为参考。公共资源交易模块：对接广东省和福建省公共资源交易平台，支持按公告类型（工程建设/政府采购）、页数等参数筛选，破解AES加密响应，提取公告标题、发布时间、来源、公告内容等关键字段，并清洗HTML为纯文本。 3. 业务流程、功能路径描述用户通过修改脚本头部的配置参数（如爬取页数、题目数量、知识点ID、筛选类型等）即可启动对应模块。爬虫自动请求目标接口，解析JSON或HTML响应，处理反爬机制（签名、加密），提取所需字段，最终输出为JSON或TXT文件。交通模块额外生成HTML图表，可直接在浏览器中交互查看。

大数据、政务服务

PyAutoGUI、SQLite、Scr...

长期爬虫项目

1. 利用 request 请求获取政府部门多个栏目信息 2. 通过 xpath、bs4 等模块解析 html 数据 3. 通过 mysql 存储过程存储数据 4. 利用 DrissionPage、Playwright 等自动化工具抓取数据 5. 通过数据接口抓取并存储企某查网站数据 6. 将获取的数据进行数据清洗 7. 同时负责一些数据后台网页端的功能测试项目

工业互联网、大数据

Python、Selenium

赢商大数据项目库采集与结构化落地

- Python爬虫 - Web自动化/浏览器爬虫 - 动态渲染采集 - Scrapy工程化采集 - 数据清洗与结构化存储（CSV/表格） - 反爬处理/登录态维持 - 业务背景：对商业地产行业数据进行汇总分析，需要批量获取赢商大数据平台的项目库信息，形成可分析的数据集（项目维度字段齐全、可导入Excel/BI）。 - 核心功能： - 项目列表翻页采集：按页获取项目入口链接，支持配置页数批量抓取 - 项目详情解析：进入详情页抽取关键字段并做字段名清洗与映射 - 采集稳定性：动态渲染等待、限速控制、低并发策略减少风控触发 - 数据落地：按统一字段写入 CSV，支持追加写入与断点续跑

内容平台、大数据

Python

多因子选股系统

专注 Python 量化金融领域，可定制开发多因子选股系统：支持 A 股 / 港股 / 美股多因子模型构建（估值、成长、质量、动量等因子）、因子有效性回测、选股策略自动化运行、每日量化分析报表自动生成（Excel / 可视化）；可实现股票财务数据（净利润 / PE/PB）、资金流向、日内波动率等指标的自动化抓取与分析，适配同花顺等行情软件数据，提供完整的量化策略开发、回测、优化全流程服务，同时可定制 Excel 自动化工具（含规划求解、数据透视、批量处理），满足量化投资、数据分析全场景需求。

金融、大数据

Python、NumPy、Pandas

数据采集-互联网爬虫

开发爬虫程序，采集互联网数据: 1. 使用Python语言，基于Scrapy二次开发了一套适用于公司需求爬虫基础框架 2. 基于以上爬虫基础框架，开发爬虫程序采集各类互联网数据，满足公司需求 3. 基于爬虫开发经验，提供反爬建议

金融、大数据

Python、Scrapy、Seleni...

多源数据采集与可视化分析工具

多源数据采集：爬取 quotes.toscrape.com 名言数据 + Hacker News API 科技资讯智能反爬策略：请求延迟、重试机制、随机 User-Agent、错误容忍数据清洗存储：JSON 结构化存储，Pandas DataFrame 分析多维数据分析：作者统计、标签分布、热度排行、词频分析可视化图表生成：柱状图、饼图、词云式标签图，自动保存为 PNG 一键全流程：python main.py run 一条命令完成采集→分析→可视化

大数据

Python、Beautiful Sou...

scrapy实现批量图片下载

1、立项背景核心是解决人工 / 通用工具下载图片效率低、适配性差的痛点，依托 Scrapy 的爬虫优势满足批量图片获取的行业需求；项目目标分为业务（高效下载、灵活筛选、结构化存储）、技术（轻量化、可扩展、易用）、非功能（合规、性能、容错）三类，聚焦 “高效、可控、易扩展”；核心价值是提升下载效率、降低成本，同时保证下载过程的稳定性和合规性。 2、通过scrapy中的类ImagesPipeline实现图片下载，同时可以通过scarpy crawl -a传参，修改下载图片的内容和下载的数量 3、通过start_requests方法获取需要下载图片的内容和数量，并构造url传给parse方法获取每张图片下载的url，然后利用scarpy传给管道，由管道利用ImagesPipeline下载图片

大数据

Python

电商价格监控与竞品分析平台

1、立项背景和目标：随着电商竞争白热化，品牌方与零售商需实时掌握自身及竞品在各平台（如亚马逊、淘宝、京东国际站）的价格、库存、促销及用户评价动态，用于制定定价策略、监控渠道合规及进行市场分析。传统人工监控效率低下、覆盖面窄。本项目旨在构建一个自动化、高可用的分布式爬虫系统，实现对全球多个主流电商平台目标商品信息的7x24小时稳定采集、清洗、存储与可视化，为核心业务部门提供分钟级延迟的数据支持，辅助商业决策。 2、软件功能、核心功能模块的介绍：调度中心模块：基于Redis，负责任务的优先级调度、去重与分发，管理爬虫节点状态。爬虫核心模块：基于Scrapy框架，针对不同网站编写定制化Spider，负责页面下载、解析，处理反爬机制（IP代理、请求头轮换、验证码识别接口调用）。数据管道模块：负责数据清洗（去重、格式化）、验证，并持久化存储至MongoDB，同时将异常数据与原始页面快照存储至备用库以供排查。监控报警模块：监控爬虫运行指标（成功率、速度、错误类型），通过企业微信机器人推送异常报警。管理后台模块：提供Web界面，用于管理监控任务、配置爬取规则、查看数据报表和导出数据。 3、业务流程、功能路径描述：任务配置：运营人员在管理后台添加/编辑监控商品，输入商品URL或ID，并设置爬取频率（每30分钟）。任务调度：调度中心将新任务封装为Request，推入Redis的待爬队列。爬虫节点（多台服务器）从队列中竞争获取任务。页面抓取：爬虫节点根据任务类型选择对应的Spider，通过代理IP池发起请求，下载目标页面。若失败，根据策略重试或放入重试队列。数据解析与清洗：下载成功的页面被Spider中编写的XPath/CSS规则解析，提取商品标题、价格、促销信息、评价数等结构化数据。数据管道对价格进行货币单位统一、去除无效字符。数据存储与通知：清洗后的数据存入MongoDB的product_price集合，并生成一条变更记录。若价格波动超过预设阈值，系统触发企业微信通知。监控反馈：所有抓取日志和状态指标实时汇总，展示在监控仪表盘上。

电商、大数据

Python、MongoDB、Redis...

大数据 爬虫/脚本 软件定制 案例

大数据爬虫/脚本软件定制案例