大数据爬虫/脚本软件定制 | 软件外包案例-程聚宝

长期爬虫项目

1. 利用 request 请求获取政府部门多个栏目信息 2. 通过 xpath、bs4 等模块解析 html 数据 3. 通过 mysql 存储过程存储数据 4. 利用 DrissionPage、Playwright 等自动化工具抓取数据 5. 通过数据接口抓取并存储企某查网站数据 6. 将获取的数据进行数据清洗 7. 同时负责一些数据后台网页端的功能测试项目

工业互联网、大数据

Python、Selenium

赢商大数据项目库采集与结构化落地

- Python爬虫 - Web自动化/浏览器爬虫 - 动态渲染采集 - Scrapy工程化采集 - 数据清洗与结构化存储（CSV/表格） - 反爬处理/登录态维持 - 业务背景：对商业地产行业数据进行汇总分析，需要批量获取赢商大数据平台的项目库信息，形成可分析的数据集（项目维度字段齐全、可导入Excel/BI）。 - 核心功能： - 项目列表翻页采集：按页获取项目入口链接，支持配置页数批量抓取 - 项目详情解析：进入详情页抽取关键字段并做字段名清洗与映射 - 采集稳定性：动态渲染等待、限速控制、低并发策略减少风控触发 - 数据落地：按统一字段写入 CSV，支持追加写入与断点续跑

内容平台、大数据

Python

多因子选股系统

专注 Python 量化金融领域，可定制开发多因子选股系统：支持 A 股 / 港股 / 美股多因子模型构建（估值、成长、质量、动量等因子）、因子有效性回测、选股策略自动化运行、每日量化分析报表自动生成（Excel / 可视化）；可实现股票财务数据（净利润 / PE/PB）、资金流向、日内波动率等指标的自动化抓取与分析，适配同花顺等行情软件数据，提供完整的量化策略开发、回测、优化全流程服务，同时可定制 Excel 自动化工具（含规划求解、数据透视、批量处理），满足量化投资、数据分析全场景需求。

金融、大数据

Python、NumPy、Pandas

数据采集-互联网爬虫

开发爬虫程序，采集互联网数据: 1. 使用Python语言，基于Scrapy二次开发了一套适用于公司需求爬虫基础框架 2. 基于以上爬虫基础框架，开发爬虫程序采集各类互联网数据，满足公司需求 3. 基于爬虫开发经验，提供反爬建议

金融、大数据

Python、Scrapy、Seleni...

多源数据采集与可视化分析工具

多源数据采集：爬取 quotes.toscrape.com 名言数据 + Hacker News API 科技资讯智能反爬策略：请求延迟、重试机制、随机 User-Agent、错误容忍数据清洗存储：JSON 结构化存储，Pandas DataFrame 分析多维数据分析：作者统计、标签分布、热度排行、词频分析可视化图表生成：柱状图、饼图、词云式标签图，自动保存为 PNG 一键全流程：python main.py run 一条命令完成采集→分析→可视化

大数据

Python、Beautiful Sou...

scrapy实现批量图片下载

1、立项背景核心是解决人工 / 通用工具下载图片效率低、适配性差的痛点，依托 Scrapy 的爬虫优势满足批量图片获取的行业需求；项目目标分为业务（高效下载、灵活筛选、结构化存储）、技术（轻量化、可扩展、易用）、非功能（合规、性能、容错）三类，聚焦 “高效、可控、易扩展”；核心价值是提升下载效率、降低成本，同时保证下载过程的稳定性和合规性。 2、通过scrapy中的类ImagesPipeline实现图片下载，同时可以通过scarpy crawl -a传参，修改下载图片的内容和下载的数量 3、通过start_requests方法获取需要下载图片的内容和数量，并构造url传给parse方法获取每张图片下载的url，然后利用scarpy传给管道，由管道利用ImagesPipeline下载图片

大数据

Python

电商价格监控与竞品分析平台

1、立项背景和目标：随着电商竞争白热化，品牌方与零售商需实时掌握自身及竞品在各平台（如亚马逊、淘宝、京东国际站）的价格、库存、促销及用户评价动态，用于制定定价策略、监控渠道合规及进行市场分析。传统人工监控效率低下、覆盖面窄。本项目旨在构建一个自动化、高可用的分布式爬虫系统，实现对全球多个主流电商平台目标商品信息的7x24小时稳定采集、清洗、存储与可视化，为核心业务部门提供分钟级延迟的数据支持，辅助商业决策。 2、软件功能、核心功能模块的介绍：调度中心模块：基于Redis，负责任务的优先级调度、去重与分发，管理爬虫节点状态。爬虫核心模块：基于Scrapy框架，针对不同网站编写定制化Spider，负责页面下载、解析，处理反爬机制（IP代理、请求头轮换、验证码识别接口调用）。数据管道模块：负责数据清洗（去重、格式化）、验证，并持久化存储至MongoDB，同时将异常数据与原始页面快照存储至备用库以供排查。监控报警模块：监控爬虫运行指标（成功率、速度、错误类型），通过企业微信机器人推送异常报警。管理后台模块：提供Web界面，用于管理监控任务、配置爬取规则、查看数据报表和导出数据。 3、业务流程、功能路径描述：任务配置：运营人员在管理后台添加/编辑监控商品，输入商品URL或ID，并设置爬取频率（每30分钟）。任务调度：调度中心将新任务封装为Request，推入Redis的待爬队列。爬虫节点（多台服务器）从队列中竞争获取任务。页面抓取：爬虫节点根据任务类型选择对应的Spider，通过代理IP池发起请求，下载目标页面。若失败，根据策略重试或放入重试队列。数据解析与清洗：下载成功的页面被Spider中编写的XPath/CSS规则解析，提取商品标题、价格、促销信息、评价数等结构化数据。数据管道对价格进行货币单位统一、去除无效字符。数据存储与通知：清洗后的数据存入MongoDB的product_price集合，并生成一条变更记录。若价格波动超过预设阈值，系统触发企业微信通知。监控反馈：所有抓取日志和状态指标实时汇总，展示在监控仪表盘上。

电商、大数据

Python、MongoDB、Redis...

微信自动抢红包助手-快抢

基于Auto.js开发的微信自动抢红包脚本，通过监听系统通知实时响应红包消息，自动点击横幅进入聊天界面，并利用固定坐标快速点击红包和“开”按钮。脚本支持多次重试机制，确保红包被及时抢到，无需人工干预，极大提升抢红包成功率。

人工智能、大数据

JavaScript

Python足彩数据采集与清洗系统

【立项背景】客户需要获取近两年中国体育彩票“14场胜负”游戏的详细开奖数据，包括每期14场比赛的场次编号、对阵球队、赔率、比赛结果以及大奖金额，用于数据分析和研究。由于该数据无官方API且分散在多个网页，手动收集效率极低，因此开发此自动化采集工具。【核心功能】 1. 自动采集：根据用户输入的起始和结束期号，循环请求目标网站获取每一期详细页面。 2. 数据解析：从HTML中提取14场比赛的主队、客队、比分、百家平均赔率（胜/平/负）以及开奖奖金信息。 3. 数据清洗：将比分自动转换为标准赛果（3/1/0），从赔率字符串中拆分出胜、平、负三列，处理缺失数据。 4. 自动跨年：支持期号自动跳转（如从25年最后一期跳至26年第一期），实现连续采集无需人工干预。 5. 数据导出：将多期数据合并后导出为一份完整的Excel文件。

内容平台、大数据

Python、Apache Nutch、...

爬虫系统

一、项目概述本项目是一个完整的网络爬虫与数据查询系统，实现了从名言网站自动采集数据，并通过Web界面提供查询展示功能。项目采用 Python + Flask + MySQL + 前端页面的全栈架构，代码结构清晰，易于学习和扩展。二、核心功能 1. 数据采集 - 自动爬取 quotes.toscrape.com 网站的名言数据 - 支持多页面自动翻页抓取 - 使用 Requests 发送 HTTP 请求 - 使用 BeautifulSoup4 解析 HTML 页面 - 数据自动存储到 MySQL 数据库 2. 数据查询 - RESTful API 接口设计 - 支持按作者名称模糊搜索 - 支持按关键词模糊搜索 - 支持分页查询（可自定义每页显示数量） - 提供统计数据接口 3. 前端展示 - 简洁美观的查询界面 - 实时显示总记录数和作者数量 - 支持多条件组合搜索 - 分页浏览功能 - 响应式设计，支持移动端访问

大数据

Python、Flask

中国管理案例共享中心数据爬取

（1）爬取首页所有最新案例（2）需要每个案例的具体信息，点击链接进入第二个标签页获取（如图2），词条内容如果为URL的直接抓取链接放进表格即可，如果没有信息的词条为空（3）爬取数据以excel表格为结果进行输出

大数据

Python、Scrapy

b站up主代表作信息

使用 Selenium 自动化测试工具，在未登录哔哩哔哩（B 站）账号的状态下，选择任意一位 UP 主的个人主页进行访问；待页面所有元素完成渲染加载后，精准定位页面中的 “代表作” 功能模块，从中逐一提取每个作品对应的代表作标题、播放次数、弹幕数这三项核心信息，并将提取到的所有数据完整且清晰地打印输出。

大数据

Python、Selenium、Sele...

链家二手房数据爬取

爬取房屋标题、房屋标签（如：必看好房）、总价、单价、所在位置（如：区域/小区）、房屋格局（几室几厅）、房屋面积、朝向、装修状态、楼层、楼栋类型（板楼/塔楼等）、是否近地铁、免税类型（房本满五年等）、是否随时看房，并写入csv文件。

大数据

Python、Scrapy

Python静态网页数据采集练手项目-简易数据采集工具

立项背景：为掌握静态网页数据采集技能，开展此练手项目，目标是实现网页信息的自动化提取与整理，替代手动复制的低效操作。软件功能：通过Python脚本发起网络请求获取静态网页HTML源码，利用解析工具提取文章标题、发布时间、内容摘要等核心字段，最终将数据整理为格式规范的Excel表格。业务流程：确定目标静态网页→编写爬虫脚本完成数据抓取与解析→校验数据准确性→导出为Excel文件交付。

大数据

Python

数据仓库工具

支持数据仓库抽取、调度、ETL流程；工具元数据库多种支持，包含MySQL、高斯、PG、GP，并且可灵活适配其他数据库；抽取工具可根据数据库选型适配，可进行单个任务配置、批量任务配置、自动建表、类型校验等；支持基本数据库MySQL、Hive等；支持数据库国产化，如达梦、GP、高斯；

金融、大数据

Python、MySQL、Postgre...

基于Hadoop生态的端到端大数据平台

构建基于 Hadoop 生态的端到端大数据处理与可视化平台。具体需完成： 1、数据采集需开发多线程爬虫框架（Python），配置自动重试与反爬策略，实现20+异构数据源（含API/JSON/CSV）的定时抓取，经序列化后实时写入Kafka集群（；实时计算组基于Spark Streaming构建流处理管道，完成实时数据清洗、窗口聚合（Tumbling Window）及状态管理，处理结果通过JDBC连接池写入MySQL，需求：MySQL写入硬性要求高性能写入，流处理核心规范需要规范，容错设计，死信队列：失败记录写入Kafka； 2、离线数仓组使用Spark SQL构建Hive分层模型： ODS层（兼容多源异构数据（JSON/CSV/Parquet） DWD层（退化维度，将常用维度属性嵌入事实表，脏数据清洗，空值填充，数据脱敏）， DWS层（预聚合主题指标） ADS层（生成业务指标），指标体系建设，业务指标，存储优化，兼容多源异构数据，要求数据一致性，性能标准，可维护性； 3、ETL开发组编写Spark ETL调度作业，每日增量同步Hive DWS/ADS层数据至MySQL分析库，采用分区字段+时间戳双重增量识别机制，支持CDC变更数据捕获模式，启用Spark动态分区覆盖，要求精准增量识别，数据变更追踪，动态分区，并发度，幂等性； 4、可视化组采用Flask+ECharts开发响应式大屏，小组协助使用git仓库。核心要求：读取分析数据驱动5个动态刷新图表，并读取离线数据展示1个综合分析视图，确保大屏适配多种终端。全流程采用 Hadoop 生态技术 (Kafka, Spark, Hive, MySQL，flask)，确保系统可扩展性，并实现实时数据动态刷新与离线综合分析展示。

大数据

Python、Flask、Kafka、M...

对于Python库的使用-数据可视化

本项目基于Matplotlib、Seaborn及Plotly库，实现多维度数据可视化。支持Excel/CSV数据导入，可快速生成折线图、热力图、交互式散点图等，适配销售、科研等多场景数据分析。代码模块化设计，新手易上手，还能自定义图表样式与交互逻辑，助力高效挖掘数据规律，输出专业可视化报告。

大数据

Python

同花顺数据采集

立项背景和目标：同花顺作为金融数据服务商，需实时采集股市、基金等公开数据以支持分析决策。本项目旨在开发一个自动化数据采集系统，解决手动获取效率低、易出错的问题。目标包括：采集每日金融数据（如股价、成交量等），涨停板数据，热门概念对应股票。后续用于自动化每日复盘以及量化交易。软件功能及核心模块：系统核心功能包括：1) 数据爬取模块：基于Python的Scrapy框架，定时抓取同花顺官网、财经API等源；2) 数据清洗模块：使用Pandas处理缺失值、去重，确保数据一致性；3) 存储模块：将数据写入MySQL数据库，支持JSON格式导出；4) 监控报警模块：日志记录失败任务。

金融、大数据

Python

金属行业新闻全量采集工具 V1.0

项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低（单条新闻平均耗时 5 分钟）” 的痛点，开发自动化工具爬取金属信息网（http://www.metalinfo.cn）的新闻数据，解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源，为行业趋势分析、市场动态监测提供结构化数据支持。软件功能和核心模块列表页爬取模块：通过 POST 请求调用 API 接口（http://www.metalinfo.cn/json/search/list），支持分页参数（pageSize=20、current=1/2...），批量获取新闻基础信息（标题、发布时间、唯一标识 rid）；详情页提取模块：根据列表页返回的 rid，通过 GET 请求调用详情 API（http://www.metalinfo.cn/json/resource/detail），提取完整正文内容和来源信息；反爬处理模块：集成随机 User-Agent 池（模拟 Chrome/Safari/Android 浏览器）、动态延时策略（1-3 秒详情页间隔、2-4 秒分页间隔），规避网站频率限制；数据存储模块：将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件，支持直接导入 Excel 或数据库进行后续分析。业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。

大数据、生活服务

Scrapy

票房数据全量采集工具 V1.0

业务和功能介绍项目背景和目标针对电影行业数据分析中 “历史票房数据分散、手动收集效率低（单年数据整理需 2 小时 +）” 的痛点，开发自动化工具实现 1994-2024 年中国内地电影票房数据的全量采集，为行业趋势分析、票房预测提供结构化基础数据。软件功能和核心模块全量爬取模块：按年份批量抓取票房数据，包含影片排名、上映年份、电影名称、票房金额等核心字段；反爬处理模块：通过随机切换 User-Agent（模拟多浏览器）、2-4 秒动态延时（模拟人类浏览间隔），规避目标网站的频率限制；数据清洗模块：自动去除文本空白字符（空格、换行），过滤无效数据行（如无排名的空记录）；存储模块：按年份结构化保存为本地文件（./aba/ 年份），支持后续 Excel / 数据库导入。业务流程目标网站分析→反爬策略设计→爬虫脚本开发→全量数据爬取（1994-2024）→数据清洗→结构化存储→支持下游数据分析应用。

大数据、生活服务

Scrapy

大数据 爬虫/脚本 软件定制 案例

大数据爬虫/脚本软件定制案例