程聚宝
程序员
软件外包公司
项目案例
发布需求
人才入驻
登录
注册
原"程序聚合"
工作台
程序员
软件开发公司
软件案例
发布需求
开发者入驻
帮助文档
小程序
登录
注册
原“程序聚合”
大数据 爬虫/脚本 软件定制 案例
行业:
全部
电商
企业内部管理
社交
在线教育
金融
旅游
云计算
医疗健康
人工智能
物流仓储
外卖跑腿
企业服务(saas)
物联网
VR/AR
区块链
内容平台
出行
安全
人力资源/HR
大数据
广告营销
农业
搜索
音视频
生活服务
汽车
游戏/电竞
工业互联网
智慧数字孪生
能源
零售/新消费
政务服务
房地产
展开
收起
载体:
全部
安卓APP
IOS APP
网站
小程序
H5
爬虫/脚本
插件
游戏
Windows应用
Mac应用
嵌入式软件
硬件
电视应用
云服务/云平台
算法模型
框架或代码包
车载应用
操作系统
鸿蒙应用
展开
收起
程序聚合
软件案例
大数据
爬虫/脚本
分类筛选
长期爬虫项目
1. 利用 request 请求获取政府部门多个栏目信息 2. 通过 xpath、bs4 等模块解析 html 数据 3. 通过 mysql 存储过程存储数据 4. 利用 DrissionPage、Playwright 等自动化工具 抓取数据 5. 通过数据接口抓取并存储企某查网站数据 6. 将获取的数据进行数据清洗 7. 同时负责一些数据后台网页端的功能测试项目
工业互联网、大数据
Python、Selenium
赢商大数据项目库采集与结构化落地
- Python爬虫 - Web自动化/浏览器爬虫 - 动态渲染采集 - Scrapy工程化采集 - 数据清洗与结构化存储(CSV/表格) - 反爬处理/登录态维持 - 业务背景:对商业地产行业数据进行汇总分析,需要批量获取赢商大数据平台的项目库信息,形成可分析的数据集(项目维度字段齐全、可导入Excel/BI)。 - 核心功能: - 项目列表翻页采集:按页获取项目入口链接,支持配置页数批量抓取 - 项目详情解析:进入详情页抽取关键字段并做字段名清洗与映射 - 采集稳定性:动态渲染等待、限速控制、低并发策略减少风控触发 - 数据落地:按统一字段写入 CSV,支持追加写入与断点续跑
内容平台、大数据
Python
多因子选股系统
专注 Python 量化金融领域,可定制开发多因子选股系统:支持 A 股 / 港股 / 美股多因子模型构建(估值、成长、质量、动量等因子)、因子有效性回测、选股策略自动化运行、每日量化分析报表自动生成(Excel / 可视化);可实现股票财务数据(净利润 / PE/PB)、资金流向、日内波动率等指标的自动化抓取与分析,适配同花顺等行情软件数据,提供完整的量化策略开发、回测、优化全流程服务,同时可定制 Excel 自动化工具(含规划求解、数据透视、批量处理),满足量化投资、数据分析全场景需求。
金融、大数据
Python、NumPy、Pandas
数据采集-互联网爬虫
开发爬虫程序,采集互联网数据: 1. 使用Python语言,基于Scrapy二次开发了一套适用于公司需求爬虫基础框架 2. 基于以上爬虫基础框架,开发爬虫程序采集各类互联网数据,满足公司需求 3. 基于爬虫开发经验,提供反爬建议
金融、大数据
Python、Scrapy、Seleni...
多源数据采集与可视化分析工具
多源数据采集:爬取 quotes.toscrape.com 名言数据 + Hacker News API 科技资讯 智能反爬策略:请求延迟、重试机制、随机 User-Agent、错误容忍 数据清洗存储:JSON 结构化存储,Pandas DataFrame 分析 多维数据分析:作者统计、标签分布、热度排行、词频分析 可视化图表生成:柱状图、饼图、词云式标签图,自动保存为 PNG 一键全流程:python main.py run 一条命令完成采集→分析→可视化
大数据
Python、Beautiful Sou...
scrapy实现批量图片下载
1、立项背景核心是解决人工 / 通用工具下载图片效率低、适配性差的痛点,依托 Scrapy 的爬虫优势满足批量图片获取的行业需求; 项目目标分为业务(高效下载、灵活筛选、结构化存储)、技术(轻量化、可扩展、易用)、非功能(合规、性能、容错)三类,聚焦 “高效、可控、易扩展”; 核心价值是提升下载效率、降低成本,同时保证下载过程的稳定性和合规性。 2、通过scrapy中的类ImagesPipeline实现图片下载,同时可以通过scarpy crawl -a传参,修改下载图片的内容和下载的数量 3、通过start_requests方法获取需要下载图片的内容和数量,并构造url传给parse方法获取每张图片下载的url,然后利用scarpy传给管道,由管道利用ImagesPipeline下载图片
大数据
Python
电商价格监控与竞品分析平台
1、立项背景和目标: 随着电商竞争白热化,品牌方与零售商需实时掌握自身及竞品在各平台(如亚马逊、淘宝、京东国际站)的价格、库存、促销及用户评价动态,用于制定定价策略、监控渠道合规及进行市场分析。传统人工监控效率低下、覆盖面窄。本项目旨在构建一个自动化、高可用的分布式爬虫系统,实现对全球多个主流电商平台目标商品信息的7x24小时稳定采集、清洗、存储与可视化,为核心业务部门提供分钟级延迟的数据支持,辅助商业决策。 2、软件功能、核心功能模块的介绍: 调度中心模块:基于Redis,负责任务的优先级调度、去重与分发,管理爬虫节点状态。 爬虫核心模块:基于Scrapy框架,针对不同网站编写定制化Spider,负责页面下载、解析,处理反爬机制(IP代理、请求头轮换、验证码识别接口调用)。 数据管道模块:负责数据清洗(去重、格式化)、验证,并持久化存储至MongoDB,同时将异常数据与原始页面快照存储至备用库以供排查。 监控报警模块:监控爬虫运行指标(成功率、速度、错误类型),通过企业微信机器人推送异常报警。 管理后台模块:提供Web界面,用于管理监控任务、配置爬取规则、查看数据报表和导出数据。 3、业务流程、功能路径描述: 任务配置:运营人员在管理后台添加/编辑监控商品,输入商品URL或ID,并设置爬取频率(每30分钟)。 任务调度:调度中心将新任务封装为Request,推入Redis的待爬队列。爬虫节点(多台服务器)从队列中竞争获取任务。 页面抓取:爬虫节点根据任务类型选择对应的Spider,通过代理IP池发起请求,下载目标页面。若失败,根据策略重试或放入重试队列。 数据解析与清洗:下载成功的页面被Spider中编写的XPath/CSS规则解析,提取商品标题、价格、促销信息、评价数等结构化数据。数据管道对价格进行货币单位统一、去除无效字符。 数据存储与通知:清洗后的数据存入MongoDB的product_price集合,并生成一条变更记录。若价格波动超过预设阈值,系统触发企业微信通知。 监控反馈:所有抓取日志和状态指标实时汇总,展示在监控仪表盘上。
电商、大数据
Python、MongoDB、Redis...
微信自动抢红包助手-快抢
基于Auto.js开发的微信自动抢红包脚本,通过监听系统通知实时响应红包消息,自动点击横幅进入聊天界面,并利用固定坐标快速点击红包和“开”按钮。脚本支持多次重试机制,确保红包被及时抢到,无需人工干预,极大提升抢红包成功率。
人工智能、大数据
JavaScript
Python足彩数据采集与清洗系统
【立项背景】客户需要获取近两年中国体育彩票“14场胜负”游戏的详细开奖数据,包括每期14场比赛的场次编号、对阵球队、赔率、比赛结果以及大奖金额,用于数据分析和研究。由于该数据无官方API且分散在多个网页,手动收集效率极低,因此开发此自动化采集工具。 【核心功能】 1. 自动采集:根据用户输入的起始和结束期号,循环请求目标网站获取每一期详细页面。 2. 数据解析:从HTML中提取14场比赛的主队、客队、比分、百家平均赔率(胜/平/负)以及开奖奖金信息。 3. 数据清洗:将比分自动转换为标准赛果(3/1/0),从赔率字符串中拆分出胜、平、负三列,处理缺失数据。 4. 自动跨年:支持期号自动跳转(如从25年最后一期跳至26年第一期),实现连续采集无需人工干预。 5. 数据导出:将多期数据合并后导出为一份完整的Excel文件。
内容平台、大数据
Python、Apache Nutch、...
爬虫系统
一、项目概述 本项目是一个完整的网络爬虫与数据查询系统,实现了从名言网站自动采集数据, 并通过Web界面提供查询展示功能。项目采用 Python + Flask + MySQL + 前端页面 的全栈架构,代码结构清晰,易于学习和扩展。 二、核心功能 1. 数据采集 - 自动爬取 quotes.toscrape.com 网站的名言数据 - 支持多页面自动翻页抓取 - 使用 Requests 发送 HTTP 请求 - 使用 BeautifulSoup4 解析 HTML 页面 - 数据自动存储到 MySQL 数据库 2. 数据查询 - RESTful API 接口设计 - 支持按作者名称模糊搜索 - 支持按关键词模糊搜索 - 支持分页查询(可自定义每页显示数量) - 提供统计数据接口 3. 前端展示 - 简洁美观的查询界面 - 实时显示总记录数和作者数量 - 支持多条件组合搜索 - 分页浏览功能 - 响应式设计,支持移动端访问
大数据
Python、Flask
中国管理案例共享中心数据爬取
(1)爬取首页所有最新案例 (2)需要每个案例的具体信息,点击链接进入第二个标签页获取(如图2),词条内容如果为URL的直接抓取链接放进表格即可,如果没有信息的词条为空 (3)爬取数据以excel表格为结果进行输出
大数据
Python、Scrapy
b站up主代表作信息
使用 Selenium 自动化测试工具,在未登录哔哩哔哩(B 站)账号的状态下,选择任意一位 UP 主的个人主页进行访问;待页面所有元素完成渲染加载后,精准定位页面中的 “代表作” 功能模块,从中逐一提取每个作品对应的代表作标题、播放次数、弹幕数这三项核心信息,并将提取到的所有数据完整且清晰地打印输出。
大数据
Python、Selenium、Sele...
链家二手房数据爬取
爬取房屋标题、房屋标签(如:必看好房)、总价、单价、所在位置(如:区域/小区)、房屋格局(几室几厅)、房屋面积、朝向、装修状态、楼层、楼栋类型(板楼/塔楼等)、是否近地铁、免税类型(房本满五年等)、是否随时看房 ,并写入csv文件。
大数据
Python、Scrapy
Python静态网页数据采集练手项目-简易数据采集工具
立项背景:为掌握静态网页数据采集技能,开展此练手项目,目标是实现网页信息的自动化提取与整理,替代手动复制的低效操作。 软件功能:通过Python脚本发起网络请求获取静态网页HTML源码,利用解析工具提取文章标题、发布时间、内容摘要等核心字段,最终将数据整理为格式规范的Excel表格。 业务流程:确定目标静态网页→编写爬虫脚本完成数据抓取与解析→校验数据准确性→导出为Excel文件交付。
大数据
Python
数据仓库工具
支持数据仓库抽取、调度、ETL流程; 工具元数据库多种支持,包含MySQL、高斯、PG、GP,并且可灵活适配其他数据库; 抽取工具可根据数据库选型适配,可进行单个任务配置、批量任务配置、自动建表、类型校验等; 支持基本数据库MySQL、Hive等; 支持数据库国产化,如达梦、GP、高斯;
金融、大数据
Python、MySQL、Postgre...
基于Hadoop生态的端到端大数据平台
构建基于 Hadoop 生态的端到端大数据处理与可视化平台。具体需完成: 1、数据采集需开发多线程爬虫框架(Python),配置自动重试与反爬策略,实现20+异构数据源(含API/JSON/CSV)的定时抓取,经序列化后实时写入Kafka集群(;实时计算组基于Spark Streaming构建流处理管道,完成实时数据清洗、窗口聚合(Tumbling Window)及状态管理,处理结果通过JDBC连接池写入MySQL,需求:MySQL写入硬性要求高性能写入,流处理核心规范需要规范,容错设计,死信队列:失败记录写入Kafka; 2、离线数仓组使用Spark SQL构建Hive分层模型: ODS层(兼容多源异构数据(JSON/CSV/Parquet) DWD层(退化维度,将常用维度属性嵌入事实表,脏数据清洗,空值填充,数据脱敏), DWS层(预聚合主题指标) ADS层(生成业务指标),指标体系建设,业务指标,存储优化,兼容多源异构数据,要求数据一致性,性能标准,可维护性; 3、ETL开发组编写Spark ETL调度作业,每日增量同步Hive DWS/ADS层数据至MySQL分析库,采用分区字段+时间戳双重增量识别机制,支持CDC变更数据捕获模式,启用Spark动态分区覆盖,要求精准增量识别,数据变更追踪,动态分区,并发度,幂等性; 4、可视化组采用Flask+ECharts开发响应式大屏,小组协助使用git仓库。核心要求: 读取分析数据驱动5个动态刷新图表,并读取离线数据展示1个综合分析视图,确保大屏适配多种终端。全流程采用 Hadoop 生态技术 (Kafka, Spark, Hive, MySQL,flask),确保系统可扩展性,并实现实时数据动态刷新与离线综合分析展示。
大数据
Python、Flask、Kafka、M...
对于Python库的使用-数据可视化
本项目基于Matplotlib、Seaborn及Plotly库,实现多维度数据可视化。支持Excel/CSV数据导入,可快速生成折线图、热力图、交互式散点图等,适配销售、科研等多场景数据分析。代码模块化设计,新手易上手,还能自定义图表样式与交互逻辑,助力高效挖掘数据规律,输出专业可视化报告。
大数据
Python
同花顺数据采集
立项背景和目标:同花顺作为金融数据服务商,需实时采集股市、基金等公开数据以支持分析决策。本项目旨在开发一个自动化数据采集系统,解决手动获取效率低、易出错的问题。目标包括:采集每日金融数据(如股价、成交量等),涨停板数据,热门概念对应股票。 后续用于自动化每日复盘以及量化交易。 软件功能及核心模块:系统核心功能包括:1) 数据爬取模块:基于Python的Scrapy框架,定时抓取同花顺官网、财经API等源;2) 数据清洗模块:使用Pandas处理缺失值、去重,确保数据一致性;3) 存储模块:将数据写入MySQL数据库,支持JSON格式导出;4) 监控报警模块:日志记录失败任务。
金融、大数据
Python
金属行业新闻全量采集工具 V1.0
项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低(单条新闻平均耗时 5 分钟)” 的痛点,开发自动化工具爬取金属信息网(http://www.metalinfo.cn)的新闻数据,解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源,为行业趋势分析、市场动态监测提供结构化数据支持。 软件功能和核心模块 列表页爬取模块:通过 POST 请求调用 API 接口(http://www.metalinfo.cn/json/search/list),支持分页参数(pageSize=20、current=1/2...),批量获取新闻基础信息(标题、发布时间、唯一标识 rid); 详情页提取模块:根据列表页返回的 rid,通过 GET 请求调用详情 API(http://www.metalinfo.cn/json/resource/detail),提取完整正文内容和来源信息; 反爬处理模块:集成随机 User-Agent 池(模拟 Chrome/Safari/Android 浏览器)、动态延时策略(1-3 秒详情页间隔、2-4 秒分页间隔),规避网站频率限制; 数据存储模块:将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件,支持直接导入 Excel 或数据库进行后续分析。 业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。
大数据、生活服务
Scrapy
票房数据全量采集工具 V1.0
业务和功能介绍 项目背景和目标针对电影行业数据分析中 “历史票房数据分散、手动收集效率低(单年数据整理需 2 小时 +)” 的痛点,开发自动化工具实现 1994-2024 年中国内地电影票房数据的全量采集,为行业趋势分析、票房预测提供结构化基础数据。 软件功能和核心模块 全量爬取模块:按年份批量抓取票房数据,包含影片排名、上映年份、电影名称、票房金额等核心字段; 反爬处理模块:通过随机切换 User-Agent(模拟多浏览器)、2-4 秒动态延时(模拟人类浏览间隔),规避目标网站的频率限制; 数据清洗模块:自动去除文本空白字符(空格、换行),过滤无效数据行(如无排名的空记录); 存储模块:按年份结构化保存为本地文件(./aba/ 年份),支持后续 Excel / 数据库导入。 业务流程目标网站分析→反爬策略设计→爬虫脚本开发→全量数据爬取(1994-2024)→数据清洗→结构化存储→支持下游数据分析应用。
大数据、生活服务
Scrapy
1
2
帮助文档
Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服
微信扫一扫直接聊
无需加好友