程聚宝
程序员
软件外包公司
项目案例
发布需求
人才入驻
登录
注册
原"程序聚合"
工作台
程序员
软件开发公司
软件案例
发布需求
开发者入驻
帮助文档
小程序
登录
注册
原“程序聚合”
大数据 爬虫/脚本 软件定制 案例
行业:
全部
电商
企业内部管理
社交
在线教育
金融
旅游
云计算
医疗健康
人工智能
物流仓储
外卖跑腿
企业服务(saas)
物联网
VR/AR
区块链
内容平台
出行
安全
人力资源/HR
大数据
广告营销
农业
搜索
音视频
生活服务
汽车
游戏/电竞
工业互联网
智慧数字孪生
能源
零售/新消费
政务服务
房地产
展开
收起
载体:
全部
安卓APP
IOS APP
网站
小程序
H5
爬虫/脚本
插件
游戏
Windows应用
Mac应用
嵌入式软件
硬件
电视应用
云服务/云平台
算法模型
框架或代码包
车载应用
操作系统
鸿蒙应用
展开
收起
程序聚合
软件案例
大数据
爬虫/脚本
分类筛选
微信自动抢红包助手-快抢
基于Auto.js开发的微信自动抢红包脚本,通过监听系统通知实时响应红包消息,自动点击横幅进入聊天界面,并利用固定坐标快速点击红包和“开”按钮。脚本支持多次重试机制,确保红包被及时抢到,无需人工干预,极大提升抢红包成功率。
人工智能、大数据
JavaScript
Python足彩数据采集与清洗系统
【立项背景】客户需要获取近两年中国体育彩票“14场胜负”游戏的详细开奖数据,包括每期14场比赛的场次编号、对阵球队、赔率、比赛结果以及大奖金额,用于数据分析和研究。由于该数据无官方API且分散在多个网页,手动收集效率极低,因此开发此自动化采集工具。 【核心功能】 1. 自动采集:根据用户输入的起始和结束期号,循环请求目标网站获取每一期详细页面。 2. 数据解析:从HTML中提取14场比赛的主队、客队、比分、百家平均赔率(胜/平/负)以及开奖奖金信息。 3. 数据清洗:将比分自动转换为标准赛果(3/1/0),从赔率字符串中拆分出胜、平、负三列,处理缺失数据。 4. 自动跨年:支持期号自动跳转(如从25年最后一期跳至26年第一期),实现连续采集无需人工干预。 5. 数据导出:将多期数据合并后导出为一份完整的Excel文件。
内容平台、大数据
Python、Apache Nutch、...
爬虫系统
一、项目概述 本项目是一个完整的网络爬虫与数据查询系统,实现了从名言网站自动采集数据, 并通过Web界面提供查询展示功能。项目采用 Python + Flask + MySQL + 前端页面 的全栈架构,代码结构清晰,易于学习和扩展。 二、核心功能 1. 数据采集 - 自动爬取 quotes.toscrape.com 网站的名言数据 - 支持多页面自动翻页抓取 - 使用 Requests 发送 HTTP 请求 - 使用 BeautifulSoup4 解析 HTML 页面 - 数据自动存储到 MySQL 数据库 2. 数据查询 - RESTful API 接口设计 - 支持按作者名称模糊搜索 - 支持按关键词模糊搜索 - 支持分页查询(可自定义每页显示数量) - 提供统计数据接口 3. 前端展示 - 简洁美观的查询界面 - 实时显示总记录数和作者数量 - 支持多条件组合搜索 - 分页浏览功能 - 响应式设计,支持移动端访问
大数据
Python、Flask
中国管理案例共享中心数据爬取
(1)爬取首页所有最新案例 (2)需要每个案例的具体信息,点击链接进入第二个标签页获取(如图2),词条内容如果为URL的直接抓取链接放进表格即可,如果没有信息的词条为空 (3)爬取数据以excel表格为结果进行输出
大数据
Python、Scrapy
b站up主代表作信息
使用 Selenium 自动化测试工具,在未登录哔哩哔哩(B 站)账号的状态下,选择任意一位 UP 主的个人主页进行访问;待页面所有元素完成渲染加载后,精准定位页面中的 “代表作” 功能模块,从中逐一提取每个作品对应的代表作标题、播放次数、弹幕数这三项核心信息,并将提取到的所有数据完整且清晰地打印输出。
大数据
Python、Selenium、Sele...
链家二手房数据爬取
爬取房屋标题、房屋标签(如:必看好房)、总价、单价、所在位置(如:区域/小区)、房屋格局(几室几厅)、房屋面积、朝向、装修状态、楼层、楼栋类型(板楼/塔楼等)、是否近地铁、免税类型(房本满五年等)、是否随时看房 ,并写入csv文件。
大数据
Python、Scrapy
Python静态网页数据采集练手项目-简易数据采集工具
立项背景:为掌握静态网页数据采集技能,开展此练手项目,目标是实现网页信息的自动化提取与整理,替代手动复制的低效操作。 软件功能:通过Python脚本发起网络请求获取静态网页HTML源码,利用解析工具提取文章标题、发布时间、内容摘要等核心字段,最终将数据整理为格式规范的Excel表格。 业务流程:确定目标静态网页→编写爬虫脚本完成数据抓取与解析→校验数据准确性→导出为Excel文件交付。
大数据
Python
数据仓库工具
支持数据仓库抽取、调度、ETL流程; 工具元数据库多种支持,包含MySQL、高斯、PG、GP,并且可灵活适配其他数据库; 抽取工具可根据数据库选型适配,可进行单个任务配置、批量任务配置、自动建表、类型校验等; 支持基本数据库MySQL、Hive等; 支持数据库国产化,如达梦、GP、高斯;
金融、大数据
Python、MySQL、Postgre...
基于Hadoop生态的端到端大数据平台
构建基于 Hadoop 生态的端到端大数据处理与可视化平台。具体需完成: 1、数据采集需开发多线程爬虫框架(Python),配置自动重试与反爬策略,实现20+异构数据源(含API/JSON/CSV)的定时抓取,经序列化后实时写入Kafka集群(;实时计算组基于Spark Streaming构建流处理管道,完成实时数据清洗、窗口聚合(Tumbling Window)及状态管理,处理结果通过JDBC连接池写入MySQL,需求:MySQL写入硬性要求高性能写入,流处理核心规范需要规范,容错设计,死信队列:失败记录写入Kafka; 2、离线数仓组使用Spark SQL构建Hive分层模型: ODS层(兼容多源异构数据(JSON/CSV/Parquet) DWD层(退化维度,将常用维度属性嵌入事实表,脏数据清洗,空值填充,数据脱敏), DWS层(预聚合主题指标) ADS层(生成业务指标),指标体系建设,业务指标,存储优化,兼容多源异构数据,要求数据一致性,性能标准,可维护性; 3、ETL开发组编写Spark ETL调度作业,每日增量同步Hive DWS/ADS层数据至MySQL分析库,采用分区字段+时间戳双重增量识别机制,支持CDC变更数据捕获模式,启用Spark动态分区覆盖,要求精准增量识别,数据变更追踪,动态分区,并发度,幂等性; 4、可视化组采用Flask+ECharts开发响应式大屏,小组协助使用git仓库。核心要求: 读取分析数据驱动5个动态刷新图表,并读取离线数据展示1个综合分析视图,确保大屏适配多种终端。全流程采用 Hadoop 生态技术 (Kafka, Spark, Hive, MySQL,flask),确保系统可扩展性,并实现实时数据动态刷新与离线综合分析展示。
大数据
Python、Flask、Kafka、M...
对于Python库的使用-数据可视化
本项目基于Matplotlib、Seaborn及Plotly库,实现多维度数据可视化。支持Excel/CSV数据导入,可快速生成折线图、热力图、交互式散点图等,适配销售、科研等多场景数据分析。代码模块化设计,新手易上手,还能自定义图表样式与交互逻辑,助力高效挖掘数据规律,输出专业可视化报告。
大数据
Python
同花顺数据采集
立项背景和目标:同花顺作为金融数据服务商,需实时采集股市、基金等公开数据以支持分析决策。本项目旨在开发一个自动化数据采集系统,解决手动获取效率低、易出错的问题。目标包括:采集每日金融数据(如股价、成交量等),涨停板数据,热门概念对应股票。 后续用于自动化每日复盘以及量化交易。 软件功能及核心模块:系统核心功能包括:1) 数据爬取模块:基于Python的Scrapy框架,定时抓取同花顺官网、财经API等源;2) 数据清洗模块:使用Pandas处理缺失值、去重,确保数据一致性;3) 存储模块:将数据写入MySQL数据库,支持JSON格式导出;4) 监控报警模块:日志记录失败任务。
金融、大数据
Python
金属行业新闻全量采集工具 V1.0
项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低(单条新闻平均耗时 5 分钟)” 的痛点,开发自动化工具爬取金属信息网(http://www.metalinfo.cn)的新闻数据,解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源,为行业趋势分析、市场动态监测提供结构化数据支持。 软件功能和核心模块 列表页爬取模块:通过 POST 请求调用 API 接口(http://www.metalinfo.cn/json/search/list),支持分页参数(pageSize=20、current=1/2...),批量获取新闻基础信息(标题、发布时间、唯一标识 rid); 详情页提取模块:根据列表页返回的 rid,通过 GET 请求调用详情 API(http://www.metalinfo.cn/json/resource/detail),提取完整正文内容和来源信息; 反爬处理模块:集成随机 User-Agent 池(模拟 Chrome/Safari/Android 浏览器)、动态延时策略(1-3 秒详情页间隔、2-4 秒分页间隔),规避网站频率限制; 数据存储模块:将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件,支持直接导入 Excel 或数据库进行后续分析。 业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。
大数据、生活服务
Scrapy
票房数据全量采集工具 V1.0
业务和功能介绍 项目背景和目标针对电影行业数据分析中 “历史票房数据分散、手动收集效率低(单年数据整理需 2 小时 +)” 的痛点,开发自动化工具实现 1994-2024 年中国内地电影票房数据的全量采集,为行业趋势分析、票房预测提供结构化基础数据。 软件功能和核心模块 全量爬取模块:按年份批量抓取票房数据,包含影片排名、上映年份、电影名称、票房金额等核心字段; 反爬处理模块:通过随机切换 User-Agent(模拟多浏览器)、2-4 秒动态延时(模拟人类浏览间隔),规避目标网站的频率限制; 数据清洗模块:自动去除文本空白字符(空格、换行),过滤无效数据行(如无排名的空记录); 存储模块:按年份结构化保存为本地文件(./aba/ 年份),支持后续 Excel / 数据库导入。 业务流程目标网站分析→反爬策略设计→爬虫脚本开发→全量数据爬取(1994-2024)→数据清洗→结构化存储→支持下游数据分析应用。
大数据、生活服务
Scrapy
ETL工具-EData
1. 支持mysql/pg/es/api作为输入输出,以支持数据库数据统计/迁移/异构 2. 支持中间件逻辑,支持数据库筛选、聚合操作,对数据做清洗、统计 3. 支持分页参数、自定义分页+排序传输,支持,全程通过http传输 4. 支持预览处理、打印数据,方便测试 5. 支持后台UI创建规则脚本,并手动执行
大数据
PHP
网络视频网站数据爬虫
一、核心功能:基础数据采集与处理 核心功能是爬虫的 “基石”,主要目标是精准、稳定地获取视频平台的核心公开数据,并完成初步清洗,为后续分析或应用提供原料。 1. 目标数据采集(核心能力) 爬虫可针对主流视频平台(如 B 站、抖音、YouTube、腾讯视频等),定向采集以下几类关键数据,具体采集范围需根据平台接口限制或页面结构调整: 数据类别 具体采集内容 应用场景举例 视频基础信息 视频 ID、标题、发布时间、时长、封面图 URL、播放量、点赞量、收藏量、评论数、分享数 视频热度分析、内容分类统计 创作者信息 创作者 ID、昵称、头像 URL、粉丝数、关注数、发布视频总数、账号认证类型(如 “UP 主”) 创作者画像分析、达人筛选 视频内容数据 视频播放地址(需区分 “可下载”“仅在线播放” 权限)、字幕文本(公开字幕)、标签 / 分类 视频内容检索、字幕关键词分析 互动数据 评论内容(用户名、评论时间、评论点赞数、回复链)、弹幕内容(发送时间、弹幕文本) 用户情感分析、热门话题提取 2. 数据清洗与标准化 采集到的原始数据常存在格式混乱(如时间戳格式不统一)、冗余(如重复评论)、无效值(如播放量为 “--”)等问题,爬虫需内置处理逻辑: 格式统一:将不同平台的时间戳(如 “2024-05-20”“1684567890”)统一转为标准时间格式,播放量(如 “1.2 万”“12000”)统一转为数值型; 冗余 / 无效数据过滤:删除重复的评论、弹幕,过滤掉 “无意义文本”(如纯表情评论)或无效字段(如封面图 URL 失效); 关键词提取:基于 NLP(自然语言处理)工具(如 jieba、NLTK),从视频标题、评论、字幕中提取核心关键词(如 “AI 生成”“美食教程”),为后续分类打标签。 3. 数据存储与导出 采集并清洗后的数据需持久化存储,支持多种存储方式以适配不同需求: 本地存储:适合小规模数据,如 Excel(.xlsx)、CSV(逗号分隔文件,便于 Excel/Python 读取)、JSON(轻量格式,适合程序调用); 数据库存储:适合大规模、高并发采集场景,如关系型数据库(MySQL、PostgreSQL,用于结构化数据如视频基础信息)、非关系型数据库(MongoDB,用于非结构化数据如评论、弹幕); 数据导出:支持按需导出为可视化工具兼容格式(如 PowerBI、Tableau 可读取的 CSV/Excel),或 API 接口格式(供其他系统调用)。 二、扩展功能:提升采集效率与场景适配性 扩展功能是在核心能力基础上,针对 “高并发、反爬对抗、多场景需求” 设计的进阶能力,决定爬虫的稳定性与实用性。 1. 反爬对抗与稳定性优化 主流视频平台均设有反爬机制(如 IP 封锁、Cookie 验证、验证码、接口签名),爬虫需通过技术手段适配,确保采集过程
大数据
AntiCaptcha、Apache C...
报刊采集系统-数据采集
主导报刊采集项目,成功采集了162种报刊的内容及PDF。负责数据处理,采用Scrapy和BS4技术栈,设计并实施了三通道架构以优化分布式数据采集。有效应对反爬机制,通过登录验证和cookie验证确保数据的准确性和完整性。利用pandas进行数据分析,结合正则表达式、机器学习(数据标注)和AI大模型进行深入解析,提升了数据处理的效率和准确性。
金融、大数据
Scrapy、Selenium、Sele...
Python模拟登录-模拟今日头条登录
个人Python训练,通过Python编码进行今日头条的模拟登录,其中用到了多个模块,如selenium模块,同时涉及了利用xpath进行元素定位的相关操作,注意要确定定位的准确性和简洁性,值得一提的是该程序还存在一定的不足和缺陷,比如无法破解验证码的问题。
大数据
Python、Selenium
selenium相关使用-领导留言板网页内容抓取
个人Python编程练习,熟悉selenium的使用过程,了解selenium的优势,加深对Python爬虫的理解,selenium适用于加入了对Python爬虫进行了反爬操作的网页,如案例网页若直接利用爬虫抓取网页内容会被创宇盾拦截,利用selenium能够处理大多数反爬操作,增强了python爬虫的可操作范围。
大数据
Python、Selenium
Python爬虫数据抓取-豆瓣电影top250内容抓取
Python编程个人练习,熟练进行Python爬虫程序的编码流程和相关注意点,提升自我Python编程的能力,通过利用Python爬虫进行数据爬取了解爬虫的强大功能,同时利用定义类之后在创建对象的方式增强代码的可读性。
大数据
Python
boss直聘爬取
这个项目可以实现数据自动化爬取,并且自动生成xlsx文件保存,还附带几个可视化图表,有柱状图,条形图以及饼状图,可以清晰的看出数据分布,功能实现有爬取功能,以及反爬技术,还包括了自动化运行,效率高效,数据准确
大数据
Python、Django、Webpac...
1
2
帮助文档
Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服
微信扫一扫直接聊
无需加好友