大数据 爬虫/脚本 软件定制 案例

程序聚合 软件案例 大数据 爬虫/脚本
爬虫系统
一、项目概述 本项目是一个完整的网络爬虫与数据查询系统,实现了从名言网站自动采集数据, 并通过Web界面提供查询展示功能。项目采用 Python + Flask + MySQL + 前端页面 的全栈架构,代码结构清晰,易于学习和扩展。 二、核心功能 1. 数据采集 - 自动爬取 quotes.toscrape.com 网站的名言数据 - 支持多页面自动翻页抓取 - 使用 Requests 发送 HTTP 请求 - 使用 BeautifulSoup4 解析 HTML 页面 - 数据自动存储到 MySQL 数据库 2. 数据查询 - RESTful API 接口设计 - 支持按作者名称模糊搜索 - 支持按关键词模糊搜索 - 支持分页查询(可自定义每页显示数量) - 提供统计数据接口 3. 前端展示 - 简洁美观的查询界面 - 实时显示总记录数和作者数量 - 支持多条件组合搜索 - 分页浏览功能 - 响应式设计,支持移动端访问
大数据
Python、Flask
中国管理案例共享中心数据爬取
(1)爬取首页所有最新案例 (2)需要每个案例的具体信息,点击链接进入第二个标签页获取(如图2),词条内容如果为URL的直接抓取链接放进表格即可,如果没有信息的词条为空 (3)爬取数据以excel表格为结果进行输出
大数据
Python、Scrapy
b站up主代表作信息
使用 Selenium 自动化测试工具,在未登录哔哩哔哩(B 站)账号的状态下,选择任意一位 UP 主的个人主页进行访问;待页面所有元素完成渲染加载后,精准定位页面中的 “代表作” 功能模块,从中逐一提取每个作品对应的代表作标题、播放次数、弹幕数这三项核心信息,并将提取到的所有数据完整且清晰地打印输出。
大数据
Python、Selenium、Sele...
链家二手房数据爬取
爬取房屋标题、房屋标签(如:必看好房)、总价、单价、所在位置(如:区域/小区)、房屋格局(几室几厅)、房屋面积、朝向、装修状态、楼层、楼栋类型(板楼/塔楼等)、是否近地铁、免税类型(房本满五年等)、是否随时看房 ,并写入csv文件。
大数据
Python、Scrapy
Python静态网页数据采集练手项目-简易数据采集工具
立项背景:为掌握静态网页数据采集技能,开展此练手项目,目标是实现网页信息的自动化提取与整理,替代手动复制的低效操作。 软件功能:通过Python脚本发起网络请求获取静态网页HTML源码,利用解析工具提取文章标题、发布时间、内容摘要等核心字段,最终将数据整理为格式规范的Excel表格。 业务流程:确定目标静态网页→编写爬虫脚本完成数据抓取与解析→校验数据准确性→导出为Excel文件交付。
大数据
Python
数据仓库工具
支持数据仓库抽取、调度、ETL流程; 工具元数据库多种支持,包含MySQL、高斯、PG、GP,并且可灵活适配其他数据库; 抽取工具可根据数据库选型适配,可进行单个任务配置、批量任务配置、自动建表、类型校验等; 支持基本数据库MySQL、Hive等; 支持数据库国产化,如达梦、GP、高斯;
金融、大数据
Python、MySQL、Postgre...
基于Hadoop生态的端到端大数据平台
构建基于 Hadoop 生态的端到端大数据处理与可视化平台。具体需完成: 1、数据采集需开发多线程爬虫框架(Python),配置自动重试与反爬策略,实现20+异构数据源(含API/JSON/CSV)的定时抓取,经序列化后实时写入Kafka集群(;实时计算组基于Spark Streaming构建流处理管道,完成实时数据清洗、窗口聚合(Tumbling Window)及状态管理,处理结果通过JDBC连接池写入MySQL,需求:MySQL写入硬性要求高性能写入,流处理核心规范需要规范,容错设计,死信队列:失败记录写入Kafka; 2、离线数仓组使用Spark SQL构建Hive分层模型: ODS层(兼容多源异构数据(JSON/CSV/Parquet) DWD层(退化维度,将常用维度属性嵌入事实表,脏数据清洗,空值填充,数据脱敏), DWS层(预聚合主题指标) ADS层(生成业务指标),指标体系建设,业务指标,存储优化,兼容多源异构数据,要求数据一致性,性能标准,可维护性; 3、ETL开发组编写Spark ETL调度作业,每日增量同步Hive DWS/ADS层数据至MySQL分析库,采用分区字段+时间戳双重增量识别机制,支持CDC变更数据捕获模式,启用Spark动态分区覆盖,要求精准增量识别,数据变更追踪,动态分区,并发度,幂等性; 4、可视化组采用Flask+ECharts开发响应式大屏,小组协助使用git仓库。核心要求: 读取分析数据驱动5个动态刷新图表,并读取离线数据展示1个综合分析视图,确保大屏适配多种终端。全流程采用 Hadoop 生态技术 (Kafka, Spark, Hive, MySQL,flask),确保系统可扩展性,并实现实时数据动态刷新与离线综合分析展示。
大数据
Python、Flask、Kafka、M...
对于Python库的使用-数据可视化
本项目基于Matplotlib、Seaborn及Plotly库,实现多维度数据可视化。支持Excel/CSV数据导入,可快速生成折线图、热力图、交互式散点图等,适配销售、科研等多场景数据分析。代码模块化设计,新手易上手,还能自定义图表样式与交互逻辑,助力高效挖掘数据规律,输出专业可视化报告。
大数据
Python
同花顺数据采集
立项背景和目标​:同花顺作为金融数据服务商,需实时采集股市、基金等公开数据以支持分析决策。本项目旨在开发一个自动化数据采集系统,解决手动获取效率低、易出错的问题。目标包括:采集每日金融数据(如股价、成交量等),涨停板数据,热门概念对应股票。 后续用于自动化每日复盘以及量化交易。 ​软件功能及核心模块​:系统核心功能包括:1) ​数据爬取模块​:基于Python的Scrapy框架,定时抓取同花顺官网、财经API等源;2) ​数据清洗模块​:使用Pandas处理缺失值、去重,确保数据一致性;3) ​存储模块​:将数据写入MySQL数据库,支持JSON格式导出;4) ​监控报警模块​:日志记录失败任务。
金融、大数据
Python
金属行业新闻全量采集工具 V1.0
项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低(单条新闻平均耗时 5 分钟)” 的痛点,开发自动化工具爬取金属信息网(http://www.metalinfo.cn)的新闻数据,解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源,为行业趋势分析、市场动态监测提供结构化数据支持。 软件功能和核心模块 列表页爬取模块:通过 POST 请求调用 API 接口(http://www.metalinfo.cn/json/search/list),支持分页参数(pageSize=20、current=1/2...),批量获取新闻基础信息(标题、发布时间、唯一标识 rid); 详情页提取模块:根据列表页返回的 rid,通过 GET 请求调用详情 API(http://www.metalinfo.cn/json/resource/detail),提取完整正文内容和来源信息; 反爬处理模块:集成随机 User-Agent 池(模拟 Chrome/Safari/Android 浏览器)、动态延时策略(1-3 秒详情页间隔、2-4 秒分页间隔),规避网站频率限制; 数据存储模块:将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件,支持直接导入 Excel 或数据库进行后续分析。 业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。
大数据、生活服务
Scrapy
票房数据全量采集工具 V1.0
业务和功能介绍 项目背景和目标针对电影行业数据分析中 “历史票房数据分散、手动收集效率低(单年数据整理需 2 小时 +)” 的痛点,开发自动化工具实现 1994-2024 年中国内地电影票房数据的全量采集,为行业趋势分析、票房预测提供结构化基础数据。 软件功能和核心模块 全量爬取模块:按年份批量抓取票房数据,包含影片排名、上映年份、电影名称、票房金额等核心字段; 反爬处理模块:通过随机切换 User-Agent(模拟多浏览器)、2-4 秒动态延时(模拟人类浏览间隔),规避目标网站的频率限制; 数据清洗模块:自动去除文本空白字符(空格、换行),过滤无效数据行(如无排名的空记录); 存储模块:按年份结构化保存为本地文件(./aba/ 年份),支持后续 Excel / 数据库导入。 业务流程目标网站分析→反爬策略设计→爬虫脚本开发→全量数据爬取(1994-2024)→数据清洗→结构化存储→支持下游数据分析应用。
大数据、生活服务
Scrapy
ETL工具-EData
1. 支持mysql/pg/es/api作为输入输出,以支持数据库数据统计/迁移/异构 2. 支持中间件逻辑,支持数据库筛选、聚合操作,对数据做清洗、统计 3. 支持分页参数、自定义分页+排序传输,支持,全程通过http传输 4. 支持预览处理、打印数据,方便测试 5. 支持后台UI创建规则脚本,并手动执行
大数据
PHP
网络视频网站数据爬虫
一、核心功能:基础数据采集与处理 核心功能是爬虫的 “基石”,主要目标是精准、稳定地获取视频平台的核心公开数据,并完成初步清洗,为后续分析或应用提供原料。 1. 目标数据采集(核心能力) 爬虫可针对主流视频平台(如 B 站、抖音、YouTube、腾讯视频等),定向采集以下几类关键数据,具体采集范围需根据平台接口限制或页面结构调整: 数据类别 具体采集内容 应用场景举例 视频基础信息 视频 ID、标题、发布时间、时长、封面图 URL、播放量、点赞量、收藏量、评论数、分享数 视频热度分析、内容分类统计 创作者信息 创作者 ID、昵称、头像 URL、粉丝数、关注数、发布视频总数、账号认证类型(如 “UP 主”) 创作者画像分析、达人筛选 视频内容数据 视频播放地址(需区分 “可下载”“仅在线播放” 权限)、字幕文本(公开字幕)、标签 / 分类 视频内容检索、字幕关键词分析 互动数据 评论内容(用户名、评论时间、评论点赞数、回复链)、弹幕内容(发送时间、弹幕文本) 用户情感分析、热门话题提取 2. 数据清洗与标准化 采集到的原始数据常存在格式混乱(如时间戳格式不统一)、冗余(如重复评论)、无效值(如播放量为 “--”)等问题,爬虫需内置处理逻辑: 格式统一:将不同平台的时间戳(如 “2024-05-20”“1684567890”)统一转为标准时间格式,播放量(如 “1.2 万”“12000”)统一转为数值型; 冗余 / 无效数据过滤:删除重复的评论、弹幕,过滤掉 “无意义文本”(如纯表情评论)或无效字段(如封面图 URL 失效); 关键词提取:基于 NLP(自然语言处理)工具(如 jieba、NLTK),从视频标题、评论、字幕中提取核心关键词(如 “AI 生成”“美食教程”),为后续分类打标签。 3. 数据存储与导出 采集并清洗后的数据需持久化存储,支持多种存储方式以适配不同需求: 本地存储:适合小规模数据,如 Excel(.xlsx)、CSV(逗号分隔文件,便于 Excel/Python 读取)、JSON(轻量格式,适合程序调用); 数据库存储:适合大规模、高并发采集场景,如关系型数据库(MySQL、PostgreSQL,用于结构化数据如视频基础信息)、非关系型数据库(MongoDB,用于非结构化数据如评论、弹幕); 数据导出:支持按需导出为可视化工具兼容格式(如 PowerBI、Tableau 可读取的 CSV/Excel),或 API 接口格式(供其他系统调用)。 二、扩展功能:提升采集效率与场景适配性 扩展功能是在核心能力基础上,针对 “高并发、反爬对抗、多场景需求” 设计的进阶能力,决定爬虫的稳定性与实用性。 1. 反爬对抗与稳定性优化 主流视频平台均设有反爬机制(如 IP 封锁、Cookie 验证、验证码、接口签名),爬虫需通过技术手段适配,确保采集过程
大数据
AntiCaptcha、Apache C...
报刊采集系统-数据采集
主导报刊采集项目,成功采集了162种报刊的内容及PDF。负责数据处理,采用Scrapy和BS4技术栈,设计并实施了三通道架构以优化分布式数据采集。有效应对反爬机制,通过登录验证和cookie验证确保数据的准确性和完整性。利用pandas进行数据分析,结合正则表达式、机器学习(数据标注)和AI大模型进行深入解析,提升了数据处理的效率和准确性。
金融、大数据
Scrapy、Selenium、Sele...
Python模拟登录-模拟今日头条登录
个人Python训练,通过Python编码进行今日头条的模拟登录,其中用到了多个模块,如selenium模块,同时涉及了利用xpath进行元素定位的相关操作,注意要确定定位的准确性和简洁性,值得一提的是该程序还存在一定的不足和缺陷,比如无法破解验证码的问题。
大数据
Python、Selenium
selenium相关使用-领导留言板网页内容抓取
个人Python编程练习,熟悉selenium的使用过程,了解selenium的优势,加深对Python爬虫的理解,selenium适用于加入了对Python爬虫进行了反爬操作的网页,如案例网页若直接利用爬虫抓取网页内容会被创宇盾拦截,利用selenium能够处理大多数反爬操作,增强了python爬虫的可操作范围。
大数据
Python、Selenium
Python爬虫数据抓取-豆瓣电影top250内容抓取
Python编程个人练习,熟练进行Python爬虫程序的编码流程和相关注意点,提升自我Python编程的能力,通过利用Python爬虫进行数据爬取了解爬虫的强大功能,同时利用定义类之后在创建对象的方式增强代码的可读性。
大数据
Python
boss直聘爬取
这个项目可以实现数据自动化爬取,并且自动生成xlsx文件保存,还附带几个可视化图表,有柱状图,条形图以及饼状图,可以清晰的看出数据分布,功能实现有爬取功能,以及反爬技术,还包括了自动化运行,效率高效,数据准确
大数据
Python、Django、Webpac...
基于深度学习的电价预测
电价预测模型 — 独立项目 时间:2024年暑期 基于时间序列与深度学习模型(LSTM、Transformer)构建电价预测系统,探索短期与中长期预测的差异化效果; 实现数据预处理与特征工程(缺失值处理、归一化、滞后特征构造、节假日与天气特征融合),提升模型鲁棒性; 在实验中对比了ARIMA、XGBoost与改进的Transformer结构,并以MAPE、RMSE为指标进行量化评估; 使用PyTorch + sklearn 完成模型搭建与训练,并基于可视化分析解释预测结果,撰写完整技术报告; 项目代码与报告开源至GitHub,积累实践经验并初步形成科研表达能力 Summer 2024 Developed a time-series forecasting system for electricity prices using LSTM and Transformer-based models, comparing short-term and long-term forecasting performance. Designed and implemented data preprocessing & feature engineering, including missing value imputation, normalization, lag features, and integration of holiday/weather factors. Conducted benchmarking with ARIMA, XGBoost, and enhanced Transformer variants, evaluated via MAPE and RMSE metrics. Built and trained models using PyTorch and scikit-learn, with visualization for interpretability and a full technical report. Open-sourced project on GitHub, gaining hands-on experience in applied machine learning and technical reportin
人工智能、大数据
PyTorch
toc平台电商APP-淘宝
1、用于分析市场趋势、竞争对手动态,电商监控价格波动 ‌ 2、通过预设规则自动访问网页并处理数据,替代人工操作。例如通过爬虫批量获取电商平台的数据进行大数据分析,效率显著提升。 数据采集与处理 通过模拟浏览器请求获取网页内容,支持HTTP/HTTPS协议,可自定义请求头(如User-Agent)规避反爬机制。解析HTML页面时,使用正则表达式或DOM解析库(如BeautifulSoup)提取指定数据(如文本、图片链接、商品价格等),并将结果存储为文本、数据库或特定格式文件。
大数据
Python
  • 1
  • 2
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服