爬虫/脚本 软件定制 案例

豆瓣电影信息爬虫系统- 豆瓣电影信息爬虫系统
智能爬虫:自动爬取电影基本信息(名称、链接、上映时间、国家、想看人数等) 评论采集:批量获取电影评论,支持分页处理 数据分析:自动排序、统计词频、分析高频/低频词汇 数据可视化:生成Top 5电影柱状图和评论词云图 多格式存储:支持CSV和JSON两种数据格式
内容平台
Python、SQLite、Seleni...
量化交易系统
有段时间幻想炒股赚钱,于是自研了一套量化交易系统,虽然现实并不理想,但是学了很多新技术,积累了很多经验。 模型研发: 超参数优化框架; 算子生成框架; 自定义高阶算子; 回测功能: 一套模拟交易环境; 极速回测框架; 模型研发与策略回测通用; 丰富的指标记录; 交易功能: 支持多种数据源、多种交易环境; 定时获取行情信息并持久化存储; 定时计算预测结果并持久化存储; 定时读取预测结果执行交易;
金融
Python、NumPy、Pandas、...
淘宝运单号获取
获取发货订单的收货地址以及运单号信息 获取发货订单的收货地址以及运单号信息 获取发货订单的收货地址以及运单号信息 获取发货订单的收货地址以及运单号信息 获取发货订单的收货地址以及运单号信息
搜索
Selenium WebDriver
InterPro网站抓取程序
1. 立项背景和目标 背景:在生物信息学和蛋白质研究领域,研究人员经常需要从专业数据库中获取蛋白质家族、结构域和功能位点的系统分类信息。EBI InterPro数据库整合了多个蛋白质家族数据库,是重要的生物信息学资源。 目标:开发一个高效、稳定的数据采集系统,能够自动化地从InterPro数据库爬取特定蛋白质家族的全方位信息,包括分类层级关系、结构域重叠情况、相关文献等,为生物医学研究提供数据支持。 2. 软件功能和核心功能模块 核心功能模块: ① 父级数据采集模块 根据用户指定的蛋白质家族名称进行搜索 自动处理分页和翻页逻辑 提取顶级蛋白质家族的accession编号和名称 ② 子级数据采集模块 针对每个父级蛋白质家族,获取其下属的所有子分类 处理子级页面的分页机制 建立父子层级关系映射 ③ 详情数据提取模块 深入爬取每个具体蛋白质条目的详细信息 提取包括ID、名称、短名称、重叠同源超家族、结构域关系和相关文献等关键数据 ④ 数据存储模块 支持Excel和CSV双格式存储 结构化保存爬取结果 支持增量爬取和断点续传
内容平台
Jython、Selenium
用 Python+Qt 打造“波场哈希分分彩”:实时多模型预测结果
这是一个基于 Python 与 Qt 的本地桌面应用,用于对“链上/公开的开奖历史数据”做可视化研究: - 实时读取 `history/lottery_history.csv`,解析并清洗最新记录; - 以“下一期预测”+“预测历史”方式展示统计结果,并写入 `预测应用/predictions.csv`; - 自动验证与调参:定期运行 `预测应用/validate_predictions.py`,输出 `validation_report.json` 与 `validation_history.csv`,辅助选择更稳妥的参数; - 桌面级体验:倒计时、状态栏提示、关键时间窗保护,“预测中...”占位避免误导; - 全中文界面与日志,开箱即用。 ### 2. 主要亮点 - **全中文 GUI**:`预测应用/gui_app.py` 基于 PySide6 构建,信息密度高,操作直观; - **预测结果与历史强一致**:统一缓存/写入口径,“下一期预测”与 `predictions.csv` 同源,避免显示错位; - **自动验证与轻量调参**:每新增约 20 期或启动时触发验证,快速输出建议参数并可一键应用; - **多策略融合**:任意位组合统计(AnyDigits)+ 按位置统计(AnyPos)+ 混合器(Hybrid),并引入短窗热度/爆发/重复权重与候选置信; - **关键窗口保护**:开奖/公布前后避免重操作,优先确保界面流畅与可读性; - **稳健日志**:`预测应用/gui_app.log` 记录刷新、对账、验证与参数应用过程。 ### 3. 快速上手(macOS) 1) 克隆/解压到本地后,进入主目录运行: ```bash cd "预测应用" sh start_gui.sh ``` 脚本会创建虚拟环境、安装依赖并启动 GUI。若首次安装耗时稍长,请耐心等待。 2) 数据文件说明: - 历史数据:`history/lottery_history.csv`(应用会自动读取最新行); - 预测历史:`预测应用/predictions.csv`(应用生成/更新); - 验证报告:`预测应用/validation_report.json` / `validation_history.csv`(自动验证生成)。 ### 4. 界面与功能说明 - **当前概览**:显示当前最新期号、最近 100 条命中率(两位、三位、同时、三位中两位)。 - **下一期预测**:实时展示“预测中...”占位,待后台计算完成后输出两位/三位候选; - **预测历史表**:展示期号、两位/三位、候选与置信度、以及与历史开奖的对账命中列; - **操作与参数**:支持自动/手动控制,含窗口大小、衰减等参数;提供“快速回测”
金融
Python、Qt
对于Python库的使用-数据可视化
本项目基于Matplotlib、Seaborn及Plotly库,实现多维度数据可视化。支持Excel/CSV数据导入,可快速生成折线图、热力图、交互式散点图等,适配销售、科研等多场景数据分析。代码模块化设计,新手易上手,还能自定义图表样式与交互逻辑,助力高效挖掘数据规律,输出专业可视化报告。
大数据
Python
中国外运数字化应用平台IAM-VPN同步开发
在系统原有的同步逻辑上新增将上游获取到的公司用户和内部人事组织数据发送到 深信服VPN设备中去,用于VPN新设备数据同步,便于公司员工登录VPN远程 办公使用。并记录每次同步的log,便于后续排查。
企业内部管理
Java、Lombok、Spring B...
PythonEnvBuilder
立项背景和目标 在软件开发、教学和部署过程中,配置标准的Python开发环境是一项重复的任务。面对需要频繁更换测试设备、需要在多种环境中快速搭建Python开发环境的情况,手动重复执行下载Python、安装pip、配置环境变量、安装依赖包这一系列操作既耗时又乏味。本项目旨在创建一个极简的自动化工具,实现真正的“一键部署”,将原本需要10-15分钟的手动配置过程缩短至1-2分钟,显著提升环境准备效率。本项目旨在开发一个全自动、绿色化的Python环境部署工具,实现“一键部署,开箱即用”,将原本需要手动配置的过程简化为分钟级的自动化操作,显著提升环境搭建的效率和成功率。 核心功能模块 1. 智能环境检测系统:自动检测系统编码、工作目录和现有Python环境,确保部署基础稳定。 2. 多源下载管理:内置多个Python安装包、get-pip脚本及PyPI镜像源,支持自动切换,解决网络访问难题。 3. 核心环境部署引擎:负责Python解压、pip包管理器安装及关键配置文件(._pth文件)的修改,完成基础环境搭建。 4. 智能依赖安装系统:通过“三级回退策略”(离线优先 → 下载依赖 → 混合安装)自动化处理项目依赖,极大提升复杂项目环境搭建的成功率。 5. 完整的错误码与反馈系统:为每一个可能失败的操作步骤预设了明确的错误码和解决建议,便于用户排查问题。 业务流程 用户双击运行批处理脚本 → 自动检测并配置系统环境 → 检查现有环境是否就绪 → 若未就绪,则按顺序执行:下载Python便携版 → 解压至工作目录 → 下载并安装pip → 配置环境以支持第三方包 → 检查并安装requirements.txt中的项目依赖 → 部署成功,启动新的命令行环境供用户使用。
生活服务
Bash、PowerShell
3dmigoto_Automatic
业务和功能介绍 立项背景和目标 该项目源于3dmigoto框架在游戏Mod管理中的复杂配置流程。传统方式需要用户手动配置路径、版本和参数,操作门槛高且容易出错。本项目旨在开发一个轻量化、绿色化、自动化的智能工具,简化3dmigoto的使用流程,让普通玩家也能轻松管理游戏Mod。 核心功能模块 1.多版本支持系统 - 内置3dmigoto-GIMI、SRMI、WWMI、ZZMI等多个版本的开发版和游玩版 2. 智能路径搜索 - 快速搜索(0-10秒)和全局搜索两种模式,自动定位游戏文件 3. 自动化配置引擎 - 自动配置d3dx.ini等必要文件,无需手动操作 4. 稳定性保障机制 - 防闪退设计、分段加载、网络调控等系统优化 5. 实用工具集 - 运行库安装、脚本支持、一键修复、Mod自动分类等功能 业务流程 用户下载工具 → 自动检测系统环境 → 智能搜索游戏路径 → 选择对应版本 → 自动化配置 → 一键启动使用 → Mod文件自动分类管理
游戏/电竞
Python
Python-Excel 利好公告自动化生成工具
本项目面向券商、投研机构、财经媒体及数据运营团队,旨在彻底告别“复制-粘贴-调格式”的低效日报模式。系统每日自动汇总沪深两市最新利好公司公告,智能提取证券代码、公司简称、公告标题、公告类型、发布日期并映射利好类型,一键生成标准化、可打印、可分享的 Excel 报表;支持中文自动换行、列宽自适应、文件名自定义,真正做到了“秒级出表、零差错、零门槛”,大幅提升日报产出效率与专业度。
金融
Python
基于SAP-Scripting和uiautomation的sap自动回款入账脚本
目标:从登录到各种填表入账操作到退出登录的完整流程自动化 技术选型:对方没有影刀RPA高级会员,同时我也对自动化的底层实现有点兴趣,而且影刀RPA对于sap的元素识别实在不够好,好多都识别不到,于是采用直接python调用sap接口的方式实现 关于演示:实习公司的sap感觉不是很好录视频,所以就不传了
企业内部管理
Python
M3U8 视频批量下载与合成工具
使用技术(1-4 个) Python、aiohttp、FFmpeg、正则表达式 业务和功能介绍 立项背景和目标:针对基于 M3U8 协议的网络视频,解决其批量下载与格式合成的需求,实现高效、稳定的 TS 片段下载及 MP4 格式合成,支持并发控制、失败重试,提升视频下载的成功率与效率。 软件功能、核心功能模块的介绍: M3U8 地址提取模块:从视频播放页动态提取 M3U8 链接,适配不同网站格式。 M3U8 文件处理模块:下载并解析 M3U8 文件,递归处理嵌套 M3U8(如清晰度分级场景)。 TS 片段异步下载模块:基于异步编程实现高并发下载,支持失败重试与进度展示。 视频合成模块:调用 FFmpeg 将 TS 片段无损合成为 MP4 视频。 环境初始化模块:自动创建存储目录,检查 FFmpeg 环境依赖。 业务流程、功能细节描述:用户配置视频播放页 URL 和本地保存路径后,程序自动提取 M3U8 地址→下载并解析 M3U8 文件(处理嵌套逻辑)→异步并发下载所有 TS 片段(含失败重试)→最终调用 FFmpeg 将 TS 片段合成 MP4 视频,全流程自动化完成
音视频、生活服务
Scrapy
数据采集工具-京东达人视频数据采集工具
1. 用于采集京东视频中的达人账号下面的相关产品数据 2. 采集后的数据以产品SKU为名创建文件夹,并爬取相关的封面图片和视频 3. 使用内嵌浏览器,能够缓存登录状态,无需每次启动都重新登录 4. 主界面使用winform开发,该项目也包含了控制台版本
电商
Python、ASP.NET
爬虫-库下载
使用Python脚本进行开发,可以爬取许多网站,但会遵守robots协议,不做违法爬取。 也可以使用Python制作一些偏只能的东西 web前端也可以制作,反正这俩基本都能做 其他的也没有什么了,以后可能会继续学习较为困难的爬虫技术。web后端也会逐渐接触 库下载慢都用清华库
人工智能
Python
python爬虫-爬xx网页
AI驱动爬虫自动抓取网页数据,智能清洗、分析,快速提炼价值信息,实现高效精准的数据洞察。支持多源异构数据融合,动态适配网站结构变化,自动生成可视化报表与决策建议,助力企业实时把握市场趋势、优化运营策略,显著提升竞争力与响应速度。
企业内部管理
Selenium
同花顺数据采集
立项背景和目标​:同花顺作为金融数据服务商,需实时采集股市、基金等公开数据以支持分析决策。本项目旨在开发一个自动化数据采集系统,解决手动获取效率低、易出错的问题。目标包括:采集每日金融数据(如股价、成交量等),涨停板数据,热门概念对应股票。 后续用于自动化每日复盘以及量化交易。 ​软件功能及核心模块​:系统核心功能包括:1) ​数据爬取模块​:基于Python的Scrapy框架,定时抓取同花顺官网、财经API等源;2) ​数据清洗模块​:使用Pandas处理缺失值、去重,确保数据一致性;3) ​存储模块​:将数据写入MySQL数据库,支持JSON格式导出;4) ​监控报警模块​:日志记录失败任务。
金融、大数据
Python
硬盘管理系统-硬盘管理系统
这套硬盘管理系统主要用于对公司或个人的硬盘设备进行统一登记、借还管理与信息记录。系统提供新增、删除硬盘信息、记录借出与归还操作、备注填写、日志查询与导出 CSV 等功能。通过图形化界面,用户可直观地查看硬盘状态,防止遗失与混乱,方便管理人员追踪使用情况,提高硬盘流转效率与信息化管理水平。
企业内部管理
Python
金属行业新闻全量采集工具 V1.0
项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低(单条新闻平均耗时 5 分钟)” 的痛点,开发自动化工具爬取金属信息网(http://www.metalinfo.cn)的新闻数据,解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源,为行业趋势分析、市场动态监测提供结构化数据支持。 软件功能和核心模块 列表页爬取模块:通过 POST 请求调用 API 接口(http://www.metalinfo.cn/json/search/list),支持分页参数(pageSize=20、current=1/2...),批量获取新闻基础信息(标题、发布时间、唯一标识 rid); 详情页提取模块:根据列表页返回的 rid,通过 GET 请求调用详情 API(http://www.metalinfo.cn/json/resource/detail),提取完整正文内容和来源信息; 反爬处理模块:集成随机 User-Agent 池(模拟 Chrome/Safari/Android 浏览器)、动态延时策略(1-3 秒详情页间隔、2-4 秒分页间隔),规避网站频率限制; 数据存储模块:将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件,支持直接导入 Excel 或数据库进行后续分析。 业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。
大数据、生活服务
Scrapy
票房数据全量采集工具 V1.0
业务和功能介绍 项目背景和目标针对电影行业数据分析中 “历史票房数据分散、手动收集效率低(单年数据整理需 2 小时 +)” 的痛点,开发自动化工具实现 1994-2024 年中国内地电影票房数据的全量采集,为行业趋势分析、票房预测提供结构化基础数据。 软件功能和核心模块 全量爬取模块:按年份批量抓取票房数据,包含影片排名、上映年份、电影名称、票房金额等核心字段; 反爬处理模块:通过随机切换 User-Agent(模拟多浏览器)、2-4 秒动态延时(模拟人类浏览间隔),规避目标网站的频率限制; 数据清洗模块:自动去除文本空白字符(空格、换行),过滤无效数据行(如无排名的空记录); 存储模块:按年份结构化保存为本地文件(./aba/ 年份),支持后续 Excel / 数据库导入。 业务流程目标网站分析→反爬策略设计→爬虫脚本开发→全量数据爬取(1994-2024)→数据清洗→结构化存储→支持下游数据分析应用。
大数据、生活服务
Scrapy
数字政府DevOps平台-数舰
项目背景: 在数字政府建设的背景下,开发了一个研发过程全流程管理平台,旨在优化企业的研发流程。 项目目标: 通过统一研发管理工具与执行标准,提升研发质量和效率,从而增强企业的核心竞争力。
企业服务(saas)、政务服务
Java、Python、Kubernet...
  • 1
  • 2
  • 3
  • 4
  • 6
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服