爬虫/脚本 软件定制 案例

Python学生成绩分析器——极简重构与算法优化
本项目是一个学生成绩分析工具,接收学生姓名及多门成绩作为输入,自动计算平均分、评定等级、筛选及格学生并生成汇总报告。项目核心亮点在于对原始臃肿代码进行了全面的极简化重构——消除重复判断、优化低效循环、封装核心实体,交付的代码骨架清晰、逻辑简洁、易于扩展。
企业内部管理
Python
小猫成长天数差计算-猫咪成长记录工具
家里四只小猫刚满3周,为了方便记录它们的成长天数、对比每只的生长进度,我用Python写了这个小工具。它能录入每只小猫的出生天数,自动计算任意两只小猫的年龄差,还能把它们的成长数据存在字典里方便随时查看,帮我精准掌握小家伙们的成长节奏。
生活服务
Python
内容管理与自动化发布平台
该项目实现了微信公众号文章的全流程自动化发布,包括内容生成、配图制作、编辑器操控和定时发布。 立项背景:客户运营多个微信公众号,每周需要发布3-5篇文章,传统方式下需要手动排版、插入图片、设置封面、保存草稿,单篇耗时1-2小时。需要一套自动化系统大幅提升发布效率。 核心功能模块: 1. AI内容生成:基于关键词和大纲,通过DeepSeek等大模型自动生成2000字以内的文章正文 2. 智能配图:集成DashScope图片生成API,根据文章主题自动生成中文技术配图 3. CDP浏览器操控:通过Chrome DevTools Protocol直接操控微信公众号后台编辑器,实现标题填写、正文写入、图片上传、样式排版的全自动化 4. 封面设置与草稿保存:自动从正文选取封面图,保存为草稿供人工审阅后发布 业务流程:提供文章主题/大纲 → AI生成正文 → 自动生成配图 → CDP打开公众号后台 → 自动填充编辑器 → 上传图片 → 保存草稿 → 人工审阅发布。
内容平台、零售/新消费
Python、SQLite
行业数据采集与AI处理系统-Beauty Device News Monitor & Intelligence System
该项目为跨境电商美容仪器行业打造了一套全自动新闻情报采集与智能分析系统。 立项背景:美容仪器行业产品迭代快、全球竞品动态分散在多个信息源,客户需要每天从国内(百度/微信/36氪)和国际(NewsAPI/Google News)等渠道收集行业新闻,但人工搜索耗时且容易遗漏。 核心功能模块: 1. 多源新闻采集引擎:同时抓取聚合数据API(国内新闻)和NewsAPI(国际新闻),每日定时执行 2. 智能去重与分类:基于关键词匹配自动将新闻分为"新品发布""技术突破""市场趋势""竞品动态"四类 3. 飞书多维表格自动入库:采集结果自动写入飞书Bitable,支持多条件筛选和状态标记 4. 异常监控告警:当采集失败或IP被屏蔽时自动发送飞书通知 业务流程:定时任务触发 → 多API并发请求 → 数据清洗去重 → AI分类打标 → 飞书表格写入 → 异常告警通知。
电商、企业服务(saas)
Python、SQLite
代码优化-AI代码清理工 (Python 脚本版)
本项目是一个基于 Python 开发的代码优化命令行工具。它主要用来帮助开发者自动识别和重构代码中的冗余逻辑,提升代码质量与开发效率。 核心功能: · 结构优化:自动识别代码中冗长的 if-elif 判断结构,并智能给出字典映射的优化建议。 · 算法优化:检测代码中的低效循环逻辑,如手动去重、字符串拼接等,并建议使用 sum()、set()、join() 等更高效的 Python 内置语法。 · 交互式操作:提供交互式命令行界面,支持直接粘贴代码或指定文件路径进行优化。 技术亮点: · 面向对象设计,职责分离,核心逻辑封装完善。 · 支持 Python 3.x,扩展性好,方便后续增加优化规则。 · 独立开发并完成测试,具备实际使用价值。
人工智能
Python
航空票务直连查询与滑块验证参数获取系统
本项目面向南航机票查询场景,目标是在接口存在风控验证时,仍能稳定完成航班数据获取。系统采用“参数获取与数据请求解耦”设计:先通过本地脚本生成基础请求参数并尝试直连查询;若命中滑块验证,则自动切换浏览器辅助流程,完成验证并仅导出可用 cookies/WAF 参数;最后由主流程统一发起直连查询并输出结构化结果。核心能力包括:自动/半自动双模式验证、请求重试与机场码兜底、结果与参数摘要统一输出、异常阶段可追踪,满足自动化查询和问题定位需求。
出行
Node.js、Python、Puppe...
a股市场消息分析
本项目是一套面向A股市场的全链路财经新闻智能处理系统。在信息爆炸的市场环境中,投资者每天面临海量新闻资讯,难以高效筛选和提炼有价值的市场信号。本系统正是为解决这一痛点而设计——从东方财富、财联社、金十数据、新浪财经等十余个主流财经平台实时采集全市场新闻资讯,经过智能去重和清洗后,构建结构化索引与语义向量,最终由大语言模型驱动的分析引擎对新闻进行深度挖掘与关联推理,自动发现隐藏在零散消息背后的市场脉络与投资线索,帮助投资者从"信息过载"走向"信息洞察",为投资决策提供数据驱动的参考依据。 本系统由三大核心模块组成,覆盖从数据采集到深度分析的完整链路: - **新闻采集(collectagent)**:支持十余个财经数据源的并行采集,内置智能去重机制,可按时间范围、数据源、消息分组灵活筛选,支持一次性采集与后台守护进程持续运行两种模式,采集结果输出为标准化 JSONL 文件与可读的 Markdown 报告。 - **索引构建与检索(indexagent)**:将采集的原始新闻构建三层索引——SQLite 结构化存储保证数据持久化与精确查询,FTS5 全文索引支持高效关键词检索,FAISS 向量索引实现语义级别的相似度匹配。三种检索模式可独立使用也可混合调用,满足从简单查询到复杂语义搜索的多种需求。 - **深度分析与荐股(analyst)**:通过算法自动构建时间线链、板块联动链、异常检测链、实体交叉链四种线索链,将零散新闻组织为有逻辑的分析脉络;随后交给 LLM 进行深度推理,挖掘隐蔽信息并生成结构化分析报告。整个过程采用闭环自修正机制,自动评估报告的事实性、完整性、逻辑性等五个维度,未达标时定位最薄弱环节并选择修正策略迭代优化,确保输出质量稳定可靠。
金融
Python
电商平台竞品价格监控爬虫
这是一个自动化数据采集工具,旨在帮助电商运营人员实时监控竞争对手的价格变动和促销活动。系统能够定时抓取指定电商平台(如淘宝、京东)特定类目的商品标题、价格、销量及评论数。核心功能包括反爬虫策略绕过、数据清洗去重、异常价格预警以及自动生成每日价格波动趋势报表,为运营定价策略提供数据支撑。
电商
Python、Matplotlib、Pa...
数据清洗爬取
1、爬取指定内容,自动化播报系多源指定内容爬取 支持网页、公告栏、榜单、业务站点、资讯页定向字段抓取:标题、时间、数值、状态、变动数据,只抓指定内容,过滤冗余。 增量爬取 + 去重 只爬新增 / 更新数据,历史重复自动过滤,避免重复播报、重复入库。 定时轮询爬虫 支持自定义 cron 表达式:每小时、每日定点、工作日 / 周末差异化爬取。 反爬基础适配 请求头伪装、间隔限速、代理池接入、Cookie 会话保持,稳定长期爬取不封 IP。 数据结构化清洗 爬取后自动格式化:时间统一、数字提取、空值填充、异常数据标记。 二、自动化播报系统核心扩充 1. 多渠道自动播报推送 钉钉群自定义机器人播报 企业微信、微信公众号模板消息 邮件定时报表播报 本地弹窗 + 语音文字转语音播报统
企业内部管理
Python、MySQL
ozon网页爬虫
本项目是面向俄罗斯OZON跨境电商平台的定向商品数据采集项目,核心围绕电商平台商品全维度数据归集需求,实现自动化、规模化、标准化的数据抓取与规整,可稳定支撑跨境电商竞品调研、价格监测、商品素材整理、行业数据统计等业务场景使用。 在功能层面,项目可实现对OZON平台全链路商品数据的全自动采集与处理,覆盖三大核心功能模块:一是商品视觉素材采集,可完整抓取商品主图、轮播展示图、详情页实拍图、场景配图等全部图片资源链接,保证素材链路完整可调用;二是商品详情信息采集,精准提取商品标题、所属类目、详细参数、完整详情介绍、规格属性、品牌相关信息等全量文案类数据,还原商品完整信息;三是商品价格体系采集,适配OZON平台多模式定价规则,同步抓取商品日常售价、划线原价、平台活动折扣价、多规格差异化定价、促销优惠信息等全类型价格数据,完整还原商品真实定价结构。 同时项目内置自动化数据处理能力,可自动完成空白数据剔除、特殊字符清理、数据格式统一、重复商品信息去重,保证输出数据规整可用、无冗余无效内容,无需人工二次整理,可直接用于数据分析、素材归档、业务复盘等后续环节。
电商
Python、SQLite、Scrapy
抖店-数据采集
获取抖音电商罗盘数据,采集商品销量数据并进行数据分析。 整理数据,观测销量,成交量等信息,并及时调整策略,最大化收益。 逆向js加密参数a_bogus,使代码能正常请求数据接口。 通过逆向的a_bogus参数 进行正常的数据api接口请求,返回正常数据,通过专业的数据分析师进行数据分析,了解商品销量是否达到预期,与及时做出改变,最大化获益。
电商、医疗健康
Python
智能影视搜索爬取与多线程下载脚本
一、业务介绍 本项目是基于 Python 开发的影视剧集智能爬取与 M3U8 多线程下载工具,针对动态渲染影视网站开发。 用户只需输入影视名称,程序自动完成全网剧集检索、页面动态 JS 渲染解析、M3U8 流媒体地址逆向抓取,支持自选集数、多线程高速分片下载,并自动规范命名保存,解决传统手动找资源、单线程下载慢、文件杂乱难管理的痛点,实现搜剧、爬集、解析、下载、自动命名一站式自动化处理。 二、核心功能介绍 影视关键词搜索 支持输入任意影视名称,程序自动检索匹配相关影视资源,抓取对应全部剧集列表。 剧集列表爬取展示 自动爬取该影视下所有分集信息,展示可下载集数,供用户自由选择需要下载的单集或多集。 JS 动态渲染解析 调用浏览器内核进行 JS 渲染,逆向解析动态网页,精准提取隐藏的M3U8 流媒体真实地址。 多线程分片下载 采用多线程技术对 M3U8 分片资源并行下载,大幅提升下载速度,相比单线程效率显著提升。 智能文件自动命名 下载完成后自动按照 影视名称 + 所选集数 规则命名文件,格式规整、方便本地整理和查找。 整体流程自动化 全程无需手动抓包、找链接,从搜剧→爬集→选集→解析 M3U8→多线程下载→自动命名,全流程自动化运行。
音视频、搜索
Python
长江航道局水位信息
长江航道局水位信息爬虫,是基于Python开发的专用网络数据采集程序,主要针对长江航道局官方对外公开的各水文站点实时水位、历史水位、站点信息进行自动化抓取、解析、整理与存储。 通过模拟浏览器请求,定时采集长江沿线各水位监测站点的水情数据,替代人工手动查询、记录水位信息,实现水位数据自动化采集、实时同步、历史数据归档,为水位数据分析、水情监控、航道通航参考提供稳定数据源。
大数据
Python
政府公开项目爬取
全栈爬虫技术能力 静态页面:requests + BeautifulSoup / lxml,高效抓取标准 HTML。 动态渲染:Selenium / Playwright / Puppeteer 模拟真实浏览器,处理 JavaScript 异步加载的页面。 API 逆向:通过抓包分析(Fiddler/Charles),直接调用 XHR 接口获取 JSON 数据,性能极佳。 登录态维持:Cookie 持久化、模拟表单登录、扫码登录、OAuth2.0 授权。
云计算
Python、Selenium
华能电网数据报表系统
可以sap数据取到填报系统和大屏数据展示功能,填报系统可以像Excel一样计算保存,前端使用Vue3 和luckysheet 实现 后台 使用POI 实现Excel导出 该系统包含招标项目管理,物资管理,上会管理,台账管理等商务功能,可以查询招标项目关联信息,可以对应选择进行上会, 也可以自动生成台账供审计使用。
企业内部管理
Java、JavaScript、Pyth...
大众点评爬虫
需要输入搜索字符或者对类目下的大众点评商家数据进行收集 需要的主要字段是:商家名称,商家地址,商家类目,商家卖品sku,价格等 需要对一个城市收集上面的信息 对收集到的数据进行清洗 得出在这个城市开奶茶店的预测
大数据、电商
Python、Scrapy、Seleni...
掘⾦技术社区⽂章索引
随着掘金社区技术文章数量快速增长,用户手动筛选特定关键词(如 “AI”)的相关文章效率极低,难以快速获取目标领域的优质内容。本项目旨在开发一款自动化爬虫工具,通过模拟浏览器访问、动态加载页面、关键词过滤与数据整理,帮助用户批量获取并结构化存储符合需求的技术文章,大幅提升信息检索效率,为学习研究提供数据支持。 本工具基于 Python 开发,核心功能分为三大模块:①动态页面爬取模块,通过 SeleniumBase 模拟浏览器滚动加载,完整获取掘金后端板块的文章列表;②数据解析与过滤模块,使用 BeautifulSoup 解析 HTML,提取文章标题、作者、发布时间、阅读量等信息,并按用户设定的关键词进行不区分大小写的匹配筛选;③数据存储模块,通过 Pandas 将筛选后的结果去重并导出为 Excel 文件,方便用户后续查看与分析。 工具运行时,首先启动自动化浏览器访问掘金目标板块,通过多次模拟滚动触发页面加载,获取完整的页面源码;随后解析 HTML 中的文章条目,提取关键信息并按关键词规则过滤;接着对重复文章标题进行去重处理,确保数据唯一性;最后将清洗后的结构化数据整理为表格形式,保存为 Excel 文件并提示文件路径,用户可直接打开文件查看所有匹配结果。
内容平台
Beautiful Soup、Panda...
superalpha自动查找工具-worldquantbrian量化金融
这是worldquantbrian量化金融平台的一个用来自动寻找superalpha的工具。 (在正常情况下,super阿尔法模拟出来这难度非常高。) 使用了多线程,会自动遇到网络问题后重试,自动给生成成功的Alpha染色,自动检查相关性保持superalpha的提交成功率,触发限流后等待并重试等等。让worldquantbrian平台的顾问就算是残疾人也可以稳定提交superalpha的python程序
金融、工业互联网
Python
基于 Python 的自动化脚本工具
为提升日常工作 / 学习效率,开发了一套自动化工具,解决重复的手动操作问题 分析需求,设计脚本的功能模块(如批量下载、数据清洗、格式转换); 编写核心逻辑代码,处理异常情况,保证脚本稳定性;提高了效率,方便了日常生活的复杂事物,进行多次检查脚本,修改代码 成品很完善
物联网
Python
全栈式电商商品数据采集与分析中台-电商比价数据平台 - 价先知
立项背景:电商平台商品数据分散、价格波动频繁,商家与消费者难以快速获取全面比价信息,亟需一套稳定、可扩展的自动化数据采集与分析系统。 核心功能:① 多平台商品数据定时采集(含标题、价格、库存、销量、评论);② 数据清洗与标准化入库;③ 价格趋势可视化与竞品对比分析;④ 异常价格监控与预警通知。 业务流程:用户配置采集任务 → 系统按规则定时抓取 → 数据清洗与校验 → 存入 MySQL 数据库 → 后台可视化展示与分析 → 触发异常价格预警。
电商、大数据
Python、Selenium
  • 1
  • 2
  • 3
  • 4
  • 14
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服