内容平台爬虫/脚本软件定制案例

程序聚合软件案例内容平台爬虫/脚本

分类筛选

数据获取

跨境物流公司的信息收集客户是做跨境电商服务的，需要联系跨境目标国家靠谱的物流公司的相关情况，以供公司进行下一步商务活动，在目标网站获取以下相关信息公司名称公司地址公司网址联系电话负责人名字

内容平台

Python

基于Python的可视化影视信息-Python

业务目标1. 循环遍历电影列表遍历提前解析好的电影节点列表 movieItemList ，为每一部电影单独创建空字典 movieDict ，用来单条存储一部电影的全部字段。 2. XPath精准提取网页数据通过XPath语法，从网页节点中定位并抓取4类核心信息： - title ：电影主名称 - otherTitle ：电影别名/其他译名 - link ：电影详情页URL链接 - star ：电影评分 - quote ：电影短评/经典一句评语 3. 数据清洗与字典封装 - 合并主标题+别名，拼接为完整电影名称存入字典 - 把链接、评分、评语依次存入字典对应key - 打印单条电影字典，做运行调试校验 - 把单条字典追加进全局电影列表 movieList 批量抓取豆瓣电影列表页的电影信息，提取标题、链接、评分、经典评语，最终规整保存到本地 doubanMoive.csv 表格文件，方便后续查看、统计与数据分析。

内容平台

Java、JavaScript、Pyth...

n8n + AI 内容抓取与自动分发-AI内容抓取与自动分发工作流

本项目基于n8n工作流引擎，构建了一套从热点监控到内容再加工再到多渠道分发的全自动流水线。立项背景是新媒体运营团队每天需手动刷知乎、微博、36氪等平台找热点，手工改写后分发到微信群/飞书/公众号，效率极低。核心功能： 1. 定时热点抓取：每30分钟自动抓取知乎热榜、微博热搜、36氪快讯等多平台内容。 2. AI内容再加工：GPT对原始内容进行摘要提取、去重过滤、风格改写（支持多种文风模板）。 3. AI配图生成：ComfyUI Stable Diffusion 根据文章主题自动生成配图。 4. 质量过滤：AI评分机制，低于0.7分的内容自动丢弃，避免低质信息轰炸。 5. 多渠道推送：对接企业微信群机器人、飞书、钉钉等多渠道一键分发。 6. 异常告警：单节点失败自动重试3次，连续失败推送告警至运维群。

内容平台、广告营销

PostgreSQL、Redis、Ten...

内容管理与自动化发布平台

该项目实现了微信公众号文章的全流程自动化发布，包括内容生成、配图制作、编辑器操控和定时发布。立项背景：客户运营多个微信公众号，每周需要发布3-5篇文章，传统方式下需要手动排版、插入图片、设置封面、保存草稿，单篇耗时1-2小时。需要一套自动化系统大幅提升发布效率。核心功能模块： 1. AI内容生成：基于关键词和大纲，通过DeepSeek等大模型自动生成2000字以内的文章正文 2. 智能配图：集成DashScope图片生成API，根据文章主题自动生成中文技术配图 3. CDP浏览器操控：通过Chrome DevTools Protocol直接操控微信公众号后台编辑器，实现标题填写、正文写入、图片上传、样式排版的全自动化 4. 封面设置与草稿保存：自动从正文选取封面图，保存为草稿供人工审阅后发布业务流程：提供文章主题/大纲 → AI生成正文 → 自动生成配图 → CDP打开公众号后台 → 自动填充编辑器 → 上传图片 → 保存草稿 → 人工审阅发布。

内容平台、零售/新消费

Python、SQLite

掘⾦技术社区⽂章索引

随着掘金社区技术文章数量快速增长，用户手动筛选特定关键词（如 “AI”）的相关文章效率极低，难以快速获取目标领域的优质内容。本项目旨在开发一款自动化爬虫工具，通过模拟浏览器访问、动态加载页面、关键词过滤与数据整理，帮助用户批量获取并结构化存储符合需求的技术文章，大幅提升信息检索效率，为学习研究提供数据支持。本工具基于 Python 开发，核心功能分为三大模块：①动态页面爬取模块，通过 SeleniumBase 模拟浏览器滚动加载，完整获取掘金后端板块的文章列表；②数据解析与过滤模块，使用 BeautifulSoup 解析 HTML，提取文章标题、作者、发布时间、阅读量等信息，并按用户设定的关键词进行不区分大小写的匹配筛选；③数据存储模块，通过 Pandas 将筛选后的结果去重并导出为 Excel 文件，方便用户后续查看与分析。工具运行时，首先启动自动化浏览器访问掘金目标板块，通过多次模拟滚动触发页面加载，获取完整的页面源码；随后解析 HTML 中的文章条目，提取关键信息并按关键词规则过滤；接着对重复文章标题进行去重处理，确保数据唯一性；最后将清洗后的结构化数据整理为表格形式，保存为 Excel 文件并提示文件路径，用户可直接打开文件查看所有匹配结果。

内容平台

Beautiful Soup、Panda...

欧冠小程序

欧冠小程序是面向全球欧冠球迷的一站式足球服务平台，聚焦欧冠联赛全周期服务，整合赛事资讯、实时数据、互动社区、周边商城、会员权益于一体，依托微信生态即用即走，满足球迷“看赛、聊球、玩竞猜、买周边、享专属福利”的核心需求，打造轻量化、高体验的官方球迷服务入口。

内容平台

C++、Python

企业舆情saas

1.立项背景和目标：当前网络信息传播极速扩散，传统人工舆情监测存在覆盖不全、响应滞后、分析低效等问题，企业机构机构亟需轻量化、可弹性扩容的舆情管理工具，打造全国企业舆情 SaaS 系统。 2.软件功能，核心功能模块的介绍 a).账号权限认证系统（经root账号/自动进行权限分配包含页面、按钮、功能） b).数据获取（入池前，经python、java等其他语言进行各平台基础数据获取） c).数据清洗（入池前，对个平台重复数据进行清洗，此轮进行舆情标注三类：正面、中性、负面四级：一般关注重点紧急，舆情类别判断民生、政治、企业、谣言等） d).数据入池（入池，将通过初次数据清洗数据进行入池） e).根据账号权限、要求获取数据（二次清洗） 3.主要流程：企业：账号购买功能鉴权(线下购买，线上开启权限) -> 设定舆情点 -> 使用我司：线下磋商 -> 成功后提供注册地址 -> 注册后开启部分权限（自动、手动两种方案）网站：数据采集 -> 数据首次清洗 -> 入池 -> 数据二次清洗 -> 查询报送（舆情报告）

企业服务(saas)、内容平台

Java、Python、Elastics...

云南省建设监管公共服务平台企业数据采集（滑块校验 + 加密参数逆向 + Excel落地）

- Python：requests.Session（会话维持/接口请求）、pandas（Excel导出） - JS逆向与复用：execjs 调用本地 JS（复用站点加密逻辑） - 加密算法：RSA（JSEncrypt 分段加密生成 params）、AES（CryptoJS AES-ECB + Pkcs7，用于滑块点位与验证码头） - 风控处理：滑块验证码 blockPuzzle 识别（打码平台返回滑动距离 x）、二次校验后换取业务数据、翻页抓取与去重 - Python爬虫 / 接口采集 - JS逆向 / 加密参数还原 - AES/RSA 加解密 - 验证码对抗（滑块） - Session会话保持 - 数据清洗与表格落地（Excel） - 业务背景：住建监管类平台对企业信息查询接口做了参数加密与滑块校验，常规爬虫无法直接批量获取。项目目标是实现企业分页查询数据的自动化采集与结构化导出，用于企业库分析/数据归档。 - 核心功能： - 企业列表分页采集：按 pageNum/pageSize 拉取企业 records - 反爬突破：还原前端加密参数（RSA/AES）与滑块验证码校验链路 - 稳定采集：requests.Session 维持校验后的状态；企业名称去重避免重复写入 - 交付产物：字段统一清洗后导出 Excel（示例文件为“云南企业数据.xlsx”）

内容平台、政务服务

JavaScript、Python、Pa...

赢商大数据项目库采集与结构化落地

- Python爬虫 - Web自动化/浏览器爬虫 - 动态渲染采集 - Scrapy工程化采集 - 数据清洗与结构化存储（CSV/表格） - 反爬处理/登录态维持 - 业务背景：对商业地产行业数据进行汇总分析，需要批量获取赢商大数据平台的项目库信息，形成可分析的数据集（项目维度字段齐全、可导入Excel/BI）。 - 核心功能： - 项目列表翻页采集：按页获取项目入口链接，支持配置页数批量抓取 - 项目详情解析：进入详情页抽取关键字段并做字段名清洗与映射 - 采集稳定性：动态渲染等待、限速控制、低并发策略减少风控触发 - 数据落地：按统一字段写入 CSV，支持追加写入与断点续跑

内容平台、大数据

Python

旅游企业网站、银行学习平台自动化、游戏自动化脚本

1、应客户要求开发某银行的内部学习平台自动化脚本 2、该银行要求员工挂满指定学分（在线看课程1个小时为1学分），超过20分钟无动作即被系统判定无效，需要重新进入学习界面。软件用python做成独立EXE应用程序，直接在软件登录账号，一键开始自动挂课，挂满自动切换课程。 3、该银行不定期举行内部考试，用软件可以一键抓取所有考试题目。

企业内部管理、内容平台

PHP、Python、VBScript

自动化脚本

这是一个专业的AI大模型价格数据获取项目，致力于实时采集全球主流大模型供应商的定价信息。项目覆盖OpenAI（GPT系列）、Google（Gemini）、Anthropic（Claude）、DeepSeek、百度（文心一言）、阿里（通义千问）、字节跳动（豆包）等国内外知名厂商的API价格数据。系统通过自动化手段获取取各平台的模型名称、输入/输出单价、计费单位、货币类型、模型层级等关键字段，并支持按文本、图像、音频、视频等多模态类型分类采集。采集数据经过清洗、标准化处理后，存储至结构化数据库，为下游的价格比对分析、成本优化推荐、动态定价策略等应用场景提供实时、准确的数据支撑。

内容平台

Python

用于批量下载Kemono帖子内容的高度可自定义性的命令行工具-KToolBox

该项目是一个用于批量下载 Kemono 中帖子内容的实用命令行工具，在 GitHub 上开源，500+ stars。 ## 功能 - 支持多文件并发下载 - API 调用和下载失败后 **自动重试** - 支持下载单个帖子以及指定的画师的 **全部帖子** - 可 **更新已下载** 的画师目录至最新状态 - 支持自定义下载的帖子/画师的 **文件和目录名格式**、**目录结构** - 例如帖子目录可设置为 `[2025-01-02]_TheTitle` 的格式，图片文件设置为按顺序的 `1.jpg`、`2.jpg` 等 - 当你希望将某作者的所有帖子图片统一存放至一个目录下，以便预览，可以使用 `job.mix_posts` 配置项搭配自定义文件名格式，你将得到几百上千张图片的目录 - 如 `[2025-01-02]_TheTitle_1.jpg`、`[2025-01-02]_TheTitle_2.jpg`、`[2025-01-02]_TheTitle_3.jpg` 等 - 支持排除 **指定格式** 的文件或仅下载指定格式的文件 - 例如当你不想下载庞大重复的 PSD 和压缩包文件时，可以在配置中排除 `.psd` 和 `.zip` 文件 - 支持按**文件大小**过滤下载 - 例如，如果你想在磁盘空间不足时避免下载大型视频文件，可以在配置中设置最大文件大小限制 - 你也可以设置最小文件大小，以跳过下载缩略图或预览图片 - 支持按帖子**标题关键词**过滤下载 - 例如你只想下载标题中包含“表情、効果音差分”的帖子，可以使用 `sync-creator` 命令的 `--keywords` 选项 - 如果你想排除标题中包含指定关键词的帖子，可以使用 `--keywords-exclude` 选项 - 支持按帖子发布日期**时间范围**过滤下载 - 能够解析帖子页面 HTML 多信息文本中包含的图片并下载 - 这类帖子特征为：浏览器页面刚进入时图片可能没有加载出来，且没有预览图 - 能够收集帖子页面中列出的**网盘链接**并保存至文本文件 - 可搜索画师和帖子，并导出结果 - 如果你希望自己处理画师和帖子数据，可以使用该功能导出 JSON 数据 - 支持全平台，并提供 iOS 快捷指令 - 纯 Python 分支可在 iOS 的 a-Shell 或浏览器的 Pyodide 上运行

内容平台、音视频

Python、Pytest、dotenv

Python足彩数据采集与清洗系统

【立项背景】客户需要获取近两年中国体育彩票“14场胜负”游戏的详细开奖数据，包括每期14场比赛的场次编号、对阵球队、赔率、比赛结果以及大奖金额，用于数据分析和研究。由于该数据无官方API且分散在多个网页，手动收集效率极低，因此开发此自动化采集工具。【核心功能】 1. 自动采集：根据用户输入的起始和结束期号，循环请求目标网站获取每一期详细页面。 2. 数据解析：从HTML中提取14场比赛的主队、客队、比分、百家平均赔率（胜/平/负）以及开奖奖金信息。 3. 数据清洗：将比分自动转换为标准赛果（3/1/0），从赔率字符串中拆分出胜、平、负三列，处理缺失数据。 4. 自动跨年：支持期号自动跳转（如从25年最后一期跳至26年第一期），实现连续采集无需人工干预。 5. 数据导出：将多期数据合并后导出为一份完整的Excel文件。

内容平台、大数据

Python、Apache Nutch、...

维基平台内容管理机器人-neot-bot

能够抓取统一的/status数据看板，根据预设的分数阈值自动处理不同类型的条目，例如，分数低于-2分，可以自动标记待删除标签，并发布宣告，并自动监控倒计时是否结束。功能要点： - 可以自动监控条目分数，如果分数达到阈值，自动发布不同阶段的宣告帖文及标记标签 - 可以监控条目后续分数变化，例如分数回升、被标记重写或豁免等情况，并分情况调整或者执行其他处理操作 - 可以自动监控条目倒计时是否结束并自动删除

内容平台

Node.js、Puppeteer

网文作者的日常工具-拆书神器

拆书是网文行业一套高效的"职业化"学习与工作方法将感性的阅读体验，转化为可供学习和复用的理性创作方法论。它解构的是爆款网文表象之下，真正驱动读者情绪的"故事引擎"和"商业密码"；它让创作和开发不再是纯粹的灵感赌博，而是建立在可分析、可学习、可迭代的坚实基础之上，是所有网文作者的日常之一。对作者：从"凭感觉"到"懂门道" 破译"黄金法则"：拆解开篇、节奏、爽点设置、人物弧光等，理解网文创作中那些不言自明的、高效的商业写作规律。建立"结构思维"：将百万字的长篇故事看作由无数个"目标-阻碍-努力-结果-新目标"循环组成的精密结构，学会如何搭建并维持这个结构的稳定与吸引力。丰富"创作兵器库"：直接学习和储备各种行之有效的套路、桥段和叙事技巧，在创作时能信手拈来，进行创新性组合。对编剧与IP开发：从"文本"到"蓝图" 提炼"核心梗概"：快速抓住故事的主干、世界观的基石和人物的核心魅力，为后续的剧本改编或IP衍生确定方向。识别"名场面"与"水点"：精准定位原著中真正值得保留和放大的高光时刻，以及可以删减或重构的冗余部分，实现从小说到剧本的高效转化。理解"用户预期"：通过拆书理解原著粉丝的情感锚点和追更动力，在改编时做到"神髓不改，形貌创新"，最大化保留IP价值。对行业与市场：从"跟风"到"洞察" 把握流行趋势：通过系统拆解头部作品，快速洞察当前市场的主流题材、创新变体和读者偏好的微妙变化。预判市场走向：分析成功作品的"创新点"与"经典套路"的结合方式，有助于预测下一个可能爆发的题材或写法。

内容平台

Python、weui、AutoHotk...

3D打印模型网站-中国T站

1.立项意图：当时3D打印国内已经有不少C端玩家，但是国内好的模型网站不多。而买了3D打印，玩家会持续有模型的需求。所以考虑仿照国内T站等知名网站的形式，做一个积分制、设计师可以在网站上售卖模型、提现的网站。网站的收益预期来自于几部分，第一是设计师提现时的分润费用，第二是未来可能的流量变现。运营过程中，第一部分有收益，第二部分跟一些3D打印生态品牌商合作也实现了部分收益。 2.业务上初期考虑从国外模型网站爬取现有模型作为起步，所以有爬虫的部分。爬虫分为两部分，一部分是按类目、排序、分页爬取对应模型网站的模型，分为存量爬取和增量爬取。每爬取一个模型，保存模型的id作为后续爬取的去重UUID。另一部分是批量上传到模型网站的功能。一个是本地客户端，可以选择爬取后模型的保存文件夹；另一个是网站服务端的接受API。 3.起步期后，考虑由设计师上传模型为主，所以网站上设计师的模型管理的增、删、改和查的功能。由于模型可能有文件不全、格式错位、涉黄涉暴等问题，所以对应的管理员后台有模型的审核相关功能：审核通过、驳回、模型下载、模型查看 - 这里前端使用了3D模型加载控件，可以360度查看模型细节。 4.针对C端用户，网站有注册、充值、下载、交易等功能，模型有列表 - 分页、详情等功能。同时C端用户也可以是设计师，使用的是同一套用户体系。 5.交易充值使用微信充值，RMB：积分比例为1：10。设计师可以发起提现，提现需要扣除收付费，申请通过后，管理员会转账给设计师。这里并没有做线上的转账功能，考虑是后期业务做大了会增加。 6.建模设计上来讲，有管理员、设计师、C端用户三种角色，使用的是同一个账号体系。有3D打印模型一个业务模型主体，带审批流的状态机。网站内容为了通信实现了站内信功能。管理员可以向全体或者复数设计师发送站内信。网站原域名为www.threeing.cn，运营3年多后已下线，由于拓竹品牌的崛起，以及拓竹https://makerworld.com.cn/zh?from=bambulab.cn的兴起，网站竞争不过就下线了。可以简单将网站理解为拓竹makerworld的简化版本。

内容平台

Java、React、MySQL

豆瓣电影信息爬虫系统- 豆瓣电影信息爬虫系统

智能爬虫：自动爬取电影基本信息（名称、链接、上映时间、国家、想看人数等）评论采集：批量获取电影评论，支持分页处理数据分析：自动排序、统计词频、分析高频/低频词汇数据可视化：生成Top 5电影柱状图和评论词云图多格式存储：支持CSV和JSON两种数据格式

内容平台

Python、SQLite、Seleni...

InterPro网站抓取程序

1. 立项背景和目标背景：在生物信息学和蛋白质研究领域，研究人员经常需要从专业数据库中获取蛋白质家族、结构域和功能位点的系统分类信息。EBI InterPro数据库整合了多个蛋白质家族数据库，是重要的生物信息学资源。目标：开发一个高效、稳定的数据采集系统，能够自动化地从InterPro数据库爬取特定蛋白质家族的全方位信息，包括分类层级关系、结构域重叠情况、相关文献等，为生物医学研究提供数据支持。 2. 软件功能和核心功能模块核心功能模块： ① 父级数据采集模块根据用户指定的蛋白质家族名称进行搜索自动处理分页和翻页逻辑提取顶级蛋白质家族的accession编号和名称 ② 子级数据采集模块针对每个父级蛋白质家族，获取其下属的所有子分类处理子级页面的分页机制建立父子层级关系映射 ③ 详情数据提取模块深入爬取每个具体蛋白质条目的详细信息提取包括ID、名称、短名称、重叠同源超家族、结构域关系和相关文献等关键数据 ④ 数据存储模块支持Excel和CSV双格式存储结构化保存爬取结果支持增量爬取和断点续传

内容平台

Jython、Selenium

数据采集

主要功能有： 1、js加解密算法分析 2、数据请求 3、验证码智能识别系统 4、数据ETL处理管线 5、数据入库 6、多级代理IP轮换机制 7、自适应反爬对抗策略（随机User-Agent轮换;TLS指纹伪装;请求头参数加密;随机操作延迟（0.5-3s）;鼠标移动轨迹模拟;页面停留时间控制） 8、分布式任务调度支持

电商、内容平台

JavaScript、Python

小红书评论爬取加主页访问-小红书

根据需求使用浏览器自动化工具爬取评论内容和评论人名以及评论时间，对于个人小红书号和所在ip则使用request请求并发访问获取数据，整个脚本除了浏览器初始启动外全部采用人工翻页加监听器捕获请求获取数据，最大程度模拟真人操作避免反爬。最终获取1万多条有效数据

电商、内容平台

Robot Framework、Scra...

内容平台 爬虫/脚本 软件定制 案例

内容平台爬虫/脚本软件定制案例