爬虫/脚本 软件定制 案例

企业舆情saas
1.立项背景和目标: 当前网络信息传播极速扩散,传统人工舆情监测存在覆盖不全、响应滞后、分析低效等问题,企业机构机构亟需轻量化、可弹性扩容的舆情管理工具,打造全国企业舆情 SaaS 系统。 2.软件功能,核心功能模块的介绍 a).账号权限认证系统(经root账号/自动 进行权限分配 包含页面、按钮、功能) b).数据获取(入池前,经python、java等其他语言进行各平台基础数据获取) c).数据清洗(入池前,对个平台重复数据进行清洗,此轮进行舆情标注三类:正面、中性、负面 四级: 一般 关注 重点 紧急,舆情类别判断 民生、政治、企业、谣言等) d).数据入池(入池,将通过初次数据清洗数据进行入池) e).根据账号权限、要求获取数据(二次清洗) 3.主要流程: 企业: 账号购买功能鉴权(线下购买,线上开启权限) -> 设定舆情点 -> 使用 我司: 线下磋商 -> 成功后提供注册地址 -> 注册后开启部分权限(自动、手动两种方案) 网站: 数据采集 -> 数据首次清洗 -> 入池 -> 数据二次清洗 -> 查询报送(舆情报告)
企业服务(saas)、内容平台
Java、Python、Elastics...
股票智能分析看板
1. 多源数据路由引擎(系统的“根基”) 该引擎采用**分级降级(Fallback)**机制,确保了金融数据的可用性和准确性。 Tier 1 & 2 (高频):利用腾讯和新浪的 Web API 获取毫秒级实时价格。 Tier 3 & 4 (深度):通过 AkShare 和 BaoStock 获取复杂的宏观、财务、K 线历史数据。 标准化处理:解决了 A/港/美股代码格式不一的痛点,将“自然语言输入”转化为“机器可读数据”。 2. AI 全景深度研判(系统的“大脑”) 这是平台最亮点的部分,它将传统的量化数据“喂”给 LLM 进行逻辑转换。 超级 Context 注入:AI 不再是盲目聊天,而是基于实时注入的财务报表、新闻和技术面指标进行“有理有据”的推理。 结构化输出控制: 深度:包含商业模式与财务体检。 速度:提供“一句话散户结论”,适配快节奏决策。 稳定性:后端具备 JSON 提取容错,防止 LLM 输出乱码导致前端崩溃。 3. 智能晚报与推送(系统的“触角”) 解决了用户“主动盯盘”的焦虑,转为“被动接收精华”。 交叉推演:不只是报股价,而是分析“大盘环境”对“个人持仓”的潜在影响,生成明天的操作剧本。 Server 酱集成:利用微信作为通知载体,符合国内用户的使用习惯。
金融
JavaScript、Node.js、P...
再生平台项目
1、立项背景 再生资源行业传统模式存在信息不对称、交易链路繁琐、监管追溯难、资金流转慢等痛点,中小商户与企业间对接效率极低,行业数字化转型需求迫切。同时,国家大力推动循环经济发展,亟需一款集信息服务、业务协同、数据管控于一体的平台,打通再生资源从回收、加工到交易、融资的全链条。 2、核心目标 整合行业资源:汇聚再生资源供需方、物流服务商、金融机构等多方主体,构建行业资源生态; 实现业务闭环:覆盖从立项、合同签订到订单执行、对账、融资的全流程,提升交易效率; 强化监管与风控:通过数据采集与分析,实现交易全流程追溯,降低行业风控风险; 推动数字化升级:为行业提供标准化、智能化的信息服务与业务工具,助力再生资源行业规范化、高效化发展。 1)软件整体功能 平台以 “信息服务 + 业务协同 + 数据管控” 为核心,面向商户、企业、监管 / 管理端三类用户,提供全场景功能支撑。前端基于 Vue3+Vite+TypeScript 构建多端界面,后端以 Spring Boot 为核心拆解为启动、公共、核心、业务、数据抓取五大模块,支撑高可用、高扩展的系统架构。 2)核心功能模块 基础管理模块(核心模块):覆盖用户 / 角色 / 菜单 / 部门管理、日志、文件、字典配置、定时任务等基础能力,保障平台权限与基础运营,是全系统的支撑底座。 再生资源业务模块(业务模块):平台核心业务闭环,包含身份管理、合同、订单、发货、收货、对账、发票、应收、融资、风控等全链路功能,实现再生资源业务从发起至完结的全流程管控。 数据采集与对接模块(数据抓取模块):对接外部 ERP 系统,通过 AI 识别、HTML 解析等技术采集行业外部数据,同步补充平台信息,提升数据完整性。 信息服务模块:提供再生资源行情查询、供需信息发布、行业资讯推送等功能,满足用户信息获取需求,构建行业信息生态。 3、业务流程和功能路径描述 交易协同路径:商户 / 企业发布供需信息→身份认证审核→签订电子合同→生成交易订单→发起发货 / 收货→确认收货→发起对账→开具发票→完成应收结算; 数据采集路径:外部 ERP 系统数据请求→AI 识别验证码→解析业务数据→定时同步至平台数据库→平台数据校验与展示; 风控与融资路径:交易数据汇总→平台风控规则校验→生成企业信用报告→金融机构基于数据提供融资服务→融资回款跟踪。 功能路径支撑 用户端路径:用户登录→权限校验→进入对应功能界面(商户端侧重业务操作,企业端侧重资源管理,管理端侧重监管与配置)→执行功能操作→数据实时同步至数据库; 系统端路径:前端请求→后端接口处理(调用对应模块服务)→数据读写(MySQL / 文件存储)→返回结果→前端展示; 外部对接路径:外部系统请求→数据抓取模块解析→数据校验→存入
金融、企业内部管理
Java、Vue、MySQL、Selen...
批量数据处理与自动化运维脚本开发
本项目为批量数据处理与自动化运维脚本工具,旨在解决企业日常工作中大量重复的数据处理、运维操作问题,通过 Python 自动化脚本,实现数据采集、批量导出、定时任务、日志监控等功能。工具核心功能包括:1. 多源数据采集,支持 Excel/CSV/ 数据库等多格式数据自动提取;2. 批量数据处理,支持数据清洗、格式转换、报表生成;3. 自动化运维,支持定时任务、服务器监控、日志分析;4. 可视化配置,用户可通过简单配置实现自定义自动化流程,无需代码。工具可广泛应用于财务、行政、运维等多个岗位,大幅提升工作效率,减少人工错误。
企业服务(saas)、人工智能
Python、MySQL
飞书ai机器人通知
实现一个飞书机器人,自动采集指定外部平台(如微博、知乎、公众号、竞品官网、价格页面、GitHub等)的实时信息,根据预设规则监控用户感兴趣的内容(关键词、价格变动、上新、状态变更等),一旦命中规则,立即通过飞书机器人推送消息,并自动@指定成员、发送加急通知(应用内加急/短信/电话提醒),确保关键信息不遗漏。
企业内部管理
Python
文件批量重命名与分类工具
立项背景:在日常办公中,经常需要批量整理大量文件,比如给照片按顺序重命名、把下载文件夹里的文档按类型分类。手动操作费时费力,所以我用Python写了一个带图形界面的小工具来解决这个问题。 核心功能:1. 文件批量重命名,可以自定义文件名前缀和起始序号,比如把杂乱的照片统一改成“旅行照片001、002”这样的格式;2. 文件自动分类,程序会读取文件夹里所有文件的后缀名,自动创建对应文件夹并把文件移动进去,比如把所有的.jpg放进“图片”文件夹,把所有的.pdf放进“PDF文档”文件夹;3. 生成文件清单,可以把文件夹里所有文件的名字和路径导出成Excel表格,方便查看和存档。 业务流程:用户打开程序后,先点击“选择文件夹”按钮,然后根据需要点击“重命名”、“分类”或“导出清单”按钮,在弹出的设置窗口里调整参数后确认,程序就会自动完成操作并显示成功提示。
企业内部管理
Python、Scrapy、Seleni...
长期爬虫项目
1. 利用 request 请求获取政府部门多个栏目信息 2. 通过 xpath、bs4 等模块解析 html 数据 3. 通过 mysql 存储过程存储数据 4. 利用 DrissionPage、Playwright 等自动化工具 抓取数据 5. 通过数据接口抓取并存储企某查网站数据 6. 将获取的数据进行数据清洗 7. 同时负责一些数据后台网页端的功能测试项目
工业互联网、大数据
Python、Selenium
抖音直播弹幕实时采集(WebSocket + Protobuf + X-Bogus签名)
- Python:requests(获取直播间 room_id 与 cookie)、websocket-client(WSS长连接收包/回包)、gzip(解压)、protobuf(消息反序列化)、loguru(日志输出) - JS逆向与签名:execjs 调用本地 JS 生成 signature(X-Bogus);crypto-js(MD5 生成 X-MS-STUB) - 协议解析:Protobuf(douyin.proto + 生成 douyin_pb2.py) - WebSocket实时数据采集 - Protobuf协议解析 - Python网络编程/长连接 - JS逆向 / 参数签名(X-Bogus) - 数据解压(gzip) - 反爬/鉴权参数构造 - 业务背景:抖音直播间互动信息(弹幕)通过 WebSocket 推送且采用 Protobuf + gzip 压缩,同时连接参数包含签名(signature/X-Bogus)。常规抓包仅能拿到二进制数据,无法直接解析为可用文本。 - 核心功能: - 自动进入直播间,提取 room_id,并获取必要 cookie(ttwid) - 计算 WebSocket 连接所需 signature(X-Bogus),构造完整 WSS URL - 建立 WSS 长连接,实时接收二进制推送包 - PushFrame → gzip解压 → Response/Message → 按 method 过滤弹幕消息 WebcastChatMessage - 输出格式化弹幕内容(昵称 + 文本),并在 need_ack 场景下回传 ACK 保持连接稳定
社交、电商
JavaScript、Python
云南省建设监管公共服务平台企业数据采集(滑块校验 + 加密参数逆向 + Excel落地)
- Python:requests.Session(会话维持/接口请求)、pandas(Excel导出) - JS逆向与复用:execjs 调用本地 JS(复用站点加密逻辑) - 加密算法:RSA(JSEncrypt 分段加密生成 params)、AES(CryptoJS AES-ECB + Pkcs7,用于滑块点位与验证码头) - 风控处理:滑块验证码 blockPuzzle 识别(打码平台返回滑动距离 x)、二次校验后换取业务数据、翻页抓取与去重 - Python爬虫 / 接口采集 - JS逆向 / 加密参数还原 - AES/RSA 加解密 - 验证码对抗(滑块) - Session会话保持 - 数据清洗与表格落地(Excel) - 业务背景:住建监管类平台对企业信息查询接口做了参数加密与滑块校验,常规爬虫无法直接批量获取。项目目标是实现企业分页查询数据的自动化采集与结构化导出,用于企业库分析/数据归档。 - 核心功能: - 企业列表分页采集:按 pageNum/pageSize 拉取企业 records - 反爬突破:还原前端加密参数(RSA/AES)与滑块验证码校验链路 - 稳定采集:requests.Session 维持校验后的状态;企业名称去重避免重复写入 - 交付产物:字段统一清洗后导出 Excel(示例文件为“云南企业数据.xlsx”)
内容平台、政务服务
JavaScript、Python、Pa...
赢商大数据项目库采集与结构化落地
- Python爬虫 - Web自动化/浏览器爬虫 - 动态渲染采集 - Scrapy工程化采集 - 数据清洗与结构化存储(CSV/表格) - 反爬处理/登录态维持 - 业务背景:对商业地产行业数据进行汇总分析,需要批量获取赢商大数据平台的项目库信息,形成可分析的数据集(项目维度字段齐全、可导入Excel/BI)。 - 核心功能: - 项目列表翻页采集:按页获取项目入口链接,支持配置页数批量抓取 - 项目详情解析:进入详情页抽取关键字段并做字段名清洗与映射 - 采集稳定性:动态渲染等待、限速控制、低并发策略减少风控触发 - 数据落地:按统一字段写入 CSV,支持追加写入与断点续跑
内容平台、大数据
Python
根据特定关键词抓取图片,并进行图片清洗
根据给定的几个关键词,从网络上抓取不少于1000张图片,且图片大小符合特定尺寸,抓取后对所有图片进行去重,计算清晰度并排序,接着将每张图片的大小都缩放到特定尺寸,并按照特定规则命名,打包即可
人工智能
Python
多因子选股系统
专注 Python 量化金融领域,可定制开发多因子选股系统:支持 A 股 / 港股 / 美股多因子模型构建(估值、成长、质量、动量等因子)、因子有效性回测、选股策略自动化运行、每日量化分析报表自动生成(Excel / 可视化);可实现股票财务数据(净利润 / PE/PB)、资金流向、日内波动率等指标的自动化抓取与分析,适配同花顺等行情软件数据,提供完整的量化策略开发、回测、优化全流程服务,同时可定制 Excel 自动化工具(含规划求解、数据透视、批量处理),满足量化投资、数据分析全场景需求。
金融、大数据
Python、NumPy、Pandas
合规公开数据采集工具
立项背景和目标: 日常需要批量采集公开网页数据,市面上的爬虫工具要么依赖繁琐的第三方库,要么缺乏合规保障。目标是做一个"开箱即用、合规优先"的本地爬虫控制台,双击脚本即可启动,无需任何安装。 核心功能: ①粘贴 URL 批量爬取,自动提取标题、正文摘要、图片链接;②自动检查 robots.txt,隐私内容(手机号/身份证)自动过滤;③蜘蛛模式支持递归爬取,可设定最大深度、域名页面上限;④429/5xx 自动冷却限速,连续失败自动停止;⑤内置轻量 NLP 引擎(TextRank 摘要 + TF-IDF 关键词提取 + 中文实体识别),无需大模型;⑥数据存入 SQLite,支持搜索、排序、CSV 导出;⑦SSE 实时日志推送,三色主题切换。 业务流程: 前端(原生 JS)→ HTTP API(Python 内置 http.server)→ 爬虫引擎(状态机调度)→ Fetcher(请求/重试/代理/内容解析)→ NLP 处理 → SQLite 持久化 → 前端实时展示。
搜索
Python
Yelp商家数据采集与统计系统
一套完整的商家公开数据采集与统计分析系统,支持按城市、区域、商家类型(餐饮、酒店、加油站、商场、教育机构等)多维度自动采集Yelp平台上的商家信息,包括名称、地址、联系电话、用户评分、评论数量、营业时间、商家官网等。系统可满足市场调研、竞品分析、商圈评估、选址决策等商业需求,采集结果自动去重、清洗,并导出为Excel/CSV等结构化文件。帮助企业快速获取大规模、高可信度的本地商家数据。
生活服务
Python、AntiCaptcha
高德地图城市拥堵排行报表
一、项目概述 本项目是一个实时交通数据采集与可视化系统,实现了从高德地图API自动获取全国主要城市的拥堵指数排名,并生成直观的可视化图表,为物流规划、通勤分析等场景提供数据决策支持。 二、核心价值 · 快速获取数据:传统方式需手动浏览网页查询,本项目可通过脚本自动获取,将人工操作时间从数分钟缩短至几秒。 · 直观呈现结果:将枯燥的数据转换为可交互的水平条形图,支持鼠标悬停查看详情,方便进行城市间对比。 三、核心功能 1. 数据采集 · 定时/实时调用高德地图官方API,获取全国城市拥堵延时指数和排名。 · 支持自定义爬取城市数量(如前10名、前20名或全部城市)。 2. 数据处理 · 自动清洗和整理原始数据,并按拥堵指数降序排序。 3. 可视化与交付 · 动态图表:生成一个独立的HTML文件,用浏览器打开即可看到交互式图表,鼠标悬停可查看具体数值。 · 数据表格:同时提供结构化的Excel数据表,方便用户进行二次分析和存档。
企业服务(saas)
Python
Excel数据处理工具
本项目是基于Python+pandas开发的Excel自动化数据处理工具,针对办公场景中Excel文件处理效率低、重复操作多的痛点,实现了批量读写、多表合并、自动化数据清洗、自定义统计分析、报表生成等核心功能,可大幅提升财务、运营等岗位的办公效率,支持根据业务需求定制化开发。
零售/新消费
Python
数据采集-互联网爬虫
开发爬虫程序,采集互联网数据: 1. 使用Python语言,基于Scrapy二次开发了一套适用于公司需求爬虫基础框架 2. 基于以上爬虫基础框架,开发爬虫程序采集各类互联网数据,满足公司需求 3. 基于爬虫开发经验,提供反爬建议
金融、大数据
Python、Scrapy、Seleni...
羽毛球场地预约系统
本项目是一个基于 Go 语言开发的自动化羽毛球场地预约与支付系统。其核心业务旨在帮助用户在热门场馆资源紧张时(如每天早点7点放票)通过自动化的方式高概率抢订场地。 系统支持通过外部配置文件预设多个候选的场地目标、日期及时间段。在执行过程中,程序会提前查询获取场馆的基础设施信息、可用时间段以及价格计算数据组合成预订参数。随后,系统会根据内置的时间策略挂起,直到场馆开放预订的瞬间,立刻利用 Go 语言轻量级协程(Goroutine)的优势开启高并发抢单。 在并发执行中,各个子任务会同步进行订单可用性校验、订单提交以及自动调用账户余额完成支付的过程。系统内部采用并发安全的机制进行状态监听,只要有任意一个预设目标成功锁单并支付,就会自动通知并终止其他抢单任务,从而实现从解析目标到全自动扣款无人值守的完整业务闭环。
电商
Go、Wireshark
实现八爪鱼中的抓取淘宝商品信息/评论的爬虫功能
八爪鱼采集器中有关于电商信息的爬虫功能,作为个人练手爬虫,在本地编程实现其同样的功能:抓取指定关键词搜索结果的商品信息,抓取指定商品链接的所有评论。 同理,可实现其它类似功能。
电商
Robot Framework、Scra...
微信小程序-家教预约平台
经实地考察,发现该地区某大学家教业务火爆,且机构管理方式需要大量的人力物力成本,故制作该程序,将管理成本大幅降低,只需广告推销成本,并结合平台的营收方案,进一步扩大盈利。 目标是做到全国最大的家教信息中转站。 软件功能: 1.最新教育咨询实时获取 2.内嵌ai智能体,可进行实时对话 3.根据不同地区,不同需求,筛选出最合适的老师或学生人选 4.个人信息展示 5.预约功能
在线教育、搜索
Java、JavaScript、UniA...
  • 1
  • 2
  • 3
  • 4
  • 12
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服