电商 爬虫/脚本 软件定制 案例

抖音直播弹幕实时采集(WebSocket + Protobuf + X-Bogus签名)
- Python:requests(获取直播间 room_id 与 cookie)、websocket-client(WSS长连接收包/回包)、gzip(解压)、protobuf(消息反序列化)、loguru(日志输出) - JS逆向与签名:execjs 调用本地 JS 生成 signature(X-Bogus);crypto-js(MD5 生成 X-MS-STUB) - 协议解析:Protobuf(douyin.proto + 生成 douyin_pb2.py) - WebSocket实时数据采集 - Protobuf协议解析 - Python网络编程/长连接 - JS逆向 / 参数签名(X-Bogus) - 数据解压(gzip) - 反爬/鉴权参数构造 - 业务背景:抖音直播间互动信息(弹幕)通过 WebSocket 推送且采用 Protobuf + gzip 压缩,同时连接参数包含签名(signature/X-Bogus)。常规抓包仅能拿到二进制数据,无法直接解析为可用文本。 - 核心功能: - 自动进入直播间,提取 room_id,并获取必要 cookie(ttwid) - 计算 WebSocket 连接所需 signature(X-Bogus),构造完整 WSS URL - 建立 WSS 长连接,实时接收二进制推送包 - PushFrame → gzip解压 → Response/Message → 按 method 过滤弹幕消息 WebcastChatMessage - 输出格式化弹幕内容(昵称 + 文本),并在 need_ack 场景下回传 ACK 保持连接稳定
社交、电商
JavaScript、Python
羽毛球场地预约系统
本项目是一个基于 Go 语言开发的自动化羽毛球场地预约与支付系统。其核心业务旨在帮助用户在热门场馆资源紧张时(如每天早点7点放票)通过自动化的方式高概率抢订场地。 系统支持通过外部配置文件预设多个候选的场地目标、日期及时间段。在执行过程中,程序会提前查询获取场馆的基础设施信息、可用时间段以及价格计算数据组合成预订参数。随后,系统会根据内置的时间策略挂起,直到场馆开放预订的瞬间,立刻利用 Go 语言轻量级协程(Goroutine)的优势开启高并发抢单。 在并发执行中,各个子任务会同步进行订单可用性校验、订单提交以及自动调用账户余额完成支付的过程。系统内部采用并发安全的机制进行状态监听,只要有任意一个预设目标成功锁单并支付,就会自动通知并终止其他抢单任务,从而实现从解析目标到全自动扣款无人值守的完整业务闭环。
电商
Go、Wireshark
实现八爪鱼中的抓取淘宝商品信息/评论的爬虫功能
八爪鱼采集器中有关于电商信息的爬虫功能,作为个人练手爬虫,在本地编程实现其同样的功能:抓取指定关键词搜索结果的商品信息,抓取指定商品链接的所有评论。 同理,可实现其它类似功能。
电商
Robot Framework、Scra...
TikTok 网红邮箱采集管道
项目总结:TikTok 网红邮箱采集管道 一、立项背景与目标 跨境电商与品牌出海场景中,企业需大规模触达 TikTok 达人进行商务合作,但平台不公开达人邮箱。本项目构建一套自动化采集管道:从 TikTok 达人列表出发,经搜索引擎发现关联社交账号,AI 头像比对验证身份,最终提取商务邮箱并导出 Excel。核心目标:在保证身份准确性的前提下,最大化邮箱采集覆盖率。 二、软件功能与核心模块 系统采用 Python 开发,三大核心模块 + 辅助工具构成: 模块1 — 搜索采集器(google_search_scraper.py):从 API 拉取待处理达人,通过 DuckDuckGo(Lite/Standard 双引擎自动降级)搜索社交主页链接(YouTube/Facebook/Twitter/Instagram/个人网站),分类过滤后入库。 模块2 — 社交链接验证器(social_link_verifier.py):管道核心。多线程浏览器访问社交主页提取邮箱,找到邮箱后调用 Gemini/豆包 Vision API 做 TikTok 与社交平台的头像 AI 比对,确认同一人后更新数据库并导出 Excel。 模块3 — 网站邮箱爬取器(website_scraper_new.py):补充管道。对模块2未找到邮箱的记录,爬取其 YouTube 简介中的个人网站或 LinkBio 页面,分层抓取(首页→联系页→隐私页→帮助页)提取邮箱。 辅助工具:Excel 初筛(Gemini 头像二次比对)、看门狗(卡死自动重启)、Excel 修复、PyInstaller 打包。核心库(core/)统一封装数据库连接池、反检测浏览器、头像下载、邮箱校验、Excel 分片导出等共享能力。 三、业务流程 整体为三级串行、逐步深挖的管道架构: 搜索发现(模块1):API 拉取达人 → DuckDuckGo 搜索 → 链接分类过滤 → 写入 google_search_result 表(is_completed=0)。 身份验证与邮箱提取(模块2):读取待处理记录 → Instagram 走签名分析(轻量),YouTube/Facebook/Twitter 走浏览器访问 → 页面提取邮箱 → 有邮箱则判断:签名含 TikTok 链接直接确认身份,否则下载双方头像调 AI 比对 → 结果写库(is_completed=1)+ 导出 Excel。 补充爬取(模块3):筛选已处理但无邮箱、有个人网站链接的记录 → URL 分类(LinkBio/Website/黑名单)→ 分层爬取提取邮箱 → 第三方邮箱过滤 → 写库(is_completed=2, is_sameperson=2 待人工确认)+ 导出 Excel。 全程看门狗监控心跳,异常自动重启;网络错误不标记完成,保证可重试
电商
Python、Flask、Seleniu...
Python 网页数据采集与导出工具
本工具可定向爬取网页公开数据,自动解析页面结构,提取标题、时间、内容等关键字段,完成数据清洗与去重后,批量导出为 Excel 或 CSV 文件。支持定时采集与异常处理,能高效稳定地完成日常数据采集与整理任务,大幅提升数据获取效率。
电商
Python
企业品牌官网开发与管理系统-企业品牌官网(响应式网站)
该项目为企业打造现代化品牌形象官网,具备完整的前台展示与后台管理功能。• 前台功能:响应式首页设计、公司介绍、产品/服务展示、新闻动态发布、案例展示、在线留言、联系方式、多语言支持(中英文)• 后台功能:内容管理系统(CMS)、产品管理、新闻发布、留言管理、用户权限控制、数据统计看板• 技术亮点:SEO优化、页面加载速度优化、移动端适配、安全防护(XSS/CSRF防护)
电商、企业内部管理
JavaScript、Lua、Visua...
金融数据爬虫
经验丰富的个人金融数据爬虫开发者,精通Python及Scrapy等爬虫框架。擅长定制化抓取策略,确保数据的准确性与及时性,并能有效处理反爬措施。具备数据分析能力,将爬取的信息转化为有价值的金融洞察,为客户提供可靠的数据支持。
金融、电商
Pandas、SQLite
电商价格监控与竞品分析平台
1、立项背景和目标: 随着电商竞争白热化,品牌方与零售商需实时掌握自身及竞品在各平台(如亚马逊、淘宝、京东国际站)的价格、库存、促销及用户评价动态,用于制定定价策略、监控渠道合规及进行市场分析。传统人工监控效率低下、覆盖面窄。本项目旨在构建一个自动化、高可用的分布式爬虫系统,实现对全球多个主流电商平台目标商品信息的7x24小时稳定采集、清洗、存储与可视化,为核心业务部门提供分钟级延迟的数据支持,辅助商业决策。 2、软件功能、核心功能模块的介绍: 调度中心模块:基于Redis,负责任务的优先级调度、去重与分发,管理爬虫节点状态。 爬虫核心模块:基于Scrapy框架,针对不同网站编写定制化Spider,负责页面下载、解析,处理反爬机制(IP代理、请求头轮换、验证码识别接口调用)。 数据管道模块:负责数据清洗(去重、格式化)、验证,并持久化存储至MongoDB,同时将异常数据与原始页面快照存储至备用库以供排查。 监控报警模块:监控爬虫运行指标(成功率、速度、错误类型),通过企业微信机器人推送异常报警。 管理后台模块:提供Web界面,用于管理监控任务、配置爬取规则、查看数据报表和导出数据。 3、业务流程、功能路径描述: 任务配置:运营人员在管理后台添加/编辑监控商品,输入商品URL或ID,并设置爬取频率(每30分钟)。 任务调度:调度中心将新任务封装为Request,推入Redis的待爬队列。爬虫节点(多台服务器)从队列中竞争获取任务。 页面抓取:爬虫节点根据任务类型选择对应的Spider,通过代理IP池发起请求,下载目标页面。若失败,根据策略重试或放入重试队列。 数据解析与清洗:下载成功的页面被Spider中编写的XPath/CSS规则解析,提取商品标题、价格、促销信息、评价数等结构化数据。数据管道对价格进行货币单位统一、去除无效字符。 数据存储与通知:清洗后的数据存入MongoDB的product_price集合,并生成一条变更记录。若价格波动超过预设阈值,系统触发企业微信通知。 监控反馈:所有抓取日志和状态指标实时汇总,展示在监控仪表盘上。
电商、大数据
Python、MongoDB、Redis...
爬虫系统
本项目是一个完整的网络爬虫与数据查询系统,实现了从名言网站自动采集数据, 并通过Web界面提供查询展示功能。项目采用 Python + Flask + MySQL + 前端页面 的全栈架构,代码结构清晰,易于学习和扩展。 功能介绍 二、核心功能 1. 数据采集 - 自动爬取 quotes.toscrape.com 网站的名言数据 - 支持多页面自动翻页抓取 - 使用 Requests 发送 HTTP 请求 - 使用 BeautifulSoup4 解析 HTML 页面 - 数据自动存储到 MySQL 数据库 2. 数据查询 - RESTful API 接口设计 - 支持按作者名称模糊搜索 - 支持按关键词模糊搜索 - 支持分页查询(可自定义每页显示数量) - 提供统计数据接口 3. 前端展示 - 简洁美观的查询界面 - 实时显示总记录数和作者数量 - 支持多条件组合搜索 - 分页浏览功能 - 响应式设计,支持移动端访问
电商
JavaScript、Python、Ty...
.该工具仅采集互联网上公开可商用、无版权声明且符合国家
为解决电商从业者手动整理商品信息效率低的问题,我用 Python 开发了一款自动爬取公开商品列表的小工具,能按设定的关键词抓取商品名称、价格和销量信息,并自动整理成表格格式,帮助快速汇总竞品或目标类目的基础数据,降低人工整理的时间成本。该工具仅支持爬取用户授权或平台公开可商用的非版权类图片与基础数据,不涉及影视、付费素材等有版权保护的内容,全程遵守网站 robots 协议和数据使用规范,确保爬取行为合法合规
电商
Python
智慧金融爬虫数据采集系统
1.立项背景和目标:需要对主流金融网站上的常见金融指标数据进行分析,需要获取实时的数据做量化分析 2.软件功能、核心功能模块的介绍:(1) 爬虫任务定时执行、任务状态检测平台采用dolphinschduler开源框架 (2) 爬取数据采用request,selenium,playwright,rpa,scapy等框架 (3)反爬技术框架采用js逆向、滑块验证码、图片数字验证码、ocr图片识别技术 (4)数据库采用mongoldb,oracle,后端技术采用flask框架 3.业务流程、功能路径描述:爬取主流金融网站的数据、图片、excel文件、html信息,解析、提取、转换其中的数据并落入数据库中,通过接口的形式推送到业务系统做展示
电商、金融
Python、Scrapy、Seleni...
电商商品数据采集脚本-电商商品数据采集脚本(基于 Python 的商品信息爬取与分析工具)
本项目是一个面向电商平台的商品数据采集脚本,可自动抓取指定分类下的商品名称、价格、销量、评价数等关键信息。脚本支持定时任务执行,可将采集到的数据清洗、去重后导出为 Excel 文件,为市场分析和竞品监控提供数据支持。核心功能包括:模拟浏览器请求绕过反爬机制、多线程并发采集提升效率、数据清洗与结构化存储。
电商
Python
电商爬虫系统
电商运营与竞争监控 用于实时追踪竞争对手的商品定价、促销活动、用户评价和库存变化,辅助自身进行动态定价、选品和营销策略调整。 市场研究与商业分析 服务于咨询公司或企业内部,自动化采集市场数据,用于分析行业趋势、市场份额、新品动态和消费者偏好,生成洞察报告。 品牌与渠道管理 帮助品牌方监测其在各大电商平台上的产品价格是否统一、是否存在未授权销售(窜货),并收集用户反馈以维护品牌声誉。 投资分析与供应链情报 为投资机构提供非财务的运营数据(如热销度、市场反响),辅助评估目标公司价值;也可用于发现潜在供应商或分析供应链情况。 学术研究与价格聚合 高校或研究机构可将其用于消费者行为、平台经济学等领域的定量研究;个人或比价网站则可用于构建跨平台的价格聚合与比价服务。
电商
Python、Redis
爬虫计划-简单爬虫
该项目主要是服务于社会上的各类客户,因为在互联网的时代,数据就是金钱。这个项目开始就是以爬虫获取数据为核心而展开的。我自己制作了一个脚本进行爬取工作,觉得挺有意思的,可以闲暇时刻赚点零花钱
电商、社交
Apache Cassandra、SQL...
闲鱼代拍
身份验证:通过 Cookie 模拟用户登录 精准筛选:支持关键词搜索(如 “雪单 v”)、价格区间设置、过滤词屏蔽(跳过指定关键词的商品),精准定位目标商品。 并发控制:可设置下单线程数(如 3 线程)、爬取页数、目标下单数量,平衡抢单效率与风控风险。 防封机制:支持代理 IP 切换(默认开启)、下单间隔自定义、循环下单模式,降低账号被封禁概率。 2. 核心操作层 一键启停:支持 “开始爬取并购买”“暂停下单”“停止所有任务” 等操作,灵活控制任务生命周期。 状态重置:提供 “清除日志”“清空商品 ID 记录”“重置订单计数” 功能,方便任务复用与排查问题。 3. 监控反馈层 实时日志:显示爬取数量、无效商品数、过滤结果、下单成功记录等,全程可视化监控任务进度。 状态告警:任务完成、代理状态变化等关键节点自动提示,便于及时干预 项目实现 后端核心:Python(爬虫与并发处理生态成熟),结合requests/aiohttp实现 HTTP 请求,BeautifulSoup/XPath解析页面。 GUI 界面:PyQt5/Tkinter(快速开发桌面应用),实现参数配置与日志展示。 代理与风控:自建代理池 + 第三方代理 API,配合faker生成随机 UA、请求间隔随机化。 打包分发:PyInstaller 将脚本打包为 exe,降低用户使用门槛
电商
Python、MySQL、Redis
电子元器件采购询报价
平台专注于电商元件采购询价全流程业务,整合账号管理、外部平台数据抓取、询价管理、报价管理及首页看板五大核心功能模块。通过系统化、自动化的操作流程,帮助采购人员高效获取元件市场信息,规范询价与报价操作环节,最终实现采购效率提升与采购成本优化。
电商
Java、PHP、Vue
天猫用户复购
这是一个天池项目的训练赛,主要背景如下: 商家有时会在特定日期,例如黑色星期五或是双十一开展大型促销活动或者发放优惠券以吸引消费者,然而很多被吸引来的买家都是一次性消费者,这些促销活动可能对销售业绩的增长并没有长远帮助。因此为解决这个问题,商家需要识别出哪类消费者可以转化为重复购买者。通过对这些潜在的忠诚客户进行定位,商家可以大大降低促销成本,提高投资回报率(Return on Investment, ROI)。众所周知的是,在线投放广告时精准定位客户是件比较难的事情,尤其是针对新消费者的定位。本项目主要的内容是使用提供的一些商家信息和新消费者信息,预测新消费者六个月内再次消费的概率
电商
Python、Scikit-learn
Excel 数据自动去重与统计工具-Excel 数据自动去重与统计工具
1. 立项背景和目标: 针对人工整理Excel数据时“重复记录筛选耗时长、分数统计易出错”的办公痛点,立项开发轻量化自动化工具,目标是实现Excel数据的自动去重与分数统计,将单文件数据整理耗时从10分钟压缩至1分钟内,同时避免人工计算的误差。 2. 软件功能、核心功能模块的介绍: 核心包含4个功能模块:①Excel数据读取模块:支持xlsx格式文件的本地导入;②重复数据清洗模块:自动识别并移除表格中的重复记录;③统计分析模块:计算分数列的平均值等核心指标;④成果导出模块:生成“去重后数据.xlsx”和“分数统计报表.xlsx”2个结构化文件。 3. 业务流程、功能路径描述: 完整业务流程为:“将待处理的Excel文件与Python脚本放置在同一目录→运行脚本→工具自动完成数据读取、去重、统计→在目录下查看生成的2个成果Excel文件”。
电商、企业内部管理
Python、Pandas
电商智能视频混剪工具
电商智能视频混剪工具是一款集合图片转视频、文案生成、文案转语音、视频合成、视频配音于一体的智能电商视频生成工具,通过整合云计算、人工智能等技术,实现电商类推广视频的有效解决方案。 应用场景 1、电商推广类视频生成 2、小说解说类视频生成 3、其他涉及混剪类型的视频生成,视频生成类型跟素材相关
电商、人工智能
Python
数据采集工具-京东达人视频数据采集工具
1. 用于采集京东视频中的达人账号下面的相关产品数据 2. 采集后的数据以产品SKU为名创建文件夹,并爬取相关的封面图片和视频 3. 使用内嵌浏览器,能够缓存登录状态,无需每次启动都重新登录 4. 主界面使用winform开发,该项目也包含了控制台版本
电商
Python、ASP.NET
  • 1
  • 2
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服