程序聚合 程序员 首席养猪执行官
30天前活跃

首席养猪执行官

• UID:19572
综合评分 41
方向: 爬虫/脚本-爬虫/脚本
商丘市
200元/8h
1-3年经验
求职意愿:接单·考虑求职(30天前更新)

个人简介

聚焦数据采集领域的技术攻坚,在 XPath 解析上有丰富实战经验:针对动态渲染页面(如 JS 异步加载的表格),能通过分析 Network 请求定位真实数据接口,再用 XPath 解析接口返回的 HTML 片段;面对嵌套层级极深的标签(如 10 层以上div嵌套),通过 “父节点锚定 + 相对路径” 简化表达式,避免因层级变动导致的定位失效,曾以此解决某票务网站的多层级数据提取问题。 正则表达式应用场景覆盖复杂匹配:不仅能处理基础的格式提取(如手机号1[3-9]\d{9}),还能应对不规则文本的结构化转换,例如用分组匹配(.+?)\s-\s(.+)拆分 “中文 - 外文” 混合名称,或通过负向预查(?<!\d)¥\d+排除无效价格数据,曾用正则将某论坛的杂乱评论文本转化率结构化字段,效率较人工处理提升 200 倍。 Scrapy 框架使用深入底层:熟悉其信号机制与中间件原理,能自定义扩展功能:例如开发反爬中间件实现 “验证码自动识别 - 重试” 逻辑,或通过scrapy-redis实现分布式任务调度,解决单节点爬取效率瓶颈;在 Pipeline 中集成数据校验规则,通过正则与 XPath 二次过滤脏数据,确保入库数据准确率达 99.5%。 近期代表案例:基于 Scrapy 爬取某影视平台 1994-2024 年票房数据,用 XPath 提取表格字段,正则清洗带特殊符号的票房数值,最终形成 30 万条结构化数据,支撑行业趋势分析报告输出

技能

核心技能:
其他技能: Python、Scrapy
交流语言: 普通话( 母语水平 )
行业经验: 电商

项目案例

票房数据全量采集工具 V1.0
业务和功能介绍 项目背景和目标针对电影行业数据分析中 “历史票房数据分散、手动收集效率低(单年数据整理需 2 小时 +)” 的痛点,开发自动化工具实现 1994-2024 年中国内地电影票房数据的全量采集,为行业趋势分析、票房预测提供结构化基础数据。 软件功能和核心模块 全量爬取模块:按年份批量抓取票房数据,包含影片排名、上映年份、电影名称、票房金额等核心字段; 反爬处理模块:通过随机切换 User-Agent(模拟多浏览器)、2-4 秒动态延时(模拟人类浏览间隔),规避目标网站的频率限制; 数据清洗模块:自动去除文本空白字符(空格、换行),过滤无效数据行(如无排名的空记录); 存储模块:按年份结构化保存为本地文件(./aba/ 年份),支持后续 Excel / 数据库导入。 业务流程目标网站分析→反爬策略设计→爬虫脚本开发→全量数据爬取(1994-2024)→数据清洗→结构化存储→支持下游数据分析应用。
大数据 生活服务
金属行业新闻全量采集工具 V1.0
项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低(单条新闻平均耗时 5 分钟)” 的痛点,开发自动化工具爬取金属信息网(http://www.metalinfo.cn)的新闻数据,解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源,为行业趋势分析、市场动态监测提供结构化数据支持。 软件功能和核心模块 列表页爬取模块:通过 POST 请求调用 API 接口(http://www.metalinfo.cn/json/search/list),支持分页参数(pageSize=20、current=1/2...),批量获取新闻基础信息(标题、发布时间、唯一标识 rid); 详情页提取模块:根据列表页返回的 rid,通过 GET 请求调用详情 API(http://www.metalinfo.cn/json/resource/detail),提取完整正文内容和来源信息; 反爬处理模块:集成随机 User-Agent 池(模拟 Chrome/Safari/Android 浏览器)、动态延时策略(1-3 秒详情页间隔、2-4 秒分页间隔),规避网站频率限制; 数据存储模块:将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件,支持直接导入 Excel 或数据库进行后续分析。 业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。
大数据 生活服务
M3U8 视频批量下载与合成工具
使用技术(1-4 个) Python、aiohttp、FFmpeg、正则表达式 业务和功能介绍 立项背景和目标:针对基于 M3U8 协议的网络视频,解决其批量下载与格式合成的需求,实现高效、稳定的 TS 片段下载及 MP4 格式合成,支持并发控制、失败重试,提升视频下载的成功率与效率。 软件功能、核心功能模块的介绍: M3U8 地址提取模块:从视频播放页动态提取 M3U8 链接,适配不同网站格式。 M3U8 文件处理模块:下载并解析 M3U8 文件,递归处理嵌套 M3U8(如清晰度分级场景)。 TS 片段异步下载模块:基于异步编程实现高并发下载,支持失败重试与进度展示。 视频合成模块:调用 FFmpeg 将 TS 片段无损合成为 MP4 视频。 环境初始化模块:自动创建存储目录,检查 FFmpeg 环境依赖。 业务流程、功能细节描述:用户配置视频播放页 URL 和本地保存路径后,程序自动提取 M3U8 地址→下载并解析 M3U8 文件(处理嵌套逻辑)→异步并发下载所有 TS 片段(含失败重试)→最终调用 FFmpeg 将 TS 片段合成 MP4 视频,全流程自动化完成
音视频 生活服务
DjangoBlog 全栈博客系统- DjangoBlog 个人博客平台
**项目链接** - 在线体验:https://www.zhtest.top - 源码仓库:https://github.com/zhang123999-qq/DjangoBlog.git **1、立项背景和目标** 随着个人技术品牌的建立需求日益增长,传统社交平台难以满足深度技术分享的格式要求和个性化展示需求。本项目旨在构建一套自主可控的个人博客系统,支持Markdown富文本编辑、代码高亮、SEO优化等专业功能,打造独立于第三方平台的技术内容输出渠道,建立个人技术影响力。 **2、软件功能、核心功能模块** | 模块 | 功能说明 | |------|----------| | 内容管理 | 文章CRUD、富文本编辑器、Markdown支持、代码语法高亮、草稿/发布状态切换 | | 媒体资源 | 图片/文件上传、OSS存储集成、图片压缩与CDN加速 | | 用户体系 | JWT认证、OAuth第三方登录、角色权限(普通用户/管理员)、个人资料管理 | | 互动系统 | 文章评论、点赞收藏、评论审核与垃圾过滤 | | SEO引擎 | 自定义URL slug、Meta标签管理、Sitemap自动生成、Open Graph协议支持 | | 工具箱 | IP归属地查询、.gitignore生成器、Base64编解码等开发辅助工具 | | 运维管理 | 站点全局配置、访问统计、缓存策略、HTTPS证书管理 | **3、业务流程、功能路径** ``` 访客流程:首页浏览 → 文章详情 → 评论互动 → 分享传播 用户流程:注册/登录 → 个人中心 → 收藏管理 → 订阅更新 创作流程:登录后台 → 新建文章 → 编辑排版 → 上传配图 → 预览 → 发布/定时发布 管理流程:内容审核 → 分类整理 → 用户管理 → 数据分析 → 站点配置
内容平台
AutoRecon 异步信息收集框架-AutoRecon v3.3.1
源码仓库:https://github.com/zhang123999-qq/AutoRecon.git ## 业务和功能介绍 **1、立项背景和目标** 安全评估工作需要频繁进行信息收集、资产测绘、漏洞探测等重复性操作,传统工具存在单线程性能瓶颈、功能分散、缺乏统一管理界面等问题。本项目旨在构建一套高性能、模块化、可视化的企业级信息收集框架,实现从资产发现到漏洞验证的自动化流程,提升安全评估效率。 **2、软件功能、核心功能模块** | 模块 | 功能说明 | |------|----------| | 子域名收集 | 异步DNS枚举,支持5000+字典、多DNS服务器并发查询 | | 端口扫描 | 高速异步端口探测,支持自定义端口范围与服务识别 | | CDN检测 | 识别CDN/WAF,获取真实IP | | 指纹识别 | 200+Web指纹库,精准识别CMS、框架、组件 | | 敏感信息检测 | 目录扫描、备份文件、配置泄露探测 | | 漏洞扫描 | SQL注入、XSS、SSRF等常见漏洞自动化检测 | | SQLMap集成 | 自动发现带参URL,批量SQL注入扫描 | | 压力测试 | 快速/智能/极限三种模式,抗压等级评估 | | GitHub泄露 | 搜索代码仓库中的敏感信息泄露 | | SSL证书分析 | 证书有效性、过期时间、漏洞检测 | **3、业务流程、功能路径** ``` 目标输入 → DNS解析 → 子域名枚举 → CDN检测 → 真实IP获取 ↓ 端口扫描 → 服务识别 → 指纹识别 → 漏洞探测 → SQL注入扫描 ↓ 报告生成 → PDF导出 → Web UI实时查看 → 历史记录管理
安全

工作经历

膳魔师旗舰店
  
6-15人
运营 数据分析
2023.10 - 2025.04
电商运营 基础数据分析 培训新人

教育经历

一高
2017.09 - 2020.06
计算机
高中/中专
相似推荐
杭州市
前端-Web前端、爬虫/脚本-爬虫/脚本
技能:TypeScript、C、Vue、Python、Node.js
深圳市
算法-数学建模、爬虫/脚本-爬虫/脚本
技能:C++、WebHarvy、MySQL Workbench、tcpdump、Redis-rb
扬州市
爬虫/脚本-爬虫/脚本、后端-Python
技能:Jython
苏州市
爬虫/脚本-爬虫/脚本
技能:Python
邯郸市
前端-Web前端、爬虫/脚本-爬虫/脚本
技能:Python、Node.js
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服