首席养猪执行官

• UID:19572

综合评分 41

方向：爬虫/脚本-爬虫/脚本

商丘市

200元/8h

1-3年经验

求职意愿：接单·考虑求职(30天前更新)

个人简介

聚焦数据采集领域的技术攻坚，在 XPath 解析上有丰富实战经验：针对动态渲染页面（如 JS 异步加载的表格），能通过分析 Network 请求定位真实数据接口，再用 XPath 解析接口返回的 HTML 片段；面对嵌套层级极深的标签（如 10 层以上div嵌套），通过 “父节点锚定 + 相对路径” 简化表达式，避免因层级变动导致的定位失效，曾以此解决某票务网站的多层级数据提取问题。正则表达式应用场景覆盖复杂匹配：不仅能处理基础的格式提取（如手机号1[3-9]\d{9}），还能应对不规则文本的结构化转换，例如用分组匹配(.+?)\s-\s(.+)拆分 “中文 - 外文” 混合名称，或通过负向预查(?<!\d)¥\d+排除无效价格数据，曾用正则将某论坛的杂乱评论文本转化率结构化字段，效率较人工处理提升 200 倍。 Scrapy 框架使用深入底层：熟悉其信号机制与中间件原理，能自定义扩展功能：例如开发反爬中间件实现 “验证码自动识别 - 重试” 逻辑，或通过scrapy-redis实现分布式任务调度，解决单节点爬取效率瓶颈；在 Pipeline 中集成数据校验规则，通过正则与 XPath 二次过滤脏数据，确保入库数据准确率达 99.5%。近期代表案例：基于 Scrapy 爬取某影视平台 1994-2024 年票房数据，用 XPath 提取表格字段，正则清洗带特殊符号的票房数值，最终形成 30 万条结构化数据，支撑行业趋势分析报告输出

技能

核心技能：

其他技能： Python、Scrapy

交流语言：普通话（母语水平）

行业经验：电商

项目案例

票房数据全量采集工具 V1.0

业务和功能介绍项目背景和目标针对电影行业数据分析中 “历史票房数据分散、手动收集效率低（单年数据整理需 2 小时 +）” 的痛点，开发自动化工具实现 1994-2024 年中国内地电影票房数据的全量采集，为行业趋势分析、票房预测提供结构化基础数据。软件功能和核心模块全量爬取模块：按年份批量抓取票房数据，包含影片排名、上映年份、电影名称、票房金额等核心字段；反爬处理模块：通过随机切换 User-Agent（模拟多浏览器）、2-4 秒动态延时（模拟人类浏览间隔），规避目标网站的频率限制；数据清洗模块：自动去除文本空白字符（空格、换行），过滤无效数据行（如无排名的空记录）；存储模块：按年份结构化保存为本地文件（./aba/ 年份），支持后续 Excel / 数据库导入。业务流程目标网站分析→反爬策略设计→爬虫脚本开发→全量数据爬取（1994-2024）→数据清洗→结构化存储→支持下游数据分析应用。

大数据生活服务

金属行业新闻全量采集工具 V1.0

项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低（单条新闻平均耗时 5 分钟）” 的痛点，开发自动化工具爬取金属信息网（http://www.metalinfo.cn）的新闻数据，解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源，为行业趋势分析、市场动态监测提供结构化数据支持。软件功能和核心模块列表页爬取模块：通过 POST 请求调用 API 接口（http://www.metalinfo.cn/json/search/list），支持分页参数（pageSize=20、current=1/2...），批量获取新闻基础信息（标题、发布时间、唯一标识 rid）；详情页提取模块：根据列表页返回的 rid，通过 GET 请求调用详情 API（http://www.metalinfo.cn/json/resource/detail），提取完整正文内容和来源信息；反爬处理模块：集成随机 User-Agent 池（模拟 Chrome/Safari/Android 浏览器）、动态延时策略（1-3 秒详情页间隔、2-4 秒分页间隔），规避网站频率限制；数据存储模块：将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件，支持直接导入 Excel 或数据库进行后续分析。业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。

大数据生活服务

M3U8 视频批量下载与合成工具

使用技术（1-4 个） Python、aiohttp、FFmpeg、正则表达式业务和功能介绍立项背景和目标：针对基于 M3U8 协议的网络视频，解决其批量下载与格式合成的需求，实现高效、稳定的 TS 片段下载及 MP4 格式合成，支持并发控制、失败重试，提升视频下载的成功率与效率。软件功能、核心功能模块的介绍： M3U8 地址提取模块：从视频播放页动态提取 M3U8 链接，适配不同网站格式。 M3U8 文件处理模块：下载并解析 M3U8 文件，递归处理嵌套 M3U8（如清晰度分级场景）。 TS 片段异步下载模块：基于异步编程实现高并发下载，支持失败重试与进度展示。视频合成模块：调用 FFmpeg 将 TS 片段无损合成为 MP4 视频。环境初始化模块：自动创建存储目录，检查 FFmpeg 环境依赖。业务流程、功能细节描述：用户配置视频播放页 URL 和本地保存路径后，程序自动提取 M3U8 地址→下载并解析 M3U8 文件（处理嵌套逻辑）→异步并发下载所有 TS 片段（含失败重试）→最终调用 FFmpeg 将 TS 片段合成 MP4 视频，全流程自动化完成

音视频生活服务

DjangoBlog 全栈博客系统- DjangoBlog 个人博客平台

**项目链接** - 在线体验：https://www.zhtest.top - 源码仓库：https://github.com/zhang123999-qq/DjangoBlog.git **1、立项背景和目标** 随着个人技术品牌的建立需求日益增长，传统社交平台难以满足深度技术分享的格式要求和个性化展示需求。本项目旨在构建一套自主可控的个人博客系统，支持Markdown富文本编辑、代码高亮、SEO优化等专业功能，打造独立于第三方平台的技术内容输出渠道，建立个人技术影响力。 **2、软件功能、核心功能模块** | 模块 | 功能说明 | |------|----------| | 内容管理 | 文章CRUD、富文本编辑器、Markdown支持、代码语法高亮、草稿/发布状态切换 | | 媒体资源 | 图片/文件上传、OSS存储集成、图片压缩与CDN加速 | | 用户体系 | JWT认证、OAuth第三方登录、角色权限（普通用户/管理员）、个人资料管理 | | 互动系统 | 文章评论、点赞收藏、评论审核与垃圾过滤 | | SEO引擎 | 自定义URL slug、Meta标签管理、Sitemap自动生成、Open Graph协议支持 | | 工具箱 | IP归属地查询、.gitignore生成器、Base64编解码等开发辅助工具 | | 运维管理 | 站点全局配置、访问统计、缓存策略、HTTPS证书管理 | **3、业务流程、功能路径** ``` 访客流程：首页浏览 → 文章详情 → 评论互动 → 分享传播用户流程：注册/登录 → 个人中心 → 收藏管理 → 订阅更新创作流程：登录后台 → 新建文章 → 编辑排版 → 上传配图 → 预览 → 发布/定时发布管理流程：内容审核 → 分类整理 → 用户管理 → 数据分析 → 站点配置

内容平台

AutoRecon 异步信息收集框架-AutoRecon v3.3.1

源码仓库：https://github.com/zhang123999-qq/AutoRecon.git ## 业务和功能介绍 **1、立项背景和目标** 安全评估工作需要频繁进行信息收集、资产测绘、漏洞探测等重复性操作，传统工具存在单线程性能瓶颈、功能分散、缺乏统一管理界面等问题。本项目旨在构建一套高性能、模块化、可视化的企业级信息收集框架，实现从资产发现到漏洞验证的自动化流程，提升安全评估效率。 **2、软件功能、核心功能模块** | 模块 | 功能说明 | |------|----------| | 子域名收集 | 异步DNS枚举，支持5000+字典、多DNS服务器并发查询 | | 端口扫描 | 高速异步端口探测，支持自定义端口范围与服务识别 | | CDN检测 | 识别CDN/WAF，获取真实IP | | 指纹识别 | 200+Web指纹库，精准识别CMS、框架、组件 | | 敏感信息检测 | 目录扫描、备份文件、配置泄露探测 | | 漏洞扫描 | SQL注入、XSS、SSRF等常见漏洞自动化检测 | | SQLMap集成 | 自动发现带参URL，批量SQL注入扫描 | | 压力测试 | 快速/智能/极限三种模式，抗压等级评估 | | GitHub泄露 | 搜索代码仓库中的敏感信息泄露 | | SSL证书分析 | 证书有效性、过期时间、漏洞检测 | **3、业务流程、功能路径** ``` 目标输入 → DNS解析 → 子域名枚举 → CDN检测 → 真实IP获取 ↓ 端口扫描 → 服务识别 → 指纹识别 → 漏洞探测 → SQL注入扫描 ↓ 报告生成 → PDF导出 → Web UI实时查看 → 历史记录管理

安全