程序聚合 程序员 首席养猪执行官
15天前活跃

首席养猪执行官

• UID:19572
综合评分 38
方向: 爬虫/脚本-爬虫/脚本
商丘市
200元/8h
1-3年经验
求职意愿:接单·考虑求职(15天前更新)

个人简介

聚焦数据采集领域的技术攻坚,在 XPath 解析上有丰富实战经验:针对动态渲染页面(如 JS 异步加载的表格),能通过分析 Network 请求定位真实数据接口,再用 XPath 解析接口返回的 HTML 片段;面对嵌套层级极深的标签(如 10 层以上div嵌套),通过 “父节点锚定 + 相对路径” 简化表达式,避免因层级变动导致的定位失效,曾以此解决某票务网站的多层级数据提取问题。 正则表达式应用场景覆盖复杂匹配:不仅能处理基础的格式提取(如手机号1[3-9]\d{9}),还能应对不规则文本的结构化转换,例如用分组匹配(.+?)\s-\s(.+)拆分 “中文 - 外文” 混合名称,或通过负向预查(?<!\d)¥\d+排除无效价格数据,曾用正则将某论坛的杂乱评论文本转化率结构化字段,效率较人工处理提升 200 倍。 Scrapy 框架使用深入底层:熟悉其信号机制与中间件原理,能自定义扩展功能:例如开发反爬中间件实现 “验证码自动识别 - 重试” 逻辑,或通过scrapy-redis实现分布式任务调度,解决单节点爬取效率瓶颈;在 Pipeline 中集成数据校验规则,通过正则与 XPath 二次过滤脏数据,确保入库数据准确率达 99.5%。 近期代表案例:基于 Scrapy 爬取某影视平台 1994-2024 年票房数据,用 XPath 提取表格字段,正则清洗带特殊符号的票房数值,最终形成 30 万条结构化数据,支撑行业趋势分析报告输出

技能

核心技能:
其他技能: Python、Scrapy
交流语言: 普通话( 母语水平 )
行业经验: 电商

项目案例

票房数据全量采集工具 V1.0
业务和功能介绍 项目背景和目标针对电影行业数据分析中 “历史票房数据分散、手动收集效率低(单年数据整理需 2 小时 +)” 的痛点,开发自动化工具实现 1994-2024 年中国内地电影票房数据的全量采集,为行业趋势分析、票房预测提供结构化基础数据。 软件功能和核心模块 全量爬取模块:按年份批量抓取票房数据,包含影片排名、上映年份、电影名称、票房金额等核心字段; 反爬处理模块:通过随机切换 User-Agent(模拟多浏览器)、2-4 秒动态延时(模拟人类浏览间隔),规避目标网站的频率限制; 数据清洗模块:自动去除文本空白字符(空格、换行),过滤无效数据行(如无排名的空记录); 存储模块:按年份结构化保存为本地文件(./aba/ 年份),支持后续 Excel / 数据库导入。 业务流程目标网站分析→反爬策略设计→爬虫脚本开发→全量数据爬取(1994-2024)→数据清洗→结构化存储→支持下游数据分析应用。
大数据 生活服务
金属行业新闻全量采集工具 V1.0
项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低(单条新闻平均耗时 5 分钟)” 的痛点,开发自动化工具爬取金属信息网(http://www.metalinfo.cn)的新闻数据,解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源,为行业趋势分析、市场动态监测提供结构化数据支持。 软件功能和核心模块 列表页爬取模块:通过 POST 请求调用 API 接口(http://www.metalinfo.cn/json/search/list),支持分页参数(pageSize=20、current=1/2...),批量获取新闻基础信息(标题、发布时间、唯一标识 rid); 详情页提取模块:根据列表页返回的 rid,通过 GET 请求调用详情 API(http://www.metalinfo.cn/json/resource/detail),提取完整正文内容和来源信息; 反爬处理模块:集成随机 User-Agent 池(模拟 Chrome/Safari/Android 浏览器)、动态延时策略(1-3 秒详情页间隔、2-4 秒分页间隔),规避网站频率限制; 数据存储模块:将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件,支持直接导入 Excel 或数据库进行后续分析。 业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。
大数据 生活服务
M3U8 视频批量下载与合成工具
使用技术(1-4 个) Python、aiohttp、FFmpeg、正则表达式 业务和功能介绍 立项背景和目标:针对基于 M3U8 协议的网络视频,解决其批量下载与格式合成的需求,实现高效、稳定的 TS 片段下载及 MP4 格式合成,支持并发控制、失败重试,提升视频下载的成功率与效率。 软件功能、核心功能模块的介绍: M3U8 地址提取模块:从视频播放页动态提取 M3U8 链接,适配不同网站格式。 M3U8 文件处理模块:下载并解析 M3U8 文件,递归处理嵌套 M3U8(如清晰度分级场景)。 TS 片段异步下载模块:基于异步编程实现高并发下载,支持失败重试与进度展示。 视频合成模块:调用 FFmpeg 将 TS 片段无损合成为 MP4 视频。 环境初始化模块:自动创建存储目录,检查 FFmpeg 环境依赖。 业务流程、功能细节描述:用户配置视频播放页 URL 和本地保存路径后,程序自动提取 M3U8 地址→下载并解析 M3U8 文件(处理嵌套逻辑)→异步并发下载所有 TS 片段(含失败重试)→最终调用 FFmpeg 将 TS 片段合成 MP4 视频,全流程自动化完成
音视频 生活服务

工作经历

膳魔师旗舰店
  
6-15人
运营 数据分析
2023.10 - 2025.04
电商运营 基础数据分析 培训新人

教育经历

一高
2017.09 - 2020.06
计算机
高中/中专
相似推荐
濮阳市
后端-C++、爬虫/脚本-爬虫/脚本
技能:C++、Python
亳州市
爬虫/脚本-爬虫/脚本、低代码-低代码
技能:PyAutoGUI
北京市
前端-小程序、爬虫/脚本-爬虫/脚本
技能:Python
邢台市
爬虫/脚本-爬虫/脚本
技能:AntiCaptcha
沈阳市
后端-Python、爬虫/脚本-爬虫/脚本
技能:Java、Python
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服