1天前活跃

黄金贵

• UID:25737
综合评分 34
方向: 爬虫/脚本-爬虫/脚本 数据库工程师-数据库
郑州市
200元/8h
1年经验
求职意愿:接单·考虑求职(1天前更新)

个人简介

技术栈:Python, Scrapy, Redis, MongoDB, MySQL, Django, Docker, JavaScript逆向 核心技能 大规模分布式爬虫架构:精通基于Scrapy-Redis的分布式系统设计与优化,具备高并发、高可用的爬虫系统搭建能力。 反爬对抗与数据采集:熟练掌握多种反反爬策略,包括IP代理池管理、请求特征模拟、浏览器指纹对抗、验证码识别对接,以及动态页面渲染(Splash/Puppeteer)与接口逆向。 数据治理与系统开发:熟悉从数据采集、清洗、存储到应用的后端全链路开发,具备MongoDB、MySQL数据库性能调优经验。

技能

核心技能: Python、Scrapy、MySQL Workbench
其他技能: C、Java
交流语言: 英语( 可口语交流 )
行业经验: 大数据 物流仓储

项目案例

电商价格监控与竞品分析平台
1、立项背景和目标: 随着电商竞争白热化,品牌方与零售商需实时掌握自身及竞品在各平台(如亚马逊、淘宝、京东国际站)的价格、库存、促销及用户评价动态,用于制定定价策略、监控渠道合规及进行市场分析。传统人工监控效率低下、覆盖面窄。本项目旨在构建一个自动化、高可用的分布式爬虫系统,实现对全球多个主流电商平台目标商品信息的7x24小时稳定采集、清洗、存储与可视化,为核心业务部门提供分钟级延迟的数据支持,辅助商业决策。 2、软件功能、核心功能模块的介绍: 调度中心模块:基于Redis,负责任务的优先级调度、去重与分发,管理爬虫节点状态。 爬虫核心模块:基于Scrapy框架,针对不同网站编写定制化Spider,负责页面下载、解析,处理反爬机制(IP代理、请求头轮换、验证码识别接口调用)。 数据管道模块:负责数据清洗(去重、格式化)、验证,并持久化存储至MongoDB,同时将异常数据与原始页面快照存储至备用库以供排查。 监控报警模块:监控爬虫运行指标(成功率、速度、错误类型),通过企业微信机器人推送异常报警。 管理后台模块:提供Web界面,用于管理监控任务、配置爬取规则、查看数据报表和导出数据。 3、业务流程、功能路径描述: 任务配置:运营人员在管理后台添加/编辑监控商品,输入商品URL或ID,并设置爬取频率(每30分钟)。 任务调度:调度中心将新任务封装为Request,推入Redis的待爬队列。爬虫节点(多台服务器)从队列中竞争获取任务。 页面抓取:爬虫节点根据任务类型选择对应的Spider,通过代理IP池发起请求,下载目标页面。若失败,根据策略重试或放入重试队列。 数据解析与清洗:下载成功的页面被Spider中编写的XPath/CSS规则解析,提取商品标题、价格、促销信息、评价数等结构化数据。数据管道对价格进行货币单位统一、去除无效字符。 数据存储与通知:清洗后的数据存入MongoDB的product_price集合,并生成一条变更记录。若价格波动超过预设阈值,系统触发企业微信通知。 监控反馈:所有抓取日志和状态指标实时汇总,展示在监控仪表盘上。
电商 大数据

工作经历

  
5人以下
2026.03 - 2026.03
应届生,在校为老师提供项目数据以及网络平台接单

教育经历

新乡学院
2022.09 - 2026.06
数据科学与大数据技术
本科
相似推荐
天津市
爬虫/脚本-爬虫/脚本
技能:Python、Scrapy、Selenium
重庆市
爬虫/脚本-爬虫/脚本
技能:C++、Python
西安市
后端-C++、爬虫/脚本-爬虫/脚本
技能:C++、Boost、Go、Java
北京市
爬虫/脚本-爬虫/脚本、前端-小程序
技能:Python
天津市
桌面端-.NET、爬虫/脚本-爬虫/脚本
技能:C++、C#、Python
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服