1天前活跃

vivhuang

• UID:27674
综合评分 34
方向: 爬虫/脚本-爬虫/脚本 前端-Web前端
漳州市
500元/8h
10年以上经验
求职意愿:接单·考虑求职(1天前更新)

个人简介

资深Python爬虫工程师,5年数据采集与逆向工程实战经验。精通Scrapy、Playwright等主流爬虫框架,擅长JS逆向、AST解混淆、App脱壳、反爬对抗等技术领域。独立设计并实现过日采百万级的分布式采集系统,对代理IP池调度、验证码识别、浏览器指纹伪装有深入研究和丰富的落地经验。同时具备全栈开发能力,熟悉Vue.js + Django技术栈,能独立完成从数据采集、清洗、存储到可视化分析的全链路开发。热爱技术钻研,GitHub上维护多个开源逆向工具,技术博客累计阅读量50万+。 核心技术:Python, JavaScript, SQL 爬虫框架:Scrapy, Scrapy-Redis, PySpider, Colly 逆向分析:JS AST解混淆, Xposed/Frida Hook, IDA Pro, JADX, Charles/Fiddler抓包 浏览器自动化:Playwright, Selenium, Puppeteer 反爬对抗:TLS指纹伪装, 验证码识别(ddddocr/深度学习), IP代理池, Cookie池 数据存储:MySQL, Redis, Elasticsearch, MongoDB 前端:Vue.js 3, Element Plus, ECharts, TypeScript 后端:Django REST Framework, FastAPI, Celery 运维:Docker, Nginx, Linux, Git, CI/CD

技能

核心技能:
其他技能: Vue、Python、JavaScript、Java
交流语言: 普通话( 母语水平 ) 英语( 无需工具可书面交流 )
行业经验: 安全 区块链 大数据 企业服务(saas)

项目案例

分布式电商数据采集与分析系统
【立项背景与目标】 随着电商平台竞争加剧,企业对竞品价格监控、市场趋势分析和用户评论洞察的需求日益迫切。传统人工采集方式效率低下、覆盖不全、数据滞后。本系统旨在构建一套自动化、分布式的电商数据采集与分析平台,实现对主流电商平台(淘宝、京东、拼多多、抖音)商品数据的全天候自动采集与智能分析,为企业提供实时、准确的市场情报和决策支持。 【核心功能模块】 1. 分布式采集引擎:基于Scrapy+Redis构建,支持多节点并行采集,内置代理IP池自动切换、Cookie管理、验证码识别等反爬对抗模块,日均采集能力超过120万条商品数据。 2. 任务调度中心:提供可视化任务配置界面,支持Cron定时调度、实时流式采集与手动触发三种模式,可自定义目标平台、商品品类、采集字段(标题、价格、销量、评价、店铺信息等)。 3. 数据清洗与存储管道:自动完成数据去重、格式标准化、异常值过滤,结构化存入MySQL集群,同时同步至Elasticsearch实现毫秒级全文检索。 4. 智能分析模块:提供价格波动趋势分析、竞品销量排名、用户评论情感分析(好评/中评/差评自动分类),通过ECharts大屏实时可视化呈现。 5. 异常告警系统:支持价格突变、商品下架、评论异常等场景的阈值告警,通过钉钉/邮件/飞书实时推送。 【业务流程】 用户配置采集任务(选择平台→品类→字段→调度策略)→系统自动分发至Celery任务队列→Redis去重后分配给各Worker节点→Scrapy/Playwright执行页面抓取→数据经清洗管道处理后入库→前端Dashboard实时展示采集进度与数据分析结果→异常数据触发告警通知。
电商 大数据

工作经历

赢盛网络科技有限公司
  
15-49人
初级Python开发工程师
2022.03 - 2025.06
【所属行业】互联网 / 舆情监控 【团队规模】技术团队8人 工作内容: • 使用Scrapy开发新闻/社交媒体舆情数据采集爬虫,覆盖微博、知乎、百度贴吧等平台 • 编写XPath/CSS/正则解析规则,结构化提取标题、正文、发布时间、互动量等字段 • 参与搭建Scrapy-Redis分布式爬虫,实现增量采集与断点续抓 • 使用Selenium处理JS动态渲染页面的数据抓取 • 编写数据清洗脚本(Pandas),输出标准化CSV/JSON交付客户 • 配合后端Django开发RESTful API接口,支撑前端数据看板的实时查询 • 积累JS逆向基础,能独立分析常见混淆与反爬逻辑 离职原因:技术方向从通用爬虫转向电商数据采集深挖

教育经历

福建省财会技术学院
2007.09 - 2010.07
计算机应用
专科
相似推荐
深圳市
前端-Web前端
技能:Tailwind CSS、Vue、Vue Router、JavaScript
贵阳市
安全/逆向-安全/逆向、爬虫/脚本-爬虫/脚本
技能:Nessus、Kali Linux、Nmap
天津市
后端-Node.js、前端-Web前端
技能:Java、Vue、Python
大连市
爬虫/脚本-爬虫/脚本
技能:Selenium、easyocr
福州市
后端-Python、前端-Web前端
技能:Python
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服