1天前活跃

cxl

• UID:26065
综合评分 34
方向: 爬虫/脚本-爬虫/脚本
佛山市
300元/8h
3-5年经验
求职意愿:接单·不求职(1天前更新)

个人简介

我是一名Python开发学习者,熟练掌握Python基础语法及requests、BeautifulSoup、pandas等常用库,能够独立完成数据采集、清洗与存储任务。 已完成项目: · 当当网图书爬虫:爬取商品信息(书名、价格、作者、出版社、评论数),实现数据清洗并保存为CSV文件。 · 淘宝商品信息采集学习项目:模拟用户行为,学习应对动态加载和反爬虫策略(User-Agent伪装、延时、代理IP)。 熟悉Git进行代码版本管理,注重代码规范与注释,项目代码已上传GitHub。热爱技术,学习能力强,希望通过平台积累更多实战经验,认真负责,期待合作。

技能

核心技能:
其他技能: PyAutoGUI
交流语言: 粤语( 母语水平 )
行业经验: 电商

项目案例

淘宝商品信息采集与分析
1、立项背景和目标 随着电商数据价值日益凸显,为了深入学习Python爬虫技术并应对复杂网站的反爬机制,选择淘宝作为目标,实现商品信息的自动化采集与清洗。目标是掌握动态网页数据获取、反爬策略以及数据预处理的全流程。 2、软件功能、核心功能模块的介绍 · 请求模拟模块:使用requests库模拟Ajax请求,携带headers和cookies,获取商品列表页和详情页数据。 · 动态内容处理模块:针对淘宝的异步加载数据,通过抓包分析找到真实JSON接口,直接解析;部分复杂页面使用selenium模拟浏览器渲染。 · 反爬策略模块:集成fake-useragent随机切换UA,设置随机延时(2-5秒),引入代理IP池轮换IP,并加入异常重试机制。 · 数据清洗模块:利用pandas对原始数据进行去重、格式统一、缺失值处理,最终输出为结构化的CSV文件。 3、业务流程、功能路径描述 用户输入搜索关键词(如“手机”)→ 脚本构造请求URL → 获取商品列表页 → 解析每件商品的详情链接 → 请求详情页获取完整信息 → 提取标题、价格、销量、店铺等字段 → 清洗数据 → 保存至CSV。整个过程通过日志实时反馈进度。
电商

工作经历

个人项目
  
5人以下
python开发
2020.03 - 2026.03
独立完成当当网图书爬虫项目,使用requests+BeautifulSoup实现商品信息(书名、价格、作者、出版社、评论数)的采集与清洗,数据保存为CSV文件。 - 开发淘宝商品信息采集学习项目,模拟用户行为爬取商品标题、价格、销量,学习应对动态加载和反爬虫策略(User-Agent伪装、延时、代理IP)。 - 使用pandas对采集数据进行清洗、去重和格式统一,保证数据质量。 - 通过Git进行代码版本管理,项目代码上传GitHub,注重代码规范与注释。

教育经历

佛山市工会职中
2016.03 - 2020.03
计算机与技术
专科
相似推荐
青岛市
爬虫/脚本-爬虫/脚本
技能:Python、C++
嘉兴市
爬虫/脚本-爬虫/脚本
技能:Cheerio、Selenium
宁波市
爬虫/脚本-爬虫/脚本、桌面端-桌面端其他
技能:Python、AutoHotkey、Autofac
青岛市
爬虫/脚本-爬虫/脚本
技能:Python、Selenium WebDriver
厦门市
后端-Python、爬虫/脚本-爬虫/脚本
技能:Python、TypeScript、Django、Docker、Swagger、Tailwind CSS、Vue、React、Pytest
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服