cxl

• UID:26065

综合评分 34

方向：爬虫/脚本-爬虫/脚本

佛山市

300元/8h

3-5年经验

求职意愿：接单·不求职(1天前更新)

个人简介

我是一名Python开发学习者，熟练掌握Python基础语法及requests、BeautifulSoup、pandas等常用库，能够独立完成数据采集、清洗与存储任务。已完成项目： · 当当网图书爬虫：爬取商品信息（书名、价格、作者、出版社、评论数），实现数据清洗并保存为CSV文件。 · 淘宝商品信息采集学习项目：模拟用户行为，学习应对动态加载和反爬虫策略（User-Agent伪装、延时、代理IP）。熟悉Git进行代码版本管理，注重代码规范与注释，项目代码已上传GitHub。热爱技术，学习能力强，希望通过平台积累更多实战经验，认真负责，期待合作。

技能

核心技能：

其他技能： PyAutoGUI

交流语言：粤语（母语水平）

行业经验：电商

项目案例

淘宝商品信息采集与分析

1、立项背景和目标随着电商数据价值日益凸显，为了深入学习Python爬虫技术并应对复杂网站的反爬机制，选择淘宝作为目标，实现商品信息的自动化采集与清洗。目标是掌握动态网页数据获取、反爬策略以及数据预处理的全流程。 2、软件功能、核心功能模块的介绍 · 请求模拟模块：使用requests库模拟Ajax请求，携带headers和cookies，获取商品列表页和详情页数据。 · 动态内容处理模块：针对淘宝的异步加载数据，通过抓包分析找到真实JSON接口，直接解析；部分复杂页面使用selenium模拟浏览器渲染。 · 反爬策略模块：集成fake-useragent随机切换UA，设置随机延时（2-5秒），引入代理IP池轮换IP，并加入异常重试机制。 · 数据清洗模块：利用pandas对原始数据进行去重、格式统一、缺失值处理，最终输出为结构化的CSV文件。 3、业务流程、功能路径描述用户输入搜索关键词（如“手机”）→ 脚本构造请求URL → 获取商品列表页 → 解析每件商品的详情链接 → 请求详情页获取完整信息 → 提取标题、价格、销量、店铺等字段 → 清洗数据 → 保存至CSV。整个过程通过日志实时反馈进度。

电商

工作经历

个人项目

5人以下

python开发

2020.03 - 2026.03

独立完成当当网图书爬虫项目，使用requests+BeautifulSoup实现商品信息（书名、价格、作者、出版社、评论数）的采集与清洗，数据保存为CSV文件。 - 开发淘宝商品信息采集学习项目，模拟用户行为爬取商品标题、价格、销量，学习应对动态加载和反爬虫策略（User-Agent伪装、延时、代理IP）。 - 使用pandas对采集数据进行清洗、去重和格式统一，保证数据质量。 - 通过Git进行代码版本管理，项目代码上传GitHub，注重代码规范与注释。