设计并实现基于Scrapy框架的分布式爬虫集群,完成新能源汽车电池领域的数据采集(涵盖专利文献、供应商名录、产品规格参数),开发接口,并进行自动化数据采集和清洗,节省人工时间,制定数据采集手册。
Python数据采集系统开发
开发自动化数据收集工具链,通过Selenium破解动态加载验证,突破反爬限制,采集成功率从70%提升至92%
构建多线程任务调度系统,实现数据采集与清洗全流程自动化,节省人工处理时间20h/周
利用Python爬虫将公司积累的多年财务数据,爬取并转格式后,入账到新工具中,完成财务部门数据迁出迁入的工作量,节省人工处理时间3个月
高性能数据服务架构
主导开发RESTful API接口(FastAPI),支撑前端日均10万+次数据查询请求,采用Redis缓存热点数据,接口响应速度优化65%(1200ms → 420ms)
设计时序数据存储方案(InfluxDB),实现电池产线传感器数据毫秒级写入,支撑实时监控看板
实现采集数据到模型对接到后端对接的一条龙流程,自动化整个业务流程
数据质量与工程规范
建立自动化数据清洗管道(Pandas+PySpark),开发异常值检测规则库,数据准确率从82%提升至98.6%
搭建Jenkins持续集成环境,编写300+个单元测试用例(pytest),测试覆盖率从40%提升至85%+,生产环境Bug率下降60%
制定《数据采集代码规范手册》,推动团队采用GitLab Code Review机制,代码合并冲突减少45%