本项目为解决电商与内容平台公开数据的批量获取与整理需求而立项。核心目标:把原本需要人工逐条复制粘贴的信息采集工作,变成一套可自动批量执行的系统。功能模块包括:目标页面批量抓取、浏览器指纹环境与登录态管理以应对常规反爬、抓取结果自动清洗去重、字段标准化、最终导出为可直接使用的结构化 Excel 表格。业务流程为:指定采集目标与所需字段→系统自动抓取→清洗去重→输出成表,全程无需人工干预。
整体采用 Python 脚本驱动,Selenium 控制浏览器模拟真实访问,配合自建的指纹与登录态管理降低被反爬拦截的概率。数据落地后用脚本统一做去重、空值处理和字段对齐。我独立负责从需求拆解、流程设计到脚本编写、调试、出表的全部环节。结果:把单次数小时的人工采集压缩到分钟级自动执行,产出可直接使用的结构化数据。最大的坑是反爬与登录态失效,解决方案是引入指纹环境管理和登录态保活机制,保证长时间批量运行的稳定性。