- Python爬虫
- Web自动化/浏览器爬虫
- 动态渲染采集
- Scrapy工程化采集
- 数据清洗与结构化存储(CSV/表格)
- 反爬处理/登录态维持
- 业务背景:对商业地产行业数据进行汇总分析,需要批量获取赢商大数据平台的项目库信息,形成可分析的数据集(项目维度字段齐全、可导入Excel/BI)。
- 核心功能:
- 项目列表翻页采集:按页获取项目入口链接,支持配置页数批量抓取
- 项目详情解析:进入详情页抽取关键字段并做字段名清洗与映射
- 采集稳定性:动态渲染等待、限速控制、低并发策略减少风控触发
- 数据落地:按统一字段写入 CSV,支持追加写入与断点续跑
- 方案设计:同时提供“Playwright直连脚本方案”和“Scrapy + Playwright工程化方案”,便于在小规模快速交付与长期稳定跑数之间切换
- 流程步骤:
- 复用登录态(首次人工登录导出会话,后续自动加载会话)
- 打开项目列表页 → 抓取当前页所有详情链接 → 逐条进入详情页
- 以“字段名/字段值”KV形式解析详情模块,提取并输出统一字段(如:标题、发布者、项目类型、商业面积、商业楼层、城市、地址等)
- 翻页循环,最终输出结构化 CSV 数据集(满足批量采集需求)