全栈爬虫技术能力
静态页面:requests + BeautifulSoup / lxml,高效抓取标准 HTML。
动态渲染:Selenium / Playwright / Puppeteer 模拟真实浏览器,处理 JavaScript 异步加载的页面。
API 逆向:通过抓包分析(Fiddler/Charles),直接调用 XHR 接口获取 JSON 数据,性能极佳。
登录态维持:Cookie 持久化、模拟表单登录、扫码登录、OAuth2.0 授权。
“分布式爬虫 → 智能解析 → 结构化存储 → 全文检索
爬虫层:基于 Scrapy + Scrapy-Redis 搭建分布式爬虫,支持多节点并发抓取。定制 User-Agent 池、代理 IP 中间件,随机延时(1~3秒)规避反爬。起始 URL 为保定市政府网站的“政府信息公开”栏目,自动发现分页及详情页链接。
解析层:对列表页采用 XPath 提取标题、发布时间、概要(或文号);对详情页进一步提取正文内容、附件下载链接、发文单位等。针对不同页面结构的变动,实现了可配置化的抽取规则(JSON 配置文件)。