获取网站中国管理案例共享中心最新数据抓取
(1)解析静态网页并爬取首页所有最新案例
(2)需要每个案例的具体信息如案例编号、作者、摘要等(解析网页结构进行详情页跳转与翻页)
(3)爬取数据简单处理后以表格为结果进行输出
1.整体使用scrapy框架,代码开发使用python语言
2.在middlewares中使用fake_useragent的随机uer-agent模拟浏览器访问
3.spider脚本内使用xpath解析网站html,进行数据获取与翻页实现
4.在pipeline内使用openpyx1将数据清洗缓存后存为excel格式
5.使用数据缓存,减少io并指定数据量进行写入