业务目标1. 循环遍历电影列表
遍历提前解析好的电影节点列表 movieItemList ,为每一部电影单独创建空字典 movieDict ,用来单条存储一部电影的全部字段。
2. XPath精准提取网页数据
通过XPath语法,从网页节点中定位并抓取4类核心信息:
- title :电影主名称
- otherTitle :电影别名/其他译名
- link :电影详情页URL链接
- star :电影评分
- quote :电影短评/经典一句评语
3. 数据清洗与字典封装
- 合并主标题+别名,拼接为完整电影名称存入字典
- 把链接、评分、评语依次存入字典对应key
- 打印单条电影字典,做运行调试校验
- 把单条字典追加进全局电影列表 movieList
批量抓取豆瓣电影列表页的电影信息,提取标题、链接、评分、经典评语,最终规整保存到本地 doubanMoive.csv 表格文件,方便后续查看、统计与数据分析。
结构化采集豆瓣电影榜单信息,把非结构化的网页HTML数据,提取、规整为结构化数据,最终导出为通用CSV表格文件,实现数据留存、离线查看与二次分析。
后续想新增导演、演员、年份等字段,只需要加XPath提取、字典加key,其余逻辑完全不用改动