金属行业新闻全量采集工具 V1.0
项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低(单条新闻平均耗时 5 分钟)” 的痛点,开发自动化工具爬取金属信息网(http://www.metalinfo.cn)的新闻数据,解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源,为行业趋势分析、市场动态监测提供结构化数据支持。
软件功能和核心模块
列表页爬取模块:通过 POST 请求调用 API 接口(http://www.metalinfo.cn/json/search/list),支持分页参数(pageSize=20、current=1/2...),批量获取新闻基础信息(标题、发布时间、唯一标识 rid);
详情页提取模块:根据列表页返回的 rid,通过 GET 请求调用详情 API(http://www.metalinfo.cn/json/resource/detail),提取完整正文内容和来源信息;
反爬处理模块:集成随机 User-Agent 池(模拟 Chrome/Safari/Android 浏览器)、动态延时策略(1-3 秒详情页间隔、2-4 秒分页间隔),规避网站频率限制;
数据存储模块:将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件,支持直接导入 Excel 或数据库进行后续分析。
业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。
大数据
生活服务