程序聚合 软件案例 金属行业新闻全量采集工具 V1.0

金属行业新闻全量采集工具 V1.0

2025-10-26 15:42:41
行业:大数据、生活服务
载体:爬虫/脚本
技术:Scrapy

业务和功能介绍

项目背景和目标针对金属行业从业者 “获取行业新闻分散、手动整理效率低(单条新闻平均耗时 5 分钟)” 的痛点,开发自动化工具爬取金属信息网(http://www.metalinfo.cn)的新闻数据,解决 “信息碎片化” 问题。目标是批量获取新闻的标题、内容、发布时间、来源,为行业趋势分析、市场动态监测提供结构化数据支持。
软件功能和核心模块
列表页爬取模块:通过 POST 请求调用 API 接口(http://www.metalinfo.cn/json/search/list),支持分页参数(pageSize=20、current=1/2...),批量获取新闻基础信息(标题、发布时间、唯一标识 rid);
详情页提取模块:根据列表页返回的 rid,通过 GET 请求调用详情 API(http://www.metalinfo.cn/json/resource/detail),提取完整正文内容和来源信息;
反爬处理模块:集成随机 User-Agent 池(模拟 Chrome/Safari/Android 浏览器)、动态延时策略(1-3 秒详情页间隔、2-4 秒分页间隔),规避网站频率限制;
数据存储模块:将结构化数据按 “标题、发布时间、来源、内容” 字段保存为 CSV 文件,支持直接导入 Excel 或数据库进行后续分析。
业务流程网站 API 接口分析→请求参数设计→反爬策略配置→列表页分页爬取→详情页关联提取→数据清洗与存储→支撑行业信息聚合应用。

项目实现

项目实现
整体架构和技术选型采用 “三层架构” 设计:
请求层:基于 requests 库实现 POST/GET 请求,通过get_random_headers函数动态生成请求头(含随机 User-Agent 和 Referer),模拟浏览器行为;
解析层:直接处理 API 返回的 JSON 数据(而非解析 HTML),通过键值对提取字段(如response.json()["result"]["records"]获取列表数据),解析效率较 HTML 解析提升 60%;
存储层:使用 csv 模块按字段结构化存储,通过f.tell() == 0判断首次运行并写入表头,确保数据格式统一。
核心技术实现和成果
接口复用:通过分析 Network 请求,定位到列表页(POST)和详情页(GET)的真实 API,避免解析复杂 HTML,单条新闻爬取时间缩短至 0.5 秒;
反爬突破:设计双级延时机制(详情页 1-3 秒、分页 2-4 秒)+ User-Agent 随机切换,爬取成功率达 99%,无 IP 封禁记录;
鲁棒性保障:在crawl_list和crawl_detail函数中添加异常捕获(超时、HTTP 错误、JSON 解析失败),单个请求失败时自动跳过,确保整体流程不中断。
最终成果:成功爬取 200 条金属行业新闻(5 页数据),生成结构化 CSV 文件,数据完整率 98%,相比手动收集效率提升 200 倍。
遇到的难点和解决方案
难点 1:网站数据通过 AJAX 动态加载,无法从 HTML 中直接提取→解决方案:用 Chrome 开发者工具监控 XHR 请求,定位到 JSON 接口(/json/search/list 和 /json/resource/detail),直接请求接口数据;
难点 2:固定请求头被网站识别为爬虫→解决方案:构建 User-Agent 池(3 种浏览器标识),每次请求随机选择,搭配动态 Referer(模拟从列表页跳转至详情页),降低识别概率;
难点 3:部分新闻无 rid(唯一标识)导致详情页请求失败→解决方案:在循环中添加if not rid: continue判断,过滤无效数据,避免程序崩溃。

示例图片视频


首席养猪执行官
30天前活跃
方向: 爬虫/脚本-爬虫/脚本、
交付率:100.00%
相似推荐
信托数据中心
根据华宝信托有限责任公司(以下简称:华宝信托)内部管理需求,根据需求进行财务数据清洗,统计,分析计算,此项目主 要包括统计报送,内部管理,数据应用,数据标准几大模块, 统计报送模块:1104报表,全要素报表,资金兑付报表,人行金数,EAST 数据管理,中证登产品账户管理,人行贷款日报,中信登受益权,中信登信托登记,关联交易报送, 来自前程无忧简历 内部管理:管理会计,收入预计,预算进度,统一指标,运营管理,数据管控,人形资管,全量表,监管报备,财富管理 中心,恢复计划指标监测 数据应用模块:非标资产公允价值估值,数据价值发现BI,数据中心项目管理PMS,数据挖掘 数据标准模块:1104监管报表填报说明,EAST4.0标准
投资系统
投资分析模块 1.分析基础 投资分析基于系统内管理的证券持仓信息(包括持仓成本、数量等),并综合外部数据源或人工录入的估值信息(如债券 估值、基金净值、货币基金万份收益等),开展多维分析。 2.分析内容 分析内容涵盖阶段收益、浮动盈亏、投资余额等核心指标。 3.输出形式 系统需提供报表形式的分析数据前台展示,并支持报表下载功能。 4.管理范围 投资分析覆盖当前系统内所有投资产品类型,包括但不限于: 同业存单(买入、到期(债券到期)、计息)、国债(买入、到期(债券到期)、计息)、 政策性金融债(买入、到期(债券到期)、计息)、央行票据(买入、到期(债券到期)、计息)、 逆回购(正回购、赎回(回购拆借到期))、正回购(正回购、赎回(回购拆借到期))、各类基金
AI智能客服与大模型应用
基于飞致云 MaxKB 知识库问答系统作为底座,快速完善企业在线智能客服的 AI 助手能力。主要负责 MaxKB 的二次配置、知识库构建、RAG 链路调优、多渠道接入及效果评测。 1.底座集成:部署并配置 MaxKB 开源版本,将其作为智能客服的核心引擎。利用其内置的模型管理、知识库管理和 RAG 流水线能力,大幅缩短开发周期。 2.知识库构建:梳理 10 万+ 条历史客服对话记录,完成清洗、分类与结构化处理,导入 MaxKB 知识库。通过文档分段、QA 对提取等方式提升知识召回率。 3.RAG 检索优化:在 MaxKB 原生 RAG 流程基础上,调整检索参数(Top-K、相似度阈值),并增加重排序(Rerank)环节。并基于 MaxKB 支持的模型接入能力,选用 Qwen3系列模型。利用收集的领域数据,通过 LoRA 方法进行轻量化微调,并集成回 MaxKB 底座。微调后客服场景回答准确率达 92%,幻觉率降至 5% 以下。通过 MaxKB 提供的 API 接口,实现与企业微信、App、Web 端等多渠道的无缝对接。开发简单的消息适配层,完成会话管理、上下文关联等基础功能。
爱众资产管理平台-爱众资产
爱众资产管理服务平台,提供专业个人不良贷款收购处置业务服务,实现个贷不良资产竞购、管理、分析服务,实现清收处置跟踪、减免结清等清收服务,实现法诉管理、委外管理等服务。主分不同角色进行管理,特有的流程化工作
企业数据自动化处理系统-DataFlow
针对企业日常数据处理工作繁琐、易出错的痛点,开发了一套自动化数据处理系统。核心功能包括:Excel批量处理、数据清洗去重、多源数据合并、自动生成报表、定时任务调度。支持从多个数据源(Excel、CSV、数据库、API)自动采集数据,按预设规则清洗转换,生成标准化报表并自动发送邮件。业务流程:配置数据源 → 设置处理规则 → 定时触发任务 → 自动处理数据 → 生成报表 → 邮件通知。系统已应用于财务对账、销售数据汇总等场景,帮助企业节省80%人工处理时间。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服