全端智能新闻聚合与网页快照归档平台
1、立项背景和目标:
在信息碎片化时代,用户面临新闻多端分散、优质内容易被404(链接失效)等痛点。本项目旨在打造一个跨平台(PC网页、iOS、HarmonyOS)的智能新闻聚合系统。核心目标是通过分布式爬虫实时抓取全网热点资讯,并利用无头浏览器技术对高价值新闻生成永久DOM快照和长图存档,确保信息资产的永久可访问性。
2、核心功能模块介绍:
分布式爬虫与清洗引擎: 针对不同新闻源定制抓取策略,利用自然语言处理(NLP)进行正文提取、去重和自动打标签。
网页快照与归档中台: 监听新闻入库事件,异步调度无头浏览器渲染目标页面,生成离线HTML快照和PDF/长图,存储至对象存储(OSS)。
多端统一分发API: 为HarmonyOS、iOS和PC Web提供统一的RESTful接口,支持基于ElasticSearch的亿级数据毫秒级全文检索。
智能推荐与订阅机制: 根据用户浏览画像,实现千人千面的新闻流推荐。
3、业务流程、功能路径描述:
数据生产链路: 调度中心下发任务 -> 爬虫节点抓取HTML -> 清洗服务提取标题/正文/时间 -> 触发快照异步任务 -> 存入MySQL并同步至ES索引。
C端用户访问链路(以鸿蒙端为例): 用户打开HarmonyOS App -> 发起首页Feed流请求 -> 后端网关鉴权 -> 推荐系统计算流数据 -> 返回资讯列表 -> 用户点击新闻 -> 优先加载本地/OSS的网页快照,实现秒开体验。
人工智能
生活服务