企业全量数据自动采集与清洗系统
1. 立项背景和目标
为满足公司对多源异构数据(如天眼查、招标公告等)的自动化采集与标准化治理需求,本项目旨在构建一套稳定可靠的数据管道。主要目标是实现从数据自动采集、清洗、入库到质量监控的全流程自动化,为上层业务分析提供高质量的数据基础。
2. 软件功能、核心功能模块的介绍
系统主要包括三大模块:1)自动化采集模块:基于Playwright等工具,实现多平台数据的定时爬取和环境迁移,成功交付超12,000条完整公告数据;2)ETL与数据治理模块:设计标准化数据表20余张,并开发智能清洗算法,将核心字段覆盖率从0.37%提升至99.58%,修复无效数据300余条;3)运维监控模块:通过Docker部署和飞书机器人,实现容器健康状态定时告警。
3. 业务流程、功能路径描述
采集脚本定时启动 → 从目标网站获取原始数据 → 进入ETL清洗层,根据预设规则进行数据抽取、清洗与标准化转换 → 清洗后的数据写入PostgreSQL标准化表 → 质量监控脚本每日检查数据覆盖率等指标 → 结果通过飞书推送给团队。整个流程无人值守,异常问题通过脚本自动修复或报警。
云计算
大数据