程序聚合 软件案例 企业全量数据自动采集与清洗系统

企业全量数据自动采集与清洗系统

2026-04-24 07:42:28
行业:云计算、大数据
载体:网站、爬虫/脚本
技术:Python、PostgreSQL、Selenium

业务和功能介绍

1. 立项背景和目标
为满足公司对多源异构数据(如天眼查、招标公告等)的自动化采集与标准化治理需求,本项目旨在构建一套稳定可靠的数据管道。主要目标是实现从数据自动采集、清洗、入库到质量监控的全流程自动化,为上层业务分析提供高质量的数据基础。
2. 软件功能、核心功能模块的介绍
系统主要包括三大模块:1)自动化采集模块:基于Playwright等工具,实现多平台数据的定时爬取和环境迁移,成功交付超12,000条完整公告数据;2)ETL与数据治理模块:设计标准化数据表20余张,并开发智能清洗算法,将核心字段覆盖率从0.37%提升至99.58%,修复无效数据300余条;3)运维监控模块:通过Docker部署和飞书机器人,实现容器健康状态定时告警。
3. 业务流程、功能路径描述
采集脚本定时启动 → 从目标网站获取原始数据 → 进入ETL清洗层,根据预设规则进行数据抽取、清洗与标准化转换 → 清洗后的数据写入PostgreSQL标准化表 → 质量监控脚本每日检查数据覆盖率等指标 → 结果通过飞书推送给团队。整个流程无人值守,异常问题通过脚本自动修复或报警。

项目实现

1. 整体架构和设计思路
项目采用经典ETL架构,分为采集层、清洗层、存储层和监控层。采集层使用Playwright和BeautifulSoup,解决JS动态渲染和反爬问题;清洗层基于Python脚本实现,存储层采用PostgreSQL,并设计了"城市-线路-站点"三级视图;监控层通过Docker部署,用飞书Webhook进行异常告警。

2. 我负责的模块和量化成果
独立负责全流程开发。采集端,修复了一个涉及Playwright驱动依赖、进度文件解析和环境迁移的爬虫项目,完整交付了12,138条招标公告及配套PDF文件。ETL端,设计了20余张标准化数据表,并开发了正则匹配+关键词权重算法修复315条无效标题。治理端,编写的数据清洗脚本将核心字段覆盖率从0.37%提升至99.58%,处理了11万余条记录。运维端,实现了6个Docker容器的健康监控自动推送。

3. 遇到的难点和解决方案
难点一:中广核爬虫环境迁移后驱动缺失、进度文件越界导致崩溃。解决:逐一排查依赖,修正文件解析逻辑,增加异常捕获。难点二:原始数据大量缺失,如location字段覆盖率仅0.37%。解决:编写清洗脚本,用region字段进行匹配填充,并建立数据质量监控防止再次恶化。难点三:分布式场景下ID重复。解决:设计类雪花算法,生成带地域标识的唯一ID。

示例图片视频


法特
5天前活跃
方向: 后端-Python、前端-小程序、
交付率:100.00%
相似推荐
金融平台贷款全流程-金融平台贷款全流程
专注于小额分散消费信贷领域,为个人用户提供便捷、高效、低门槛的纯线上信用贷款服务,同时为金融机构提供精准获客、智能风控、贷后管理等一站式解决方案。 核心价值 - 用户价值:3分钟申请、1分钟审批、即时到账,满足用户紧急资金需求 - 机构价值:降低获客成本、提升风控效率、优化贷后管理,实现业务增长 - 社会价值:助力普惠金融发展,缓解中小微企业和个人融资难问题
建行渠道管控系统
建行渠道管控系统是支撑 STM 智慧柜员机与裕农通双渠道交易分发的核心中间件,日均处理交易量 10 万 +,服务于辽宁省内 200+ 银行网点。负责分发与统计不同渠道的交易,便于负载和行内做统计总结,为目标规划做保障
建行 STM 智慧柜员机系统
建行辽宁省分行智慧柜员机核心业务系统,支持辽事通政务事项办理,服务于省内 200+ 网点,日均交易量 5 万+,提升银行网点服务效率 60%。是银行业务信息化的重要项目,承载了建设银行各地区业务的联动
柬埔寨加华银行手机银行
柬埔寨加华银行手机银行APP开发,包括生活服务、支付服务、国际业务、信用卡服务等,我主要是对加华银行手机银行做后续的新需求开发和运维工作。加华手机银行虽已上线5年,但仍有部分遗留问题未解决,所以我不仅需要对后续需求进行开发,还需要兼顾历史遗留问题的修复工作。
亼智风控系统
整个系统是微服务架构体系,使用了nacos作为服务注册与发现的中心,网关使用的gateway,负载均衡使用的是load Balancer,限流使用的Sentinel,以及服务之间的调用使用的是openfeign。同时在鉴权方面使用的是auth2来进行鉴权。数据库使用的是mysql,以及搭配的mybatis-plus数据持久化框架。总共涉及了,登录、电子合同、功能次数管理、在线付费购买、电子合同、图文识别等多个微服务,以登录与功能次数管理为最底层的核心 功能,然后配合使用redis作为缓存中间件,以及高并发的锁限制,使用mongodb作为附件存储中心,实现本地和数据库的文件存储功能,再者集合百度的图文识别,进行一些关键的证件照的识别,以达到提升用户使用的流畅性。同时对接了成都市中大公证处,实现了对应的验资授权功能。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服