程序聚合软件案例企业全量数据自动采集与清洗系统

企业全量数据自动采集与清洗系统

2026-04-24 07:42:28

行业：云计算、大数据

载体：网站、爬虫/脚本

技术：Python、PostgreSQL、Selenium

业务和功能介绍

1. 立项背景和目标
为满足公司对多源异构数据（如天眼查、招标公告等）的自动化采集与标准化治理需求，本项目旨在构建一套稳定可靠的数据管道。主要目标是实现从数据自动采集、清洗、入库到质量监控的全流程自动化，为上层业务分析提供高质量的数据基础。
2. 软件功能、核心功能模块的介绍
系统主要包括三大模块：1）自动化采集模块：基于Playwright等工具，实现多平台数据的定时爬取和环境迁移，成功交付超12,000条完整公告数据；2）ETL与数据治理模块：设计标准化数据表20余张，并开发智能清洗算法，将核心字段覆盖率从0.37%提升至99.58%，修复无效数据300余条；3）运维监控模块：通过Docker部署和飞书机器人，实现容器健康状态定时告警。
3. 业务流程、功能路径描述
采集脚本定时启动 → 从目标网站获取原始数据 → 进入ETL清洗层，根据预设规则进行数据抽取、清洗与标准化转换 → 清洗后的数据写入PostgreSQL标准化表 → 质量监控脚本每日检查数据覆盖率等指标 → 结果通过飞书推送给团队。整个流程无人值守，异常问题通过脚本自动修复或报警。

项目实现

1. 整体架构和设计思路
项目采用经典ETL架构，分为采集层、清洗层、存储层和监控层。采集层使用Playwright和BeautifulSoup，解决JS动态渲染和反爬问题；清洗层基于Python脚本实现，存储层采用PostgreSQL，并设计了"城市-线路-站点"三级视图；监控层通过Docker部署，用飞书Webhook进行异常告警。

2. 我负责的模块和量化成果
独立负责全流程开发。采集端，修复了一个涉及Playwright驱动依赖、进度文件解析和环境迁移的爬虫项目，完整交付了12,138条招标公告及配套PDF文件。ETL端，设计了20余张标准化数据表，并开发了正则匹配+关键词权重算法修复315条无效标题。治理端，编写的数据清洗脚本将核心字段覆盖率从0.37%提升至99.58%，处理了11万余条记录。运维端，实现了6个Docker容器的健康监控自动推送。

3. 遇到的难点和解决方案
难点一：中广核爬虫环境迁移后驱动缺失、进度文件越界导致崩溃。解决：逐一排查依赖，修正文件解析逻辑，增加异常捕获。难点二：原始数据大量缺失，如location字段覆盖率仅0.37%。解决：编写清洗脚本，用region字段进行匹配填充，并建立数据质量监控防止再次恶化。难点三：分布式场景下ID重复。解决：设计类雪花算法，生成带地域标识的唯一ID。

示例图片视频

法特

5天前活跃

方向：后端-Python、前端-小程序、

交付率：100.00%

查看主页

相似推荐

金融平台贷款全流程-金融平台贷款全流程

专注于小额分散消费信贷领域，为个人用户提供便捷、高效、低门槛的纯线上信用贷款服务，同时为金融机构提供精准获客、智能风控、贷后管理等一站式解决方案。核心价值 - 用户价值：3分钟申请、1分钟审批、即时到账，满足用户紧急资金需求 - 机构价值：降低获客成本、提升风控效率、优化贷后管理，实现业务增长 - 社会价值：助力普惠金融发展，缓解中小微企业和个人融资难问题

建行渠道管控系统

建行渠道管控系统是支撑 STM 智慧柜员机与裕农通双渠道交易分发的核心中间件，日均处理交易量 10 万 +，服务于辽宁省内 200+ 银行网点。负责分发与统计不同渠道的交易，便于负载和行内做统计总结，为目标规划做保障

建行 STM 智慧柜员机系统

建行辽宁省分行智慧柜员机核心业务系统，支持辽事通政务事项办理，服务于省内 200+ 网点，日均交易量 5 万+，提升银行网点服务效率 60%。是银行业务信息化的重要项目，承载了建设银行各地区业务的联动

柬埔寨加华银行手机银行

柬埔寨加华银行手机银行APP开发，包括生活服务、支付服务、国际业务、信用卡服务等，我主要是对加华银行手机银行做后续的新需求开发和运维工作。加华手机银行虽已上线5年，但仍有部分遗留问题未解决，所以我不仅需要对后续需求进行开发，还需要兼顾历史遗留问题的修复工作。

亼智风控系统

整个系统是微服务架构体系，使用了nacos作为服务注册与发现的中心，网关使用的gateway，负载均衡使用的是load Balancer，限流使用的Sentinel，以及服务之间的调用使用的是openfeign。同时在鉴权方面使用的是auth2来进行鉴权。数据库使用的是mysql，以及搭配的mybatis-plus数据持久化框架。总共涉及了，登录、电子合同、功能次数管理、在线付费购买、电子合同、图文识别等多个微服务，以登录与功能次数管理为最底层的核心功能，然后配合使用redis作为缓存中间件，以及高并发的锁限制，使用mongodb作为附件存储中心，实现本地和数据库的文件存储功能，再者集合百度的图文识别，进行一些关键的证件照的识别，以达到提升用户使用的流畅性。同时对接了成都市中大公证处，实现了对应的验资授权功能。