程序聚合 软件案例 企业全量数据自动采集与清洗系统

企业全量数据自动采集与清洗系统

2026-04-24 07:42:28
行业:云计算、大数据
载体:网站、爬虫/脚本
技术:Python、PostgreSQL、Selenium

业务和功能介绍

1. 立项背景和目标
为满足公司对多源异构数据(如天眼查、招标公告等)的自动化采集与标准化治理需求,本项目旨在构建一套稳定可靠的数据管道。主要目标是实现从数据自动采集、清洗、入库到质量监控的全流程自动化,为上层业务分析提供高质量的数据基础。
2. 软件功能、核心功能模块的介绍
系统主要包括三大模块:1)自动化采集模块:基于Playwright等工具,实现多平台数据的定时爬取和环境迁移,成功交付超12,000条完整公告数据;2)ETL与数据治理模块:设计标准化数据表20余张,并开发智能清洗算法,将核心字段覆盖率从0.37%提升至99.58%,修复无效数据300余条;3)运维监控模块:通过Docker部署和飞书机器人,实现容器健康状态定时告警。
3. 业务流程、功能路径描述
采集脚本定时启动 → 从目标网站获取原始数据 → 进入ETL清洗层,根据预设规则进行数据抽取、清洗与标准化转换 → 清洗后的数据写入PostgreSQL标准化表 → 质量监控脚本每日检查数据覆盖率等指标 → 结果通过飞书推送给团队。整个流程无人值守,异常问题通过脚本自动修复或报警。

项目实现

1. 整体架构和设计思路
项目采用经典ETL架构,分为采集层、清洗层、存储层和监控层。采集层使用Playwright和BeautifulSoup,解决JS动态渲染和反爬问题;清洗层基于Python脚本实现,存储层采用PostgreSQL,并设计了"城市-线路-站点"三级视图;监控层通过Docker部署,用飞书Webhook进行异常告警。

2. 我负责的模块和量化成果
独立负责全流程开发。采集端,修复了一个涉及Playwright驱动依赖、进度文件解析和环境迁移的爬虫项目,完整交付了12,138条招标公告及配套PDF文件。ETL端,设计了20余张标准化数据表,并开发了正则匹配+关键词权重算法修复315条无效标题。治理端,编写的数据清洗脚本将核心字段覆盖率从0.37%提升至99.58%,处理了11万余条记录。运维端,实现了6个Docker容器的健康监控自动推送。

3. 遇到的难点和解决方案
难点一:中广核爬虫环境迁移后驱动缺失、进度文件越界导致崩溃。解决:逐一排查依赖,修正文件解析逻辑,增加异常捕获。难点二:原始数据大量缺失,如location字段覆盖率仅0.37%。解决:编写清洗脚本,用region字段进行匹配填充,并建立数据质量监控防止再次恶化。难点三:分布式场景下ID重复。解决:设计类雪花算法,生成带地域标识的唯一ID。

示例图片视频


法特
30天前活跃
方向: 后端-Python、前端-小程序、
交付率:100.00%
相似推荐
信托数据中心
根据华宝信托有限责任公司(以下简称:华宝信托)内部管理需求,根据需求进行财务数据清洗,统计,分析计算,此项目主 要包括统计报送,内部管理,数据应用,数据标准几大模块, 统计报送模块:1104报表,全要素报表,资金兑付报表,人行金数,EAST 数据管理,中证登产品账户管理,人行贷款日报,中信登受益权,中信登信托登记,关联交易报送, 来自前程无忧简历 内部管理:管理会计,收入预计,预算进度,统一指标,运营管理,数据管控,人形资管,全量表,监管报备,财富管理 中心,恢复计划指标监测 数据应用模块:非标资产公允价值估值,数据价值发现BI,数据中心项目管理PMS,数据挖掘 数据标准模块:1104监管报表填报说明,EAST4.0标准
投资系统
投资分析模块 1.分析基础 投资分析基于系统内管理的证券持仓信息(包括持仓成本、数量等),并综合外部数据源或人工录入的估值信息(如债券 估值、基金净值、货币基金万份收益等),开展多维分析。 2.分析内容 分析内容涵盖阶段收益、浮动盈亏、投资余额等核心指标。 3.输出形式 系统需提供报表形式的分析数据前台展示,并支持报表下载功能。 4.管理范围 投资分析覆盖当前系统内所有投资产品类型,包括但不限于: 同业存单(买入、到期(债券到期)、计息)、国债(买入、到期(债券到期)、计息)、 政策性金融债(买入、到期(债券到期)、计息)、央行票据(买入、到期(债券到期)、计息)、 逆回购(正回购、赎回(回购拆借到期))、正回购(正回购、赎回(回购拆借到期))、各类基金
AI智能客服与大模型应用
基于飞致云 MaxKB 知识库问答系统作为底座,快速完善企业在线智能客服的 AI 助手能力。主要负责 MaxKB 的二次配置、知识库构建、RAG 链路调优、多渠道接入及效果评测。 1.底座集成:部署并配置 MaxKB 开源版本,将其作为智能客服的核心引擎。利用其内置的模型管理、知识库管理和 RAG 流水线能力,大幅缩短开发周期。 2.知识库构建:梳理 10 万+ 条历史客服对话记录,完成清洗、分类与结构化处理,导入 MaxKB 知识库。通过文档分段、QA 对提取等方式提升知识召回率。 3.RAG 检索优化:在 MaxKB 原生 RAG 流程基础上,调整检索参数(Top-K、相似度阈值),并增加重排序(Rerank)环节。并基于 MaxKB 支持的模型接入能力,选用 Qwen3系列模型。利用收集的领域数据,通过 LoRA 方法进行轻量化微调,并集成回 MaxKB 底座。微调后客服场景回答准确率达 92%,幻觉率降至 5% 以下。通过 MaxKB 提供的 API 接口,实现与企业微信、App、Web 端等多渠道的无缝对接。开发简单的消息适配层,完成会话管理、上下文关联等基础功能。
爱众资产管理平台-爱众资产
爱众资产管理服务平台,提供专业个人不良贷款收购处置业务服务,实现个贷不良资产竞购、管理、分析服务,实现清收处置跟踪、减免结清等清收服务,实现法诉管理、委外管理等服务。主分不同角色进行管理,特有的流程化工作
企业数据自动化处理系统-DataFlow
针对企业日常数据处理工作繁琐、易出错的痛点,开发了一套自动化数据处理系统。核心功能包括:Excel批量处理、数据清洗去重、多源数据合并、自动生成报表、定时任务调度。支持从多个数据源(Excel、CSV、数据库、API)自动采集数据,按预设规则清洗转换,生成标准化报表并自动发送邮件。业务流程:配置数据源 → 设置处理规则 → 定时触发任务 → 自动处理数据 → 生成报表 → 邮件通知。系统已应用于财务对账、销售数据汇总等场景,帮助企业节省80%人工处理时间。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服