30天前活跃

法特

• UID:27917
综合评分 33
方向: 后端-Python 前端-小程序
乌鲁木齐市
100元/8h
1年经验
求职意愿:接单·考虑求职(30天前更新)

个人简介

Python数据开发,7个月数据中台实习经验。擅长Web爬虫(Playwright/BeautifulSoup)、ETL数据处理、PostgreSQL数据库设计与SQL优化。独立完成超1.2万条公告的全流程采集与交付,开发数据清洗脚本将关键字段覆盖率从0.37%提升至99.58%。熟练使用Docker进行服务部署,并结合飞书机器人实现自动化监控告警。追求通过脚本替代重复劳动,代码规范,有文档沉淀习惯。

技能

核心技能: Python、PL/pgSQL
其他技能: Java、Django、Selenium、MySQL Workbench
交流语言: 普通话( 母语水平 ) 英语( 借助工具可书面交流 )
行业经验: 云计算 大数据

项目案例

企业全量数据自动采集与清洗系统
1. 立项背景和目标 为满足公司对多源异构数据(如天眼查、招标公告等)的自动化采集与标准化治理需求,本项目旨在构建一套稳定可靠的数据管道。主要目标是实现从数据自动采集、清洗、入库到质量监控的全流程自动化,为上层业务分析提供高质量的数据基础。 2. 软件功能、核心功能模块的介绍 系统主要包括三大模块:1)自动化采集模块:基于Playwright等工具,实现多平台数据的定时爬取和环境迁移,成功交付超12,000条完整公告数据;2)ETL与数据治理模块:设计标准化数据表20余张,并开发智能清洗算法,将核心字段覆盖率从0.37%提升至99.58%,修复无效数据300余条;3)运维监控模块:通过Docker部署和飞书机器人,实现容器健康状态定时告警。 3. 业务流程、功能路径描述 采集脚本定时启动 → 从目标网站获取原始数据 → 进入ETL清洗层,根据预设规则进行数据抽取、清洗与标准化转换 → 清洗后的数据写入PostgreSQL标准化表 → 质量监控脚本每日检查数据覆盖率等指标 → 结果通过飞书推送给团队。整个流程无人值守,异常问题通过脚本自动修复或报警。
云计算 大数据

工作经历

新疆丝路融创软件有限公司
  
15-49人
数据研发
2025.08 - 2026.03
数据处理 漏洞扫描 数据采集

教育经历

新疆大学
2022.09 - 2026.06
软件工程
本科
相似推荐
济南市
前端-小程序、后端-Node.js
技能:Vue
台州市
后端-Python、爬虫/脚本-爬虫/脚本
技能:Python、TypeScript、SQL、Flask、SQLite、Selenium、Selenium WebDriver、PyAutoGUI、Scrapy
漳州市
前端-小程序、前端-Web前端
技能:jQuery、Vue、UniApp
桂林市
游戏开发-游戏开发其他、后端-Python
技能:C++、Python
临沂市
后端-Python
技能:Catch2
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服