30天前活跃

Jger

• UID:21448
综合评分 35
方向: 爬虫/脚本-爬虫/脚本 后端-Python
成都市
150元/8h
1年经验
求职意愿:接单·不求职(30天前更新)

个人简介

1、批处理与计算引擎:掌握 Spark(含 Core, SQL)分布式计算,熟悉Hadoop(HDFS, MR, YARN)⽣态体系。 2、实时计算引擎:了解 Flink 实时计算框架,具备搭建简单实时数据处理 pipeline 的能⼒。 3、数据管道与协调:掌握 Kafka 分布式消息队列,了解其⽤于构建实时数据管道;了解 Zookeeper 作为分布式系统 协调服务的应⽤。 4、数据存储与索引:熟练编写HQL语句,具备分层模型(ODS/DWD/DWS/ADS)设计经验;掌握 Elasticsearch 分布式搜索引擎的原理与基本 API 操作;掌握 Logstash 数据采集与 Kibana 数据可视化,共同构成 ELK ⽇志分析系统。 5、开发基础:熟练掌握 SQL,具备良好的 Java/Python 编程能⼒,熟悉 Linux 及 Git。

技能

核心技能: Python
其他技能: Java、SQL、Flask、NumPy、Spring Boot、Vue
交流语言: 普通话( 母语水平 ) 英语( 借助工具可书面交流 )
行业经验: 大数据

项目案例

基于Hadoop生态的端到端大数据平台
构建基于 Hadoop 生态的端到端大数据处理与可视化平台。具体需完成: 1、数据采集需开发多线程爬虫框架(Python),配置自动重试与反爬策略,实现20+异构数据源(含API/JSON/CSV)的定时抓取,经序列化后实时写入Kafka集群(;实时计算组基于Spark Streaming构建流处理管道,完成实时数据清洗、窗口聚合(Tumbling Window)及状态管理,处理结果通过JDBC连接池写入MySQL,需求:MySQL写入硬性要求高性能写入,流处理核心规范需要规范,容错设计,死信队列:失败记录写入Kafka; 2、离线数仓组使用Spark SQL构建Hive分层模型: ODS层(兼容多源异构数据(JSON/CSV/Parquet) DWD层(退化维度,将常用维度属性嵌入事实表,脏数据清洗,空值填充,数据脱敏), DWS层(预聚合主题指标) ADS层(生成业务指标),指标体系建设,业务指标,存储优化,兼容多源异构数据,要求数据一致性,性能标准,可维护性; 3、ETL开发组编写Spark ETL调度作业,每日增量同步Hive DWS/ADS层数据至MySQL分析库,采用分区字段+时间戳双重增量识别机制,支持CDC变更数据捕获模式,启用Spark动态分区覆盖,要求精准增量识别,数据变更追踪,动态分区,并发度,幂等性; 4、可视化组采用Flask+ECharts开发响应式大屏,小组协助使用git仓库。核心要求: 读取分析数据驱动5个动态刷新图表,并读取离线数据展示1个综合分析视图,确保大屏适配多种终端。全流程采用 Hadoop 生态技术 (Kafka, Spark, Hive, MySQL,flask),确保系统可扩展性,并实现实时数据动态刷新与离线综合分析展示。
大数据

工作经历

  
5人以下
2022.09 - 2026.06
在校大学生,暂无工作经历

教育经历

成都信息工程大学
2022.09 - 2026.06
数据科学与大数据技术
本科
相似推荐
成都市
后端-Python、后端-Go
技能:Go、Python
佛山市
前端-Web前端、后端-Python
技能:Java、JavaScript、Python
嘉兴市
爬虫/脚本-爬虫/脚本
技能:Cheerio、Selenium
台州市
桌面端-桌面端其他、爬虫/脚本-爬虫/脚本
技能:JavaScript、Python
南昌市
人工智能-计算机视觉与图像处理、后端-Python
技能:OpenCV、PyTorch
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服