Jger

• UID:21448

综合评分 35

方向：爬虫/脚本-爬虫/脚本、后端-Python

成都市

150元/8h

1年经验

求职意愿：接单·不求职(30天前更新)

个人简介

1、批处理与计算引擎：掌握 Spark（含 Core, SQL）分布式计算，熟悉Hadoop（HDFS, MR, YARN）⽣态体系。 2、实时计算引擎：了解 Flink 实时计算框架，具备搭建简单实时数据处理 pipeline 的能⼒。 3、数据管道与协调：掌握 Kafka 分布式消息队列，了解其⽤于构建实时数据管道；了解 Zookeeper 作为分布式系统协调服务的应⽤。 4、数据存储与索引：熟练编写HQL语句，具备分层模型（ODS/DWD/DWS/ADS）设计经验；掌握 Elasticsearch 分布式搜索引擎的原理与基本 API 操作；掌握 Logstash 数据采集与 Kibana 数据可视化，共同构成 ELK ⽇志分析系统。 5、开发基础：熟练掌握 SQL，具备良好的 Java/Python 编程能⼒，熟悉 Linux 及 Git。

技能

核心技能： Python

其他技能： Java、SQL、Flask、NumPy、Spring Boot、Vue

交流语言：普通话（母语水平）、英语（借助工具可书面交流）

行业经验：大数据

项目案例

基于Hadoop生态的端到端大数据平台

构建基于 Hadoop 生态的端到端大数据处理与可视化平台。具体需完成： 1、数据采集需开发多线程爬虫框架（Python），配置自动重试与反爬策略，实现20+异构数据源（含API/JSON/CSV）的定时抓取，经序列化后实时写入Kafka集群（；实时计算组基于Spark Streaming构建流处理管道，完成实时数据清洗、窗口聚合（Tumbling Window）及状态管理，处理结果通过JDBC连接池写入MySQL，需求：MySQL写入硬性要求高性能写入，流处理核心规范需要规范，容错设计，死信队列：失败记录写入Kafka； 2、离线数仓组使用Spark SQL构建Hive分层模型： ODS层（兼容多源异构数据（JSON/CSV/Parquet） DWD层（退化维度，将常用维度属性嵌入事实表，脏数据清洗，空值填充，数据脱敏）， DWS层（预聚合主题指标） ADS层（生成业务指标），指标体系建设，业务指标，存储优化，兼容多源异构数据，要求数据一致性，性能标准，可维护性； 3、ETL开发组编写Spark ETL调度作业，每日增量同步Hive DWS/ADS层数据至MySQL分析库，采用分区字段+时间戳双重增量识别机制，支持CDC变更数据捕获模式，启用Spark动态分区覆盖，要求精准增量识别，数据变更追踪，动态分区，并发度，幂等性； 4、可视化组采用Flask+ECharts开发响应式大屏，小组协助使用git仓库。核心要求：读取分析数据驱动5个动态刷新图表，并读取离线数据展示1个综合分析视图，确保大屏适配多种终端。全流程采用 Hadoop 生态技术 (Kafka, Spark, Hive, MySQL，flask)，确保系统可扩展性，并实现实时数据动态刷新与离线综合分析展示。

大数据