构建基于 Hadoop 生态的端到端大数据处理与可视化平台。具体需完成:
1、数据采集需开发多线程爬虫框架(Python),配置自动重试与反爬策略,实现20+异构数据源(含API/JSON/CSV)的定时抓取,经序列化后实时写入Kafka集群(;实时计算组基于Spark Streaming构建流处理管道,完成实时数据清洗、窗口聚合(Tumbling Window)及状态管理,处理结果通过JDBC连接池写入MySQL,需求:MySQL写入硬性要求高性能写入,流处理核心规范需要规范,容错设计,死信队列:失败记录写入Kafka;
2、离线数仓组使用Spark SQL构建Hive分层模型: ODS层(兼容多源异构数据(JSON/CSV/Parquet) DWD层(退化维度,将常用维度属性嵌入事实表,脏数据清洗,空值填充,数据脱敏), DWS层(预聚合主题指标) ADS层(生成业务指标),指标体系建设,业务指标,存储优化,兼容多源异构数据,要求数据一致性,性能标准,可维护性;
3、ETL开发组编写Spark ETL调度作业,每日增量同步Hive DWS/ADS层数据至MySQL分析库,采用分区字段+时间戳双重增量识别机制,支持CDC变更数据捕获模式,启用Spark动态分区覆盖,要求精准增量识别,数据变更追踪,动态分区,并发度,幂等性;
4、可视化组采用Flask+ECharts开发响应式大屏,小组协助使用git仓库。核心要求: 读取分析数据驱动5个动态刷新图表,并读取离线数据展示1个综合分析视图,确保大屏适配多种终端。全流程采用 Hadoop 生态技术 (Kafka, Spark, Hive, MySQL,flask),确保系统可扩展性,并实现实时数据动态刷新与离线综合分析展示。
•基于 Spark Streaming 构建实时数据管道,实现流式清洗、窗口聚合与高容错写入。
•基于 Hive 搭建 ODS-DWD-DWS-ADS 分层数仓,完成数据整合、指标预计算与数据脱敏。
•开发 Spark ETL 作业实现增量数据同步,确保流程幂等性与高性能。
•基于 Flask + ECharts 开发可视化大屏,支持多终端实时监控与离线分析。