1.民航大数据平台项目旨在解决民航数据分散、标准不统一的问题,构建统一的民航数据平台,形成行业标准参数和指标体系,实现"让业务少做配置和修改就能完成绝大部分业务"的目标。
2.系统分为三个核心子系统:业务系统、大数据集群和采集系统,实现民航运行数据的采集、存储、计算和管理。业务系统提供租户、用户、角色管理及数据源管理、任务管理等功能;大数据集群作为核心存储与计算系统,提供数据接入、存储、指标计算、查询及任务调度;采集系统负责对接各航空公司,获取QAR文件、飞行计划、ACARS报文、气象报文等运行数据。
3.业务流程为:Agent从航司系统获取原始数据→采集系统对接并存储数据→大数据集群进行分析计算→业务系统提供管理界面和数据服务,形成"数据采集-存储-分析-应用"的完整闭环,实现民航运行数据的标准化、规范化和高效利用。
1.系统采用Java和Scala作为开发语言,基于Hadoop和Spark生态圈构建,使用Cloudera作为运维管理工具,引入Kafka、Spring、Zookeeper等成熟框架。
2.我负责采集系统的设计与开发,实现航司数据的标准化接入,包括QAR文件、飞行计划、ACARS报文等10余类数据的采集与处理。成功对接了3家航空公司系统,实现日均处理数据量12TB,数据同步成功率99.5%,采集延迟控制在30分钟内。
3.主要难点在于不同航司数据格式和标准不统一,通过设计灵活的采集参数体系(包括采集参数、自定义参数、标准参数、出厂构型参数等),实现了不同航司数据的标准化接入。另一个难点是QAR文件的识别与解析,通过设计基于飞机编号和同步字的识别逻辑,解决了QAR文件的自动识别问题,使QAR文件识别准确率达到98.7%。同时,针对大数据平台与航司系统的接口不一致问题,设计了统一的Agent接口规范,减少了航司数据接入的配置工作量,使平均接入时间从3天缩短至8小时,大幅提升了系统部署效率。