该项目主要是将客户的不规则的离线和在线数据(包括同源协同数据,多源异构数据等)通过系统处理成中台标准化数据,整个采集系统包含结构化采集、历史数据管理、非结构化采集、实时数据引接、离线文件采集等几大模块。
本人主要负责结构化采集,该功能主要采集源头表包括( Mysql 、 Oracle 、 达梦 、 SqlServer 、 金仓 )等数据库源头数据资源采集,结构化采集主要采集源头表的数据以及各种元数据信息,包括表结构、表约束、主外键信息,在采集过程中,采用多线程实时对比技术快速生成元数据版本信息与比对信息,保留每次采集比对元数据变化,记录版本变更信息,
形成元数据版本体系支撑差异分析。在采集数据之前用自研多源异构映射系统形成合理元数据映射并生成本地映射完成入库之前的建表流程。
使用 dataX 数据同步技术,完成数据库数据高效稳定采集。同时,在采集时,生成对应采集历史数据。
使用高性能OLAP的 Clickhouse 数据库完成对历史数据的管理,支撑高效历史快照和历史变化功能展现。
本人在非结构化采集功能中主要是负责各种非结构化的数据采集,包括Word、Excel、PowerPoint、文本文件、DMP、图片、音频、视频等各种文件进行采集,使用轻量高性能的 MinIo 管理并上传,支持文件的急速秒传、已经大文件分片上传等技术上传文件。集成KkFile等实现上传文件管理的实时预览,并且还支持 FTP/SFTP 文件的上传与下载。
实时数据引接主要是根据客户要求实时监听现场Kafka集群指定主题数据,完成对码、解析数据,生成数据审核并分类存储管理。