中石油数据处理平台-数据工厂
多源异构数据集成与处理:数据工厂能够对接和整合来自采气厂、电力调度、分析化验、净化厂等多种业务系统的数据,包括地震数据、测录井曲线、分析化验曲线、地质模型网格化数据、视频监控等实时与非实时数据。通过采用GBaseMTK元数据同步工具、GBaseRTSync实时同步工具、Kafka消息队列、Sqoop、Flume等数据传输工具,平台实现了跨域数据汇集,解决了原有系统存在的“数据孤岛”问题。针对原有自研数据同步产品DSB存在的实时能力不足问题,平台通过解析数据库日志的方式,实现了对Oracle、MySQL、PostgreSQL等多种数据库的实时增量数据获取,显著提升了数据融合能力。
· 统一数据存储与分布式计算:平台采用分层存储架构,根据数据特性和应用场景选择最优存储方案。结构化数据使用GBase8s高并发事务数据库和GBase8a分布式分析数据库;半结构化和非结构化数据则依托基于Hadoop的GBaseHD平台,提供HDFS、Hive、HBase等存储与管理引擎;同时引入Neo4j图数据库处理关联关系复杂的业务数据。在计算层面,平台融合了批量处理、流计算和图计算多种模式,支持GBase8s/8a原生计算、MR/Spark/Flink等计算引擎,满足了油气田业务中OLAP、OLTP和NoSQL三种计算模型的多样化场景需求。
· 数据治理与质量管理:中石油制定了《公共数据编码管理规范》(Q/SY 10725-2023)等企业标准,提出了基于固定码的数据编码方法,建立了数据编码模型和规则,实现了物理实体对象与描述数据的精准关联。这一体系覆盖了数据全生命周期管理,包括数据需求、标准、编码、质量和应用评价等环节,通过数据血缘追踪、质量评估模型和数据溯源机制,确保了数据的准确性、一致性和可信度。在数据安全方面,平台采用国产数据库替代国外及开源产品,支持数据加密、备份恢复、一致性校验和操作审计,大幅提升了能源数据的安全防护能力。
· 数据服务与可视化分析:平台通过统一服务接口对外提供数据能力,包括结构化数据API、实时数据API、音视频API、GIS数据API、文档图片API等多样化服务方式。在梦想云平台中,数据服务层支持“一键式”秒级图件生成,将勘探研究项目的数据准备时间从原来的5小时缩短至1分钟以内。同时,平台提供大数据分析能力和可视化展示功能,支持数据检索、互动分析、关联分析等数据挖掘应用,为业务决策提供了直观的数据支撑。
大数据
工业互联网