数据集成
操作轻量化、过程可视化、能力开放化数据集成能力,支持复杂网络环境下、丰富的异构数据源之间高速稳定的海量数据同步。
全场景同步:包括实时同步与离线同步。
多类型异构数据源:支持30+数据源提供星型结构支持读写随机搭配。
T转换
数据级:对同步中的数据进行内容转换,如数据过滤、Join 等。
字段级:提供单个字段转换处理,包括自定义数据字段、格式转换、时间格式转换等。
任务及数据监控
读写指标:支持任务读写实时指标统计,包括读写总量、速度、吞吐、以及脏数据等。
监控告警:支持任务及资源监控,覆盖短信、邮件、HTTP 等多渠道告警。
数据开发
通过严谨的 CI/CD 流程规范和自动化的测试发布运维加持能力,缩短从原始数据加工运维到业务应用数据的路径,提升效率的同时保障数据质量。
在线代码开发:支持代码开发,对任务工作流进行易用拖拽式编排,同时支持大规模任务的可视化编排呈现。
代码开发:支持对 HiveSQL、SparkSQL、JDBCSQL、Spark、Shell、MapReduce、PySpark、Python、TBase、DLC SQL、DLCSpark、TCHouse-P、Impala 等任务进行在线代码开发、调试,以及版本管理。
任务测试:支持任务和工作流测试及版本管理。
开发辅助:提供项目、工作流和任务三种粒度的参数配置,支持时间参数运算以及函数参数。
版本管理:支持事件、函数、任务和参数的版本管理。
代码管理:提供代码统一的管理、导入和导出。
编排调度:对任务进行流程编排及提交调度。
调度方式:支持周期、一次性和事件触发调度,周期调度提供 crontab 方式配置。
依赖策略:支持任务自依赖和工作流自依赖。
跨周期依赖配置:提供跨周期依赖配置及自定义依赖配置,上下游依赖实例范围支持按需自定义选择。
批量编排:提供 Excel 批量创建任务及依赖的能力,加快任务依赖编排效率。
发布运维:对开发完成的任务按需发布到生产环境,并对任务进行统一监控和运维。
任务发布:支持将开发成果发布上线。
监控运维:对任务进行流程编排及提交调度。
分析探索:智能易用的数据开发方式提升任务协同开发效率,帮助用户清晰查看任务处理过程,有效提升数据即席探索效能。
在线编辑:提供可视化的交互式分析 IDE。
运行:提供执行信息可视化。
开发辅助:提供开发辅助效率工具。
数据治理(with Unity Semantics)
元数据中心
元数据采集:WeData 提供给用户自定义元数据采集任务功能,管理员对数据源进行元数据采集后才能进行可视化管理,采集粒度支持到库,每个数据库仅可创建一个采集任务,采集任务将根据配置周期按计划运行和更新元数据信息,同时支持手动运行、任务编辑等管理操作。
实例运维:管理采集任务执行后的实例,包括查看任务名称、创建人、采集计划、执行状态、开始时间、
1. 大数据量兼容:破解渲染与追踪难题
百万级节点渲染优化:
采用Canvas分层渲染与WebGL加速技术,实现海量数据(百万级节点)的流畅可视化,解决行业普遍存在的“数据量大即卡顿”痛点。
通过数据分片与动态加载策略,按需渲染视窗内数据,内存占用降低60%以上。
数据血缘追踪落地:
基于图数据库(Neo4j)构建血缘关系图谱,支持跨表、跨库的数据流向追溯,提升数据治理效率。
结合SQL解析引擎,自动解析查询语句生成血缘关系,减少人工维护成本。
2. 高效开发工具:定制化IDE提升效率
Monaco-based Web IDE:
定制SQL编辑器,集成语法高亮、智能补全、错误实时检测,支持多数据库方言(MySQL/PostgreSQL/Hive),开发效率提升40%。
开发拖拽式数据模型设计器,可视化设计ER图,自动生成DDL语句,减少手动编写错误。
治理场景适配:
内置数据质量检查规则(如空值检测、重复值校验),支持权限管理(RBAC模型),满足合规需求。
3. 性能优化:响应速度与稳定性双提升
前端性能优化:
数据抽稀:采用道格拉斯-普克算法简化路径,减少渲染数据量,图表加载速度提升3倍。
懒加载:结合IntersectionObserver API按需加载图片、图表,首屏渲染时间缩短50%。
按需渲染:通过虚拟滚动技术,仅渲染可视区域内容,内存占用降低70%。