程序聚合 软件案例 电商企业数据系统-数据中台

电商企业数据系统-数据中台

2025-07-10 17:39:25
行业:电商、大数据
载体:框架或代码包、算法模型
技术:Go、Java、Python、SQL

业务和功能介绍

核心痛点:

电商多平台(天猫/京东/抖音)订单数据分散在独立MySQL库,品牌方无法实时获取全域销售洞察;现有T+1报表无法支撑大促实时决策,手工统计误差率达15%;测试/生产环境配置差异导致数据服务频繁故障。

业务亮点:
✅ 全域实时决策:聚合10+电商平台订单流(日均500万笔),通过Flink实时计算关键指标(GMV/退款率/TOP商品),5分钟延迟交付品牌方大屏
✅ 多租户数据服务:基于StarRocks构建统一数据服务层,支持50+品牌方自定义报表(权限隔离+弹性资源分配)
✅ 成本优化:ClickHouse替换原有Hive T+1报表集群,查询速度提升20倍,存储成本降低40%
1、分层存储策略

StarRocks:存储原始订单明细(支持UPDATE/DELETE),承接高频OLAP查询

ClickHouse:物化视图预聚合核心指标(分钟级刷新),支撑可视化大屏
2、多环境治理
整合各个环境的数据
3、品牌方数据安全
Trino RBAC:按品牌ID动态创建SQL视图
Kafka数据脱敏:Flink实时掩码手机号/身份证号

项目实现

一、项目角色与周期
核心角色与人数(中型数据平台参考):
数据工程师(3人):负责ETL开发、数据建模、作业运维。
平台开发工程师(1人):搭建K8s集群、维护Airflow/Trino等平台组件。
数据架构师:技术选型、架构设计、性能优化、规范制定。
运维工程师(2人):K8s/Docker集群管理、监控告警。
数据治理专员(1人):元数据管理、数据质量监控。
前端工程师(2人):BI帆软工具界面开发
我担任数据工程师,负责技术选型、数据架构设计、服务组件搭建、异常处理

开发周期:
Phase 1 基础架构搭建(2个月):K8s集群部署、日志/监控体系、核心组件容器化(Helm部署)。
Phase 2 批处理链路建设(1.5个月):Hive/Trino数仓分层设计、Airflow调度开发、DBT模型构建。
Phase 3 实时链路建设(2个月):Kafka+Flink实时计算、Canal同步MySQL、ClickHouse/StarRocks实时数仓。
Phase 4 平台化与治理(1个月):数据血缘集成、指标管理、查询服务API封装。
总周期:6-7个月(含测试与迭代)。

您负责的核心任务:
✅ 技术选型:评估ClickHouse vs StarRocks实时性能,设计混合查询架构(Trino联邦查询)。
✅ 实时架构设计:主导 MySQL → Canal → Kafka → Flink → StarRocks 端到端低延迟链路。
✅ 数据建模规范:制定分层数仓标准(ODS/DWD/DWS/ADS),统一DBT模型开发规范。
✅ 资源优化:调优Flink Checkpoint策略、ClickHouse MergeTree分区设计、Trino内存配置。
✅ 平台高可用:设计K8s多

示例图片视频


Shadow
30天前活跃
方向: 后端-PHP、后端-Go、
交付率:100.00%
相似推荐
RAG Agent
一、立项背景与目标 1. 立项背景 在传统的知识库问答系统中,普遍存在以下痛点: - 流程混乱:通用ReAct Agent在处理复杂业务时,容易发生步骤跳跃或逻辑错乱,导致回答质量不稳定。 - 上下文断裂:多轮对话中,用户常使用代词(如“它多少钱?”),传统向量检索缺乏指代消解能力,导致检索失败。 - 意图混杂:闲聊式提问(如“你好”)与知识检索式提问(如“XX产品参数是多少”)被统一处理,浪费算力且影响用户体验。 - 状态丢失:用户刷新页面或稍后再访问时,对话历史无法延续,每次都是“新会话”。 2. 项目目标 - 构建一个流程可控、意图可分流、上下文可理解、状态可持久的智能知识助手。 - 实现复杂业务逻辑的结构化解耦,提升系统的可维护性与稳定性。 - 显著提升多轮对话场景下的检索命中率与回答准确率。 二、软件功能与核心模块 1.整体功能概述 本系统是一个基于LLM的智能对话式知识库问答助手,支持用户通过自然语言提问,从向量知识库中精准检索并生成回答。系统特别强化了多轮对话中的指代消解能力与流程可控性。 2.核心功能模块介绍 模块名称 功能说明 Planner(规划器) 基于LLM + 专用Prompt,硬编码业务流程。负责解析用户请求,按固定流程调度执行,防止逻辑跳跃。 语义路由器 基于LLM的分类工具,动态识别用户意图为“chat”(闲聊)或“retrieval”(知识检索),实现分支分流。 历史加载与写入模块 与Redis集成,自动追加对话历史,确保跨会话的上下文连续性。 查询重写模块 结合历史对话,将存在指代或省略的用户问题(如“它多少钱?”)改写为语义完整的独立问句。 混合检索引擎 同时执行向量语义检索与关键词检索,通过RRF算法融合排序,提升召回效果。 Executor(执行器) 根据Planner的指令,调用重写、检索、生成等环节,最终输出回答。 系统流程严格遵循:语义路由 → 历史加载 → (分支判断) → 查询改写/直接回答 → 知识库检索 → 最终生成 三、业务流程与功能路径 以下为用户与系统交互的完整功能路径描述: 场景一:用户进行知识检索(多轮对话) 场景二:用户发起闲聊 场景三:用户首次访问 / 会话恢复
端到端自动驾驶轻量化模型设计
本项目主要面向无人驾驶仿真研究、智能车辆轨迹跟踪与轻量化控制算法验证场景,围绕端到端自动驾驶技术开展系统设计与实验开发。项目基于 CARLA 仿真平台构建虚拟驾驶环境,通过采集车辆前视图像、行驶状态和控制指令等数据,训练轻量化神经网络模型,实现从环境感知输入到车辆控制输出的端到端映射。项目可用于自动驾驶算法教学、科研训练、数据采集、模型训练、仿真测试和轨迹跟踪效果评估,为低成本、高效率的自动驾驶算法验证提供支持。 本项目主要功能包括仿真环境搭建、自动驾驶数据采集、数据预处理、模型训练、模型推理和效果评估等模块。系统可在 CARLA 仿真环境中生成车辆行驶场景,自动采集车辆前方图像、方向盘转角、油门、刹车等控制数据,并生成对应的数据标签文件;同时支持对采集数据进行划分和预处理,形成训练集、验证集和测试集。模型部分采用轻量化端到端神经网络结构,通过输入车辆前视图像,直接预测车辆控制指令或轨迹跟踪相关参数,从而实现车辆在仿真道路中的自主行驶与轨迹跟踪。项目还支持训练过程记录、模型保存、测试推理和结果可视化,便于对算法性能进行分析和改进。
k8s加ray集群部署
基于 Kubernetes 和 Ray 构建大规模分布式训练系统,常常会面对一个典型需求:训练任务需要调用独立的仿真环境(如游戏引擎、机器人模拟器、工业仿真软件等),而这些仿真环境本身已打包为 Docker 镜像,必须在一个隔离的容器内运行。此时,将容器化的仿真环境与 Ray 的工作节点相结合,并在 Kubernetes Pod 内安全、高效地运行仿真容器,就成了架构的关键。Docker‑in‑Docker(DinD)便是解决此类场景的重要技术之一。
AI学生手册问答助手-学生手册助手
本项目是一个面向学生事务资料查询场景的 AI 问答工具,主要解决学生在阅读学生手册、校规文件和办事流程时查找困难、理解成本高、重复咨询多的问题。 系统支持基于已整理资料进行智能问答,用户可以咨询学籍管理、考试安排、奖学金、请假、处分、实践学分等规则类问题。项目提供普通回答和专业回答两种模式:普通回答适合快速查询,专业回答会补充依据、办理流程、可信度提示和必要的流程图说明。 系统还支持资料上传学习功能,可将 Markdown 或文本格式的规章文件加入知识库,使问答范围不局限于默认资料。整体目标是把分散、较长、阅读门槛较高的制度文件,转化为更容易理解和检索的交互式问答体验。
AI英语学习平台-VerbaPath
SmartLearn Pro 是一个面向英语学习场景的 AI 学习平台,核心目标是把文章、单词、听说读写训练和复习计划整合到一个学习闭环中。系统支持文本/PDF 导入、AI 阅读分析、生词提取、闪卡复习、记忆曲线复习、阅读考试训练、翻译挑战、AI 写作批改、口语教练、学习笔记、知识图谱和学习流画布等功能。 用户可以导入学习资料,系统自动生成词汇、语法结构、阅读理解题和复习内容;在学习过程中可以将生词、难句、错题和写作素材沉淀为笔记,并通过 FSRS 记忆算法安排后续复习。项目还集成了语音识别、AI 对话和 TTS 语音合成能力,用于模拟 IELTS、商务英语、日常聊天等口语训练场景,帮助用户完成从输入、练习、反馈到复习的完整学习流程。
帮助文档   Copyright @ 2021-2024 程聚宝 | 浙ICP备2021014372号
人工客服