立项背景: 针对高并发电商或金融场景,传统的离线报表(T+1)无法满足秒级风险控制和实时营销的需求。
核心功能:
秒级实时聚合: 订阅 Kafka 中的流量数据,通过 Flink 实现窗口计算,统计各维度(地区、商品、接口)的实时指标。
动态规则预警: 结合 HBase 存储的用户画像,通过自定义算子实现异常检测(如:同一 IP 短时间内频繁访问接口,触发黑名单逻辑)。
多维画像沉淀: 将聚合后的行为数据异步写入 HBase 宽表,支撑后端管理系统进行实时用户标签查询。
业务流程:
用户行为 -> Kafka -> Flink (清洗/转换/聚合) -> 结果分别写入 HBase (持久化) 和 Redis (预警推送)。
高可用架构: 针对你刚才遇到的集群问题,描述如何通过 Flink Checkpoint 结合 HDFS 实现状态容错,保证 Exactly-Once 语义。
性能优化策略:
HBase 预分区与 RowKey 优化: 解决热点写入问题。
侧输出流 (Side Output): 优雅处理迟到数据或格式错误的脏数据,不阻塞主链路。
异步 I/O (Async I/O): 在 Flink 读取 HBase 关联维度数据时,使用异步模式极大提升吞吐量。