数据安全分类分级系统
1. 立项背景与目标
1.1 立项背景
合规驱动: 随着《数据安全法》、《个人信息保护法》以及各行业(电信、教育、医疗)数据安全管理规范的落地,客户必须完成“数据分类分级”工作,否则面临合规风险。
数据爆炸与人工瓶颈: 运营商、高校及医院积累了海量结构化(数据库)与非结构化(文档、影像)数据。传统人工梳理方式成本高、周期长、覆盖率低,且难以应对动态变化的数据。
安全治理需求: 客户无法识别哪些是核心资产,导致“一刀切”式管理,要么过度防护影响效率,要么防护不足导致泄露。需要通过自动化手段识别数据敏感度,实现精细化安全管理。
1.2 项目目标
自动化发现: 实现对多源异构数据资产(数据库、文件服务器、对象存储)的自动化扫描与发现。
智能化分类: 结合行业知识库与大模型(LLM)能力,实现数据自动打标与分类分级,准确率目标>90%。
安全联动: 基于分类结果,为不同级别数据提供差异化的安全策略(如脱敏、加密、访问控制),形成闭环管理。
降本增效: 将原本需要数周的人工梳理工作缩短至天级,降低合规成本。
2. 软件功能与核心功能模块介绍
本系统采用微服务架构,核心分为五大功能模块:
2.1 资产探测与连接管理模块
功能描述: 负责对接客户现有的 IT 基础设施。
核心能力:
支持主流数据库(MySQL, Oracle, PostgreSQL, SQL Server 等)连接。
支持文件系统(ftp、sftp)扫描。
增量扫描机制,监控新增或变更的数据资产。
连接凭证加密存储,确保扫描过程本身的安全性。
2.2 数据预处理与提取引擎(OCR)
功能描述: 将原始数据转换为大模型可理解的文本或向量。
核心能力:
结构化数据提取: 自动读取数据库表结构、字段注释及样本数据。
非结构化解析: 支持 Word, PDF, Excel, TXT 等格式解析。
OCR 识别: 内置高精度 OCR 引擎,识别图片、扫描件中的文字信息(如医疗影像报告、身份证照片)。
数据脱敏(预处理): 在送入大模型前,对明显的敏感信息(如手机号)进行临时掩码,防止隐私泄露给模型。
2.3 智能分类分级引擎(核心 AI 模块)
功能描述: 系统的“大脑”,负责判断数据类别和敏感级别。
核心能力:
行业知识库管理: 内置运营商、教育、医疗行业的分类分级模板(如:患者隐私属于 L3 级,公开课程属于 L1 级),支持客户自定义。
大模型推理: 调用私有化部署或安全 API 的大模型,结合知识库对数据片段进行语义分析。
规则 +AI 双引擎: 支持正则匹配(如身份证格式)与 AI 语义理解相结合,提高准确率。
置信度评分。
安全