1. 立项背景与目标
1.1 立项背景
合规驱动: 随着《数据安全法》、《个人信息保护法》以及各行业(电信、教育、医疗)数据安全管理规范的落地,客户必须完成“数据分类分级”工作,否则面临合规风险。
数据爆炸与人工瓶颈: 运营商、高校及医院积累了海量结构化(数据库)与非结构化(文档、影像)数据。传统人工梳理方式成本高、周期长、覆盖率低,且难以应对动态变化的数据。
安全治理需求: 客户无法识别哪些是核心资产,导致“一刀切”式管理,要么过度防护影响效率,要么防护不足导致泄露。需要通过自动化手段识别数据敏感度,实现精细化安全管理。
1.2 项目目标
自动化发现: 实现对多源异构数据资产(数据库、文件服务器、对象存储)的自动化扫描与发现。
智能化分类: 结合行业知识库与大模型(LLM)能力,实现数据自动打标与分类分级,准确率目标>90%。
安全联动: 基于分类结果,为不同级别数据提供差异化的安全策略(如脱敏、加密、访问控制),形成闭环管理。
降本增效: 将原本需要数周的人工梳理工作缩短至天级,降低合规成本。
2. 软件功能与核心功能模块介绍
本系统采用微服务架构,核心分为五大功能模块:
2.1 资产探测与连接管理模块
功能描述: 负责对接客户现有的 IT 基础设施。
核心能力:
支持主流数据库(MySQL, Oracle, PostgreSQL, SQL Server 等)连接。
支持文件系统(ftp、sftp)扫描。
增量扫描机制,监控新增或变更的数据资产。
连接凭证加密存储,确保扫描过程本身的安全性。
2.2 数据预处理与提取引擎(OCR)
功能描述: 将原始数据转换为大模型可理解的文本或向量。
核心能力:
结构化数据提取: 自动读取数据库表结构、字段注释及样本数据。
非结构化解析: 支持 Word, PDF, Excel, TXT 等格式解析。
OCR 识别: 内置高精度 OCR 引擎,识别图片、扫描件中的文字信息(如医疗影像报告、身份证照片)。
数据脱敏(预处理): 在送入大模型前,对明显的敏感信息(如手机号)进行临时掩码,防止隐私泄露给模型。
2.3 智能分类分级引擎(核心 AI 模块)
功能描述: 系统的“大脑”,负责判断数据类别和敏感级别。
核心能力:
行业知识库管理: 内置运营商、教育、医疗行业的分类分级模板(如:患者隐私属于 L3 级,公开课程属于 L1 级),支持客户自定义。
大模型推理: 调用私有化部署或安全 API 的大模型,结合知识库对数据片段进行语义分析。
规则 +AI 双引擎: 支持正则匹配(如身份证格式)与 AI 语义理解相结合,提高准确率。
置信度评分。
1.整体架构和 设计思路,不同模块使用的技术栈
在设计之初,我们确立了四大核心原则,以确保系统在企业级环境中的落地能力:
数据不出域 (Data Sovereignty): 所有敏感数据的扫描、提取、分析均在客户内网完成。若需使用公有大模型,必须经过严格的脱敏网关;首选支持私有化大模型部署。
只读非侵入 (Read-Only & Non-Intrusive): 扫描探针(Agent)对源数据库/文件系统仅拥有只读权限,且具备流量控制(Rate Limiting),确保不影响客户业务系统的正常运行。
人机协同 (Human-in-the-Loop): 承认 AI 的局限性,设计“机器预分类 + 人工复核”机制,确保分类结果的准确性和可解释性。
合规可审计 (Compliance & Audit): 所有操作留痕,分类依据可追溯,满足《数据安全法》及行业审计要求。
技术栈:java、vue、python、模型(通义千问本地部署)
2.我负责的模块和结果
作为研发负责人,工作职责分类研发管理和功能开发两部分,
研发管理:对接产品经理、项目经理,管理研发、跟进进度、设计选型
功能开发:数据自动化采集、非结构化数据解析、分类任务调度
1.我遇到的难点、坑和解决方案
难点1:数据库适配复杂度高,数据库的多样性,国内企业因为信创的要求,客户大多用的是国产数据库比如人大金仓、gbase等,
解决方案:设计通用化数据库连接模块;
难点2:客户文件系统中文件数量庞大,下载和解析文件消耗是时间久
解决方案:设计文件系统连接池模块做到连接动态复用、文件解析高并发,提升解析效率
难点3:客户服务器普遍配置低,系统运行需要保证稳定性和减少资源消耗
解决方案:设计上定主基调,简化流程、减少中间件和第三方组件使用,优化数据表设计、数据库查询