数据安全分类分级系统

2026-03-27 11:41:40

行业：安全

载体：网站

技术：Java、Vue、Linux、MySQL

业务和功能介绍

1. 立项背景与目标
1.1 立项背景
合规驱动：随着《数据安全法》、《个人信息保护法》以及各行业（电信、教育、医疗）数据安全管理规范的落地，客户必须完成“数据分类分级”工作，否则面临合规风险。
数据爆炸与人工瓶颈：运营商、高校及医院积累了海量结构化（数据库）与非结构化（文档、影像）数据。传统人工梳理方式成本高、周期长、覆盖率低，且难以应对动态变化的数据。
安全治理需求：客户无法识别哪些是核心资产，导致“一刀切”式管理，要么过度防护影响效率，要么防护不足导致泄露。需要通过自动化手段识别数据敏感度，实现精细化安全管理。
1.2 项目目标
自动化发现：实现对多源异构数据资产（数据库、文件服务器、对象存储）的自动化扫描与发现。
智能化分类：结合行业知识库与大模型（LLM）能力，实现数据自动打标与分类分级，准确率目标>90%。
安全联动：基于分类结果，为不同级别数据提供差异化的安全策略（如脱敏、加密、访问控制），形成闭环管理。
降本增效：将原本需要数周的人工梳理工作缩短至天级，降低合规成本。

2. 软件功能与核心功能模块介绍
本系统采用微服务架构，核心分为五大功能模块：
2.1 资产探测与连接管理模块
功能描述：负责对接客户现有的 IT 基础设施。
核心能力：
支持主流数据库（MySQL, Oracle, PostgreSQL, SQL Server 等）连接。
支持文件系统（ftp、sftp）扫描。
增量扫描机制，监控新增或变更的数据资产。
连接凭证加密存储，确保扫描过程本身的安全性。
2.2 数据预处理与提取引擎（OCR）
功能描述：将原始数据转换为大模型可理解的文本或向量。
核心能力：
结构化数据提取：自动读取数据库表结构、字段注释及样本数据。
非结构化解析：支持 Word, PDF, Excel, TXT 等格式解析。
OCR 识别：内置高精度 OCR 引擎，识别图片、扫描件中的文字信息（如医疗影像报告、身份证照片）。
数据脱敏（预处理）：在送入大模型前，对明显的敏感信息（如手机号）进行临时掩码，防止隐私泄露给模型。
2.3 智能分类分级引擎（核心 AI 模块）
功能描述：系统的“大脑”，负责判断数据类别和敏感级别。
核心能力：
行业知识库管理：内置运营商、教育、医疗行业的分类分级模板（如：患者隐私属于 L3 级，公开课程属于 L1 级），支持客户自定义。
大模型推理：调用私有化部署或安全 API 的大模型，结合知识库对数据片段进行语义分析。
规则 +AI 双引擎：支持正则匹配（如身份证格式）与 AI 语义理解相结合，提高准确率。
置信度评分。

项目实现

1.整体架构和设计思路，不同模块使用的技术栈
在设计之初，我们确立了四大核心原则，以确保系统在企业级环境中的落地能力：
数据不出域 (Data Sovereignty)：所有敏感数据的扫描、提取、分析均在客户内网完成。若需使用公有大模型，必须经过严格的脱敏网关；首选支持私有化大模型部署。
只读非侵入 (Read-Only & Non-Intrusive)：扫描探针（Agent）对源数据库/文件系统仅拥有只读权限，且具备流量控制（Rate Limiting），确保不影响客户业务系统的正常运行。
人机协同 (Human-in-the-Loop)：承认 AI 的局限性，设计“机器预分类 + 人工复核”机制，确保分类结果的准确性和可解释性。
合规可审计 (Compliance & Audit)：所有操作留痕，分类依据可追溯，满足《数据安全法》及行业审计要求。
技术栈：java、vue、python、模型（通义千问本地部署）

2.我负责的模块和结果
作为研发负责人，工作职责分类研发管理和功能开发两部分，
研发管理：对接产品经理、项目经理，管理研发、跟进进度、设计选型
功能开发：数据自动化采集、非结构化数据解析、分类任务调度

1.我遇到的难点、坑和解决方案
难点1：数据库适配复杂度高，数据库的多样性，国内企业因为信创的要求，客户大多用的是国产数据库比如人大金仓、gbase等，
解决方案：设计通用化数据库连接模块；

难点2：客户文件系统中文件数量庞大，下载和解析文件消耗是时间久
解决方案：设计文件系统连接池模块做到连接动态复用、文件解析高并发，提升解析效率

难点3：客户服务器普遍配置低，系统运行需要保证稳定性和减少资源消耗
解决方案：设计上定主基调，简化流程、减少中间件和第三方组件使用，优化数据表设计、数据库查询

示例图片视频

李守约开发

30天前活跃

方向：后端-Java、前端-Web前端、

交付率：100.00%

查看主页

相似推荐

企业数字化管理系统-企航 EasyOps

这个系统主要是给中小企业用来管理日常业务的。很多小公司平时用 Excel 记录客户、订单和库存，时间久了数据容易乱，也不好查。这个项目就是把客户、订单、库存、审批和报表这些内容集中到一个系统里管理.系统里有工作台、客户管理、订单管理、库存管理、审批中心和经营报表。用户可以在系统里录入客户信息，查看客户跟进情况；也可以创建订单、查看订单状态和订单金额；库存数量可以统一管理，库存低了系统会提醒；一些订单折扣、合同、退款申请可以走审批；最后还能通过报表查看销售额、客户数量、库存预警等经营数据。

刷题微信小程序

1.题库学习多科目题库（考研数学、四级词汇、六级词汇等）按题库/子分类浏览题目随机答题模式免费题 + VIP题区分 2. 答题系统选择题作答自动判断正误答对获得积分（每日上限30分）答错自动收录错题集 3. 错题集按科目分类管理错题错题详情查看（含正确答案和解析）错题删除/标记已复习 4. 积分系统答题赚积分每日签到（连续签到奖励递增）积分兑换VIP 5. VIP体系 VIP月卡/季卡/年卡 VIP用户解锁全部题目普通用户仅可做免费题 6. 排行榜用户积分排名查看学习进度 7. 管理员后台题库管理（添加/删除题目）用户管理（设置VIP/管理员）按题库/子分类筛选

AI 智能体开发平台

本平台面向企业内部业务人员与算法开发人员打造一站式 AI 智能体低代码开发平台，解决传统大模型应用开发门槛高、流程定制繁琐、多模型调度混乱等痛点。平台核心包含智能体可视化编排、多厂商大模型接入管理、知识库向量存储、对话流程可视化拖拽、权限管控、调用数据统计六大核心模块。业务人员无需代码即可搭建行业专属智能体，支持上传企业私有文档构建专属知识库，配置问答、工具调用、多轮对话逻辑；算法人员可统一管理文心、通义、GLM 等多模型接口，配置模型限流、上下文长度、温度参数；平台完整记录智能体调用日志、Token 消耗、问答准确率，支持按部门、用户分配智能体访问权限，覆盖企业内部客服、办公辅助、数据查询等多类 AI 业务场景。

企业内部ERP系统

面向鞋类全栈 ERP 系统，覆盖从客户接单、模具管理、BOM 拆解、生产排程、出入库管理到标签打印、报表分析的全链路业务流程。系统采用前后端分离架构，后端基于 Spring Boot 3 提供 RESTful API，前端为 Vue 3 + Vite SPA，支持本地开发与 Docker 生产部署两套环境。

企业后端管理系统

后台管理系统：各类Admin后台、数据统计看板、CMS内容管理。 API接口开发：支持高并发的App/小程序接口，稳定、响应快（附接口文档）。微信生态：公众号开发、微信支付/支付宝支付完整接入、小程序云开发。数据与安全：数据可视化图表、防SQL注入/XSS攻击、接口签名加密。第三方对接：短信验证码、OSS对象存储（七牛/阿里云）、邮件推送。