OceanBase , 麒麟操作系统 ,动环监控系统--西安融智慧安智能科技有限公司

闪捷动态数据脱敏系统

第一章总体概述

互联网、物联网、云计算等信息技术与通信技术的迅猛发展使我们步入了大数据时代，人类活动产生的数据呈爆发式增长，由于海量数据背后存在巨大商业价值，数据泄漏、数据盗用、数据滥用事件时有发生，因此，如何保障数据安全，成为了国家、企业和个人面临的严峻挑战。

目前，大多数政府、企业、机构都会将大量敏感数据存储在自己的后台数据库中，在业务过程中将不可避免的产生数据访问、复制和交换等行为。大数据时代背景下，数据作为新兴的生产要素，毫无疑问，已逐渐成为企业甚至国家的基础性和战略性资源，但数据背后的价值越高，数据的安全性需求愈发凸显。2021年初，国家网信办、工信部、公安部等多部门对数据安全、网络信息安全等涉及到国家安全的领域密集出台相关监管措施，从上至下编织起“数据安全”和“网络安全”两张大网。

2021年7月10日，《网络安全审查办法（修订草案征求意见稿）》公开征求意见； 9月1日，《中华人民共和国数据安全法》开始实施；11月1日，《个人信息保护法》正式施行，多部聚焦于数据安全的法律法规的密集颁布，可见国家和企业对于数据安全建设的诉求已经提升到一个全新层次。因此，在数据使用过程中，如何保证不同敏感类型、级别的数据能够安全地被不同需求，不同权限、角色的用户规范、合理的使用，减少敏感数据被非法使用或泄漏的风险，已成为数据拥有者们最为关注的问题。

数据脱敏（Data Masking），又称数据混淆、数据漂白、数据去隐私化，是一种为用户提供虚假数据，防止真实敏感数据被非法使用的技术。数据脱敏能够保护企业敏感数据不被非法泄漏或滥用，是目前数据安全防护的首选方案之一。

数据脱敏通常包括静态数据脱敏（Static Data Masking）和动态数据脱敏（Dynamic Data Masking）：静态数据脱敏通常用于非生产环境，将脱敏后的数据分发至生产、测试等环境，从而保障数据安全；而动态数据脱敏则通常用于生产环境，可基于用户的请求进行实时数据脱敏，从而保障运维、应用系统、数据交换等业务场景下的数据安全。

第二章产品介绍

2.1 产品概述

闪捷动态数据脱敏系统是一款简单高效的敏感数据匿名化、去标识化产品，具备高性能和高扩展性，支持多种脱敏算法，能够定义敏感数据特征，对数据进行分类分级，发现敏感数据后可自动创建脱敏规则，提供不同角色访问生产环境的敏感数据的差异化管控。

在应用侧，无需改造业务系统，无需修改数据库及存储数据，即可保证脱敏后的数据保留原有特征和分布，使企业可以低成本、高效率、安全地使用生产的隐私数据；在运维侧，基于角色对敏感数据高效漂白，保证运维工作正常开展的同时，又能够兼顾数据安全，可广泛适用于金融、保险、能源、政府、医疗、教育等行业，在满足企业自身数据安全需求的同时，满足政策合规性要求。

此外，闪捷动态数据脱敏系统支持与数据治理平台、数据网关对接，能够对API形式调用敏感数据的行为进行监控，自动分析是否包含敏感数据，结合中台应用系统层级的细粒度管控机制，可对敏感数据部分按照既定规则进行实时的动态数据脱敏，充分保护应用系统/API服务中的敏感数据。

闪捷动态数据脱敏系统支持硬件、软件和虚拟化三种部署形态，且支持市面大部分数据源类型：

（1）主流数据库：Oracle、SQL Server、MySQL、PostgreSQL、DB2、Informix；

（2）国产数据库：达梦、人大金仓、神通、GuassDB A、GaussDB T，Gbase，TDSQL、Tbase；

（3）数据仓库：GreenPlum、Teradata;

（4） NOSQL数据库：ElasticSearch、MaxCompute、Hbase、Phoenix、Hive、Kudu

（5） API网关：JSON/XML/HTML格式；

2.2 技术原理

针对不同数据源，动态数据脱敏主要有两种技术方案。

Ø 改写SQL方案

通过SQL重写实现动态数据脱敏：

图2-1 改写SQL方案

这种技术方案脱敏效率高，关系型数据库可直接进行改写，在数据库通讯协议层面实现了完全透明的、实时的敏感数据掩码能力，但某些大数据平台需要安装UDF才可进行SQL改写，适用场景稍窄。

Ø 改写返回数据集方案

通过改写返回数据集实现动态数据脱敏：

图2-2 改写数据集方案

该方法可动态地对生产数据库返回的数据进行差异化脱敏，效率稍低，但兼容性更高，适用场景更广，可支持大数据平台、API接口等多种数据源的脱敏需求。

2.3产品架构

图2-3 产品架构图

第三章产品主要功能

3.1 数据资产管理

资产管理包含数据源管理、资产状态和敏感数据访问统计三个功能模块。

数据源管理模块主要用于添加、维护、查看需要进行敏感数据防护的数据源。支持添加、删除和修改数据资产信息，并支持对添加的数据资产进行连接测试，便于确认数据资产与动态数据脱敏服务的映射关系，保证脱敏服务的正常使用。

资产状态模块用于展示数据源的状态信息。包括数据源内数据统计信息、不同模版下的敏感数据定义、敏感数据发现可视化结果、脱敏规则不同维度统计信息等，且资产状态支持定期/手动更新（减少服务器压力），及数据源一键切换，可快捷查看其他数据源相关信息。

图3-1 数据资产状态

敏感数据访问统计模块帮助用户统计数据资产中敏感数据访问信息，包括数据库用户名、访问IP、访问数据目标及敏感数据访问次数，直观的统计信息可协助用户开展针对性数据管理，高效保障数据资产安全。数据源管理模块也可直接查看相关资产的访问流量信息。

3.2 敏感数据发现

添加数据资产后，数据发现模块会自动添加一条针对该资产的数据发现扫描任务，用户无需再手动新建任务，用户只需根据需求进行任务配置的修改，包括抽样数量、需要扫描的模式/表/视图、需要发现的数据类型、是否需要根据行业模版进行扫描等，最大程度简化任务配置操作，减少用户工作量。系统通过扫描引擎发现数据资产中的敏感数据后，用户可基于扫描结果直接单条/批量创建脱敏规则，方便快捷。

3.3 高效脱敏

系统内置丰富的敏感数据类型特征库，特征库里包含常见的敏感数据类型，例如：中文姓名、身份证号、固定电话、手机号码、银行卡号、电子邮箱、中文地址、邮政编码、企业单位名称、组织机构代码、营业执照代码、税务登记代码、企业三证合一代码等共二十余种，可充分满足常见场景脱敏需求。此外，系统支持通过正则表达式自定义添加敏感数据类型，满足用户特殊业务场景下的脱敏需求。敏感数据特征库支持上传离线包一键更新升级，更新便捷。

l 数据分类分级

用户也可以对所有不同类型的数据（内置或自定义添加）进行分类分级操作，自定义添加数据类别（例如身份信息类、金额类等），和敏感等级（高、中、低），根据自身业务特征，随意组合不同类型、不同类别和不同敏感等级的数据，自定义脱敏算法，生成可复用的方案模板进行高效脱敏。

图3-2 数据分类分级预览

l 存储过程脱敏

闪捷动态数据脱敏系统支持对存储过程中的语句进行扫描，确定敏感字段，对包含脱敏规则敏感字段的语句进行分析，实现动态数据脱敏。防止脱敏绕过。

l 脱敏算法介绍

闪捷动态数据脱敏系统内置丰富高效的脱敏算法，主要可分为遮蔽、随机、仿真、置空四大类算法。

Ø 遮蔽脱敏：通过*等特殊常量符号，把全部/部分信息内容遮盖。例如:"张三"--->部分遮蔽--->"*三"；张三"--->全遮蔽--->"**"

Ø 随机脱敏：将数据进行随机映射，每次随机值会变化。例如："张三"--->随机脱敏1--->"李四";"张三"--->随机脱敏2--->"王五"

Ø 仿真脱敏：将数据映射成唯一值，每次映射不改变，支持数据的聚合和连接操作。例如："张三"--->仿真脱敏1--->"李四";"张三"--->仿真脱敏2--->"李四"

Ø 置空脱敏：将敏感数据直接修改为NULL值，适用于对数据敏感要求较高的场景

图3-2 内置算法列表

上述四大类脱敏算法又根据二十多种内置的敏感数据类型，组合成了九十余种最常用的脱敏算法，丰富的算法库可满足大多数用户各类场景下的脱敏需求，减少用户根据实际需求编写自定义算法的过程，保证产品易用性，减少用户脱敏算法配置工作，提高业务效率。

l 行业模板

闪捷动态数据脱敏系统具备丰富的实施案例和长期技术积累，根据行业特征，总结了具有普适性的行业模版，供用户直接使用，用户也可根据自身的业务需求制定模版进行复用。该模块是闪捷动态数据脱敏系统的特色功能之一，可以帮助客户快速的实现敏感数据的定义和脱敏规则的创建，大幅简化脱敏系统的配置/维护成本。

l 脱敏规则

脱敏规则决定了敏感数据的脱敏结果。

创建脱敏规则的方法有以下三种：

1、通过敏感数据发现结果进行创建；

2、通过关联行业模版功能来实现自动创建；

3、输入参数手动单条/批量创建；

3.4 访问控制

白名单-----基于角色的脱敏控制

用户可以设定数据库用户、IP、时间，在此访问范围内可跳过一条/多条指定规则或者全部规则的脱敏动作，满足需要减少一定程度脱敏效果或者需要得到未脱敏数据的使用场景。

拓展规则--------基于角色的访问权限控制

用户可根据需求设定数据库用户名、IP、时间、匹配条件下的响应动作，包括替换表名、阻断、替换SQL、搜索并替换字符串等，限制上述条件下对敏感表/数据的访问权限。