数据脱敏

<< Click to Display Table of Contents >>

当前位置:  数据准备 > 数据集 > 数据治理 

数据脱敏

复制链接

敏感数据,又称隐私数据,常见的敏感数据有:姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类(如账户查询密码、取款密码、登录密码)、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。

随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战——个人隐私信息的保护。个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如 何保护人的隐私信息,也将是数据脱敏必须解决的难题。

当登录用户的角色是admin_role或groupAdmin_role时,可以对数据的脱敏规则进行选择和编辑。

1. 数据脱敏管理

有两种方式进行数据脱敏管理:

点击数据集管理资源树搜索框右边的数据脱敏图标,即可进入数据脱敏管理界面。

clip0250

在元数据页面,鼠标悬浮在某个数据列与数据脱敏对应单元格,显示提示文字:编辑。

Database_Masking_Edit

点击编辑,在数据脱敏对话框中,点击编辑数据脱敏规则,即可进入数据脱敏管理界面。

queryshot16

数据脱敏管理页面如下图所示。

clip0252

设置说明如下:

设置

说明

添加

添加新的脱敏规则。

删除

删除当前选中的脱敏规则。

脱敏算法

选择对敏感数据使用的算法。支持字符替换、正则替换。

算法参数

设置脱敏算法的算法参数。

脱敏算法是字符替换时,可以对前N个和后N个字符进行保留,对其他字符进行替换。勾选隐藏字段长度,除保留字符外,其它全部替换成待替换的字符,默认为非勾选。

举例:

如对市场级别中的字符保留后2个,其余字符不保留,算法参数中进行如下设置。

Database_datamask_reserved_character_settings

脱敏前后数据对比如下:

Database_datamask_reserved_character_result

如对市场级别中的字符保留前1个和后1个,并勾选隐藏字符长度,算法参数中进行如下设置。

Database_datamask_hidden_character_length

脱敏前后数据对比如下:

Database_datamask_hidden_character_length_result

脱敏算法是正则替换时,可以输入正则表达式,字符串根据正则表达式规则进行匹配,将符合正则表达式的字符串进行替换。

脱敏用户

设置脱敏规则适用的对象。数据脱敏规则的对象可以选择用户,组和角色,也可设置为黑名单、白名单。默认为黑名单。

黑名单:脱敏规则对添加到黑名单中的对象生效。

白名单:脱敏规则对添加到白名单中的对象不生效。

说明:

Yonghong Desktop中不支持设置脱敏用户。

应用于

设置脱敏规则生效的场景。支持数据查看、报告和组件输出。可以设置只对其中一个生效(至少选择一个),也可以设置对两者都生效。默认对两者都生效。

2. 示例

1)存在如下所示的用户数据,管理员希望对用户的密码、邮箱进行脱敏处理,保证用户的密码、邮箱不被泄露。

Database_datamask_data

2)点击数据集页面左上角的数据脱敏按钮,在数据脱敏弹框中点击左上角的添加按钮,分别新建脱敏规则-密码、邮箱,完成下图中的设置,点击确定。

密码-字符替换:全部字符替换为*。

Database_datamask_rule

邮箱-正则替换:@前后面的字符替换为*。

Database_datamask_rule2

 

3)在数据集的元数据页面,鼠标悬浮于密码和数据脱敏对应的单元格位置,点击编辑。

Database_datamask_data2

4)在弹出数据脱敏对话框,选择脱敏规则密码,点击确定。

Database_datamask_select_masking_rule

5)在数据集的元数据页面,鼠标悬浮于邮箱和数据脱敏对应的单元格位置,点击编辑。

6)在弹出数据脱敏对话框,选择脱敏规则邮箱,点击确定。

7)系统中admin、admin_role以外的其他用户,如ZH查看到的密码、邮箱如下图所示。

Database_datamask_data3