|
数据脱敏是在给定的规则、策略下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题,它会根据数据保护规范和脱敏策略,对业务数据中的敏感信息实施自动变形,实现对敏感信息的隐藏和保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则的条件下,对身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据脱敏不是必须的数据预处理环节,可以根据业务需求对数据进行脱敏处理,也可以不进行脱敏处理。 数据脱敏不仅要执行“数据漂白”,抹去数据中的敏感内容,同时也需要保持原有的数据特征、业务规则和数据关联性,保证开发、测试以及大数据类业务不会受到脱敏的影响,达成脱敏前后的数据一致性和有效性,具体如下: (1)保持原有数据特征。数据脱敏前后必须保证数据特征的保持,例如:身份证号码由十七位数字本体码和一位校验码组成,分别为区域地址码(6 位)、出生日期(8 位)、顺序码(3 位)和校验码(1 位)。那么身份证号码的脱敏规则就需要保证脱敏后依旧保持这些特征信息。 (2)保持数据之间的一致性。在不同业务中,数据和数据之间具有一定的关联性。例如:出生年月或年龄和出生日期之间的关系。同样,身份证信息脱敏后仍需要保证出生年月字段和身份证中包含的出生日期之间的一致性。 (3)保持业务规则的关联性。保持数据业务规则的关联性是指数据脱敏时数据关联性以及业务语义等保持不变,其中数据关联性包括:主外键关联性、关联字段的业务语义关联性等。特别是高度敏感的账户类主体数据,往往会贯穿主体的所有关系和行为信息,因此需要特别注意保证所有相关主体信息的一致性。 (4)多次脱敏之间的数据一致性。相同的数据进行多次脱敏,或者在不同的测试系统进行脱敏,需要确保每次脱敏的数据始终保持一致性,只有这样才能保障业务系统数据变更的持续一致性以及广义业务的持续一致性。 数据脱敏的方法主要包括: (1)数据替换。用设置的固定虚构值替换真值。例如将手机号码统一替换为13900010002。 (2)无效化。通过对数据值的截断、加密、隐藏等方式使敏感数据脱敏,使其不再具有利用价值,例如将地址的值替换为“******”。数据无效化与数据替换所达成的效果基本类似。 (3)随机化。采用随机数据代替真值,保持替换值的随机性以模拟样本的真实性。例如用随机生成的姓和名代替真值。 (4)偏移和取整。通过随机移位改变数字数据,例如把日期“2018-01-02 8:12:25”变为“2018-01-02 8:00:00”。偏移取整在保持了数据的安全性的同时,保证了范围的大致真实性,此项功能在大数据利用环境中具有重大价值。 (5)掩码屏蔽。掩码屏蔽是针对账户类数据的部分信息进行脱敏时的有力工具,比如银行卡号或是身份证号的脱敏。比如,把身份证号码“220524199209010254”替换为“220524********0254”。 (6)灵活编码。在需要特殊脱敏规则时,可执行灵活编码以满足各种可能的脱敏规则。比如用固定字母和固定位数的数字替代合同编号真值。 【出处】林子雨.大数据导论.人民邮电出版社,2020年9月第1版
|