漫谈重要数据识别
创建时间:2022-12-08 浏览次数:1363

2022年1月13日,全国信息安全标准委员会正式发布了《信息安全技术 重要数据识别指南(征求意见稿)》(后更名为《信息安全技术 重要数据识别规则》,以下简称《规则》),首次以独立标准的形式明确定义了重要数据,规定了重要数据识别原则、识别流程,明确从国家的角度对重要数据进行分类,成为指导我国重要数据安全防护工作的重要支撑,重要数据从此真正意义上的全面进入了大众视野。

随着数据安全领域的不断发展,对于重要数据的识别、梳理和保护已经逐步成为2022年最重要的数据安全工作之一

 什么是重要数据 

重要数据的概念最早于《中华人民共和国网络安全法》中被提及,在《网络数据安全管理条例(征求意见稿)》中被明确定义。根据《规则》中对重要数据的定义,重要数据指:特定领域、特定群体、特定区域或达到一定进度和规模的数据,一旦被泄露或篡改、损毁,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全。同时注明:重要数据不包括国家秘密。

根据传统的数据划分,重要数据介于一般数据和核心数据之间,判定依据主要为影响对象(国家、公共利益)和影响程度,其重要程度和保护级别高于传统涉敏数据但低于涉密数据。

 重要数据的立法沿革 

重要数据在2016年起草通过的《中华人民共和国网络安全法》中被首次提及,但没有被明确定义。随后在一些法律法规中陆续出现重要数据的概念,直到2019年发布的《数据安全管理办法(征求意见稿)》中第一次明确了“重要数据”的概念,并制定了具体保护规则。此后,重要数据的概念开始频繁出现在各种数据安全法律法规和标准条文中,2021年《网络安全管理条例(征求意见稿)》基于已有法规对重要数据进行了完整的定义,并单独设立章节阐述对重要数据的保护要求。2022年新版《规则》发布,以独立标准的形态对重要数据及其识别原则和流程进行了完整阐述。随着陆续出台的法律法规和标准文件,重要数据成为数据安全体系中不可或缺的构成要素。

 如何识别重要数据

在当前数据安全形势日益严峻、数据安全威胁层出不穷的环境下,关系国家安全和公共利益的重要数据已经成为了数据安全管理工作中最重要的管理对象之一,而实施管理的前提条件则是从企业海量的数据中准确识别出重要数据及分布位置。

此处我们探讨基于识别产品的重要数据识别流程,大致可分为:定义、规则化、实施、核查4个步骤。





1、定 义

明确重要数据范围,收集并构建重要数据特征库,是实现重要数据识别的前提条件企业在进行重要数据定义时,应充分参考相关法律法规的要求和定义标准,结合自身业务和所属行业特性进行综合评估后,明确重要数据的范围、特性,整理业务中涉及的重要数据清单目录,收集重要数据样本数据,构建重要数据样本库。同时,随着数据安全环境发展、法律法规健全及企业业务的发展,重要数据的定义和样本库,应该进行定期的动态维护和更新

在数据定义阶段,我们的目标是要明确哪些数据属于重要数据,其常见的数据表现形式是什么。在定义重要数据时,可考虑以下因素





2、规 则 化

传统的依靠人工进行数据识别和梳理的方式已经无法适应如今动辄海量的数据环境,借助数据识别和梳理工具是实现快速、高效的数据识别工作的不二选择规则化则是依托定义好的重要数据清单和数据样本库,抽象出机器可理解的重要数据识别规则,形成重要数据特征库。当今,常见的规则化方式共分为两类:

 基于内容:抽象数据内容编码规则或分析数据内容共性,构建特征规则;

 基于描述:即通过元数据或数据属性,进行数据特征构建。

常见的规则化技术手段包括数据字典、正则表达式、数据指纹、机器学习模型、NLP等。





3、实 施

依托于数据梳理和识别产品,对企业数据进行全面的探测、采样,结合构建的重要数据特征库进行数据比对和匹配,识别出重要数据并定位其分布位置,形成重要数据资产清单,构建包含数据存储位置和其他可用标签的重要数据资产目录。在重要数据识别实施过程中,优秀的数据识别产品、合理的数据匹配逻辑、完善的重要数据特征库将决定实施效果。





4、核 查

实施完成后,需要依托人工对实施成果进行核查,检查是否存在误报和漏报,并对误报、漏报的数据进行调整。同时,根据人工核查结论,持续丰富和完善重要数据样本库和特征库,优化数据识别规则和逻辑,形成完整的数据识别闭环。持续推进重要数据识别准确性和覆盖范围的提升,是核查流程的关键工作。

 结 语 

随着各类法律法规的相继出台,展示了我国对重要数据不断深入的认识和重视,作为关系国家安全和公共利益的重要数据,对其进行识别、梳理、监测和保护将成为未来几年数据安全工作的重点之一。

作为数据监测和保护的前置条件,如何从企业浩瀚如烟的数据海洋中准确识别出重要数据,并确定其分布位置,是企业必须面对一个挑战。

思维世纪作为一家成立超过20年的老牌数据安全专业公司,深入数据识别领域多年,自主研发的数据识别能力API数据资产测绘管理系统,历经上百个数据安全项目打磨,具备重要数据、敏感数据、个人信息等数据识别和分类分级能力,支持对数十种常见数据源进行自动的数据采集识别,支持对数百种文件格式进行解析处理,积累了数百种基于字典、正则、算法模型、NLP等技术构建的丰富的数据特征库,能帮助企业完成全面、准确、高效的重要数据识别和梳理工作,推进重要数据的有效保护,守护企业重要数据安全。


往期回顾

喜讯|思维世纪荣获第三届数字四川创新大赛数据安全算法对抗赛道二等奖!

思维世纪成为“电信和互联网行业数据安全人才强基计划”成员单位

喜讯|思维世纪强势入选信通院“星熠”案例两大方向