CN110826320A

CN110826320A - 一种基于文本识别的敏感数据发现方法及系统

Info

Publication number: CN110826320A
Application number: CN201911195301.3A
Authority: CN
Inventors: 殷钱安; 梁淑云; 刘胜; 马影; 陶景龙; 王启凡; 魏国富; 徐�明; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-02-21
Anticipated expiration: 2039-11-28
Also published as: CN110826320B

Abstract

本发明一种基于文本识别的敏感数据发现方法，包括以下步骤：S01、样本数据提取；S02、构建训练样本，搜集文本数据集，构建训练样本；S03、训练样本标注模型，基于S02中获得训练样本，训练文本标注模型；S04、数据特征构建；S05、训练集构建，对S04得到的数据集进行标签刻画，形成用于构建分类判断模型的训练集；S06、构建分类判断模型，根据S05得到的训练集，形成变量预测模型；S07、模型测试。本发明通过对数据变量的识别，能够在数据字典和匹配规则不完整的情况下，可以精准、高效的对敏感数据进行判断识别，并保证识别和分类结果的一致性。

Description

一种基于文本识别的敏感数据发现方法及系统

技术领域

本发明涉及数据安全技术领域，具体来说是一种基于文本识别的敏感数据发现方法及系统。

背景技术

数据是企业运营的支撑基础，也是企业信息系统的核心部分，一旦数据相关的管理及应用系统出现问题，将严重影响企业形象和发展，因此数据安全问题一直是企业备受关注的主题。目前实际应用中数据保护方案主要有数据隔离、权限设定、数据脱敏等。对数据的保护方案中，敏感数据的保护尤为重要，敏感数据保护方案的核心部分就是从海量的数据中挑选出敏感数据，完成对敏感数据的精准识别。

目前敏感数据的识别主要依赖于字典匹配方法和人工识别的方法。

如申请号为CN201910600215.X公开了一种数据中心查数系统，具体公开了通过人工定义敏感数据的模式匹配式，对数据进行逐一匹配，当发现数据满足模式匹配式时，定义数据为敏感数据。匹配的目标可以是数据元数据，也可以是数据内容。而人工识别方法主要依赖于风险评估师的个人经验进行和预定义的敏感数据字典。风险评估师通常根据预定义的数据模型，例如数据库设计模型、文件系统组织结构等，根据经验判断模型中哪些定义属于敏感数据，然后在这些敏感数据中，采用数据抽样的形式进行敏感数据的发现与识别。

敏感数据字典匹配方法存在如下缺陷:1、识别精准度低，字典匹配采用的是模式化匹配的方式，因此数据字典的建立决定了敏感数据识别准确度，当字典不完整或者字典建立有误时，会出现识别精度降低的问题；2、分类结果干扰，由于采用字典匹配，因此同一个数据信息会匹配到多个数据字典，由于传统数据字典未能进行加权计算，因此会造成分类结果的干扰，导致分类结果的不准确。

敏感数据人工识别方法存在如下缺陷:1、识别速度慢，由于采用人工处理的方式，在面对大量数据的时候，人工梳理速度相对机器识别速度周期较长，而且对处理人员的专业素质要求较高；2、在文本日志数据中，文本之间相似度非常高，字典匹配法准确度低，识别能力不高，而且匹配规则需要相关人员随着数据变化进行持续的优化。

发明内容

本发明所要解决的技术问题在于现有技术中敏感数据识别速度慢、精度低。

本发明通过以下技术手段实现解决上述技术问题的：

一种基于文本识别的敏感数据发现方法，包括以下步骤：

S01、样本数据提取，抽取指定时间内的标准化的业务数据表作为原始样本数据；

S02、构建训练样本，搜集文本数据集，利用文本标注工具对文本数据集中的关键词进行标注，构建大量的训练样本；

S03、训练样本标注模型，基于S02中获得训练样本，利用双向长短记忆网络、条件随机场训练文本标注模型；

S04、数据特征构建，以S01的原始样本数据为基础，结合S03得到的文本标注模型构建用于描述数据特点的特征变量；

S05、训练集构建，定义敏感数据标签，对S04得到的数据集进行标签刻画，形成用于构建分类判断模型的训练集；

S06、构建分类判断模型，根据S05得到的训练集，利用catboost算法进行变量分类模型训练，形成变量预测模型；

S07、模型测试，对生产环境中未识别的数据，基于S04的特征构建方式，对未识别数据进行描述特征构建，形成预测集，利用S06得到的分类判断模型，判断变量是否为敏感字段，以及敏感字段的类型。

本发明通过对数据变量的识别，能够在数据字典和匹配规则不完整的情况下，可以精准、高效的对敏感数据进行判断识别，并保证识别和分类结果的一致性。

优选的，所述S02中，采用BIO标注方法对文本数据集中的关键词进行标注：将每个元素标注为“B-X”、“I-X”或者“O”；其中，“X”表示标注元素所属类型，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

优选的，所述S03中，所述文本标注模型包括表示层、Bi-LSTM层、CRF层，其中

表示层：句子中的每一个单元都代表着由字嵌入或词嵌入构成的向量；

Bi-LSTM层：将表示层得到的字嵌入或者词嵌入向量作为作为双向LSTM各个时间步的输入；通过双向LSTM层训练，输出句子的每个词的所有标签的各自得分；

CRF层：该层使用Bi-LSTM层的输出—每个词的所有标签的各自得分，即发射概率矩阵，以及基于文本本身计算的转移概率矩阵，作为原始CRF模型的参数，最终获得标签序列的概率，选取概率值最大的标签类，即为每个词的类别。

优选的，所述S06中，利用Catboost算法进行变量分类模型训练，具体为

梯度提升树模型表示为决策树的加法模型：

其中T(x；θ_m)表示决策树，θ_m为决策树的参数，M为树的个数；

采用前向分布算法，首先确定初始提升树f₀(x)＝0，第m步的模型是:

f_m(x)＝f_m-1(x)+T(x；θ_m)

通过经验风险极小化确定下一棵树的参数：

GBDT使用贪婪靶向性统计方法处理分类型变量对应的标签的平均值来替换，其表达式为：

其中n表示样本数量，x_i,k表示第i条记录第k个特征的值，Y_i表示第i条记录对应的目标标签值。

优选的，Catboost采用改进Greedy TBS的方式是添加先验分布项，减少噪声和低频率数据对于数据分布的影响：

其中P是添加的先验项，a通常是大于0的权重系数。

相匹配的，本发明还提供一种基于文本识别的敏感数据发现系统，包括

样本数据提取模块，抽取指定时间内的标准化的业务数据表作为原始样本数据；

构建训练样本模块，搜集文本数据集，利用文本标注工具对文本数据集中的关键词进行标注，构建大量的训练样本；

训练样本标注模型模块，基于获得训练样本，利用双向长短记忆网络、条件随机场训练文本标注模型；

数据特征构建模块，以原始样本数据为基础，结合得到的文本标注模型构建用于描述数据特点的特征变量；

训练集构建模块，定义敏感数据标签，对得到的数据集进行标签刻画，形成用于构建分类判断模型的训练集；

构建分类判断模型模块，根据得到的训练集，利用catboost算法进行变量分类模型训练，形成变量预测模型；

模型测试模块，对生产环境中未识别的数据，基于数据特征构建模块的特征构建方式，对未识别数据进行描述特征构建，形成预测集，利用得到的分类判断模型，判断变量是否为敏感字段，以及敏感字段的类型。

优选的，所述构建训练样本模块中，采用BIO标注方法对文本数据集中的关键词进行标注：将每个元素标注为“B-X”、“I-X”或者“O”；其中，“X”表示标注元素所属类型，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

优选的，所述训练样本标注模型模块中，所述文本标注模型包括表示层、Bi-LSTM层、CRF层，其中

优选的，所述构建分类判断模型模块中，利用Catboost算法进行变量分类模型训练，具体为

梯度提升树模型表示为决策树的加法模型：

f_m(x)＝f_m-1(x)+T(x；θ_m)

通过经验风险极小化确定下一棵树的参数：

优选的，Catboost采用改进Greedy TBS的方式是添加先验分布项，表达式为：

其中P是添加的先验项，a为大于0的权重系数。

本发明的优点在于：在数据字典和匹配规则不完整的情况下，文本字段区分难度大，分类结果干扰，致使分类结果不准确，本发明通过文本标注模型和用于描述数据特征的标签体系，可以区分文本数据字段，降低数据分类结果之间的干扰，同时本发明通过算法模型的迭代优化，可以精准、高效的对敏感数据进行判断，并识别出敏感字段类型，保证敏感数据的识别和具体数据分类结果的一致性。

附图说明

图1为本发明实施例1中方法流程框图；

图2为本发明实施例1中方法执行过程流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例提供一种基于文本识别的敏感数据发现方法，如图1所示，具体包括以下步骤：

S01：样本数据提取

抽取指定时间周期(日/月)内的标准化的业务数据表作为原始样本数据。

S02：文本标注加工

搜集大量文本语料，借用文本标注工具，利用BIO标注方法对文本语料中关键性词语进行人工标注，构建大量训练样本。

BIO标注：将每个元素标注为“B-X”、“I-X”或者“O”。其中，“X”表示标注元素所属类型，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

S03：训练文本标注模型

根据S02得到的标注文本数据，利用双向长短记忆网络(Bi-directional LongShort-Term Memory，以下简称Bi-LSTM)、条件随机场(Conditional Random Fields，以下简称CRF)进行模型训练。整体算法模型结构分成表示层、Bi-LSTM层、CRF层。

第一层(表示层)：句子中的每一个单元都代表着由字嵌入或词嵌入构成的向量。其中，字嵌入是随机初始化的，词嵌入是通过数据训练得到的。所有的嵌入在训练过程中都会调整到最优。

第二层(Bi-LSTM层)：将第一层得到的字嵌入或者词嵌入向量作为双向LSTM各个时间步的输入。通过双向LSTM层训练，输出句子的每个词的所有标签的各自得分。

第三层(CRF层)：该层使用Bi-LSTM层的输出每个词的所有标签的各自得分，即发射概率矩阵，以及基于文本本身计算的转移概率矩阵，作为原始CRF模型的参数，最终获得标签序列的概率，选取概率值最大的标签类，即为每个词的类别。

S04：数据特征构建

以S01得到的原始数据为基础，构建用于描述数据特点的特征变量，主要包括两个方面特征：

一、基于数据自身特点所概述的类型分析类特征，包括数据长度、是否数值型、是否含有特殊字符、非数字字符占比等；

二、利用S03文本标注模型对文本型变量内容进行文本标注，根据标注的文本类型，构建相应变量特征，包括文本分词个数、文本所含词的标注类别个数、文本中所含词标注类别占比(人名类、地点名类、国家名类、机构名类等)、各长度词的数量等。

S05：训练集敏感类标签提取

基于业务经验以及相应行业所定义的敏感数据标签，对S04得到的数据集进行标签刻画，形成用于构建分类模型的训练集。

S06：构建分类判断模型

根据S05构建的训练集，利用catboost算法进行变量分类模型训练，形成变量预测模型，并保存模型，以便模型的实时调用。Catboost算法优点是在梯度提升树(GBDT)基础上，优化了分类型变量的处理方法。

梯度提升树模型表示为决策树的加法模型：

其中T(x；θ_m)表示决策树，θ_m为决策树的参数，M为树的个数。

f_m(x)＝f_m-1(x)+T(x；θ_m)

通过经验风险极小化确定下一棵树的参数：

GBDT使用贪婪靶向性统计方法(Greedy Target-based Statistics)处理分类型变量对应的标签的平均值来替换，其表达式为：

贪婪靶向性统计方法有一个显而易见的缺陷，就是通常特征比标签包含更多的信息，如果强行用标签的平均值来表示特征的话，当训练数据集和测试数据集数据结构和分布不一样的时候会出现条件偏移问题，造成过拟合，导致模型的分类效果不佳。

Catboost采用一个标准的改进Greedy TBS的方式是添加先验分布项，减少噪声和低频率数据对于数据分布的影响：

其中n表示样本数量，x_i,k表示第i条记录第k个特征的值，Y_i表示第i条记录对应的目标标签值，P是添加的先验项，a通常是大于0的权重系数。针对类别数较少的特征，添加先验项也可以减少噪音数据。

S07：基于模型识别数据变量

对生产环境中未识别数据，基于S04的特征构建方式，对未识别数据进行描述特征构建，形成预测集，利用S06得到的分类模型，判断变量是否敏感字段，以及敏感字段的类型。

实施例2

相对应的，本实施例还提供一种基于文本识别的敏感数据发现系统，其特征在于：包括

构建训练样本模块，搜集文本数据集，利用文本标注工具对文本数据集中的关键词进行标注，构建大量的训练样本；BIO标注：将每个元素标注为“B-X”、“I-X”或者“O”。其中，“X”表示标注元素所属类型，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

训练样本标注模型模块，基于获得训练样本，利用双向长短记忆网络、条件随机场训练文本标注模型；根据构建训练样本模块得到的标注文本数据，利用双向长短记忆网络(Bi-directional Long Short-Term Memory，以下简称Bi-LSTM)、条件随机场(Conditional Random Fields，以下简称CRF)进行模型训练。整体算法模型结构分成表示层、Bi-LSTM层、CRF层。

数据特征构建模块，以原始样本数据为基础，结合得到的文本标注模型构建用于描述数据特点的特征变量；具体为

二、利用文本标注模型对文本型变量内容进行文本标注，根据标注的文本类型，构建相应变量特征，包括文本分词个数、文本所含词的标注类别个数、文本中所含词标注类别占比(人名类、地点名类、国家名类、机构名类等)、各长度词的数量等。

构建分类判断模型模块，根据得到的训练集，利用catboost算法进行变量分类模型训练，形成变量预测模型；以便模型的实时调用。Catboost算法优点是在梯度提升树(GBDT)基础上，优化了分类型变量的处理方法。

梯度提升树模型表示为决策树的加法模型：

f_m(x)＝f_m-1(x)+T(x；θ_m)

通过经验风险极小化确定下一棵树的参数：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于文本识别的敏感数据发现方法，其特征在于：包括以下步骤：

S02、构建训练样本，搜集文本数据集，利用文本标注工具对文本数据集中的关键词进行标注，构建训练样本；

2.根据权利要求1所述的一种基于文本识别的敏感数据发现方法，其特征在于：所述S02中，采用BIO标注方法对文本数据集中的关键词进行标注：将每个元素标注为“B-X”、“I-X”或者“O”；其中，“X”表示标注元素所属类型，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

3.根据权利要求2所述的一种基于文本识别的敏感数据发现方法，其特征在于：所述S03中，所述文本标注模型包括表示层、Bi-LSTM层、CRF层，其中

Bi-LSTM层：将表示层得到的字嵌入或者词嵌入向量作为双向LSTM各个时间步的输入；通过双向LSTM层训练，输出句子的每个词的所有标签的各自得分；

4.根据权利要求1所述的一种基于文本识别的敏感数据发现方法，其特征在于：所述S06中，利用Catboost算法进行变量分类模型训练，具体为

梯度提升树模型表示为决策树的加法模型：

f_m(x)＝f_m-1(x)+T(x；θ_m)

通过经验风险极小化确定下一棵树的参数：

5.根据权利要求4所述的一种基于文本识别的敏感数据发现方法，其特征在于：Catboost采用改进Greedy TBS的方式是添加先验分布项，表达式为：

其中P是添加的先验项，a为大于0的权重系数。

6.一种基于文本识别的敏感数据发现系统，其特征在于：包括

7.根据权利要求6所述的一种基于文本识别的敏感数据发现系统，其特征在于：所述构建训练样本模块中，采用BIO标注方法对文本数据集中的关键词进行标注：将每个元素标注为“B-X”、“I-X”或者“O”；其中，“X”表示标注元素所属类型，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

8.根据权利要求7所述的一种基于文本识别的敏感数据发现系统，其特征在于：所述训练样本标注模型模块中，所述文本标注模型包括表示层、Bi-LSTM层、CRF层，其中

表示层：句子中的每一个单元都代表着由字嵌入或词嵌入构成的向量；其中，字嵌入是随机初始化的，词嵌入是通过数据训练得到的；所有的嵌入在训练过程中都会调整到最优；

9.根据权利要求6所述的一种基于文本识别的敏感数据发现系统，其特征在于：所述构建分类判断模型模块中，利用Catboost算法进行变量分类模型训练，具体为

梯度提升树模型表示为决策树的加法模型：

f_m(x)＝f_m-1(x)+T(x；θ_m)

通过经验风险极小化确定下一棵树的参数：

10.根据权利要求9所述的一种基于文本识别的敏感数据发现系统，其特征在于：Catboost采用改进Greedy TBS的方式是添加先验分布项，表达式为：

其中P是添加的先验项，a为大于0的权重系数。