[go: up one dir, main page]

CN110826320A - 一种基于文本识别的敏感数据发现方法及系统 - Google Patents

一种基于文本识别的敏感数据发现方法及系统 Download PDF

Info

Publication number
CN110826320A
CN110826320A CN201911195301.3A CN201911195301A CN110826320A CN 110826320 A CN110826320 A CN 110826320A CN 201911195301 A CN201911195301 A CN 201911195301A CN 110826320 A CN110826320 A CN 110826320A
Authority
CN
China
Prior art keywords
model
data
training
text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911195301.3A
Other languages
English (en)
Other versions
CN110826320B (zh
Inventor
殷钱安
梁淑云
刘胜
马影
陶景龙
王启凡
魏国富
徐�明
余贤喆
周晓勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN201911195301.3A priority Critical patent/CN110826320B/zh
Publication of CN110826320A publication Critical patent/CN110826320A/zh
Application granted granted Critical
Publication of CN110826320B publication Critical patent/CN110826320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种基于文本识别的敏感数据发现方法,包括以下步骤:S01、样本数据提取;S02、构建训练样本,搜集文本数据集,构建训练样本;S03、训练样本标注模型,基于S02中获得训练样本,训练文本标注模型;S04、数据特征构建;S05、训练集构建,对S04得到的数据集进行标签刻画,形成用于构建分类判断模型的训练集;S06、构建分类判断模型,根据S05得到的训练集,形成变量预测模型;S07、模型测试。本发明通过对数据变量的识别,能够在数据字典和匹配规则不完整的情况下,可以精准、高效的对敏感数据进行判断识别,并保证识别和分类结果的一致性。

Description

一种基于文本识别的敏感数据发现方法及系统
技术领域
本发明涉及数据安全技术领域,具体来说是一种基于文本识别的敏感数据发现方法及系统。
背景技术
数据是企业运营的支撑基础,也是企业信息系统的核心部分,一旦数据相关的管理及应用系统出现问题,将严重影响企业形象和发展,因此数据安全问题一直是企业备受关注的主题。目前实际应用中数据保护方案主要有数据隔离、权限设定、数据脱敏等。对数据的保护方案中,敏感数据的保护尤为重要,敏感数据保护方案的核心部分就是从海量的数据中挑选出敏感数据,完成对敏感数据的精准识别。
目前敏感数据的识别主要依赖于字典匹配方法和人工识别的方法。
如申请号为CN201910600215.X公开了一种数据中心查数系统,具体公开了通过人工定义敏感数据的模式匹配式,对数据进行逐一匹配,当发现数据满足模式匹配式时,定义数据为敏感数据。匹配的目标可以是数据元数据,也可以是数据内容。而人工识别方法主要依赖于风险评估师的个人经验进行和预定义的敏感数据字典。风险评估师通常根据预定义的数据模型,例如数据库设计模型、文件系统组织结构等,根据经验判断模型中哪些定义属于敏感数据,然后在这些敏感数据中,采用数据抽样的形式进行敏感数据的发现与识别。
敏感数据字典匹配方法存在如下缺陷:1、识别精准度低,字典匹配采用的是模式化匹配的方式,因此数据字典的建立决定了敏感数据识别准确度,当字典不完整或者字典建立有误时,会出现识别精度降低的问题;2、分类结果干扰,由于采用字典匹配,因此同一个数据信息会匹配到多个数据字典,由于传统数据字典未能进行加权计算,因此会造成分类结果的干扰,导致分类结果的不准确。
敏感数据人工识别方法存在如下缺陷:1、识别速度慢,由于采用人工处理的方式,在面对大量数据的时候,人工梳理速度相对机器识别速度周期较长,而且对处理人员的专业素质要求较高;2、在文本日志数据中,文本之间相似度非常高,字典匹配法准确度低,识别能力不高,而且匹配规则需要相关人员随着数据变化进行持续的优化。
发明内容
本发明所要解决的技术问题在于现有技术中敏感数据识别速度慢、精度低。
本发明通过以下技术手段实现解决上述技术问题的:
一种基于文本识别的敏感数据发现方法,包括以下步骤:
S01、样本数据提取,抽取指定时间内的标准化的业务数据表作为原始样本数据;
S02、构建训练样本,搜集文本数据集,利用文本标注工具对文本数据集中的关键词进行标注,构建大量的训练样本;
S03、训练样本标注模型,基于S02中获得训练样本,利用双向长短记忆网络、条件随机场训练文本标注模型;
S04、数据特征构建,以S01的原始样本数据为基础,结合S03得到的文本标注模型构建用于描述数据特点的特征变量;
S05、训练集构建,定义敏感数据标签,对S04得到的数据集进行标签刻画,形成用于构建分类判断模型的训练集;
S06、构建分类判断模型,根据S05得到的训练集,利用catboost算法进行变量分类模型训练,形成变量预测模型;
S07、模型测试,对生产环境中未识别的数据,基于S04的特征构建方式,对未识别数据进行描述特征构建,形成预测集,利用S06得到的分类判断模型,判断变量是否为敏感字段,以及敏感字段的类型。
本发明通过对数据变量的识别,能够在数据字典和匹配规则不完整的情况下,可以精准、高效的对敏感数据进行判断识别,并保证识别和分类结果的一致性。
优选的,所述S02中,采用BIO标注方法对文本数据集中的关键词进行标注:将每个元素标注为“B-X”、“I-X”或者“O”;其中,“X”表示标注元素所属类型,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
优选的,所述S03中,所述文本标注模型包括表示层、Bi-LSTM层、CRF层,其中
表示层:句子中的每一个单元都代表着由字嵌入或词嵌入构成的向量;
Bi-LSTM层:将表示层得到的字嵌入或者词嵌入向量作为作为双向LSTM各个时间步的输入;通过双向LSTM层训练,输出句子的每个词的所有标签的各自得分;
CRF层:该层使用Bi-LSTM层的输出—每个词的所有标签的各自得分,即发射概率矩阵,以及基于文本本身计算的转移概率矩阵,作为原始CRF模型的参数,最终获得标签序列的概率,选取概率值最大的标签类,即为每个词的类别。
优选的,所述S06中,利用Catboost算法进行变量分类模型训练,具体为
梯度提升树模型表示为决策树的加法模型:
Figure BDA0002294522710000031
其中T(x;θm)表示决策树,θm为决策树的参数,M为树的个数;
采用前向分布算法,首先确定初始提升树f0(x)=0,第m步的模型是:
fm(x)=fm-1(x)+T(x;θm)
通过经验风险极小化确定下一棵树的参数:
Figure BDA0002294522710000032
GBDT使用贪婪靶向性统计方法处理分类型变量对应的标签的平均值来替换,其表达式为:
其中n表示样本数量,xi,k表示第i条记录第k个特征的值,Yi表示第i条记录对应的目标标签值。
优选的,Catboost采用改进Greedy TBS的方式是添加先验分布项,减少噪声和低频率数据对于数据分布的影响:
Figure BDA0002294522710000034
其中P是添加的先验项,a通常是大于0的权重系数。
相匹配的,本发明还提供一种基于文本识别的敏感数据发现系统,包括
样本数据提取模块,抽取指定时间内的标准化的业务数据表作为原始样本数据;
构建训练样本模块,搜集文本数据集,利用文本标注工具对文本数据集中的关键词进行标注,构建大量的训练样本;
训练样本标注模型模块,基于获得训练样本,利用双向长短记忆网络、条件随机场训练文本标注模型;
数据特征构建模块,以原始样本数据为基础,结合得到的文本标注模型构建用于描述数据特点的特征变量;
训练集构建模块,定义敏感数据标签,对得到的数据集进行标签刻画,形成用于构建分类判断模型的训练集;
构建分类判断模型模块,根据得到的训练集,利用catboost算法进行变量分类模型训练,形成变量预测模型;
模型测试模块,对生产环境中未识别的数据,基于数据特征构建模块的特征构建方式,对未识别数据进行描述特征构建,形成预测集,利用得到的分类判断模型,判断变量是否为敏感字段,以及敏感字段的类型。
优选的,所述构建训练样本模块中,采用BIO标注方法对文本数据集中的关键词进行标注:将每个元素标注为“B-X”、“I-X”或者“O”;其中,“X”表示标注元素所属类型,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
优选的,所述训练样本标注模型模块中,所述文本标注模型包括表示层、Bi-LSTM层、CRF层,其中
表示层:句子中的每一个单元都代表着由字嵌入或词嵌入构成的向量;
Bi-LSTM层:将表示层得到的字嵌入或者词嵌入向量作为作为双向LSTM各个时间步的输入;通过双向LSTM层训练,输出句子的每个词的所有标签的各自得分;
CRF层:该层使用Bi-LSTM层的输出—每个词的所有标签的各自得分,即发射概率矩阵,以及基于文本本身计算的转移概率矩阵,作为原始CRF模型的参数,最终获得标签序列的概率,选取概率值最大的标签类,即为每个词的类别。
优选的,所述构建分类判断模型模块中,利用Catboost算法进行变量分类模型训练,具体为
梯度提升树模型表示为决策树的加法模型:
Figure BDA0002294522710000051
其中T(x;θm)表示决策树,θm为决策树的参数,M为树的个数;
采用前向分布算法,首先确定初始提升树f0(x)=0,第m步的模型是:
fm(x)=fm-1(x)+T(x;θm)
通过经验风险极小化确定下一棵树的参数:
Figure BDA0002294522710000052
GBDT使用贪婪靶向性统计方法处理分类型变量对应的标签的平均值来替换,其表达式为:
Figure BDA0002294522710000053
其中n表示样本数量,xi,k表示第i条记录第k个特征的值,Yi表示第i条记录对应的目标标签值。
优选的,Catboost采用改进Greedy TBS的方式是添加先验分布项,表达式为:
Figure BDA0002294522710000054
其中P是添加的先验项,a为大于0的权重系数。
本发明的优点在于:在数据字典和匹配规则不完整的情况下,文本字段区分难度大,分类结果干扰,致使分类结果不准确,本发明通过文本标注模型和用于描述数据特征的标签体系,可以区分文本数据字段,降低数据分类结果之间的干扰,同时本发明通过算法模型的迭代优化,可以精准、高效的对敏感数据进行判断,并识别出敏感字段类型,保证敏感数据的识别和具体数据分类结果的一致性。
附图说明
图1为本发明实施例1中方法流程框图;
图2为本发明实施例1中方法执行过程流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供一种基于文本识别的敏感数据发现方法,如图1所示,具体包括以下步骤:
S01:样本数据提取
抽取指定时间周期(日/月)内的标准化的业务数据表作为原始样本数据。
S02:文本标注加工
搜集大量文本语料,借用文本标注工具,利用BIO标注方法对文本语料中关键性词语进行人工标注,构建大量训练样本。
BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“X”表示标注元素所属类型,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
S03:训练文本标注模型
根据S02得到的标注文本数据,利用双向长短记忆网络(Bi-directional LongShort-Term Memory,以下简称Bi-LSTM)、条件随机场(Conditional Random Fields,以下简称CRF)进行模型训练。整体算法模型结构分成表示层、Bi-LSTM层、CRF层。
第一层(表示层):句子中的每一个单元都代表着由字嵌入或词嵌入构成的向量。其中,字嵌入是随机初始化的,词嵌入是通过数据训练得到的。所有的嵌入在训练过程中都会调整到最优。
第二层(Bi-LSTM层):将第一层得到的字嵌入或者词嵌入向量作为双向LSTM各个时间步的输入。通过双向LSTM层训练,输出句子的每个词的所有标签的各自得分。
第三层(CRF层):该层使用Bi-LSTM层的输出每个词的所有标签的各自得分,即发射概率矩阵,以及基于文本本身计算的转移概率矩阵,作为原始CRF模型的参数,最终获得标签序列的概率,选取概率值最大的标签类,即为每个词的类别。
S04:数据特征构建
以S01得到的原始数据为基础,构建用于描述数据特点的特征变量,主要包括两个方面特征:
一、基于数据自身特点所概述的类型分析类特征,包括数据长度、是否数值型、是否含有特殊字符、非数字字符占比等;
二、利用S03文本标注模型对文本型变量内容进行文本标注,根据标注的文本类型,构建相应变量特征,包括文本分词个数、文本所含词的标注类别个数、文本中所含词标注类别占比(人名类、地点名类、国家名类、机构名类等)、各长度词的数量等。
S05:训练集敏感类标签提取
基于业务经验以及相应行业所定义的敏感数据标签,对S04得到的数据集进行标签刻画,形成用于构建分类模型的训练集。
S06:构建分类判断模型
根据S05构建的训练集,利用catboost算法进行变量分类模型训练,形成变量预测模型,并保存模型,以便模型的实时调用。Catboost算法优点是在梯度提升树(GBDT)基础上,优化了分类型变量的处理方法。
梯度提升树模型表示为决策树的加法模型:
Figure BDA0002294522710000071
其中T(x;θm)表示决策树,θm为决策树的参数,M为树的个数。
采用前向分布算法,首先确定初始提升树f0(x)=0,第m步的模型是:
fm(x)=fm-1(x)+T(x;θm)
通过经验风险极小化确定下一棵树的参数:
Figure BDA0002294522710000081
GBDT使用贪婪靶向性统计方法(Greedy Target-based Statistics)处理分类型变量对应的标签的平均值来替换,其表达式为:
Figure BDA0002294522710000082
贪婪靶向性统计方法有一个显而易见的缺陷,就是通常特征比标签包含更多的信息,如果强行用标签的平均值来表示特征的话,当训练数据集和测试数据集数据结构和分布不一样的时候会出现条件偏移问题,造成过拟合,导致模型的分类效果不佳。
Catboost采用一个标准的改进Greedy TBS的方式是添加先验分布项,减少噪声和低频率数据对于数据分布的影响:
其中n表示样本数量,xi,k表示第i条记录第k个特征的值,Yi表示第i条记录对应的目标标签值,P是添加的先验项,a通常是大于0的权重系数。针对类别数较少的特征,添加先验项也可以减少噪音数据。
S07:基于模型识别数据变量
对生产环境中未识别数据,基于S04的特征构建方式,对未识别数据进行描述特征构建,形成预测集,利用S06得到的分类模型,判断变量是否敏感字段,以及敏感字段的类型。
实施例2
相对应的,本实施例还提供一种基于文本识别的敏感数据发现系统,其特征在于:包括
样本数据提取模块,抽取指定时间内的标准化的业务数据表作为原始样本数据;
构建训练样本模块,搜集文本数据集,利用文本标注工具对文本数据集中的关键词进行标注,构建大量的训练样本;BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“X”表示标注元素所属类型,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
训练样本标注模型模块,基于获得训练样本,利用双向长短记忆网络、条件随机场训练文本标注模型;根据构建训练样本模块得到的标注文本数据,利用双向长短记忆网络(Bi-directional Long Short-Term Memory,以下简称Bi-LSTM)、条件随机场(Conditional Random Fields,以下简称CRF)进行模型训练。整体算法模型结构分成表示层、Bi-LSTM层、CRF层。
第一层(表示层):句子中的每一个单元都代表着由字嵌入或词嵌入构成的向量。其中,字嵌入是随机初始化的,词嵌入是通过数据训练得到的。所有的嵌入在训练过程中都会调整到最优。
第二层(Bi-LSTM层):将第一层得到的字嵌入或者词嵌入向量作为双向LSTM各个时间步的输入。通过双向LSTM层训练,输出句子的每个词的所有标签的各自得分。
第三层(CRF层):该层使用Bi-LSTM层的输出每个词的所有标签的各自得分,即发射概率矩阵,以及基于文本本身计算的转移概率矩阵,作为原始CRF模型的参数,最终获得标签序列的概率,选取概率值最大的标签类,即为每个词的类别。
数据特征构建模块,以原始样本数据为基础,结合得到的文本标注模型构建用于描述数据特点的特征变量;具体为
一、基于数据自身特点所概述的类型分析类特征,包括数据长度、是否数值型、是否含有特殊字符、非数字字符占比等;
二、利用文本标注模型对文本型变量内容进行文本标注,根据标注的文本类型,构建相应变量特征,包括文本分词个数、文本所含词的标注类别个数、文本中所含词标注类别占比(人名类、地点名类、国家名类、机构名类等)、各长度词的数量等。
训练集构建模块,定义敏感数据标签,对得到的数据集进行标签刻画,形成用于构建分类判断模型的训练集;
构建分类判断模型模块,根据得到的训练集,利用catboost算法进行变量分类模型训练,形成变量预测模型;以便模型的实时调用。Catboost算法优点是在梯度提升树(GBDT)基础上,优化了分类型变量的处理方法。
梯度提升树模型表示为决策树的加法模型:
Figure BDA0002294522710000101
其中T(x;θm)表示决策树,θm为决策树的参数,M为树的个数。
采用前向分布算法,首先确定初始提升树f0(x)=0,第m步的模型是:
fm(x)=fm-1(x)+T(x;θm)
通过经验风险极小化确定下一棵树的参数:
Figure BDA0002294522710000102
GBDT使用贪婪靶向性统计方法(Greedy Target-based Statistics)处理分类型变量对应的标签的平均值来替换,其表达式为:
Figure BDA0002294522710000103
贪婪靶向性统计方法有一个显而易见的缺陷,就是通常特征比标签包含更多的信息,如果强行用标签的平均值来表示特征的话,当训练数据集和测试数据集数据结构和分布不一样的时候会出现条件偏移问题,造成过拟合,导致模型的分类效果不佳。
Catboost采用一个标准的改进Greedy TBS的方式是添加先验分布项,减少噪声和低频率数据对于数据分布的影响:
其中n表示样本数量,xi,k表示第i条记录第k个特征的值,Yi表示第i条记录对应的目标标签值,P是添加的先验项,a通常是大于0的权重系数。针对类别数较少的特征,添加先验项也可以减少噪音数据。
模型测试模块,对生产环境中未识别的数据,基于数据特征构建模块的特征构建方式,对未识别数据进行描述特征构建,形成预测集,利用得到的分类判断模型,判断变量是否为敏感字段,以及敏感字段的类型。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于文本识别的敏感数据发现方法,其特征在于:包括以下步骤:
S01、样本数据提取,抽取指定时间内的标准化的业务数据表作为原始样本数据;
S02、构建训练样本,搜集文本数据集,利用文本标注工具对文本数据集中的关键词进行标注,构建训练样本;
S03、训练样本标注模型,基于S02中获得训练样本,利用双向长短记忆网络、条件随机场训练文本标注模型;
S04、数据特征构建,以S01的原始样本数据为基础,结合S03得到的文本标注模型构建用于描述数据特点的特征变量;
S05、训练集构建,定义敏感数据标签,对S04得到的数据集进行标签刻画,形成用于构建分类判断模型的训练集;
S06、构建分类判断模型,根据S05得到的训练集,利用catboost算法进行变量分类模型训练,形成变量预测模型;
S07、模型测试,对生产环境中未识别的数据,基于S04的特征构建方式,对未识别数据进行描述特征构建,形成预测集,利用S06得到的分类判断模型,判断变量是否为敏感字段,以及敏感字段的类型。
2.根据权利要求1所述的一种基于文本识别的敏感数据发现方法,其特征在于:所述S02中,采用BIO标注方法对文本数据集中的关键词进行标注:将每个元素标注为“B-X”、“I-X”或者“O”;其中,“X”表示标注元素所属类型,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
3.根据权利要求2所述的一种基于文本识别的敏感数据发现方法,其特征在于:所述S03中,所述文本标注模型包括表示层、Bi-LSTM层、CRF层,其中
表示层:句子中的每一个单元都代表着由字嵌入或词嵌入构成的向量;
Bi-LSTM层:将表示层得到的字嵌入或者词嵌入向量作为双向LSTM各个时间步的输入;通过双向LSTM层训练,输出句子的每个词的所有标签的各自得分;
CRF层:该层使用Bi-LSTM层的输出—每个词的所有标签的各自得分,即发射概率矩阵,以及基于文本本身计算的转移概率矩阵,作为原始CRF模型的参数,最终获得标签序列的概率,选取概率值最大的标签类,即为每个词的类别。
4.根据权利要求1所述的一种基于文本识别的敏感数据发现方法,其特征在于:所述S06中,利用Catboost算法进行变量分类模型训练,具体为
梯度提升树模型表示为决策树的加法模型:
Figure FDA0002294522700000021
其中T(x;θm)表示决策树,θm为决策树的参数,M为树的个数;
采用前向分布算法,首先确定初始提升树f0(x)=0,第m步的模型是:
fm(x)=fm-1(x)+T(x;θm)
通过经验风险极小化确定下一棵树的参数:
Figure FDA0002294522700000022
GBDT使用贪婪靶向性统计方法处理分类型变量对应的标签的平均值来替换,其表达式为:
Figure FDA0002294522700000023
其中n表示样本数量,xi,k表示第i条记录第k个特征的值,Yi表示第i条记录对应的目标标签值。
5.根据权利要求4所述的一种基于文本识别的敏感数据发现方法,其特征在于:Catboost采用改进Greedy TBS的方式是添加先验分布项,表达式为:
其中P是添加的先验项,a为大于0的权重系数。
6.一种基于文本识别的敏感数据发现系统,其特征在于:包括
样本数据提取模块,抽取指定时间内的标准化的业务数据表作为原始样本数据;
构建训练样本模块,搜集文本数据集,利用文本标注工具对文本数据集中的关键词进行标注,构建大量的训练样本;
训练样本标注模型模块,基于获得训练样本,利用双向长短记忆网络、条件随机场训练文本标注模型;
数据特征构建模块,以原始样本数据为基础,结合得到的文本标注模型构建用于描述数据特点的特征变量;
训练集构建模块,定义敏感数据标签,对得到的数据集进行标签刻画,形成用于构建分类判断模型的训练集;
构建分类判断模型模块,根据得到的训练集,利用catboost算法进行变量分类模型训练,形成变量预测模型;
模型测试模块,对生产环境中未识别的数据,基于数据特征构建模块的特征构建方式,对未识别数据进行描述特征构建,形成预测集,利用得到的分类判断模型,判断变量是否为敏感字段,以及敏感字段的类型。
7.根据权利要求6所述的一种基于文本识别的敏感数据发现系统,其特征在于:所述构建训练样本模块中,采用BIO标注方法对文本数据集中的关键词进行标注:将每个元素标注为“B-X”、“I-X”或者“O”;其中,“X”表示标注元素所属类型,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
8.根据权利要求7所述的一种基于文本识别的敏感数据发现系统,其特征在于:所述训练样本标注模型模块中,所述文本标注模型包括表示层、Bi-LSTM层、CRF层,其中
表示层:句子中的每一个单元都代表着由字嵌入或词嵌入构成的向量;其中,字嵌入是随机初始化的,词嵌入是通过数据训练得到的;所有的嵌入在训练过程中都会调整到最优;
Bi-LSTM层:将表示层得到的字嵌入或者词嵌入向量作为作为双向LSTM各个时间步的输入;通过双向LSTM层训练,输出句子的每个词的所有标签的各自得分;
CRF层:该层使用Bi-LSTM层的输出—每个词的所有标签的各自得分,即发射概率矩阵,以及基于文本本身计算的转移概率矩阵,作为原始CRF模型的参数,最终获得标签序列的概率,选取概率值最大的标签类,即为每个词的类别。
9.根据权利要求6所述的一种基于文本识别的敏感数据发现系统,其特征在于:所述构建分类判断模型模块中,利用Catboost算法进行变量分类模型训练,具体为
梯度提升树模型表示为决策树的加法模型:
其中T(x;θm)表示决策树,θm为决策树的参数,M为树的个数;
采用前向分布算法,首先确定初始提升树f0(x)=0,第m步的模型是:
fm(x)=fm-1(x)+T(x;θm)
通过经验风险极小化确定下一棵树的参数:
Figure FDA0002294522700000042
GBDT使用贪婪靶向性统计方法处理分类型变量对应的标签的平均值来替换,其表达式为:
Figure FDA0002294522700000043
其中n表示样本数量,xi,k表示第i条记录第k个特征的值,Yi表示第i条记录对应的目标标签值。
10.根据权利要求9所述的一种基于文本识别的敏感数据发现系统,其特征在于:Catboost采用改进Greedy TBS的方式是添加先验分布项,表达式为:
Figure FDA0002294522700000044
其中P是添加的先验项,a为大于0的权重系数。
CN201911195301.3A 2019-11-28 2019-11-28 一种基于文本识别的敏感数据发现方法及系统 Active CN110826320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911195301.3A CN110826320B (zh) 2019-11-28 2019-11-28 一种基于文本识别的敏感数据发现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911195301.3A CN110826320B (zh) 2019-11-28 2019-11-28 一种基于文本识别的敏感数据发现方法及系统

Publications (2)

Publication Number Publication Date
CN110826320A true CN110826320A (zh) 2020-02-21
CN110826320B CN110826320B (zh) 2023-10-13

Family

ID=69543062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911195301.3A Active CN110826320B (zh) 2019-11-28 2019-11-28 一种基于文本识别的敏感数据发现方法及系统

Country Status (1)

Country Link
CN (1) CN110826320B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368527A (zh) * 2020-02-28 2020-07-03 上海汇航捷讯网络科技有限公司 一种键值匹配方法
CN111522946A (zh) * 2020-04-22 2020-08-11 成都中科云集信息技术有限公司 一种基于注意力长短期记忆循环神经网络的论文质量测评方法
CN111582825A (zh) * 2020-05-09 2020-08-25 焦点科技股份有限公司 一种基于深度学习的产品信息审核方法及系统
CN111611312A (zh) * 2020-05-19 2020-09-01 四川万网鑫成信息科技有限公司 一种利用规则引擎、区块链技术为基础的数据脱敏方法
CN111666414A (zh) * 2020-06-12 2020-09-15 上海观安信息技术股份有限公司 一种敏感数据检测云服务的方法和云服务平台
CN111753547A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN111752729A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种构建三层关联关系模型的方法及三层关系识别方法
CN112115264A (zh) * 2020-09-14 2020-12-22 中国科学院计算技术研究所苏州智能计算产业技术研究院 面向数据分布变化的文本分类模型调整方法
CN112232073A (zh) * 2020-11-06 2021-01-15 山西三友和智慧信息技术股份有限公司 一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法
CN112507376A (zh) * 2020-12-01 2021-03-16 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN113378156A (zh) * 2021-07-01 2021-09-10 上海观安信息技术股份有限公司 一种基于api的恶意文件检测方法和系统
CN114139540A (zh) * 2021-02-26 2022-03-04 上海观安信息技术股份有限公司 基于人工智能模型的敏感数据探测评估系统
CN114154503A (zh) * 2021-12-02 2022-03-08 四川启睿克科技有限公司 一种敏感数据类型识别方法
CN114417949A (zh) * 2020-10-13 2022-04-29 国际商业机器公司 敏感数据的选择性显示
CN114722141A (zh) * 2021-01-06 2022-07-08 腾讯科技(深圳)有限公司 文本检测方法及装置
CN115757823A (zh) * 2022-11-10 2023-03-07 魔方医药科技(苏州)有限公司 数据处理方法、装置、电子设备和存储介质
CN116306614A (zh) * 2022-12-14 2023-06-23 中科云谷科技有限公司 用于识别敏感词的方法、处理器、装置及存储介质
CN117951174A (zh) * 2023-12-29 2024-04-30 杭州数圭通科技有限公司 一种基于数据集的数据分类分级方法、装置、设备及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1647970A1 (en) * 2004-10-15 2006-04-19 Microsoft Corporation Hidden conditional random field models for phonetic classification and speech recognition
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
WO2018178162A1 (en) * 2017-03-28 2018-10-04 Koninklijke Philips N.V. Method and apparatus for intra- and inter-platform information transformation and reuse in predictive analytics and pattern recognition
CN108845988A (zh) * 2018-06-07 2018-11-20 苏州大学 一种实体识别方法、装置、设备及计算机可读存储介质
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
US20190180195A1 (en) * 2015-01-23 2019-06-13 Conversica, Inc. Systems and methods for training machine learning models using active learning
WO2019129775A1 (en) * 2017-12-25 2019-07-04 Koninklijke Philips N.V. A hierarchical entity recognition and semantic modeling framework for information extraction
CN110263166A (zh) * 2019-06-18 2019-09-20 北京海致星图科技有限公司 基于深度学习的舆情文本分类方法
WO2019184124A1 (zh) * 2018-03-30 2019-10-03 平安科技(深圳)有限公司 风控模型训练方法、风险识别方法、装置、设备及介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1647970A1 (en) * 2004-10-15 2006-04-19 Microsoft Corporation Hidden conditional random field models for phonetic classification and speech recognition
US20190180195A1 (en) * 2015-01-23 2019-06-13 Conversica, Inc. Systems and methods for training machine learning models using active learning
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
WO2018178162A1 (en) * 2017-03-28 2018-10-04 Koninklijke Philips N.V. Method and apparatus for intra- and inter-platform information transformation and reuse in predictive analytics and pattern recognition
WO2019129775A1 (en) * 2017-12-25 2019-07-04 Koninklijke Philips N.V. A hierarchical entity recognition and semantic modeling framework for information extraction
WO2019184124A1 (zh) * 2018-03-30 2019-10-03 平安科技(深圳)有限公司 风控模型训练方法、风险识别方法、装置、设备及介质
CN108845988A (zh) * 2018-06-07 2018-11-20 苏州大学 一种实体识别方法、装置、设备及计算机可读存储介质
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN110263166A (zh) * 2019-06-18 2019-09-20 北京海致星图科技有限公司 基于深度学习的舆情文本分类方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
IEEE: "Topic modelling enriched LSTM models for the detection of novel and emerging named entities from social media", 《2017 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》 *
IEEE: "Topic modelling enriched LSTM models for the detection of novel and emerging named entities from social media", 《2017 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》, 15 January 2018 (2018-01-15) *
张晓海等: "基于BI-LSTM-CRF的作战文书命名实体识别", 《信息工程大学学报》 *
张晓海等: "基于BI-LSTM-CRF的作战文书命名实体识别", 《信息工程大学学报》, no. 04, 15 August 2019 (2019-08-15) *
张淑静等: "基于Bi-LSTM-CRF算法的气象预警信息质控系统的实现", 《计算机与现代化》 *
张淑静等: "基于Bi-LSTM-CRF算法的气象预警信息质控系统的实现", 《计算机与现代化》, no. 06, 14 June 2019 (2019-06-14) *
金宸等: "基于双向LSTM神经网络模型的中文分词", 《中文信息学报》 *
金宸等: "基于双向LSTM神经网络模型的中文分词", 《中文信息学报》, no. 02, 15 February 2018 (2018-02-15) *
陈世梅等: "基于BiLSTM-CRF模型的汉语否定信息识别", 《中文信息学报》 *
陈世梅等: "基于BiLSTM-CRF模型的汉语否定信息识别", 《中文信息学报》, no. 11, 15 November 2018 (2018-11-15) *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368527B (zh) * 2020-02-28 2023-06-20 上海汇航捷讯网络科技有限公司 一种键值匹配方法
CN111368527A (zh) * 2020-02-28 2020-07-03 上海汇航捷讯网络科技有限公司 一种键值匹配方法
CN111522946A (zh) * 2020-04-22 2020-08-11 成都中科云集信息技术有限公司 一种基于注意力长短期记忆循环神经网络的论文质量测评方法
CN111582825B (zh) * 2020-05-09 2021-02-12 焦点科技股份有限公司 一种基于深度学习的产品信息审核方法及系统
CN111582825A (zh) * 2020-05-09 2020-08-25 焦点科技股份有限公司 一种基于深度学习的产品信息审核方法及系统
CN111611312A (zh) * 2020-05-19 2020-09-01 四川万网鑫成信息科技有限公司 一种利用规则引擎、区块链技术为基础的数据脱敏方法
CN111666414A (zh) * 2020-06-12 2020-09-15 上海观安信息技术股份有限公司 一种敏感数据检测云服务的方法和云服务平台
CN111666414B (zh) * 2020-06-12 2023-10-17 上海观安信息技术股份有限公司 一种敏感数据检测云服务的方法和云服务平台
CN111752729A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种构建三层关联关系模型的方法及三层关系识别方法
CN111752729B (zh) * 2020-06-30 2023-06-27 上海观安信息技术股份有限公司 一种构建三层关联关系模型的方法及三层关系识别方法
CN111753547A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN111753547B (zh) * 2020-06-30 2024-02-27 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN112115264A (zh) * 2020-09-14 2020-12-22 中国科学院计算技术研究所苏州智能计算产业技术研究院 面向数据分布变化的文本分类模型调整方法
CN112115264B (zh) * 2020-09-14 2024-03-22 中科苏州智能计算技术研究院 面向数据分布变化的文本分类模型调整方法
CN114417949A (zh) * 2020-10-13 2022-04-29 国际商业机器公司 敏感数据的选择性显示
CN112232073A (zh) * 2020-11-06 2021-01-15 山西三友和智慧信息技术股份有限公司 一种基于Bi-LSTM神经网络的文本规范性检测系统及检测方法
CN112507376A (zh) * 2020-12-01 2021-03-16 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN112507376B (zh) * 2020-12-01 2024-01-05 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN114722141A (zh) * 2021-01-06 2022-07-08 腾讯科技(深圳)有限公司 文本检测方法及装置
CN114722141B (zh) * 2021-01-06 2025-09-19 腾讯科技(深圳)有限公司 文本检测方法及装置
CN114139540A (zh) * 2021-02-26 2022-03-04 上海观安信息技术股份有限公司 基于人工智能模型的敏感数据探测评估系统
CN113378156A (zh) * 2021-07-01 2021-09-10 上海观安信息技术股份有限公司 一种基于api的恶意文件检测方法和系统
CN114154503A (zh) * 2021-12-02 2022-03-08 四川启睿克科技有限公司 一种敏感数据类型识别方法
CN115757823A (zh) * 2022-11-10 2023-03-07 魔方医药科技(苏州)有限公司 数据处理方法、装置、电子设备和存储介质
CN115757823B (zh) * 2022-11-10 2024-03-05 魔方医药科技(苏州)有限公司 数据处理方法、装置、电子设备和存储介质
CN116306614A (zh) * 2022-12-14 2023-06-23 中科云谷科技有限公司 用于识别敏感词的方法、处理器、装置及存储介质
CN117951174A (zh) * 2023-12-29 2024-04-30 杭州数圭通科技有限公司 一种基于数据集的数据分类分级方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110826320B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN110826320A (zh) 一种基于文本识别的敏感数据发现方法及系统
CN113535963B (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN117592470A (zh) 大语言模型驱动的低成本公报数据抽取方法
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN120317233A (zh) 基于文本自动化的招标文件智能生成方法及系统
CN116955534A (zh) 投诉工单智能处理方法、装置、设备及存储介质
CN115952770A (zh) 一种数据标准化的处理方法、装置、电子设备及存储介质
CN109101487A (zh) 对话角色区分方法、装置、终端设备及存储介质
CN109993381B (zh) 基于知识图谱的需求管理应用方法、装置、设备及介质
CN110532374B (zh) 保险信息的处理方法及装置
CN119441496A (zh) 论文撤稿原因自动分类系统
CN112115705B (zh) 一种电子简历的筛选方法及装置
CN114065934B (zh) 一种环境影响评价领域语义知识库构建方法及系统
CN118445416A (zh) 非结构化数据的主题聚类分析方法和装置
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN110569435B (zh) 智能双端推荐引擎系统和方法
CN115293867A (zh) 财务报销用户画像优化方法、装置、设备及存储介质
CN113158645A (zh) 一种报文解析方法及装置、电子设备、计算机存储介质
CN120873875B (zh) 机器学习驱动的电子函件附件智能分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant