CN113822018A

CN113822018A - 实体关系联合抽取方法

Info

Publication number: CN113822018A
Application number: CN202111086348.3A
Authority: CN
Inventors: 赵薇
Original assignee: Hunan Police Academy
Current assignee: Hunan Police Academy
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-21
Anticipated expiration: 2041-09-16
Also published as: CN113822018B

Abstract

本发明涉及计算机技术领域，公开了一种实体关系联合抽取方法，本发明通过BiLSTM对待测语句进行编码，获取token的固定维表示；利用两个自注意力层和门控制机制捕获实体表征之间的权重值，从而获得所述待测语句对应的实体；利用GANCE模型对所述实体进行解码获得预测关系；引入同方差不确定性来实现自动加权损失计算，并更新预测关系获得最终抽取结果，由于采用双重自注意力机制和门控制机制动态融合标签信息，有效获取实体远距离依赖关系，并引入同方差不确定性自动平衡NER和RE两个子任务的权重损失，实现了在实体关系抽取中提升了准确性的技术效果。

Description

实体关系联合抽取方法

技术领域

本申请涉及计算机技术领域，特别是涉及一种实体关系联合抽取方法。

背景技术

实体识别与关系抽取作为文本挖掘中的重要步骤，近年来成为研究的热点。其主要目的是从非结构化文本中自动地抽取实体以及相关实体关系结构，在知识图谱构建，信息检索和系统问答等自然语言处理任务中起着至关重要的作用。

传统的实体关系抽取分为两个步骤，即以管道式模式进行命名实体识别(NameEntityRecognize，NER)和关系抽取(RelationExtract，RE)。然而该方法存在错误传递的缺点，即在NER步骤中产生的错误会影响RE的效果。，该方法的两个子任务在交互过程中忽略了任务相关性，然而这两个子任务之间的相关性是有助于提高关系抽取的识别率。尽管先前的工作已经取得很大成果，然而这些方法仍然存在不足。首先，目前所提出的联合模型或管道模型没有关注两个子任务损失的权重问题，忽略了任务之间的相对权重损失。然而对于联合模型来说，正确的权重损失对于抽取结果是至关重要的。其次，关系抽取通常情况下依赖的是一些相关实体，而并不是句中的所有单词。因此，如何提升在实体关系抽取中的准确性成为了一个亟待解决的问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种实体关系联合抽取方法，旨在解决现有技术无法提升实体关系抽取准确性的技术问题。

为实现上述目的，本发明提供了一种实体关系联合抽取方法的方法，所述方法包括：

通过BiLSTM对待测语句进行编码，获取token的固定维表示；

利用两个自注意力层和门控制机制捕获实体表征之间的权重值，从而获得所述待测语句对应的实体；

利用GANCE模型对所述实体进行解码获得预测关系；

引入同方差不确定性来实现自动加权损失计算，并更新预测关系获得最终抽取结果。

可选地，所述通过BiLSTM对待测语句进行编码，获取token的固定维表示的步骤之前，还包括：

使用分布式特征表示作为BiLSTM的输入。

可选地，利用两个自注意力层和门控制机制捕获实体表征之间的权重值，从而获得所述待测语句对应的实体的步骤之前，还包括：

利用自注意力机制构建两个注意力层，并选择比例点积的方法。

可选的，所述利用GANCE模型对所述实体进行解码获得预测关系的步骤之前，还包括：

收集待训练参数，获取所述参数中的标签；

利用门控机制动态的所述将标签信息融合到模型GANCE中，以对模型进行训练。

可选地，所述收集待训练参数，获取所述参数中的标签的步骤，包括：

收集待训练参数，采用BIO标注方式对所述待训练参数进行标注以获得对应的标签；

采用随机初始化的向量作为标签的模型初次输入。

可选地，所述利用门控机制动态的所述将标签信息融合到模型GANCE中，以对模型进行训练的步骤，包括：

利用门控机制动态的将标签信息融合到模型GANCE中，其具体方法为：

α＝σ(W_tM^t+W_lL+b_f)

M^F＝α⊙M^t+(1-α)⊙L

其中，W_t,W_t∈R^2d*2d,b_f∈R^2d，σ是一个sigmoid激活函数，⊙是同位元素乘法，M^F作为输入，将融合了token的标签空间信息转换为token-label形式，并将token-label融合向量[m₂ ^F,m₂ ^F,m₃ ^F,...,m_n ^F]作为queries、keys和values矩阵传递给矩阵，并且token-label融合的隐藏表示被记作M^t-1，具体公式如下：

M^t-1＝SAN(M^F,M^F,M^F)。

可选地，所述引入同方差不确定性来实现自动加权损失计算，并更新预测关系获得最终抽取结果的步骤，包括：

引入不确定性来实现自动加权损失计算，具体计算公式为：

L_joint(w；θ)＝L′_ner+L′_re

其中:

本发明通过BiLSTM对待测语句进行编码，获取token的固定维表示；利用两个自注意力层和门控制机制捕获实体表征之间的权重值，从而获得所述待测语句对应的实体；利用GANCE模型对所述实体进行解码获得预测关系；引入同方差不确定性来实现自动加权损失计算，并更新预测关系获得最终抽取结果，由于采用双重自注意力机制和门控制机制动态融合标签信息，有效获取实体远距离依赖关系，并引入同方差不确定性自动平衡NER和RE两个子任务的权重损失，实现了在实体关系抽取中提升了准确性的技术效果。

附图说明

图1为本发明实体关系联合抽取方法方法第一实施例的流程示意图；

图2为本发明实体关系联合抽取方法方法第一实施例中GANCE模型的总体框架图；

图3为本发明实体关系联合抽取方法装置第一实施例的自注意力模块的结构图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一实体关系联合抽取方法，参照图1，图1为本发明实体关系联合抽取方法方法第一实施例的流程示意图。

本实施例中，所述实体关系联合抽取方法方法包括以下步骤：

步骤S10：通过BiLSTM对待测语句进行编码，获取token的固定维表示。

需要说明的是，通过字级别编码器和自注意模块获得token representation，通过随机初始化向量得到低维标签，再次通过结合门控制机制与自注意力机制抽取相关实体。其中模型中的条件随机场(CRF)和多头机制分别用于对NER和RE两个部分进行解码。

可以理解的是，如图2所示的GANCE模型的总体框架图，其中输入的语句为：TheDemocarats elected Ohio`s Richard Celeste to be chairman of the DemocraticGovernors`Association,beginning in January.

需要说明的是，分布式特征表示(Distributed Representation)在自然语言处理领域应用广泛，尤其是在深度学习方法中。通过分布式特征表示可以将句子中的离散单词映射成连续输入嵌入。假设给定一个句子w＝w¹,...,w_n为一个tokens序列，句中的每个token wi映射到一个实值嵌入

其表示token wi的语义和句法意义。本实施例采用字符嵌入、词嵌入和ELMo(Embeddings from Language Models)嵌入三个部分作为最终嵌入。其中字符嵌入是通过BiLSTM对字符序列进行编码获得。ELMo嵌入则与常用的词嵌入不同，ELMO的词表示是基于整个句子的，并且使用的是双向语言模型(包含两层结构和字母级卷积)，主要用于解决一词多义的问题。本实施例使用该分布式特征表示作为BiLSTM的输入，实现对token序列的编码。

在具体实施中，给定一个输入嵌入向量X＝(x₁,...,x_n)，其中n为句子长度，X作为BiLSTM的输入：

然后，在每个时间步长连接前向和后向LSTM的输出。

进一步的，所述过BiLSTM对待测语句进行编码，获取token的固定维表示的步骤之前，还包括：使用分布式特征表示作为BiLSTM的输入。

步骤S20：利用两个自注意力层和门控制机制捕获实体表征之间的权重值，从而获得所述待测语句对应的实体。

需要说明的是，自注意力机制(self attention)是注意力机制(attention)中的一种，也是transformer中的重要组成部分。它充分考虑的是句子之间不同词语之间的语义以及语法联系，并且可以对长距离的依赖信息进行建模。因此，通过自注意力机制计算得到的词向量，会更进一步地考虑了上下文之间的联系。

在具体实施中，构建模型中的两个注意力层，并选择比例点积的方法。比例点积的方法能够实现更加高效的计算。假设给定一个有n个query向量的矩阵，Q∈R^n*2d，keys K∈R^n*2d和V∈R^n*2d。根据如下计算其值：

在现实

世界的数据，大多数情况下相关性实体具有远距离的特点，为了进一步提升模型捕捉远距离依赖实体的能力，更有效的提取在长距离情况下的相关实体，本实施例利用多头自注意力机制能够将模型分成多个头去关注不同子空间的不同信息的特点来优化模型。

其中，W_i ^Q∈R^2d*2d/h，W_i ^K∈R^2d*2d/h和W_i ^V∈R^2d*2d/h是可训练参数矩阵，分别对应与queries、keys和values。然后使用缩放的点积注意力计算queries和keys之间的相关性，并输出。最后将所有由平行头部产生的向量拼接在一起形成一个向量。

同样，将来自不同头部的不同通道进行合并：

M(Q,K,V)＝Concat(head₁,...,head_i)W^o其中，W_i ^o∈R^2d*2d。

最后，应用残差连接和层归一化在H和MF上生成最终输出特征分别为M t和M t-1。其中，句子向量H＝[h₁,h₂,h₃,...,h_n]作为queries、keys和values矩阵提供给自注意力机制。将M^t∈R^n*2d作为输出。在本实施例中，我们设置h＝8作为平行头部数。为简单起见，我们将整个自注意力模块定义为：

M^t＝SAN(H,H,H)

如图3所示，两个自注意力模块分别对应不同类型的输入。第一个模块中取输入特征为H，输出特征为M^t。另一个模块中取输入特征为M^F，输出特征为M^t-1。

进一步地，所述利用两个自注意力层和门控制机制捕获实体表征之间的权重值，从而获得所述待测语句对应的实体的步骤之前，还包括：利用自注意力机制构建两个注意力层，并选择比例点积的方法。

步骤S30：利用GANCE模型对所述实体进行解码获得预测关系。

需要说明的是，本实施例采用BIO(Beginning，Inside，Outside)标注方式，且采用随机初始化的向量作为每个标签表示的模型初次输入，并在训练过程中进行微调，从而得到标签向量序列

其中d_l为标签的嵌入维数。值得注意的是，本实施例在训练过程中使用ground-truth标签，推论过程中使用预测标签。

可以理解的是，本实施例采用门控机制动态的将标签信息融合到模型中。这种融合的方式不是以一种简单、机械的方式，如M_f＝M^t+L将token和标签信息结合起来，也不是以“连接”方式来融合二者，而是根据语句中具体语境信息来进行动态的调整。

需要说明的是，标准的条件随机场CRF层通常用于NER的标签预测，该层将自感知token特征

作为输入，输出预测标签序列的概率Y＝y₁,...,y_n。设Y′表示一个任意标签分布序列(即BIO标记组合)，标签序列的概率Y可通过以下softmax函数计算得到：

其中，

为势函数，W_n和b_n分别为对应标签对(y_n-1,y_n)的权重向量和偏置。

在具体实施中，本实施例通过多头机制来预测相关实体关系。令token-label融合表示特征

作为输入，C＝{c1,c2,...ck}表示一组关系标签集合。多头机制的预测指的是预测每个元组(w_i,w_j,c_k)的得分，其中w_i是关系头，w_j是关系尾，c_k则表示二者之间属于C集合中的第k种关系。需要注意的是每一对tokens的<w_i,w_j>是有多个头部的，每个不同的头部可以计算得到一个关系的得分。对于给定的w_i和w_j之间的关系c_k，计算公式如下：

其中，V∈R^z,W∈R^z*2d,U∈R^z*2d,b_r∈R^z，z是层的宽度。接下来选择w_i作为w_j的头部的这种关系c_k的概率计算公式如下：

其中，σ为sigmoid函数。

进一步的，所述利用GANCE模型对所述实体进行解码获得预测关系的步骤之前，还包括：收集待训练参数，获取所述参数中的标签；利用门控机制动态的所述将标签信息融合到模型GANCE中，以对模型进行训练。

进一步的，所述收集待训练参数，获取所述参数中的标签的步骤，包括：收集待训练参数，采用BIO标注方式对所述待训练参数进行标注以获得对应的标签；采用随机初始化的向量作为标签的模型初次输入。

进一步的，所述利用门控机制动态的所述将标签信息融合到模型GANCE中，以对模型进行训练的步骤，包括：利用门控机制动态的将标签信息融合到模型GANCE中，其具体方法为：

α＝σ(W_tM^t+W_lL+b_f)

M^F＝α⊙M^t+(1-α)⊙L

M^t-1＝SAN(M^F,M^F,M^F)。

需要说明的是，本实施例采用门控机制动态的将标签信息融合到模型中。这种融合的方式不是以一种简单、机械的方式，如M_f＝M^t+L将token和标签信息结合起来，也不是以“连接”方式来融合二者，而是根据语句中具体语境信息来进行动态的调整。

步骤S40：引入同方差不确定性来实现自动加权损失计算，并更新预测关系获得最终抽取结果。

进一步的，所述引入同方差不确定性来实现自动加权损失计算，并更新预测关系获得最终抽取结果的步骤，包括：引入不确定性来实现自动加权损失计算，具体计算公式为：

L_joint(w；θ)＝L′_ner+L′_re

其中:

根据计算结果更新预测关系获得最终抽取结果。

在具体实施中，为了更好地评估模型的性能，本实施例在CoNLL04和ADE两个数据集上分别进行了实验。CoNLL04数据集包含了从新闻文章中提取出的带注释的命名实体和关系的句子，主要分为4种实体类型(“Location”,”Organization”,”Person”,”Other”)和5种关系类型(“Kill”,”Live in”,”Located in”,”OrgBased in”和”Work for”)。数据集中910个用于训练，243个用于验证，288个用于测试。ADE数据集的目的是抽取”Drugs”和”Diseases”这两种实体，以及药物和疾病之间的相关匹配关系。为了与之前的工作进行比较，我们学习了之前在ADE数据集的方法[22,21]，也采用10层交叉验证法来进行模型评估。评价指标采用通用的准确率(P)、召回率(R)和F1值。评判标准是NER中提取的实体边界和类型都应该是正确的，RE中命名实体与其关系类型也都应该是正确的。

在具体实施中，为了规范模型网络，本文采用dropout来进行衡量。两个数据集上的嵌入dropout率均为0.1，BiLSTM的dropout率分别为0.1和0.3。设置3个BiLSTM层，其隐藏维度规格d为64。设置标签嵌入(label embedding)维度d_l为25，选择学习率为0.0005的Adam优化函数来优化损失。字符嵌入的大小为128，ELMo的嵌入维度为1024。训练收敛需要180个epochs。

本实施例通过BiLSTM对待测语句进行编码，获取token的固定维表示；利用两个自注意力层和门控制机制捕获实体表征之间的权重值，从而获得所述待测语句对应的实体；利用GANCE模型对所述实体进行解码获得预测关系；引入同方差不确定性来实现自动加权损失计算，并更新预测关系获得最终抽取结果，由于采用双重自注意力机制和门控制机制动态融合标签信息，有效获取实体远距离依赖关系，并引入同方差不确定性自动平衡NER和RE两个子任务的权重损失，实现了在实体关系抽取中提升了准确性的技术效果。

本发明实体关系联合抽取方法装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种实体关系联合抽取方法，其特征在于，所述方法包括：

通过BiLSTM对待测语句进行编码，获取token的固定维表示；

利用GANCE模型对所述实体进行解码获得预测关系；

2.如权利要求1所述的方法，其特征在于，所述通过BiLSTM对待测语句进行编码，获取token的固定维表示的步骤之前，还包括：

使用分布式特征表示作为BiLSTM的输入。

3.如权利要求1所述的方法，其特征在于，所述利用两个自注意力层和门控制机制捕获实体表征之间的权重值，从而获得所述待测语句对应的实体的步骤之前，还包括：

4.如权利要求1所述的方法，所述利用GANCE模型对所述实体进行解码获得预测关系的步骤之前，还包括：

收集待训练参数，获取所述参数中的标签；

5.如权利要求4所述的方法，其特征在于，所述收集待训练参数，获取所述参数中的标签的步骤，包括：

采用随机初始化的向量作为标签的模型初次输入。

6.如权利要求4所述的方法，其特征在于，所述利用门控机制动态的所述将标签信息融合到模型GANCE中，以对模型进行训练的步骤，包括：

α＝σ(W_tM^t+W_lL+b_f)

M^F＝α⊙M^t+(1-α)⊙L

M^t-1＝SAN(M^F,M^F,M^F)。

7.如权利要求1所述的方法，其特征在于，所述引入同方差不确定性来实现自动加权损失计算，并更新预测关系获得最终抽取结果的步骤，包括：

引入不确定性来实现自动加权损失计算，具体计算公式为：

L_joint(w；θ)＝L′_ner+L′_re

其中:

根据计算结果更新预测关系获得最终抽取结果。