CN107818164A

CN107818164A - 一种智能问答方法及其系统

Info

Publication number: CN107818164A
Application number: CN201711061534.5A
Authority: CN
Inventors: 张邦佐; 武志远; 孙小新; 冯国忠
Original assignee: Northeast Normal University
Current assignee: Northeast Normal University
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-03-20

Abstract

本申请提供一种智能问答方法及智能问答系统，用于解决现有的智能问答方法中针对性差、问答准确率低的技术问题。本申请的智能问答方法，包括如下步骤：步骤S1、建立相关领域的知识图谱；步骤S2、将用户问题的语音转化成文本；步骤S3、使用skip‑gram模型将文本向量化，生成问题向量矩阵；步骤S4、使用卷积神经网络将问题向量矩阵生成问题特征向量；步骤S5、计算用户问题特征向量与候选答案特征向量的相似度；步骤S6、通过排序学习反馈给用户答案。

Description

一种智能问答方法及其系统

技术领域

本申请涉及文本处理技术领域，具体涉及一种智能问答方法及其系统。

背景技术

智能问答系统可以根据知识领域划分成封闭领域和开放领域两种类型，封闭领域专注于回答特定领域的问题，提问者仅能问一些领域相关的问题并获取答案。开放领域系统则不设置问题的范围，提问者可以提出自己感兴趣的话题，并且从该类系统中得到自己想要的解答。

目前流行的问答机器人大多是基于开放领域的智能问答系统，如以互联网预料及用户点击日志为基础的微软小冰，以百度搜索日志为基础的百度语音助手等，这些开放型的智能机器人无法针对特定领域(如政府、金融、保险等)的问题实现精准的回答，准确度低。

发明内容

本发明的目的在于提出一种智能问答方法及智能问答系统，用于解决现有技术中针对性差、问题回答准确率低的技术问题。

本申请的智能问答方法，包括如下步骤：

步骤S1、建立相关领域的知识图谱；

步骤S2、将用户问题的语音转化成文本；

步骤S3、使用skip-gram模型将文本向量化，生成问题向量矩阵；

步骤S4、使用卷积神经网络将问题向量矩阵生成问题特征向量；

步骤S5、计算用户问题特征向量与候选答案特征向量的相似度；

步骤S6、通过排序学习反馈给用户答案。

可选地，步骤S1中，知识图谱的建立包括如下步骤：

步骤R1、对高价值信息进行检测，抽取数据块；

步骤R2、将自然语言文本中的信息与知识库中的条目进行链接；

步骤R3、对自然语言文本进行开放抽取，获取相应的三元组；

步骤R4、将抽取的三元组进行验证集成。

优选地，步骤S3中，skip-gram模型将文本向量化时，对于给定单词序列w₁，w₂，...，w_n，该模型的优化目标公式如下：

式中，p表示第t+j个词在t个词出现的情况下出现的概率；c是训练上下文的长度；

skip-gram模型使用softmax函数来优化参数，优化公式如下：

式中，ν_w是单词w的输入向量；ν’_w是单词w的输出向量；W是词表中单词的数量。

可选地，skip-gram模型优化参数的方法包括：层次softmax、负采样和二次采样中的一种或多种。

可选地，步骤S4包括如下步骤：

步骤T1、将问题向量矩阵用二元卷积神经网络生成卷积神经网络；

步骤T2、问题向量矩阵经第一卷积层、第一采样层、第二卷积层和第二采样层后变换到输出层，生成问题向量。

优选地，问题向量生成模型的训练目标公式如下：

L＝max(mar-x^T·x₊+x^T·x_-)₊ (公式3)

其中，x为有卷积神经网络生成的问题向量；x₊为与向量x属于同一类的抽样向量；x_-为不属于向量x所属类的抽样向量。

可选地，问题向量矩阵经由第二采样层变换到输出层的函数如下公式所示：

x＝W₀ tanh(y) (公式4)

其中，x表示输出向量；y表示第二采样层向量；W₀表示加权变换时的权值信息。

可选地，步骤S5中，在问题特征向量与候选答案特征向量进行比较时，进行相似度打分，包括问题特征向量相似度打分、问题特征向量与所有答案向量的相似度打分。

优选地，问题特征向量与所有答案向量的相似度打分的公式如下：

r'＝v·M'·c (公式5)

其中，r’是结果向量，维度与已知答案的格式k相同；ν是待测评问句向量；M’是一个n×k维矩阵，每一列表示一个已知答案的答案向量；C是一个k维向量，向量中每一维表示该维所对应的结果中关键字与问题关键字的相似程度。

本申请提出的智能问答方法，在用户使用该问答系统时，使用系统匹配到的与用户提问问题相似度最高的答案反馈给用户，通过文本向量化技术，将问题抽象成特征向量，之后再利用基于深度学习的方法计算用户问题和知识图谱候选答案的相似度，最后挑选相似度最高的答案作为最优答案反馈给用户。本申请的智能问答系统，针对性好，准确度高。

本申请还提出一种智能问答系统，包括：

知识建立模块，用于建立相关领域的知识图谱；

语音转化模块，用于将用户问题的语音转化为文本；

问题向量矩阵生成模块，用于使用skip-gram模型将文本向量化，生成问题向量矩阵；

问题特征向量生成模块，用于使用卷积神经网络将问题向量矩阵生成问题特征向量；

相似度对比模块，用于计算用户问题特征向量与候选答案特征向量的相似度；

答案生成模块，用于通过排序学习反馈给用户答案。

本申请的智能问答系统与智能问答方法的效果相同，在此就不一一赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请的智能问答方法的流程图；

图2是本申请的建立相关领域的知识图谱的流程图；以及

图3是本申请的使用卷积神经网络将问题向量矩阵生成问题特征向量的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提出一种智能问答方法，图1是本申请的智能问答方法的流程图。如图1所示，本申请的智能问答方法包括如下步骤：

步骤S1、建立相关领域的知识图谱。

传统的信息抽取的方法包括：字典匹配、分割候选分类、滑动窗口分类器、边界模型、有限状态自动机、上下文无关法。本申请的建立相关领域的知识图谱的方法区别于传统信息抽取的方法。

可选地，图2是本申请的建立相关领域的知识图谱的流程图，如图2所示，知识图谱的建立包括如下步骤：

步骤R1、对高价值信息进行检测，抽取数据块；

可选地，以目标知识为例，找到最容易抽取的数据块，面向知识图谱的抽取以知识为核心，目标是覆盖要抽取的知识，不覆盖所有文档，而是覆盖信息价值较高的文档，大大降低了信息抽取的难度。着重挖掘高价值结构，例如：Wikipedia，Infobox，Web Table。其中，高价值文本可为：匹配特定模板的文本、概念定义句。

可选地，将自然语言文本中的信息与知识库中的条目进行链接，把现有的知识图谱和信息抽取的结果集成起来，识别不同数据源中同一知识的冗余表示，处理表示的歧义性，提升信息抽取性能。

具体地，本申请的智能问答系统使用开放抽取(Open IE)，通过识别表达语义关系的短语来抽取实体之间的关系，同时使用句法和统计数据来过滤抽取出来的三元组，无需预定义关系类型，解决了传统抽取方法的缺点，提高了信息抽取的性能。

步骤R4、将抽取的三元组进行验证集成。

可选地，将抽取的三元组进行验证集成后，即实现了相关领域的知识图谱的建立。

步骤S2、将用户问题的语音转化成文本；

可选地，语音转换成文本目前有成熟的解决方案，可以免费使用百度语音、讯飞语音提供的语音识别工具解决该问题。另外，用户的问题也可以直接为输入的文本。

可选地，skip-gram模型是一种可以将词语转化成向量的模型，其训练目标是训练出能够帮助预测在一句话或者一篇文档中周围的向量。对于给定单词序列w₁，w₂，...，w_n，该模型的优化目标公式如下：

skip-gram模型使用softmax函数来优化参数，优化公式如下：

式中，ν_w是单词w的输入向量；ν’_w是单词w的输出向量；W是词表中单词的数量。p(w_o|w₁)的表述的是w₀号词在w₁号词出现的情况下出现的几率。

可选地，skip-gram模型优化参数的方法包括：层次化softmax、负采样和二次采样技术。

其中，层次化softmax是一种效果近似于全空间softmax的优化方法；层次化softmax将训练样本词典构建为一颗以单词出现频率为键值的哈弗曼树，在每次训练中不仅更新训练单词的词向量，同时更新从哈弗曼树根节点到训练样本节点的路径上的所有节点。

负采样技术采用最大间隔的方法，将词典中其他词的词向量与训练样本词向量距离优化至近似余弦设置的间隔。

二次采样技术也是提高词向量生成模型的方法。在实际大规模语料中，高频词汇高频词通常就是停用词(如英语中的“the”、汉语中的“的”)。一方面，这些高频词只能带来非常少量的语义信息，比如几乎所有的词都会和“的”共同出现，但是并不能说明这些词的语义都相似。另一方面，训练高频词本身占据了大量的时间，但在迭代过程中，这些高频词的词向量变化并不大。具体而言，如果词w在语料中的出现频率f(w)大于阈值t，则有p(w)的概率在训练时跳过这个词，公式如下：

其中，t为阈值；f(w)为词w在语料中出现的频率；p(w)为训练时跳过这个词的概率。阈值t为设定的数值，示例性地，阈值t可取5，10或者20中的任一数值。

在本专利模型的实际使用中，该公式根据实际情况，也可以写成：

其中，公式中各字符的定义与公式3中的定义一致。

可选地，卷积神经网络可用于图像或文本信息维度，生成向量；图3是本申请的使用卷积神经网络将问题向量矩阵生成问题特征向量的流程图。如图3所示，步骤S4包括如下步骤：

可选地，用户提出的问题通常会归属于某一类或者某几类，因此能够将用户提出的问题作为分类问题，并作为模型训练目标。经研究证明，二元卷积神经网络生成的卷积神经网络能够达到最优的分类准确率。

问题向量生成模型的训练目标公式如下：

L＝max(mar-x^T·x₊+x^T·x_-)₊ (公式5)

其中，L为损失函数；mar为根据实际情况设置的常数，通过改变该常数控制正样本和负样本的间距；x为有卷积神经网络生成的问题向量；x₊为与向量x属于同一类的抽样向量；x_-为不属于向量x所属类的抽样向量。

可选地，输入问题向量矩阵变换到第一卷积层的变换函数如下图公式所示：

t_j＝W₁a_i:i+l (公式6)

t为卷积层向量；l为卷积元包含的输入向量个数，a_i:i+l向量为a_i，...，a_i+l,l个输入向量首尾拼接而成；W₁为输入层生成局部卷积神经元的权值信息，不同局部卷积元间共享同一个权值矩阵。需要说明的是，在表示某个元素的权值信息时，可以将权值信息的1写为上标，下标表示某个元素的坐标。

采样层向量由卷积层采样得出，第一采样层、第二采样层分别由第一卷积层、第二卷积层采样得出，采样方法有三种。第一种是将卷积层向量的均值作为采样层向量(见公式7)，第二种是将卷积层向量的每一维度的最大值作为采样层向量(见公式8)，第三种是将卷积层向量的每一维度的绝对值最大的样本采样作为采样层同一纬度的值(见公式9)。采样方法公式如下所示：

其中，y为采样层向量，向量为k维向量，t为卷积神经元的向量，t_i和t_j表示的是第i层和第j层神经网络，为第j层神经网络的第α个元素；c为训练上下文的长度。

可选地，问题向量由第二采样层变换到输出层的函数如下公式所示：

x＝W₀tanh(y) (公式10)

其中，x表示输出向量；y表示第二采样层向量；W₀表示加权变换时的权值信息。需要说明的是，在表示某个元素的权值信息时，可以将权值信息的0写为上标，下标表示某个元素的坐标。

本专利采用随机梯度下降(Stochastic gradient descent，SGD)的方法优化参数。在训练过程中，模型随机采样一个正样本和一个负样本，其中正样本为属于训练样本所属类的样本，负样本为不属于训练样本所属类的样本。损失函数对训练向量和采样向量的导数如下所示

输出层向量能够由采样层向量以及变换权值矩阵得到，因此输出层向量对采样层向量和权值矩阵的导数如下所示，即可对公式(10)进行求导：

采样层向量由卷积层向量生成，对于三种采样方法，采样层向量对卷积层向量的导数如下公式所示：

卷积层向量由输入层向量和卷积层权值矩阵生成，每个局部神经元向量对输入层向量和卷积层权值矩阵的导数如下公式所示：

其中，a是输入层向量；t是卷积层向量；上标c代表某一层；W_ij是权重矩阵w矩阵的第i行j列的元素；W_i是权重矩阵第i行。

每一次训练过程中，损失函数(公式5)对于输入向量、输入层生成局部卷积元的权值矩阵以及采样层到输出层的变换矩阵的梯度可由如下公式得到：

本专利涉及的智能问答系统采用的训练语料是限定领域内的常用问题回答集合以及扩展问题的集合，因此向量生成模型选用更新向量的调节参数策略，准确度高。

可选地，在问题特征向量与候选答案特征向量进行比较时，进行相似度打分，包括问题特征向量相似度打分、问题特征向量与所有答案向量的相似度打分。分数高的答案向量为最终的答案向量。

需要说明的是，问题特征向量相似度打分，是给定一个问题，通过问句向量生成模型将其生成为n维的问句向量，度量不同问题之间的相似度如下公式所示：

r＝v·M (公式23)

其中，r是结果向量，维度与已知问题的个数m相同；ν是待测评问句向量；M是一个n×m维矩阵，每一列表示一个与之问题的问题向量。

需要解释的是，问题特征向量与所有答案向量的相似度打分，是给定一个问题，生成该问题与所有答案的相似度打分如下公式所示：

r'＝v·M'·c (公式24)

其中，r’是结果向量，维度与已知答案的格式k相同；ν是待测评问句向量，M’是一个n×k维矩阵，每一列表示一个已知答案的答案向量；C是一个k维向量，向量中每一维表示该维所对应的结果中关键字与问题关键字的相似程度。

另外，c的计算公式如下：

其中，Q是待测评的问题；Q_key是待测评问题中的关键词；是第t篇文档中所含关键词。

步骤S6、通过排序学习反馈给用户答案。

可选地，排序学习方法是基于Listwise方法的Listnet学习方法。

在限定领域的的常用问答集合中，已知一系列问题集合Q＝{q⁽¹⁾,...,q⁽ⁿ⁾},通过现有的模型，对于某一个问题q⁽ⁱ⁾其对应的文档集合d(i)＝{d₁ ⁽ⁱ⁾,d₂ ⁽ⁱ⁾...d_n ⁽ⁱ⁾}，对于问题q(i)现有模型能够生成问题与其对应的文档集合的打分y(i)＝(y₁(i),y₂(i),...,y_n(i))。任意一个打分y_k(i),现有模型通过提取一组特征通过给定的计算公式来生成打分。

首先通过之前的模型，把候选答案集的文本转换成文本向量，得到候选答案向量d。把用户问题的文本转化成文本向量,得到问题向量q。用函数g直接把两个向量拼接在一起。

g(d,q)＝concatenate(d,q) (公式26)

拼接之后得到向量c，假设有i个候选答案，一个用户问题，那么可以用户问题和不同的候选答案拼接在一起，可以得到i个拼接向量,即：

c_i＝g(d_i,q) (公式27)

对于不同的答案-问题拼接向量c，我们可以使用训练好的打分函数f，对所有的c进行打分，然后取打分最高的拼接向量c_j，那么具有相同下标的候选答案即为系统最佳匹配的答案。

index是对于所有答案-问题向量打分，得到的打分最高的向量的索引。

本申请提出的智能问答方法，在用户使用该智能问答方法时，使用系统匹配到的与用户提问问题相似度最高的答案反馈给用户，通过文本向量化技术，将问题抽象成特征向量，之后再利用基于深度学习的方法计算用户问题和知识图谱候选答案的相似度，最后挑选相似度最高的答案作为最优答案反馈给用户。本申请的智能问答系统，针对性好，准确度高。

本申请还提出一种智能问答系统，包括：知识建立模块，用于建立相关领域的知识图谱；语音转化模块，用于将用户问题的语音转化为文本；问题向量矩阵生成模块，用于使用skip-gram模型将文本向量化，生成问题向量矩阵；问题特征向量生成模块，用于使用卷积神经网络将问题向量矩阵生成问题特征向量；相似度对比模块，用于计算用户问题特征向量与候选答案特征向量的相似度；答案生成模块，用于通过排序学习反馈给用户答案。本申请的智能问答系统与智能问答方法的效果相同，在此就不一一赘述。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种智能问答方法，其特征在于，包括如下步骤：

步骤S1、建立相关领域的知识图谱；

步骤S2、将用户问题的语音转化成文本；

步骤S6、通过排序学习反馈给用户答案。

2.如权利要求1所述的智能问答方法，其特征在于，步骤S1中，知识图谱的建立包括如下步骤：

步骤R1、对高价值信息进行检测，抽取数据块；

步骤R4、将抽取的三元组进行验证集成。

3.如权利要求1所述的智能问答方法，其特征在于，步骤S3中，skip-gram模型将文本向量化时，对于给定单词序列w₁，w₂，...，w_n，该模型的优化目标公式如下：

skip-gram模型使用softmax函数来优化参数，优化公式如下：

4.如权利要求3所述的智能问答方法，其特征在于，skip-gram模型优化参数的方法包括：层次softmax、负采样和二次采样中的一种或多种。

5.如权利要求1所述的智能问答方法，其特征在于，步骤S4包括如下子步骤：

6.如权利要求5所述的智能问答系统，其特征在于，问题向量生成模型的训练目标公式如下：

L＝max(mar-x^T·x₊+x^T·x_-)₊ (公式3)

其中，x为由卷积神经网络生成的问题向量；x₊为与向量x属于同一类的抽样向量；x_-为不属于向量x所属类的抽样向量。

7.如权利要求5所述的智能问答方法，其特征在于，问题向量矩阵经由第二采样层变换到输出层的函数如下公式所示：

x＝W₀tanh(y) (公式4)

8.如权利要求1所述的智能问答方法，其特征在于，步骤S5中，在问题特征向量与候选答案特征向量进行比较时，进行相似度打分，包括问题特征向量相似度打分、问题特征向量与所有答案向量的相似度打分。

9.如权利要求8所述的智能问答方法，其特征在于，问题特征向量与所有答案向量的相似度打分的公式如下：

r'＝v·M'·c (公式5)

10.一种智能问答系统，其特征在于，包括：

知识建立模块，用于建立相关领域的知识图谱；

语音转化模块，用于将用户问题的语音转化为文本；

答案生成模块，用于通过排序学习反馈给用户答案。