CN111164601B - 情感识别方法、智能装置和计算机可读存储介质 - Google Patents
情感识别方法、智能装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111164601B CN111164601B CN201980003314.8A CN201980003314A CN111164601B CN 111164601 B CN111164601 B CN 111164601B CN 201980003314 A CN201980003314 A CN 201980003314A CN 111164601 B CN111164601 B CN 111164601B
- Authority
- CN
- China
- Prior art keywords
- semantic feature
- sequence
- data
- emotion recognition
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种情感识别方法,该情感识别方法包括:获取包括视频数据、音频数据和/或文本数据中的至少两个的待识别多模态数据组;提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或提取文本数据中的文本语义特征序列;将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列;将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合,生成多模态语义特征序列;将多模态语义特征序列输入预训练的情感识别神经网络,将情感识别神经网络的输出结果作为待识别数据组待识别多模态数据组对应的目标情感。本发明还公开了智能装置和计算机可读存储介质。本发明可以有效提升情感识别的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及情感识别方法、智能装置和计算机可读存储介质。
背景技术
人在自然状态下的情感会引起多个模态(如脸部动作、说话音调、语言、心跳等)的反应。传统的多模态融合情感识别方法基于低层特征对齐融合(Low-level featuresfusion)或者决策层融合(Decision-level fusion)。这两种方法的局限性在于(a)人脑对于不同模态的低层信息(如物理特征:像素的亮度、声波的频谱、单词的拼写)的处理机制是相互独立的;(b)决策层融合忽略了多模态语义特征之间的时空关系。多模态语义特征的不同时-空分布会对应不同的情感信息。例如A:笑脸和说“好”同时出现;B:笑脸在说“好”之后出现。A和B的不同在于笑脸和说“好”这两个语义特征的先后关系不同,先后关系的不同导致情感表达的不同,例如B更可能是在敷衍或无奈。
发明内容
基于此,有必要针对上述问题,提出了情感识别方法、智能装置和计算机可读存储介质。
一种情感识别方法,所述方法包括:获取待识别多模态数据组,所述待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个;提取所述视频数据的视频语义特征序列,提取所述音频数据的音频语义特征序列,和/或,提取所述文本数据中的文本语义特征序列;将所述文本语义特征序列向所述音频数据的时间维度对齐处理,生成文本语义时序序列;将所述视频语义特征序列、所述音频语义特征序列和/或所述文本语义时序序列按照所述时间维度融合,生成多模态语义特征序列;将所述多模态语义特征序列输入预训练的情感识别神经网络,将所述情感识别神经网络的输出结果作为所述待识别多模态数据组对应的目标情感。
一种智能装置,包括:获取模块,获取待识别多模态数据组,所述待识别多模态数据组包括视频数据、音频数据和文本数据;提取模块,用于提取所述视频数据的视频语义特征序列,提取所述音频数据的音频语义特征序列,以及提取所述文本数据中的文本语义特征序列;对齐模块,用于将所述文本语义特征序列向所述音频数据的时间维度对齐,生成文本语义时序序列;串联模块,用于将所述视频语义特征序列、所述音频语义特征序列以及所述文本语义时序序列按照所述时间维度串联,生成多模态语义特征序列;情感模块,用于将所述多模态语义特征序列输入预训练的情感识别神经网络,将所述情感识别神经网络的输出结果作为所述待识别多模态数据组对应的目标情感。
一种智能装置,包括:获取电路、处理器、存储器,所述处理器耦接所述存储器和所述获取电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如上所述的方法。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序能够被处理器执行以实现如上所述的方法。
采用本发明实施例,具有如下有益效果:
获取待识别多模态数据组后,提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或,提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列,将所述视频语义特征序列、所述音频语义特征序列和/或所述文本语义时序序列按照所述时间维度融合,生成多模态语义特征序列,获取的是语义特征而非低层特征,可以更加准确的表示待识别多模态数据组的情感特征保留多模态时空关系的特征对齐和融合,根据该多模态语义特征序列获取的目标情感的准确度更高,因此有效提升了情感识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1是本发明一个实施例中情感识别方法应用环境图;
图2是本发明提供的情感识别方法的第一实施例的流程示意图;
图3是本发明提供的情感识别方法的第二实施例的流程示意图;
图4是本发明提供的情感识别方法的第三实施例的流程示意图;
图5是本发明提供的智能装置的第一实施例的结构示意图;
图6是本发明提供的智能装置的第二实施例的结构示意图;
图7是本发明提供的计算机可读存储介质的一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中决策层融合忽略了多模态语义特征之间的时空关系。由于多模态语义特征的不同时-空分布对应不同的情感信息,因而忽略了时空关系会造成情感识别的准确率不高。
在本实施例中,为了解决上述问题,提供了一种情感识别方法,可以有效提升了情感识别的准确率。
请参阅图1,图1是本发明一个实施例中情感识别方法应用环境图。参照图1,该脸部情感识别方法应用于情感识别系统。该情感识别系统包括终端110和服务器120。终端110和服务器120通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取待识别多模态数据组,待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个,服务器120用于提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或,提取文本数据中的文本语义特征序列;将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列;将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合,生成多模态语义特征序列;将多模态语义特征序列输入预训练的情感识别神经网络,获取待识别多模态数据组对应的目标情感。
请参阅图2,图2是本发明提供的情感识别方法的第一实施例的流程示意图。本发明提供的情感识别方法包括如下步骤:
S101:获取待识别多模态数据组,待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个。
在一个具体的实施场景中,获取待识别多模态数据组,待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个。在本实施场景中,待识别多模态数据组包括视频数据、音频数据和文本数据。待识别多模态数据组可以是由用户提供的,或者是从数据库中获取的,还可以是现场录制生成的。视频数据、音频数据和文本数据对应同一时间段内同一说话人。
S102:提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或,提取文本数据中的文本语义特征序列。
在本实施场景中,提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,提取文本数据中的文本语义特征序列。可以通过将待识别多模态数据组输入预训练的特征提取神经网络,获取视频语义特征序列、音频数据的音频语义特征序列和文本语义特征序列。在其他实施场景中,还可以是将视频数据输入预训练的视频特征提取神经网络,获取视频语义特征序列,将音频数据输入预训练的音频特征提取神经网络,获取音频语义特征序列,将文本数据输入预训练的文本特征提取神经网络,获取文本语义特征序列。
具体地说,将视频数据输入预训练的视频特征提取神经网络,获取视频语义特征序列之前,需要对视频特征提取神经网络进行训练。准备脸部视频数据,标注出脸部视频数据中的脸部动作单元。在训练前,定义视频特征提取网络的结果为CNN-RNN结构,定义迭代初始值为Epoch=0,定义损失函数。将脸部视频数据及其对应的脸部动作单元输入视频特征提取神经网络,获取训练结果,将训练结果随机分批,计算损失函数,根据计算出的损失值的大小,采用返现梯度传播算法更新CNN-RNN的权值,当全部的训练结构遍历后,迭代值Epoch+1,直至Epoch=2000,训练终止。
将文本数据输入预训练的文本特征提取神经网络,获取文本语义特征序列之前,需要对文本特征提取神经网络进行训练。准备训练文本数据,为训练文本数据标注正/负面情绪标注,统计训练文本数据的词频,基于数值最大的最大词频对文本数据进行分词。基于word2vec方法训练条件概率函数,提取文本数据中的词特征。定义文本特征提取神经网络的结构为Transformer+Attention+RNN结构,定义损失函数,将文本数据的词特征和文本数据的正/负面情绪标注输入文本特征提取神经网络进行训练,在损失函数满足预设条件时终止训练。
S103:将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列。
在本实施场景中,音频数据和视频数据均带有时间维度,而文本数据不具有时间维度,因此音频语义特征序列和视频语义特征序列均具有时间维度,而文本语义特征序列不具有时间维度。将文本语义特征序列向音频数据的时间维度进行对齐处理。在其他实施场景中,还可以将文本语义特征序列向视频数据的时间维度进行对齐处理。
在本实施场景中,可以通过语音识别的方法获取音频数据中每个发音音素,在文本语义特征序列中找到对应该发音音素的文本语义特征数据,将文本语义特征序列中的每个文本语义特征数据与发音音素的时间维度对齐,生成文本语义时序序列。
S104:将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合,生成多模态语义特征序列。
在本实施场景中,以音频语义特征序列的时间维度为基准,将视频语义特征序列的时间维度与音频语义特征序列的时间维度对齐,文本语义时序序列与音频语义特征序列在时间维度上是对齐的。
获取每一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据,将每一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据串联成语义特征单元。将每一时刻的语义特征单元按照时序排列生成多模态语义特征序列。
S105:将多模态语义特征序列输入预训练的情感识别神经网络,将情感识别神经网络的输出作为待识别多模态数据组对应的目标情感。
在本实施场景中,将多模态语义特征序列输入预训练的情感识别神经网络,将情感识别神经网络的输出作为待识别多模态数据组对应的目标情感。
在本实施场景中,需要对情感识别神经网络进行训练。在训练前准备好多个训练多模态语义特征序列,为每个训练多模态语义特征序列标注情感数据,定义情感识别神经网络的网络结构,可以定义情感识别神经网络的层数,例如,19层。还可以定义情感识别神经网络的类型,例如卷积神经网络,或者全连接神经网络等等。定义情感识别神经网络的损失函数,以及定义情感识别神经网络的训练终止的条件,例如训练2000次后停止。在训练成功后,将多模态语义特征序列输入情感识别神经网络,情感识别神经网络将会输出多模态语义特征序列对应的目标情感。
通过上述描述可知,在本实施例中获取待识别多模态数据组后,提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或,提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列,将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合,生成多模态语义特征序列,获取的是语义特征而非低层特征,可以更加准确的表示待识别多模态数据组的情感特征,保留多模态时空关系的特征对齐和融合,根据该多模态语义特征序列获取的目标情感的准确度更高,因此有效提升了情感识别的准确率。
请参阅图3,图3是本发明提供的情感识别方法的第二实施例的流程示意图。本发明提供的情感识别方法包括如下步骤:
S201:获取待识别多模态数据组,待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个。
S202:提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或,提取文本数据中的文本语义特征序列。
在一个具体的实施场景中,步骤S201-S202与本发明提供的情感识别方法的第一实施例的步骤S101-S102基本一致,此处不在进行赘述。
S203:获取音频数据的至少一个发音音素,获取每个发音音素对应的文本语义特征序列中的文本语义特征数据。
在本实施场景中,通过ASR (Automatic Speech Recognition,语音识别)技术获取音频数据的至少一个发音音素,在文本语义特征序列中找出与每个发音音素对应的文本语义特征数据。
S204:获取每个发音音素的时刻位置,将文本语义特征数据与对应的发音音素的时刻位置对齐。
在本实施场景中,获取每个发音音素的时刻位置,将文本语义特征序列中的文本语义特征数据与对应的发言音素的时刻位置对齐。例如,发音音素“啊”的时刻位置为1分32秒,则文本语义特征序列中对应“啊”的文本语义特征数据与时刻位置1分32秒对齐。
S205:分别获取视频语义特征序列、音频语义特征序列和/或文本语义时序序列每一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据。
在本实施场景中,视频语义特征序列也是具有时间维度的,可以获取每一时刻的视频语义特征数据。同理,可以获取每一时刻的音频语义特征数据,文本语义时序序列中的文本语义特征数据经过步骤S204中与音频数据的时间维度对齐后,可以获取每一时刻的文本语义特征数据。
S206:将同一时刻的视频语义特征数据、音频语义特征数据和/或文本语义特征数据串联成语义特征单元。
在本实施场景中,视频语义特征数据、音频语义特征数据和文本语义特征数据均为向量,将同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据串联成语义特征单元,即为将三个向量串联为一个向量。例如,视频语义特征数据、音频语义特征数据和文本语义特征数据均为2维向量,则串联后生成的语音特征单元为6维向量。
S207:将每一时刻的语义特征单元按照时间顺序排列,生成多模态语义特征序列。
在本实施场景中,将每一时刻的语音特征单元按照时间顺序排列,生成多磨语义特征序列。时间顺序即为音频语义特征序列的时间维度。
S208:将多模态语义特征序列输入预训练的情感识别神经网络,将情感识别神经网络的输出作为待识别多模态数据组对应的目标情感。
在一个具体的实施场景中,步骤S208与本发明提供的情感识别方法的第一实施例的步骤S105基本一致,此处不在进行赘述。
通过上述描述可知,在本实施例中通过获取音频数据的每个发音音素对应的文本语义特征序列中的文本语义特征数据,获取文本语义特征数据对应的时刻,将同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数串联为语义特征单元,将每一时刻的语义特征单元按照时间顺序排列,生成多模态语义特征序列,保留多模态时空关系的特征对齐和融合,根据该多模态语义特征序列获取的目标情感的准确度更高,因此有效提升了情感识别的准确率。
请参阅图4,图4是本发明提供的情感识别方法的第三实施例的流程示意图。本发明提供的情感识别方法包括如下步骤:
S301:获取待识别多模态数据组,待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个。
S302:提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或,提取文本数据中的文本语义特征序列。
S303:将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列。
S304:将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合,生成多模态语义特征序列。
在一个具体的实施场景中,步骤S301-S304与本发明提供的情感识别方法的第一实施例的步骤S101-S104基本一致,此处不在进行赘述。
S305:分别将每一时刻的语义特征单元输入预训练的单元识别神经网络,将单元识别神经网络的输出结果作为每一时刻的情绪识别结果。
在本实施场景中,将每一时刻的语义特征单元输入预训练的单元识别神经网络,将单元识别神经网络的输出结果作为每一时刻的情绪识别结果。
在本实施场景中,单元识别神经网络包括卷积神经网络层和双向长短记忆神经网络层。卷积神经网络以当前元素为中心定义宽度为/>的感应窗口,对窗口内的输入元素进行全连接网络计算,以一维数据为例
设输入为,卷积神经网络的模型为:
其中为非线性激活函数,/>表示共享权值,即/>不等但是/>相等时输入对应的权值即相等。
CNN常与池化(pooling)层一起使用,池化层函数的特点在于空间不变性,常见的有:
Max-pooling:
Average-pooling:
长短期记忆网络(LSTM,Long Short-Term Memory)是一个序列标注模型,当前时刻t的输出h t是当前时刻输入x t和前一时刻输出h t-1的函数。以下展示了一种LSTM的实现方法:
设x t为当前输入向量,h t-1为前一时刻输出向量,c t-1为前一时刻细胞状态向量,h t为当前时刻输出向量,h t的计算方式为:
其中W和U分别代表不同的权值矩阵,tanh为非线性激活函数:
在其他实施场景中,单元识别神经网络也可以仅包括一层神经网络,例如LSTM。
S306:将每一时刻的情绪识别结果按照时间排序,生成情绪识别序列。
在本实施场景中,将每一时刻的情绪识别结果按照时间排序,生成情绪识别序列。可以设置多个单元识别神经网络,可以同时输出每一时刻的情绪识别结果,也可以设置一个单元识别神经网络,依次输入每一时刻的语义特征单元,依次输出每一时刻的情绪识别结果。
S307:获取每一时刻的情绪识别结果的权重,将每一时刻的情绪识别结果与其对应的权重进行点乘运算,将点乘运算后的情绪识别序列输入预训练的情绪识别神经网络,将情感识别神经网络的输出作为待识别多模态数据组对应的目标情感。
在本实施场景中,获取情绪识别序列中每一时刻的情绪识别结果的权重,将每一时刻的情绪识别结果与其对应的权重点乘运算。因为情绪识别序列中,各时刻的情绪识别结果之间相互影响,例如,某些情绪识别结果是下意识的反应,某些情绪识别结果带有较为强烈的情感,则不同的情绪识别结果对情绪识别序列对应的目标情绪的影响能力大小不同。
在本实施场景中,对情绪识别序列进行注意力运算,获取每一时刻的情绪识别结果的权重。
其中,为每一时刻的情绪识别结果的权重,/>为情绪识别序列,/>函数的运算公式为:
在本实施场景中,情感识别神经网络为全连接神经网络。全连接神经网络默认建立所有的输入与输出之间的权值连接,以一维数据为例:
设输入为,全连接网络的模型为:
其中为网络参数,/>为非线性激活函数,常见的如Sigmoid函数。
通过上述描述可知,在本实施例中将同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数串联为语义特征单元,将每一时刻的语义特征单元输入单元识别神经网络,获取每一时刻的情绪识别结果,单元识别神经网络包括卷积神经网络层和双向长短记忆神经网络层,可以提高情绪识别结果的准确率。
请参阅图5,图5是本发明提供的智能装置的第一实施例的结构示意图。智能装置10包括获取模块11、提取模块12、对齐模块13、串联模块14和情感模块15。获取模块11获取待识别多模态数据组,待识别多模态数据组包括视频数据、音频数据和文本数据。提取模块12用于提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,以及提取文本数据中的文本语义特征序列。对齐模块13用于将文本语义特征序列向音频数据的时间维度对齐,生成文本语义时序序列。串联模块14用于将视频语义特征序列、音频语义特征序列以及文本语义时序序列按照时间维度串联,生成多模态语义特征序列。情感模块15用于将多模态语义特征序列输入预训练的情感识别神经网络,获取待识别多模态数据组的包括的情感。
通过上述描述可知,在本实施例中智能装置获取待识别多模态数据组后,提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或,提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列,将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合,生成多模态语义特征序列,可以保留多模态时空关系的特征对齐和融合,根据该多模态语义特征序列获取的目标情感的准确度更高,因此有效提升了情感识别的准确率。
请继续参阅图5。对齐模块13包括第一获取子模块131和对齐子模块132。第一获取子模块131用于获取音频数据的至少一个发音音素,获取每个发音音素对应的文本语义特征数据。对齐子模块132用于获取每个发音音素的时刻位置,将文本语义特征数据与对应的发音音素的时刻位置对齐。
串联模块14包括第二获取子模块141和串联子模块142。第二获取子模块141用于分别获取视频语义特征序列、音频语义特征序列以及文本语义时序序列每一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据。串联子模块142用于将同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据串联成语义特征单元。
情感模块15包括情绪识别子模块151、排列子模块152和情感子模块153。情绪识别子模块151用于分别将每一时刻的语义特征单元输入预训练的单元识别神经网络,获取每一时刻的情绪识别数据。排列子模块152用于将每一时刻的情绪识别数据按照时间排序,生成情绪识别序列。情感子模块153用于将情绪识别序列输入预训练的情绪识别神经网络,获取待识别多模态数据组的包括的情感。
情感子模块153包括权重单元1531。权重单元1531用于获取每一时刻的情绪识别数据的权重,将每一时刻的情绪识别数据与其对应的权重进行点乘运算,将运算的情绪识别序列后输入预训练的情绪识别神经网络。
其中,权重单元1531用于对情绪识别序列进行注意力运算,获取每一时刻的情绪识别数据的权重。
其中,单元识别神经网络包括卷积神经网络层和双向长短记忆网络层。
其中,情感识别神经网络为全连接神经网络。
智能装置10还包括训练模块16,训练模块16用于训练情感识别神经网络。
训练模块16包括准备子模块161、定义子模块162、输入子模块163。
准备子模块161用于准备多个训练多模态特征序列,标注每个训练多模态特征序列的目标情感。定义子模块162用于定义训练的情感识别神经网络的结构、损失函数和终止条件。输入子模块163用于将多个多模态特征序列及其对应的目标情感为输入情感识别神经网络进行训练。
通过上述描述可知,本实施例中将每一时刻的语义特征单元按照时间顺序排列,生成多模态语义特征序列,获取的是语义特征而非低层特征,可以更加准确的表示待识别多模态数据组的情感特征,保留多模态时空关系的特征对齐和融合,根据该多模态语义特征序列获取的目标情感的准确度更高,因此有效提升了情感识别的准确率,同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数串联为语义特征单元,将每一时刻的语义特征单元输入单元识别神经网络,获取每一时刻的情绪识别结果,单元识别神经网络包括卷积神经网络层和双向长短记忆神经网络层,可以提高情绪识别结果的准确率。
请参阅图6,图6是本发明提供的智能装置的第二实施例的结构示意图。智能装置20包括处理器21、存储器22和获取电路23。处理器21耦接存储器22和获取电路23。存储器22中存储有计算机程序,处理器21在工作时执行该计算机程序以实现如图2-图4所示的方法。详细的方法可参见上述,在此不再赘述。
通过上述描述可知,在本实施例中智能装置获取待识别多模态数据组后,提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或,提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列,将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合,生成多模态语义特征序列,获取的是语义特征而非低层特征,可以更加准确的表示待识别多模态数据组的情感特征,保留多模态时空关系的特征对齐和融合,根据该多模态语义特征序列获取的目标情感的准确度更高,因此有效提升了情感识别的准确率。
请参阅图7,图7是本发明提供的计算机可读存储介质的一实施例的结构示意图。计算机可读存储介质30中存储有至少一个计算机程序31,计算机程序71用于被处理器执行以实现如图2-图4所示的方法,详细的方法可参见上述,在此不再赘述。在一个实施例中,计算机可读存储介质30可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具,还可以是服务器等等。
通过上述描述可知,在本实施例中存储介质中存储的计算机程序可以用于获取待识别多模态数据组后,提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或,提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列,将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合,生成多模态语义特征序列,获取的是语义特征而非低层特征,可以更加准确的表示待识别多模态数据组的情感特征,保留多模态时空关系的特征对齐和融合,根据该多模态语义特征序列获取的目标情感的准确度更高,因此有效提升了情感识别的准确率。
区别于现有技术,本发明获取的是语义特征而非低层特征,可以更加准确的表示待识别多模态数据组的情感特征,保留多模态时空关系的特征对齐和融合,根据该多模态语义特征序列获取的目标情感的准确度更高,因此有效提升了情感识别的准确率。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (8)
1.一种情感识别方法,其特征在于,包括:
获取待识别多模态数据组,所述待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个;
提取所述视频数据的视频语义特征序列,提取所述音频数据的音频语义特征序列,和/或,提取所述文本数据中的文本语义特征序列;
将所述文本语义特征序列向所述音频数据的时间维度对齐处理,生成文本语义时序序列;
将所述视频语义特征序列、所述音频语义特征序列和/或所述文本语义时序序列按照所述时间维度融合,生成多模态语义特征序列;
将所述多模态语义特征序列输入预训练的情感识别神经网络,将所述情感识别神经网络的输出结果作为所述待识别多模态数据组对应的目标情感;
所述将所述多模态语义特征序列输入预训练的情感识别神经网络的步骤,包括:
分别获取所述视频语义特征序列、所述音频语义特征序列和/或所述文本语义时序序列每一时刻的视频语义特征数据、音频语义特征数据和/或文本语义特征数据;
将同一时刻的所述视频语义特征数据、所述音频语义特征数据和/或所述文本语义特征数据串联成语义特征单元;
将每一时刻的语义特征单元按照时间顺序排列,生成多模态语义特征序列;
将多模态语义特征序列输入预训练的情感识别神经网络;
所述将所述多模态语义特征序列输入预训练的情感识别神经网络,获取待识别多模态数据组的包括的情感的步骤,包括:
分别将每一时刻的所述语义特征单元输入预训练的单元识别神经网络,将所述单元识别神经网络的输出结果作为每一时刻的情绪识别结果;
将所述每一时刻的情绪识别结果按照时间排序,生成情绪识别序列;
将所述情绪识别序列输入预训练的情绪识别神经网络,获取待识别多模态数据组的包括的情感。
2.根据权利要求1所述的情感识别方法,其特征在于,所述将所述文本语义特征序列向所述音频数据的时间维度对齐处理的步骤,包括:
获取音频数据的至少一个发音音素,获取每个所述发音音素对应的文本语义特征序列中的文本语义特征数据;
获取每个所述发音音素的时刻位置,将所述文本语义特征数据与对应的所述发音音素的所述时刻位置对齐。
3.根据权利要求1所述的情感识别方法,其特征在于,所述将所述情绪识别序列输入预训练的情绪识别神经网络的步骤,包括:
获取每一时刻的情绪识别结果的权重,将每一时刻的情绪识别结果与其对应的权重进行点乘运算,将所述点乘运算后的所述情绪识别序列输入预训练的情绪识别神经网络。
4.根据权利要求3所述的情感识别方法,其特征在于,
所述获取每一时刻的情绪识别结果的权重的步骤,包括:
对所述情绪识别序列进行注意力运算,获取每一时刻的情绪识别结果的权重。
5.根据权利要求1所述的情感识别方法,其特征在于,所述将所述多模态语义特征序列输入预训练的情感识别神经网络的步骤之前,包括:
训练所述情感识别神经网络;
所述训练所述情感识别神经网络的步骤,包括:
准备多个训练多模态特征序列,标注每个所述训练多模态特征序列的目标情感;
定义训练的所述情感识别神经网络的结构、损失函数和终止条件;
将所述多个多模态特征序列及其对应的目标情感为输入所述情感识别神经网络进行训练。
6.一种智能装置,其特征在于,包括:
获取模块,获取待识别多模态数据组,所述待识别多模态数据组包括视频数据、音频数据和文本数据;
提取模块,用于提取所述视频数据的视频语义特征序列,提取所述音频数据的音频语义特征序列,以及提取所述文本数据中的文本语义特征序列;
对齐模块,用于将所述文本语义特征序列向所述音频数据的时间维度对齐,生成文本语义时序序列;
串联模块,用于将所述视频语义特征序列、所述音频语义特征序列以及所述文本语义时序序列按照所述时间维度串联,生成多模态语义特征序列;分别获取所述视频语义特征序列、所述音频语义特征序列和/或所述文本语义时序序列每一时刻的视频语义特征数据、音频语义特征数据和/或文本语义特征数据;将同一时刻的所述视频语义特征数据、所述音频语义特征数据和/或所述文本语义特征数据串联成语义特征单元;将每一时刻的语义特征单元按照时间顺序排列,生成多模态语义特征序列;将多模态语义特征序列输入预训练的情感识别神经网络;
情感模块,用于将所述多模态语义特征序列输入预训练的情感识别神经网络,将所述情感识别神经网络的输出结果作为所述待识别多模态数据组对应的目标情感;分别将每一时刻的所述语义特征单元输入预训练的单元识别神经网络,将所述单元识别神经网络的输出结果作为每一时刻的情绪识别结果;将所述每一时刻的情绪识别结果按照时间排序,生成情绪识别序列;将所述情绪识别序列输入预训练的情绪识别神经网络,获取待识别多模态数据组的包括的情感。
7.一种智能装置,其特征在于,包括:获取电路、处理器、存储器,所述处理器耦接所述存储器和所述获取电路,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序以实现如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被处理器执行以实现如权利要求1-5任一项所述的方法。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/CN2019/130065 WO2021134277A1 (zh) | 2019-12-30 | 2019-12-30 | 情感识别方法、智能装置和计算机可读存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111164601A CN111164601A (zh) | 2020-05-15 |
| CN111164601B true CN111164601B (zh) | 2023-07-18 |
Family
ID=70562368
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201980003314.8A Active CN111164601B (zh) | 2019-12-30 | 2019-12-30 | 情感识别方法、智能装置和计算机可读存储介质 |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN111164601B (zh) |
| WO (1) | WO2021134277A1 (zh) |
Families Citing this family (53)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111753549B (zh) * | 2020-05-22 | 2023-07-21 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
| CN111832317B (zh) * | 2020-07-09 | 2023-08-18 | 广州市炎华网络科技有限公司 | 智能信息导流方法、装置、计算机设备及可读存储介质 |
| CN111898670B (zh) * | 2020-07-24 | 2024-04-05 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
| CN111723783B (zh) * | 2020-07-29 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 一种内容识别方法和相关装置 |
| CN112233698B (zh) * | 2020-10-09 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 人物情绪识别方法、装置、终端设备及存储介质 |
| CN112418034B (zh) * | 2020-11-12 | 2024-08-20 | 上海元梦智能科技有限公司 | 多模态情感识别方法、装置、电子设备和存储介质 |
| CN112489635B (zh) * | 2020-12-03 | 2022-11-11 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
| CN112560622B (zh) * | 2020-12-08 | 2023-07-21 | 中国联合网络通信集团有限公司 | 虚拟对象动作控制方法、装置及电子设备 |
| CN112584062B (zh) * | 2020-12-10 | 2023-08-08 | 上海幻电信息科技有限公司 | 背景音频构建方法及装置 |
| CN112735404A (zh) * | 2020-12-18 | 2021-04-30 | 平安科技(深圳)有限公司 | 一种语音反讽检测方法、系统、终端设备和存储介质 |
| CN112579745B (zh) * | 2021-02-22 | 2021-06-08 | 中国科学院自动化研究所 | 基于图神经网络的对话情感纠错系统 |
| CN113470787B (zh) * | 2021-07-09 | 2024-01-30 | 福州大学 | 基于神经网络的情绪识别与脱敏训练效果评估方法 |
| CN113536009B (zh) * | 2021-07-14 | 2024-11-29 | Oppo广东移动通信有限公司 | 数据描述方法及装置、计算机可读介质和电子设备 |
| CN113408503B (zh) * | 2021-08-19 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 一种情绪识别方法、装置、计算机可读存储介质及设备 |
| CN113743267B (zh) * | 2021-08-25 | 2023-06-16 | 中国科学院软件研究所 | 一种基于螺旋和文本的多模态视频情感可视化方法及装置 |
| CN113688745B (zh) * | 2021-08-27 | 2024-04-05 | 大连海事大学 | 一种基于相关节点自动挖掘及统计信息的步态识别方法 |
| CN113704504B (zh) * | 2021-08-30 | 2023-09-19 | 平安银行股份有限公司 | 基于聊天记录的情绪识别方法、装置、设备及存储介质 |
| CN113704552B (zh) * | 2021-08-31 | 2024-09-24 | 哈尔滨工业大学 | 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 |
| CN113903327B (zh) * | 2021-09-13 | 2024-06-28 | 北京卷心菜科技有限公司 | 一种基于深度神经网络的语音环境气氛识别方法 |
| CN113837072A (zh) * | 2021-09-24 | 2021-12-24 | 厦门大学 | 一种融合多维信息的说话人情绪感知方法 |
| CN114022668B (zh) * | 2021-10-29 | 2023-09-22 | 北京有竹居网络技术有限公司 | 一种文本对齐语音的方法、装置、设备及介质 |
| CN114005446B (zh) * | 2021-11-01 | 2024-12-13 | 科大讯飞股份有限公司 | 情感分析方法、相关设备及可读存储介质 |
| CN114067241B (zh) * | 2021-11-03 | 2025-05-27 | Oppo广东移动通信有限公司 | 视频的情感预测方法、装置、设备及可读存储介质 |
| WO2023084348A1 (en) * | 2021-11-12 | 2023-05-19 | Sony Group Corporation | Emotion recognition in multimedia videos using multi-modal fusion-based deep neural network |
| US12333794B2 (en) * | 2021-11-12 | 2025-06-17 | Sony Group Corporation | Emotion recognition in multimedia videos using multi-modal fusion-based deep neural network |
| CN114255433B (zh) * | 2022-02-24 | 2022-05-31 | 首都师范大学 | 一种基于面部视频的抑郁识别方法、装置及存储介质 |
| CN114581570B (zh) * | 2022-03-01 | 2024-01-26 | 浙江同花顺智能科技有限公司 | 一种三维脸部动作生成方法和系统 |
| CN114821558A (zh) * | 2022-03-10 | 2022-07-29 | 电子科技大学 | 基于文本特征对齐的多方向文本检测方法 |
| CN115101032B (zh) * | 2022-06-17 | 2024-06-28 | 北京有竹居网络技术有限公司 | 用于生成文本的配乐的方法、装置、电子设备和介质 |
| CN114913590B (zh) * | 2022-07-15 | 2022-12-27 | 山东海量信息技术研究院 | 一种数据的情感识别方法、装置、设备及可读存储介质 |
| CN115393927A (zh) * | 2022-08-05 | 2022-11-25 | 北京理工大学 | 基于多级长短期记忆网络的多模态情感应急决策系统 |
| CN115526228A (zh) * | 2022-08-19 | 2022-12-27 | 科大讯飞股份有限公司 | 识别方法、装置、电子设备及存储介质 |
| CN115359398A (zh) * | 2022-08-19 | 2022-11-18 | 浙江理工大学 | 一种语音视频定位模型及其构建方法、装置及应用 |
| CN115512104A (zh) * | 2022-09-02 | 2022-12-23 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
| CN115641533A (zh) * | 2022-10-21 | 2023-01-24 | 湖南大学 | 目标对象情绪识别方法、装置和计算机设备 |
| CN116364066A (zh) * | 2023-03-16 | 2023-06-30 | 北京有竹居网络技术有限公司 | 分类模型生成方法、音频分类方法、装置、介质及设备 |
| CN116522962A (zh) * | 2023-03-29 | 2023-08-01 | 北京有竹居网络技术有限公司 | 用于视频翻译的方法、装置、电子设备和介质 |
| CN116467416B (zh) * | 2023-04-21 | 2025-05-13 | 四川省人工智能研究院(宜宾) | 一种基于图神经网络的多模态对话情感识别方法及系统 |
| CN116245102B (zh) * | 2023-05-11 | 2023-07-04 | 广州数说故事信息科技有限公司 | 一种基于多头注意力和图神经网络的多模态情感识别方法 |
| CN116561634B (zh) * | 2023-05-12 | 2025-08-26 | 北京理工大学 | 面向情绪识别的多模态生理信号语义对齐方法与系统 |
| CN116501902A (zh) * | 2023-05-19 | 2023-07-28 | 平安科技(深圳)有限公司 | 多模态的电影情感识别方法和装置、设备、存储介质 |
| CN116612543B (zh) * | 2023-06-01 | 2025-08-01 | 科大讯飞股份有限公司 | 一种情感识别方法、装置、存储介质及设备 |
| CN117058405B (zh) * | 2023-07-04 | 2024-05-17 | 首都医科大学附属北京朝阳医院 | 一种基于图像的情绪识别方法、系统、存储介质及终端 |
| CN117033637B (zh) * | 2023-08-22 | 2024-03-22 | 镁佳(北京)科技有限公司 | 无效对话拒识模型训练方法、无效对话拒识方法及装置 |
| CN117197719A (zh) * | 2023-09-26 | 2023-12-08 | 深圳技术大学 | 多模态情绪识别方法、装置、设备、计算机存储介质 |
| CN117546796B (zh) * | 2023-12-26 | 2024-06-28 | 深圳天喆科技有限公司 | 一种基于狗行为动作识别技术的训狗控制方法及系统 |
| CN117611845B (zh) * | 2024-01-24 | 2024-04-26 | 浪潮通信信息系统有限公司 | 多模态数据的关联识别方法、装置、设备及存储介质 |
| CN117893948A (zh) * | 2024-01-30 | 2024-04-16 | 桂林电子科技大学 | 基于多粒度的特征对比和融合框架的多模态情感分析方法 |
| CN117933269B (zh) * | 2024-03-22 | 2024-06-18 | 合肥工业大学 | 一种基于情感分布的多模态深度模型构建方法及系统 |
| CN118228194B (zh) * | 2024-04-02 | 2024-11-08 | 北京科技大学 | 一种融合时空图注意力网络的多模态人格预测方法和系统 |
| CN118861977A (zh) * | 2024-07-04 | 2024-10-29 | 南通大学 | 一种多模态情绪分析系统及方法 |
| CN118841014B (zh) * | 2024-09-20 | 2024-12-20 | 卓世智星(青田)元宇宙科技有限公司 | 基于情感的数字人交互方法、装置及电子设备 |
| CN119918010B (zh) * | 2025-01-21 | 2025-09-30 | 广东工业大学 | 一种基于多维度感知的多模态情感分析方法和系统 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
| WO2019219968A1 (en) * | 2018-05-18 | 2019-11-21 | Deepmind Technologies Limited | Visual speech recognition by phoneme prediction |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107609572B (zh) * | 2017-08-15 | 2021-04-02 | 中国科学院自动化研究所 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
| WO2019132459A1 (ko) * | 2017-12-28 | 2019-07-04 | 주식회사 써로마인드로보틱스 | 사용자 정서적 행동 인식을 위한 멀티 모달 정보 결합 방법 및 그 장치 |
| WO2019144542A1 (en) * | 2018-01-26 | 2019-08-01 | Institute Of Software Chinese Academy Of Sciences | Affective interaction systems, devices, and methods based on affective computing user interface |
| WO2019204186A1 (en) * | 2018-04-18 | 2019-10-24 | Sony Interactive Entertainment Inc. | Integrated understanding of user characteristics by multimodal processing |
| CN108805089B (zh) * | 2018-06-14 | 2021-06-29 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
| CN108877801B (zh) * | 2018-06-14 | 2020-10-02 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
| CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
| CN109472232B (zh) * | 2018-10-31 | 2020-09-29 | 山东师范大学 | 基于多模态融合机制的视频语义表征方法、系统及介质 |
| CN110033029A (zh) * | 2019-03-22 | 2019-07-19 | 五邑大学 | 一种基于多模态情感模型的情感识别方法和装置 |
| CN110147548B (zh) * | 2019-04-15 | 2023-01-31 | 浙江工业大学 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
| CN110188343B (zh) * | 2019-04-22 | 2023-01-31 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
| CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
-
2019
- 2019-12-30 WO PCT/CN2019/130065 patent/WO2021134277A1/zh not_active Ceased
- 2019-12-30 CN CN201980003314.8A patent/CN111164601B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019219968A1 (en) * | 2018-05-18 | 2019-11-21 | Deepmind Technologies Limited | Visual speech recognition by phoneme prediction |
| CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
Non-Patent Citations (1)
| Title |
|---|
| 基于长短期记忆和卷积神经网络的语音情感识别;卢官明 等;南京邮电大学学报(自然科学版);第38卷(第05期);第63-69页 * |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2021134277A1 (zh) | 2021-07-08 |
| CN111164601A (zh) | 2020-05-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111164601B (zh) | 情感识别方法、智能装置和计算机可读存储介质 | |
| CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
| EP3617946B1 (en) | Context acquisition method and device based on voice interaction | |
| EP3992924A1 (en) | Machine learning based media content annotation | |
| WO2024000867A1 (zh) | 情绪识别方法、装置、设备及存储介质 | |
| CN109858555A (zh) | 基于图像的数据处理方法、装置、设备及可读存储介质 | |
| CN112910761B (zh) | 即时通讯方法、装置、设备、存储介质以及程序产品 | |
| CN110209897A (zh) | 智能对话方法、装置、存储介质及设备 | |
| CN111344717B (zh) | 交互行为预测方法、智能装置和计算机可读存储介质 | |
| CN114298121A (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
| CN117593608B (zh) | 图文识别大模型的训练方法、装置、设备以及存储介质 | |
| CN111357051A (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
| CN111159409A (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
| CN117315334B (zh) | 图像分类方法、模型的训练方法、装置、设备及介质 | |
| CN114822558A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
| CN113763929A (zh) | 一种语音评测方法、装置、电子设备和存储介质 | |
| CN114242113A (zh) | 语音检测方法、训练方法、装置和电子设备 | |
| CN111522937A (zh) | 话术推荐方法、装置和电子设备 | |
| CN114268747A (zh) | 基于虚拟数字人的访谈业务处理方法及相关装置 | |
| US20190303393A1 (en) | Search method and electronic device using the method | |
| CN110276064B (zh) | 一种词性标注方法及装置 | |
| CN114882399A (zh) | 视频分类的方法、构建分类模型的方法、装置和设备 | |
| CN114170997A (zh) | 发音技巧检测方法、装置、存储介质及电子设备 | |
| CN117975501A (zh) | 一种人体识别模型的训练方法、装置、设备及介质 | |
| CN114004234B (zh) | 一种语义识别方法、存储介质及终端设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |