[go: up one dir, main page]

CN111341307A - 语音识别方法、装置、电子设备及存储介质 - Google Patents

语音识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111341307A
CN111341307A CN202010174196.1A CN202010174196A CN111341307A CN 111341307 A CN111341307 A CN 111341307A CN 202010174196 A CN202010174196 A CN 202010174196A CN 111341307 A CN111341307 A CN 111341307A
Authority
CN
China
Prior art keywords
speech
feature
speech frame
voice
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010174196.1A
Other languages
English (en)
Inventor
张菁芸
王少鸣
郭润增
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010174196.1A priority Critical patent/CN111341307A/zh
Publication of CN111341307A publication Critical patent/CN111341307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种语音识别方法、装置、电子设备及存储介质,属于计算机技术领域。本申请通过获取待识别语音的至少一个语音帧,将该至少一个语音帧输入语音识别模型,通过该语音识别模型对该至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,由于残差结构能够直接、快速地在对每个语音帧的加权变换过程中引入对应的上下文信息,从而有利于提取出更深层次的语音特征,使得语音识别模型输出的预测概率具有更高的准确率,进而基于该至少一个预测概率,确定该待识别语音中所包含的语音关键词,使得基于预测概率来进行语音关键词识别的过程具有更高的准确率。

Description

语音识别方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,用户可以通过终端方便地进行语音点餐、语音购物等操作,在上述语音交互技术中语音关键词识别是一个核心问题。在目前的语音关键词识别系统中,基于LSTM(Long Short-Term Memory,长短期记忆网络)模型的识别方法具有较好的表现,通过输入门、输出门、遗忘门的复杂交互,解决了传统的RNN(Recurrent NeuralNetwork,循环神经网络)所固有的梯度消失问题。然而,LSTM模型的语音关键词识别的性能和准确率仍然有待提升。
发明内容
本申请实施例提供了一种语音识别方法、装置、电子设备及存储介质,能够提升语音关键词识别过程的性能和准确率。该技术方案如下:
一方面,提供了一种语音识别方法,该方法包括:
获取待识别语音的至少一个语音帧;
将所述至少一个语音帧输入语音识别模型,通过所述语音识别模型对所述至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,一个预测概率用于表示所述待识别语音中包含一个语音关键词的概率;
基于所述至少一个预测概率,确定所述待识别语音中所包含的语音关键词。
一方面,提供了一种语音识别装置,该装置包括:
获取模块,用于获取待识别语音的至少一个语音帧;
加权变换模块,用于将所述至少一个语音帧输入语音识别模型,通过所述语音识别模型对所述至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,一个预测概率用于表示所述待识别语音中包含一个语音关键词的概率;
第一确定模块,用于基于所述至少一个预测概率,确定所述待识别语音中所包含的语音关键词。
在一种可能实施方式中,所述获取模块还用于:响应于所述语音关键词中包括目标关键词,获取用于进行声纹识别的目标语音;
所述装置还包括声纹识别模块,用于对所述目标语音进行声纹识别,得到所述目标语音的声纹识别结果,所述声纹识别结果用于表示所述目标语音所属的用户是否为目标用户。
在一种可能实施方式中,所述声纹识别模块包括:
第二提取单元,用于将所述目标语音输入声纹识别模型,通过所述声纹识别模型对所述目标语音进行特征提取,得到所述目标语音的含噪声纹特征;
降噪单元,用于对所述目标语音的含噪声纹特征进行降噪处理,得到所述目标语音的纯净声纹特征;
确定单元,用于基于所述纯净声纹特征与声纹库中存储的目标用户的声纹特征之间的相似度,确定所述声纹识别结果。
在一种可能实施方式中,所述降噪单元用于:
将所述含噪声纹特征输入深度神经网络,通过所述深度神经网络对所述含噪声纹特征进行非线性映射,输出所述纯净声纹特征。
一方面,提供了一种电子设备,该电子设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的语音识别方法所执行的操作。
一方面,提供了一种存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现如上述任一种可能实现方式的语音识别方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过获取待识别语音的至少一个语音帧,将该至少一个语音帧输入语音识别模型,通过该语音识别模型对该至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,由于残差结构能够直接、快速地在对每个语音帧的加权变换过程中引入对应的上下文信息,从而有利于提取出更深层次的语音特征,使得语音识别模型输出的预测概率具有更高的准确率,进而基于该至少一个预测概率,确定该待识别语音中所包含的语音关键词,使得基于预测概率来进行语音关键词识别的过程具有更高的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音识别方法的实施环境示意图;
图2是本申请实施例提供的一种语音识别方法的交互流程图;
图3是本申请实施例提供的一种语音识别方法的流程图;
图4为本申请实施例提供的一种LSTM模型的原理示意图;
图5是本申请实施例提供的一种声纹识别方法的流程图;
图6是本申请实施例提供的一种语音下单系统的流程图;
图7是本申请实施例提供的一种ROC曲线的对比图;
图8是本申请实施例提供的一种语音识别装置的结构示意图;
图9是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个第一位置是指两个或两个以上的第一位置。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括音频处理技术、计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。
让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中音频处理技术(Speech Technology,也称语音处理技术)成为未来最被看好的人机交互方式之一,具体包括语音关键词识别技术、声纹识别技术、语音分离技术、自动语音识别技术(AutomaticSpeech Recognition,ASR)以及语音合成技术(Text To Speech,TTS,也称文语转换技术)等。
随着AI技术的发展,音频处理技术在多个领域展开了研究和应用,例如常见的智能语音助手、语音购物系统、智能音箱、车载或电视盒子上的语音前端处理、语音识别产品、声纹识别产品等,相信随着AI技术的发展,音频处理技术将在更多的领域得到应用,发挥越来越重要的价值。
本申请实施例涉及音频处理技术领域内的语音关键词识别技术和声纹识别技术,语音关键词识别技术是指识别出用户说的话中包含哪些语音关键词,而声纹识别技术则是指识别出一段语音是否是目标用户所说的,也就是通常所说的“识别出用户是否为本人”。
以语音购物系统(也称为语音下单系统,例如语音点餐)为例,在语音点餐场景下,用户可以通过终端向语音购物系统输入待识别语音“我想点鱼香肉丝”,通过语音关键词识别技术识别出语音关键词“鱼香肉丝”之后,可以向用户的终端提供声纹支付入口,在用户确认进行声纹支付之后,终端采集用户的目标语音,该目标语音可以是用户念出指定的内容,向语音购物系统发送目标语音,使得语音购物系统的后台基于目标语音进行声纹识别,判断出目标语音是否属于该用户本人,若属于用户本人,此时声纹识别通过,由后台的转账系统针对用户所下单的菜品进行支付结算,并向用户的终端返回支付结果。
在上述过程在,语音关键词识别技术是语音购物系统的一个焦点问题,目前,在语音关键词识别方面,基于HMM-GMM(Hidden Markov Model-Gaussian Mixed Model,隐马尔科夫模型-高斯混合模型)的声学模型具有较为广泛的应用,但GMM模型本身在描述能力上存在一定的缺陷,因此,由于基于DNN(Deep Neural Networks,深度神经网络)的声学模型相较于HMM-GMM模型拥有更好的信息表达能力,因此DNN模型也取得了一定的发展。但DNN模型仍然存在一些不足,比如DNN模型缺乏保留历史信息的能力,而语音信号属于一种前后文相关性较大的信号类型,导致DNN模型在语音关键词识别方面准确率不高,因此LSTM(LongShort-Term Memory,长短期记忆网络)模型进入了人们的视野,LSTM模型不仅具有永久的记忆能力,还能够通过输入门、输出门、遗忘门的复杂交互,以解决RNN(Recurrent NeuralNetwork,循环神经网络)模型所固有的梯度消失问题,然而为了追求更好地语音购物系统性能,如何对LSTM模型的语音识别准确率进行优化,仍然是一个亟需解决的问题。
有鉴于此,本申请实施例提出一种语音识别方法,可以称为一种新型的改进残差LSTM模型,残差结构能够通过空间域的快速通道将时间域的记忆单元进行分离,从而进一步地提升语音识别过程的准确率。
图1是本申请实施例提供的一种语音识别方法的实施环境示意图。参见图1,在该实施环境中包括终端101和服务器102,终端101和服务器102均为一种电子设备。
终端101可以用于采集语音信号,在终端101上可以安装有语音信号的采集组件,例如麦克风等录音元件,或者,终端101还可以直接下载一段音频文件,将该音频文件进行解码得到语音信号。
在一些实施例中,终端101上可以安装有语音信号的处理组件,使得终端101可以独立实现本申请实施例提供的语音识别方法,例如,该处理组件可以是一个DSP(DigitalSignal Processing,数字信号处理器),在DSP上可以运行本申请实施例提供的语音识别模型以及声纹识别模型的程序代码,从而实现对语音信号的关键词识别以及声纹识别。
在一些实施例中,终端101在通过采集组件采集到待识别语音之后,还可以将该待识别语音发送至服务器102,由服务器102对该待识别语音进行语音识别处理,比如,在服务器102上运行本申请实施例提供的语音识别模型的程序代码,以识别出待识别语音中所包含的语音关键词,如果语音关键词命中了某些目标关键词,终端101再次通过采集组件采集用于进行声纹识别的目标语音,将目标语音发送至服务器102,由服务器102运行本申请实施例所提供的声纹识别模型的程序代码,以识别出该目标语音是否属于目标用户(与终端关联的用户),从而完成针对目标语音的声纹识别任务,最后,在一些声纹支付场景下,若声纹识别通过(也即是目标语音属于目标用户),服务器102还可以调用转账系统进行账单结算,从而完成了整体的语音购物流程。
终端101和服务器102可以通过有线网络或无线网络相连。
服务器102可以用于处理语音信号,服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地,服务器102可以承担主要计算工作,终端101可以承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,终端101和服务器102两者之间采用分布式计算架构进行协同计算。
可选地,终端101可以泛指多个终端中的一个,终端101的设备类型包括但不限于:智能手机、智能音箱、平板电脑、电子书阅读器、MP3(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例,以终端包括智能手机来进行举例说明。
本领域技术人员可以知晓,上述终端101的数量可以更多或更少。比如上述终端101可以仅为一个,或者上述终端101为几十个或几百个,或者更多数量。本申请实施例对终端101的数量和设备类型不加以限定。
图2是本申请实施例提供的一种语音识别方法的交互流程图。参见图2,该实施例应用于终端和服务器的交互过程中,该实施例包括:
200、终端采集待识别语音,向服务器发送待识别语音。
其中,该待识别语音中包含至少一个语音帧。
终端上可以安装有应用程序,用户可以在应用程序中触发音频采集指令,终端操作系统响应于音频采集指令,调用录音接口,驱动语音信号的采集组件(比如麦克风)以音频流的形式采集待识别语音,或者,终端也可以从本地预存的音频中选择一段音频作为待识别语音,或者,终端还可以从云端下载音频文件,对该音频文件进行解析得到待识别语音,本申请实施例不对待识别语音的采集方式进行具体限定,终端在采集待识别语音之后,可以将待识别语音封装为语音传输报文,向服务器发送语音传输报文,从而能够将待识别语音发送至服务器。
在一个示例性场景中,以语音点餐场景为例,用户在终端上可以安装语音点餐系统的应用程序,用户启动语音点餐系统之后,向语音点餐系统输入待识别语音“我想要一份鱼香肉丝”,语音点餐系统采集到待识别语音之后,以TCP(Transmission ControlProtocol,传输控制协议)报文的形式向服务器发送待识别语音。
201、服务器获取待识别语音的至少一个语音帧。
在上述过程中,服务器可以接收携带待识别语音的语音传输报文,对该语音传输报文进行解析,得到待识别语音,进一步地,服务器可以对待识别语音进行VAD(VoiceActivity Detection,语音活动检测)处理,消除掉待识别语音中的静音期,再对待识别语音进行分帧处理,得到该至少一个语音帧。
在一些实施例中,服务器可以通过VAD技术检测出待识别语音中信号能量低于能量阈值的部分,将这一部分确定为静音期,从而在待识别语音中删除静音期,完成对待识别语音的初步过滤。可选地,服务器可以通过双门限方法、相关系数法、经验模态分解法(Empirical Mode Decomposition,EMD)或者小波变换法等方法进行语音活动检测,本公开实施例对具体采用哪种方式来实现语音活动检测不做具体限定。
202、服务器将该至少一个语音帧输入语音识别模型,通过该语音识别模型对该至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,一个预测概率用于表示该待识别语音中包含一个语音关键词的概率。
在上述过程中,该语音识别模型可以是基于残差结构的LSTM模型,也可以是基于残差结构的BLSTM(Bidirectional Long Short-Term Memory,双向长短期记忆网络)模型,还可以是其他的用于进行语音关键词识别的声学模型,本申请实施例不对语音识别模型的类型进行具体限定。
在一些实施例中,以语音识别模型为基于残差结构的LSTM模型为例进行说明,在基于残差结构的LSTM模型(后文中将简称为“LSTM模型”)中可以包括输入层、隐藏层和输出层,三者之间串行连接,所谓串行连接也即是上一层的输出作为下一层的输入,基于这种模型结构,图3是本申请实施例提供的一种语音识别方法的流程图,如图3所示,服务器可以通过执行下述子步骤2021-2026来获取上述预测概率:
2021、服务器将该至少一个语音帧输入LSTM模型中的输入层,通过该输入层提取该至少一个语音帧的频率特征。
在一些实施例中,服务器可以在输入层中对该至少一个语音帧进行梅尔倒谱分析,将分析所得的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)作为该至少一个语音帧的频率特征,从而能够通过MFCC信息反映出人耳对不同频率的声波所具有的不同的听觉敏感度。
在一些实施例中,上述输入层还可以视为一个特征提取层,或者说,可以视为一个特征提取子网络,在特征提取子网络中,服务器可以对该至少一个语音帧进行卷积处理,得到该至少一个语音帧的频率特征,从而能够通过对特征提取子网络的优化,进一步提升特征提取过程的准确度。
2022、服务器将该至少一个语音帧的频率特征分别输入该LSTM模型中隐藏层的至少一个记忆单元,通过该至少一个记忆单元对该至少一个语音帧的频率特征进行基于残差结构的加权变换,输出该至少一个语音帧的特征向量。
在上述过程中,LSTM模型的隐藏层中包括至少一个记忆单元,每个记忆单元都对应于输入层中一个语音帧的频率特征。而将该至少一个语音帧的频率特征输入该至少一个记忆单元,是指分别将一个语音帧的频率特征输入到对应的一个记忆单元中,使得每个记忆单元均对应于一个语音帧的频率特征,例如,将第n(n≥1)个语音帧的频率特征输入到n个记忆单元中。
在一些实施例中,对任一个记忆单元而言,服务器响应于该记忆单元所对应语音帧的频率特征以及上一个记忆单元的处理结果,对该语音帧的频率特征进行加权变换,得到该语音帧的中间向量,将该语音帧的中间向量与该上一个记忆单元的处理结果进行融合,得到该语音帧的特征向量,对每个记忆单元均执行上述操作,可以得到至少一个语音帧的特征向量。在上述过程中,通过将中间向量与上一个记忆单元的处理结果进行融合,能够通过残差结构这样处于空间域的快速通道来对处于时间域内的记忆单元进行分离,有利于提取出更深层次、更好表达能力的特征向量。
2023、服务器将该至少一个语音帧的特征向量输入投影层,通过该投影层确定是否对该至少一个语音帧进行迭代投影。
其中,该投影层用于对特征向量进行降维,相当于将一个原本的高维向量投影到一个低维向量,依据是否进行迭代投影,可以将上述投影层划分为迭代投影层和非迭代投影层,通过迭代投影层可以执行下述步骤2024,将原本高维的特征向量不断进行迭代的投影,通过非迭代投影层可以执行下述步骤2025,在投影到一个低维向量之后,将投影所得的低维向量输入到输出层中。
图4为本申请实施例提供的一种LSTM模型的原理示意图,请参考图4,在本申请实施例所提供的LSTM模型400中,对于t时刻的语音帧的频率特征xt,在输入第t个记忆单元(cell)之后,通过tanh函数(一种激活函数)对t时刻语音帧的频率特征xt以及上一个记忆单元基于迭代投影层的处理结果rt-1进行激活处理,然后分别通过输入门it、遗忘门ft和输出门ot的作用,得到t时刻语音帧的中间向量ct,再通过一个残差结构401,将t时刻语音帧的中间向量ct与上一个记忆单元的处理结果rt-1一起进行加权变换,得到t时刻语音帧的特征向量mt,将t时刻语音帧的特征向量mt输入到投影层(projection)402中,确定是否进行迭代投影,若确定进行迭代投影,那么可以将迭代投影层输出的特征向量rt输入到下一个记忆单元中,若确定不进行迭代投影,那么可以将非迭代投影层输出的特征向量pt输入到下一个记忆单元中,最终可以确定出第t个记忆单元输出的结果为ht(ht等于pt或者rt),其中,t为大于或等于0的数值。
上述LSTM模型能够通过一个基于空间域的快速通道(也即是残差结构)将时间域的记忆单元进行分离,有利于提取出更深层次的特征向量,使得LSTM模型拥有更加优秀的系统性能和语音识别准确率。
2024、服务器响应于确定进行迭代投影,将该至少一个语音帧的特征向量重新输入该至少一个记忆单元进行迭代加权变换。
在上述过程中,服务器相当于通过投影层做了一次降维映射,将高维的特征向量映射为一个低维的特征向量,若确定进行迭代投影,此时投影层相当于迭代投影层,所输出的低维的特征向量可以直接输入到下一个记忆单元中做迭代加权变换,从而能够通过对输出的特征向量进行降维映射,以减少LSTM模型整体的待训练的参数量;反之,若确定不进行迭代投影,此时投影层相当于非迭代投影层,说明投影层所做出的降维映射对于减少模型参量的贡献不大,此时可以执行下述步骤2025,直接将非迭代投影层输出的特征向量输入到输出层中。
2025、服务器响应于确定不进行迭代投影,将该至少一个语音帧的特征向量输入LSTM模型的输出层。
在上述过程中,如果确定不进行迭代投影,那么可以直接将原本的特征向量输入到输出层中,或者,也可以将投影后所得到的特征向量输入到输出层中。
在上述步骤2023-2025中,服务器可以通过引入投影层,对隐藏层输出的特征向量进行降维处理,从而减少LSTM模型中待训练的参数量,从而能够大大提升LSTM模型的训练效率。
在一些实施例中,服务器也可以不执行上述步骤2023-2025,也即是说,不在LSTM模型中引入映射层,从而能够简化语音识别方法的训练流程。
2026、服务器将该至少一个语音帧的特征向量输入该LSTM模型中的输出层,通过该输出层将该至少一个语音帧的特征向量映射为该至少一个预测概率。
在上述过程中,LSTM模型的输出层中包含至少一个关键词标签,通过对该至少一个语音帧的特征向量进行指数归一化(softmax)处理,得到待识别语音的音素序列,通过语言模型对该音素序列进行解码处理,得到该音素序列所对应的文本序列,进而将文本序列与预存的语音关键词进行关键词匹配,得到该待识别语音中包含各个语音关键词的预测概率。
在上述步骤2021-2026中,仅以语音识别模型为基于残差结构的LSTM模型为例,对获取预测概率的过程进行说明,在一些实施例中,LSTM模型可以包括多层隐藏层,从而可以称为多层LSTM模型,例如,可以是3层LSTM模型,此时各个隐藏层输出的特征向量并不会直接输入到输出层中,而是会输入到下一个隐藏层中,只有最后一个隐藏层输出的特征向量才会输入到输出层中,当然,在一些实施例中,语音识别模型还可以是基于残差结构的BLSTM模型,或者基于残差结构的多层BLSTM模型等,本申请实施例不对语音识别模型的类型进行具体限定。
203、服务器基于该至少一个预测概率,确定该待识别语音中所包含的语音关键词。
在一些实施例中,对任一个预测概率,若该预测概率大于概率阈值,服务器可以确定待识别语音中包含该预测概率所对应的语音关键词,否则,服务器可以确定待识别语音中不包含该预测概率所对应的语音关键词,其中,该概率阈值可以是任一大于或等于0且小于或等于1的数值,本申请实施例不对概率阈值的取值进行具体限定。
在一些实施例中,服务器还可以按照预测概率从大到小的顺序,对预测概率所对应的语音关键词进行排序,确定待识别语音中包含排序位于前目标位的语音关键词,其中,前目标位的位数可以是任一大于或等于1的整数,本申请实施例不对前目标位的位数取值进行具体限定。
204、响应于该语音关键词中包括目标关键词,终端采集用于进行声纹识别的目标语音,向服务器发送目标语音。
在上述过程中,若语音关键词包括目标关键词,那么服务器可以向终端下发目标语音所指定的内容,用户通过应用程序获取到指定的内容之后,可以在应用程序中触发声纹识别的接口,调用录音组件录制自己念出指定内容的语音,将该语音作为目标语音发送至服务器中,具体采集语音信号的过程以及发送语音的过程与上述步骤200类似,这里不做赘述。
205、服务器获取用于进行声纹识别的目标语音。
上述步骤205与上述步骤201类似,这里不做赘述。
206、服务器对该目标语音进行声纹识别,得到该目标语音的声纹识别结果,该声纹识别结果用于表示该目标语音所属的用户是否为目标用户。
在上述过程中,服务器可以通过声纹识别模型来进行声纹识别,当然,也可以通过模板匹配方法、最近邻聚类方法等方式来进行声纹识别,在本申请实施例中,以声纹识别模型为例进行说明,图5是本申请实施例提供的一种声纹识别方法的流程图,请参考图5,声纹识别过程可以包括下述子步骤2061-2063:
2061、服务器将目标语音输入声纹识别模型,通过该声纹识别模型对该目标语音进行特征提取,得到该目标语音的含噪声纹特征。
在上述过程中,含噪声纹特征可以是含噪I-Vector(Identity-Vector,紧凑向量),I-Vector是一种用于表示说话人声音特征的紧凑向量,在一些实施例中,含噪声纹特征也可以是含噪的均值超矢量,本申请实施例不对含噪声纹特征的类型进行具体限定。
在一些实施例中,服务器可以基于全局差异空间模型对目标语音进行特征提取,得到目标语音的含噪I-Vector,或者,服务器还可以对目标语音进行联合因子分析(JointFactor Analysis,JFA),得到目标语音的含噪均值超矢量。
2062、服务器对该目标语音的含噪声纹特征进行降噪处理,得到该目标语音的纯净声纹特征。
在一些实施例中,服务器可以通过深度神经网络来进行降噪处理,此时,服务器可以将该含噪声纹特征输入深度神经网络,通过该深度神经网络对该含噪声纹特征进行非线性映射,输出纯净声纹特征。
在上述过程中,含噪声纹特征和纯净声纹特征之间存在一种复杂的非线性函数关系,而通过深度神经网络对含噪声纹特征做降噪,能够利用深度神经网络强大的拟合能力,通过训练深度神经网络,使其学习到含噪声纹特征与纯净声纹特征之间的非线性映射关系,能够做到给定一个含噪声纹特征,可以得到纯净声纹特征的近似表征,从而提升降噪过程的准确性。
在一些实施例中,服务器还可以通过最近邻聚类、卷积神经网络、支持向量机等方式来对含噪声纹特征进行降噪处理,本申请实施例不对降噪处理的方式进行具体限定。
由于当纯净语音的声纹遭受到背景噪声的干扰时,语音的声纹特征也会相应地随之发生改变,因此在噪声环境下语音的声纹特征的改变会导致声纹识别系统性能显著下降,而在上述步骤2062中,通过对含噪声纹特征进行降噪处理,能够在进行声纹识别之前对目标语音的声纹特征进行一次增强处理,有利于提升声纹识别过程的准确性,改善声纹识别系统的性能。
在一些实施例中,服务器也可以不对含噪声纹特征进行降噪,也即是不执行上述步骤2062,而是基于含噪声纹特征计算与目标用户的声纹特征之间的相似度,这样能够简化声纹识别过程的流程。
需要说明的是,以声纹特征为I-Vector为例进行说明,在基于深度神经网络进行降噪处理之前,服务器可以基于样本含噪I-Vector和样本纯净I-Vector训练一个深度神经网络,该深度神经网络以含噪I-Vector为输入,以纯净I-Vector为输出。换言之,在训练过程中,可以采集样本含噪语音的I-Vector作为含噪I-Vector,采集样本纯净语音的I-Vector作为纯净I-Vector,将样本含噪I-Vector作为输入,将样本纯净I-Vector作为标签数据,从而训练出一个用于进行I-Vector增强的深度神经网络,能够实现对I-Vector进行数据增强的效果,能够提升声纹识别过程的稳定性和准确性。
2063、服务器基于该纯净声纹特征与声纹库中存储的目标用户的声纹特征之间的相似度,确定声纹识别结果。
在上述过程中,服务器可以计算纯净声纹特征和目标用户的声纹特征之间的相似度,例如该相似度可以是余弦相似度、欧氏距离的倒数等,本申请实施例不对相似度的形式进行具体限定。进一步地,若相似度大于相似度阈值,可以确定该声纹识别结果为识别通过,否则,可以确定该声纹识别结果为识别失败。
图6是本申请实施例提供的一种语音下单系统的流程图,请参考图6,在一个示例性场景中,以语音点餐场景为例进行说明,在语音下单系统600中,响应于用户输入的待识别语音中包含任一菜品的名称,那么服务器可以向用户所在终端提供该菜品的下单界面,终端显示该菜品的下单界面,在该下单界面中可以包含菜品信息以及下单选项,可选地,该菜品信息可以包括菜品图片、菜品介绍、菜品价格或者菜品所属商家中至少一项,终端响应于用户对下单选项的点击操作,首先可以提示用户登录个人账号,该个人账号与用户信息(尤其是用户的声纹特征)具有关联关系,其次用户在登录个人账号之后可以在下单界面中确认下单,此时终端可以向用户展示至少一种支付验证方式,支付验证方式可以包括声纹识别、密码识别、人脸识别、指纹识别等,终端响应于用户对声纹识别方式的触发操作,可以通过与服务器之间的交互完成声纹识别,具体地,终端向服务器提交该菜品的订单信息,该订单信息中可以包括菜品名称、菜品价格以及菜品数量,服务器向终端下发用于进行声纹识别的指定内容,用户向语音下单系统600输入念出指定内容的目标语音之后,服务器对目标语音进行语音确认(也即声纹识别),确认目标语音的说话人是否与用户信息中对应的目标用户相同,若两者相同,服务器生成本次订单的扣款凭证,并按照凭证向银行系统请求扣款,在扣款完成后用户可以在终端查询本次声纹支付的支付结果。
需要说明的是,在上述示例中仅以语音点餐场景为例进行说明,不应构成对本申请实施例应用场景的局限,可选地,本申请实施例提供的语音识别以及声纹识别方法可以应用于任一语音购物场景中,比如语音打车、语音网购等。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例提供的方法,通过获取待识别语音的至少一个语音帧,将该至少一个语音帧输入语音识别模型,通过该语音识别模型对该至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,由于残差结构能够直接、快速地在对每个语音帧的加权变换过程中引入对应的上下文信息,从而有利于提取出更深层次的语音特征,使得语音识别模型输出的预测概率具有更高的准确率,进而基于该至少一个预测概率,确定该待识别语音中所包含的语音关键词,使得基于预测概率来进行语音关键词识别的过程具有更高的准确率。
下面,将以基于残差结构的三层LSTM模型为例,展示其系统性能的测评结果,请参考表1,表1中示出了LSTM模型、BLSTM模型以及本申请实施例所提供的基于残差结构的LSTM模型(简称为残差LSTM模型)这三种不同语音识别模型分别针对10个语音关键词(KeyWord,KW)进行预测时的正确率。
表1
正确率 LSTM BLSTM 残差LSTM
KW1 78.3% 82.6% 84.8%
KW2 77.4% 91.9% 79.6%
KW3 79.1% 92.1% 91.4%
KW4 91.3% 95.9% 96.7%
KW5 76.4% 96.4% 88.9%
KW6 79.8% 78.1% 85.2%
KW7 74.7% 81.1% 88.3%
KW8 86.9% 75.3% 89.1%
KW9 87.8% 85.5% 82.5%
KW10 89.5% 84.1% 79.7%
从上表中数据进行分析,通过对上述10个KW各自的正确率求平均值,可以计算出LSTM模型中10个KW的平均正确率是82.1%,而BLSTM模型中10个KW的平均正确率是86.3%,本申请实施例提供的残差LSTM模型中10个KW的平均正确率是86.6%,因此,从整体来说,残差LSTM模型对于语音关键词识别的正确率改善效果较为理想,并且KW3和KW4的正确率均超过了90%,具有良好的语音识别精确度。
进一步地,请参考表2,表2中示出了LSTM模型、BLSTM模型以及本申请实施例提供的残差LSTM模型各自的待训练参数量。
表2
LSTM BLSTM 残差LSTM
模型参数量 24M 37M 34M
从上述表格中分析可知,由于参数量的大小会直接影响到模型的训练效率,而残差LSTM模型的参数量虽然比LSTM大,但仍然小于BLSTM模型,因此相较于BLSTM模型而言,残差LSTM模型不但在模型预测时具有更高的正确率,而且在模型训练时还具有更高的训练效率,这是由于在残差LSTM模型中引入了投影层,对特性向量进行了降维映射处理,从而减少了模型的待训练参数量,优化了模型的训练效率。
进一步地,请参考图7,图7中示出了LSTM模型、BLSTM模型以及本申请实施例提供的残差LSTM模型各自的工作性能曲线700,这里采用性能曲线是ROC曲线(ReceiverOperating Characteristic curve,接受者操作特征曲线),在ROC曲线中以虚惊率为横轴坐标、召回率为纵轴坐标,在同一虚惊率之下,召回率越高说明模型的性能越好。从图7中可以看出,残差LSTM模型具有比LSTM模型以及BLSTM模型均更好的工作性能。
图8是本申请实施例提供的一种语音识别装置的结构示意图,请参考图8,该装置包括:
获取模块801,用于获取待识别语音的至少一个语音帧;
加权变换模块802,用于将该至少一个语音帧输入语音识别模型,通过该语音识别模型对该至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,一个预测概率用于表示该待识别语音中包含一个语音关键词的概率;
第一确定模块803,用于基于该至少一个预测概率,确定该待识别语音中所包含的语音关键词。
本申请实施例提供的装置,通过获取待识别语音的至少一个语音帧,将该至少一个语音帧输入语音识别模型,通过该语音识别模型对该至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,由于残差结构能够直接、快速地在对每个语音帧的加权变换过程中引入对应的上下文信息,从而有利于提取出更深层次的语音特征,使得语音识别模型输出的预测概率具有更高的准确率,进而基于该至少一个预测概率,确定该待识别语音中所包含的语音关键词,使得基于预测概率来进行语音关键词识别的过程具有更高的准确率。
在一种可能实施方式中,该语音识别模型为基于残差结构的长短期记忆网络LSTM模型;
基于图8的装置组成,该加权变换模块802包括:
第一提取单元,用于将该至少一个语音帧输入该LSTM模型中的输入层,通过该输入层提取该至少一个语音帧的频率特征;
加权变换单元,用于将该至少一个语音帧的频率特征分别输入该LSTM模型中隐藏层的至少一个记忆单元,通过该至少一个记忆单元对该至少一个语音帧的频率特征进行基于残差结构的加权变换,输出该至少一个语音帧的特征向量;
映射单元,用于将该至少一个语音帧的特征向量输入该LSTM模型中的输出层,通过该输出层将该至少一个语音帧的特征向量映射为该至少一个预测概率。
在一种可能实施方式中,该加权变换单元用于:
对任一个记忆单元,响应于该记忆单元所对应语音帧的频率特征以及上一个记忆单元的处理结果,对该语音帧的频率特征进行加权变换,得到该语音帧的中间向量,将该语音帧的中间向量与该上一个记忆单元的处理结果进行融合,得到该语音帧的特征向量。
在一种可能实施方式中,基于图8的装置组成,该装置还包括:
第二确定模块,用于将该至少一个语音帧的特征向量输入投影层,通过该投影层确定是否对该至少一个语音帧进行迭代投影;
迭代变换模块,用于响应于确定进行迭代投影,将该至少一个语音帧的特征向量重新输入该至少一个记忆单元进行迭代加权变换;
输入模块,用于响应于确定不进行迭代投影,将该至少一个语音帧的特征向量输入该输出层。
在一种可能实施方式中,该获取模块801还用于:响应于该语音关键词中包括目标关键词,获取用于进行声纹识别的目标语音;
基于图8的装置组成,该装置还包括声纹识别模块,用于对该目标语音进行声纹识别,得到该目标语音的声纹识别结果,该声纹识别结果用于表示该目标语音所属的用户是否为目标用户。
在一种可能实施方式中,基于图8的装置组成,该声纹识别模块包括:
第二提取单元,用于将该目标语音输入声纹识别模型,通过该声纹识别模型对该目标语音进行特征提取,得到该目标语音的含噪声纹特征;
降噪单元,用于对该目标语音的含噪声纹特征进行降噪处理,得到该目标语音的纯净声纹特征;
确定单元,用于基于该纯净声纹特征与声纹库中存储的目标用户的声纹特征之间的相似度,确定该声纹识别结果。
在一种可能实施方式中,该降噪单元用于:
将该含噪声纹特征输入深度神经网络,通过该深度神经网络对该含噪声纹特征进行非线性映射,输出该纯净声纹特征。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的语音识别装置在语音识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思,其具体实现过程详见语音识别方法实施例,这里不再赘述。
图9是本申请实施例提供的一种电子设备的结构示意图,该电子设备可以是终端或者服务器。该电子设备900可以是:智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,电子设备900包括有:处理器901和存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器901所执行以实现本申请中各个实施例提供的语音识别方法。
在一些实施例中,电子设备900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、触摸显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。
外围设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置电子设备900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在电子设备900的不同表面或呈折叠设计;在再一些实施例中,显示屏905可以是柔性显示屏,设置在电子设备900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
定位组件908用于定位电子设备900的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源909用于为电子设备900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
加速度传感器911可以检测以电子设备900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器912可以检测电子设备900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对电子设备900的3D动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器913可以设置在电子设备900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在电子设备900的侧边框时,可以检测用户对电子设备900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时,由处理器901根据用户对触摸显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置电子设备900的正面、背面或侧面。当电子设备900上设置有物理按键或厂商Logo时,指纹传感器914可以与物理按键或厂商Logo集成在一起。
光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制触摸显示屏905的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏905的显示亮度;当环境光强度较低时,调低触摸显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。
接近传感器916,也称距离传感器,通常设置在电子设备900的前面板。接近传感器916用于采集用户与电子设备900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与电子设备900的正面之间的距离逐渐变小时,由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与电子设备900的正面之间的距离逐渐变大时,由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图9中示出的结构并不构成对电子设备900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条程序代码的存储器,上述至少一条程序代码可由终端中的处理器执行以完成上述实施例中语音识别方法。例如,该计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音的至少一个语音帧;
将所述至少一个语音帧输入语音识别模型,通过所述语音识别模型对所述至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,一个预测概率用于表示所述待识别语音中包含一个语音关键词的概率;
基于所述至少一个预测概率,确定所述待识别语音中所包含的语音关键词。
2.根据权利要求1所述的方法,其特征在于,所述语音识别模型为基于残差结构的长短期记忆网络LSTM模型;
所述将所述至少一个语音帧输入语音识别模型,通过所述语音识别模型对所述至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率包括:
将所述至少一个语音帧输入所述LSTM模型中的输入层,通过所述输入层提取所述至少一个语音帧的频率特征;
将所述至少一个语音帧的频率特征分别输入所述LSTM模型中隐藏层的至少一个记忆单元,通过所述至少一个记忆单元对所述至少一个语音帧的频率特征进行基于残差结构的加权变换,输出所述至少一个语音帧的特征向量;
将所述至少一个语音帧的特征向量输入所述LSTM模型中的输出层,通过所述输出层将所述至少一个语音帧的特征向量映射为所述至少一个预测概率。
3.根据权利要求2所述的方法,其特征在于,所述通过所述至少一个记忆单元对所述至少一个语音帧的频率特征进行基于残差结构的加权变换,输出所述至少一个语音帧的特征向量包括:
对任一个记忆单元,响应于所述记忆单元所对应语音帧的频率特征以及上一个记忆单元的处理结果,对所述语音帧的频率特征进行加权变换,得到所述语音帧的中间向量,将所述语音帧的中间向量与所述上一个记忆单元的处理结果进行融合,得到所述语音帧的特征向量。
4.根据权利要求2所述的方法,其特征在于,所述将所述至少一个语音帧的特征向量输入所述LSTM模型中的输出层之前,所述方法还包括:
将所述至少一个语音帧的特征向量输入投影层,通过所述投影层确定是否对所述至少一个语音帧进行迭代投影;
响应于确定进行迭代投影,将所述至少一个语音帧的特征向量重新输入所述至少一个记忆单元进行迭代加权变换;
响应于确定不进行迭代投影,将所述至少一个语音帧的特征向量输入所述输出层。
5.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个预测概率,确定所述待识别语音中所包含的语音关键词之后,所述方法还包括:
响应于所述语音关键词中包括目标关键词,获取用于进行声纹识别的目标语音;
对所述目标语音进行声纹识别,得到所述目标语音的声纹识别结果,所述声纹识别结果用于表示所述目标语音所属的用户是否为目标用户。
6.根据权利要求5所述的方法,其特征在于,所述对所述目标语音进行声纹识别,得到所述目标语音的声纹识别结果包括:
将所述目标语音输入声纹识别模型,通过所述声纹识别模型对所述目标语音进行特征提取,得到所述目标语音的含噪声纹特征;
对所述目标语音的含噪声纹特征进行降噪处理,得到所述目标语音的纯净声纹特征;
基于所述纯净声纹特征与声纹库中存储的目标用户的声纹特征之间的相似度,确定所述声纹识别结果。
7.根据权利要求6所述的方法,其特征在于,所述对所述目标语音的含噪声纹特征进行降噪处理,得到所述目标语音的纯净声纹特征包括:
将所述含噪声纹特征输入深度神经网络,通过所述深度神经网络对所述含噪声纹特征进行非线性映射,输出所述纯净声纹特征。
8.一种语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别语音的至少一个语音帧;
加权变换模块,用于将所述至少一个语音帧输入语音识别模型,通过所述语音识别模型对所述至少一个语音帧进行基于残差结构的加权变换,输出至少一个预测概率,一个预测概率用于表示所述待识别语音中包含一个语音关键词的概率;
第一确定模块,用于基于所述至少一个预测概率,确定所述待识别语音中所包含的语音关键词。
9.根据权利要求8所述的装置,其特征在于,所述语音识别模型为基于残差结构的长短期记忆网络LSTM模型;
所述加权变换模块包括:
第一提取单元,用于将所述至少一个语音帧输入所述LSTM模型中的输入层,通过所述输入层提取所述至少一个语音帧的频率特征;
加权变换单元,用于将所述至少一个语音帧的频率特征分别输入所述LSTM模型中隐藏层的至少一个记忆单元,通过所述至少一个记忆单元对所述至少一个语音帧的频率特征进行基于残差结构的加权变换,输出所述至少一个语音帧的特征向量;
映射单元,用于将所述至少一个语音帧的特征向量输入所述LSTM模型中的输出层,通过所述输出层将所述至少一个语音帧的特征向量映射为所述至少一个预测概率。
10.根据权利要求9所述的装置,其特征在于,所述加权变换单元用于:
对任一个记忆单元,响应于所述记忆单元所对应语音帧的频率特征以及上一个记忆单元的处理结果,对所述语音帧的频率特征进行加权变换,得到所述语音帧的中间向量,将所述语音帧的中间向量与所述上一个记忆单元的处理结果进行融合,得到所述语音帧的特征向量。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于将所述至少一个语音帧的特征向量输入投影层,通过所述投影层确定是否对所述至少一个语音帧进行迭代投影;
迭代变换模块,用于响应于确定进行迭代投影,将所述至少一个语音帧的特征向量重新输入所述至少一个记忆单元进行迭代加权变换;
输入模块,用于响应于确定不进行迭代投影,将所述至少一个语音帧的特征向量输入所述输出层。
12.根据权利要求8所述的装置,其特征在于,所述获取模块还用于:响应于所述语音关键词中包括目标关键词,获取用于进行声纹识别的目标语音;
所述装置还包括声纹识别模块,用于对所述目标语音进行声纹识别,得到所述目标语音的声纹识别结果,所述声纹识别结果用于表示所述目标语音所属的用户是否为目标用户。
13.根据权利要求12所述的装置,其特征在于,所述声纹识别模块包括:
第二提取单元,用于将所述目标语音输入声纹识别模型,通过所述声纹识别模型对所述目标语音进行特征提取,得到所述目标语音的含噪声纹特征;
降噪单元,用于对所述目标语音的含噪声纹特征进行降噪处理,得到所述目标语音的纯净声纹特征;
确定单元,用于基于所述纯净声纹特征与声纹库中存储的目标用户的声纹特征之间的相似度,确定所述声纹识别结果。
14.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的语音识别方法所执行的操作。
15.一种存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的语音识别方法所执行的操作。
CN202010174196.1A 2020-03-13 2020-03-13 语音识别方法、装置、电子设备及存储介质 Pending CN111341307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010174196.1A CN111341307A (zh) 2020-03-13 2020-03-13 语音识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010174196.1A CN111341307A (zh) 2020-03-13 2020-03-13 语音识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111341307A true CN111341307A (zh) 2020-06-26

Family

ID=71187568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010174196.1A Pending CN111341307A (zh) 2020-03-13 2020-03-13 语音识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111341307A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903344A (zh) * 2021-12-07 2022-01-07 杭州兆华电子有限公司 基于多通道小波分解共同降噪的深度学习声纹识别方法
CN114664313A (zh) * 2022-03-01 2022-06-24 游密科技(深圳)有限公司 语音识别方法、装置、计算机设备、存储介质和程序产品
CN114937449A (zh) * 2021-02-05 2022-08-23 清华大学 一种语音关键词识别方法及系统
WO2023273610A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备
CN115811516A (zh) * 2022-12-05 2023-03-17 宁波三星医疗电气股份有限公司 多分帧文件并发上报的方法、装置、设备和介质
CN118841017A (zh) * 2024-06-25 2024-10-25 中国长江电力股份有限公司 一种基于生物特征识别的高保真ai语音认证方法
CN118942451A (zh) * 2024-07-09 2024-11-12 平安科技(深圳)有限公司 语音识别方法和装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106057206A (zh) * 2016-06-01 2016-10-26 腾讯科技(深圳)有限公司 声纹模型训练方法、声纹识别方法及装置
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN108831440A (zh) * 2018-04-24 2018-11-16 中国地质大学(武汉) 一种基于机器学习及深度学习的声纹降噪方法及系统
CN109801621A (zh) * 2019-03-15 2019-05-24 三峡大学 一种基于残差门控循环单元的语音识别方法
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN110047510A (zh) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 音频识别方法、装置、计算机设备及存储介质
CN110298724A (zh) * 2019-05-22 2019-10-01 深圳壹账通智能科技有限公司 点餐推荐方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106057206A (zh) * 2016-06-01 2016-10-26 腾讯科技(深圳)有限公司 声纹模型训练方法、声纹识别方法及装置
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN108831440A (zh) * 2018-04-24 2018-11-16 中国地质大学(武汉) 一种基于机器学习及深度学习的声纹降噪方法及系统
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN109801621A (zh) * 2019-03-15 2019-05-24 三峡大学 一种基于残差门控循环单元的语音识别方法
CN110047510A (zh) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 音频识别方法、装置、计算机设备及存储介质
CN110298724A (zh) * 2019-05-22 2019-10-01 深圳壹账通智能科技有限公司 点餐推荐方法、装置、计算机设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937449A (zh) * 2021-02-05 2022-08-23 清华大学 一种语音关键词识别方法及系统
WO2023273610A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备
CN113903344A (zh) * 2021-12-07 2022-01-07 杭州兆华电子有限公司 基于多通道小波分解共同降噪的深度学习声纹识别方法
CN114664313A (zh) * 2022-03-01 2022-06-24 游密科技(深圳)有限公司 语音识别方法、装置、计算机设备、存储介质和程序产品
CN115811516A (zh) * 2022-12-05 2023-03-17 宁波三星医疗电气股份有限公司 多分帧文件并发上报的方法、装置、设备和介质
CN118841017A (zh) * 2024-06-25 2024-10-25 中国长江电力股份有限公司 一种基于生物特征识别的高保真ai语音认证方法
CN118841017B (zh) * 2024-06-25 2025-05-02 中国长江电力股份有限公司 一种基于生物特征识别的高保真ai语音认证方法
CN118942451A (zh) * 2024-07-09 2024-11-12 平安科技(深圳)有限公司 语音识别方法和装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111341307A (zh) 语音识别方法、装置、电子设备及存储介质
CN111933112B (zh) 唤醒语音确定方法、装置、设备及介质
CN110110145A (zh) 描述文本生成方法及装置
CN112116908B (zh) 唤醒音频确定方法、装置、设备及存储介质
CN110162604A (zh) 语句生成方法、装置、设备及存储介质
CN113220590A (zh) 语音交互应用的自动化测试方法、装置、设备及介质
CN111652624A (zh) 购票处理方法、检票处理方法、装置、设备及存储介质
CN111105788B (zh) 敏感词分数检测方法、装置、电子设备及存储介质
CN114360494A (zh) 韵律标注方法、装置、计算机设备及存储介质
CN114996515A (zh) 视频特征提取模型的训练方法、文本生成方法及装置
CN113160802B (zh) 语音处理方法、装置、设备及存储介质
CN112750425A (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN111341317B (zh) 唤醒音频数据的评价方法、装置、电子设备及介质
CN111028846B (zh) 免唤醒词注册的方法和装置
CN115394285B (zh) 语音克隆方法、装置、设备及存储介质
CN114299935A (zh) 唤醒词识别方法、装置、终端及存储介质
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质
CN114333774A (zh) 语音识别方法、装置、计算机设备及存储介质
CN114547429A (zh) 数据推荐方法、装置、服务器及存储介质
CN113409770A (zh) 发音特征处理方法、装置、服务器及介质
CN116246635A (zh) 声纹识别方法、装置、设备及存储介质
CN116860913A (zh) 语音交互方法、装置、设备及存储介质
CN115658857A (zh) 智能对话方法、装置、设备及存储介质
CN117153166A (zh) 语音唤醒方法、设备及存储介质
CN114386006A (zh) 音频识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40023552

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200626