[go: up one dir, main page]

CN109360573A - 牲畜声纹识别方法、装置、终端设备及计算机存储介质 - Google Patents

牲畜声纹识别方法、装置、终端设备及计算机存储介质 Download PDF

Info

Publication number
CN109360573A
CN109360573A CN201811348261.7A CN201811348261A CN109360573A CN 109360573 A CN109360573 A CN 109360573A CN 201811348261 A CN201811348261 A CN 201811348261A CN 109360573 A CN109360573 A CN 109360573A
Authority
CN
China
Prior art keywords
voiceprint
voice information
recognition model
livestock
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811348261.7A
Other languages
English (en)
Inventor
王健宗
彭俊清
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811348261.7A priority Critical patent/CN109360573A/zh
Publication of CN109360573A publication Critical patent/CN109360573A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种牲畜声纹识别方法、装置、终端设备及计算机可读存储介质,涉及智能决策领域,该方法包括:获取待确认身份牲畜的目标语音信息;将目标语音信息输入至声纹识别模型,得到待确认身份牲畜的身份信息,声纹识别模型用于根据语音信息得到身份信息。本申请实施例中的方案,可以基于声纹识别模型对待确认身份的牲畜的目标语音信息进行识别,识别出该待确认身份牲畜的身份信息,由于声纹识别模型是基于新确认身份的牲畜的语音信息不断对原始牲畜声纹识别模型进行自适应训练更新的模型,从而提高了牲畜身份识别的准确度。

Description

牲畜声纹识别方法、装置、终端设备及计算机存储介质
技术领域
本申请涉及智能决策技术领域,具体而言,本申请涉及一种牲畜声纹识别方法、装置、终端设备及计算机存储介质。
背景技术
为了便于对牲畜的管理,需要依据牲畜的身份对牲畜进行管理,现有技术中,通常是基于待识别身份的牲畜的面部特征,将该面部特征与数据库中存储的牲畜面部特征进行比对,数据库中存储已知身份的牲畜的面部特征,如果在数据库中匹配到该面部特征,则可确定待识别牲畜的身份信息。但随着未知身份牲畜的不断增加,不能通过数据库中已知身份的牲畜识别出未知身份牲畜的身份信息,使得牲畜身份识别结果不准确,且同一种牲畜的面部特征相似度较大,同样导致牲畜的身份识别结果不准确。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,提高牲畜身份识别结果的准确度。本申请采用的技术方案如下:
第一方面,本申请提供了一种牲畜声纹识别方法,该方法包括:
获取待确认身份牲畜的目标语音信息;
将目标语音信息输入至声纹识别模型,得到待确认身份牲畜的身份信息,声纹识别模型用于根据语音信息得到身份信息;
其中,声纹识别模型为基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到的模型,原始声纹识别模型为基于原始语音信息及对应的身份信息预先训练得到的模型。
本申请的可选实施例中,该方法还包括:
基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型。
本申请的可选实施例中,基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型,包括:
将新确认身份的牲畜的语音信息和身份信息添加至牲畜语音信息库,其中,牲畜语音信息库用于存储语音信息与身份信息的对应关系,语音信息与身份信息的对应关系包括原始语音信息与对应的身份信息的对应关系;
根据牲畜语音信息库中的所有语音信息以及对应的身份信息,对原始声纹识别模型进行自适应训练,得到声纹识别模型。
本申请的可选实施例中,原始声纹识别模型中包括声纹特征提取器、声纹向量提取器和身份识别模型,声纹特征提取器用于根据语音信息得到声纹特征,声纹向量提取器用于根据语音信息的声纹特征得到声纹特征向量,身份识别模型用于根据声纹特征向量得到身份信息;
根据牲畜语音信息库中的所有语音信息以及对应的身份信息,对原始声纹识别模型自适应训练,得到声纹识别模型,包括:
根据声纹特征提取器,确定牲畜语音信息库中的所有语音信息的声纹特征;
根据声纹向量提取器,确定所有语音信息的声纹特征的声纹特征向量;
根据所有语音信息的声纹特征向量以及对应的身份信息,对身份识别模型进行自适应训练,得到更新后的身份识别模型,声纹识别模型中包括声纹特征提取器、声纹向量提取器和更新后的身份识别模型。
本申请的可选实施例中,将目标语音信息输入至声纹识别模型,得到待确认身份牲畜的身份信息,包括:
根据声纹特征提取器,确定目标语音信息的声纹特征;
根据声纹向量提取器,确定目标语音信息的声纹特征的声纹特征向量;
根据更新后的身份识别模型,确定与目标语音信息的声纹特征向量对应的身份信息。
本申请的可选实施例中,根据更新后的身份识别模型,确定与目标语音信息的声纹特征向量对应的身份信息,包括:
根据更新后的身份识别模型,确定目标语音信息对应的声纹特征向量属于牲畜语音信息库中所有语音信息中各个语音信息所对应的声纹特征向量的概率值;
将概率值大于预设阈值的语音信息所对应的身份信息确定为目标语音信息对应的身份信息。
本申请的可选实施例中,确定目标语音信息的声纹特征,包括:
根据声纹向量提取器,对目标语音信息中的每帧语音信号进行预处理,得到预处理后的每帧语音信号;
对预处理后的每帧语音信号进行傅里叶变换,得到预处理后的每帧语音信号对应的频谱;
对每帧语音信号对应的频谱进行倒谱处理,得到每帧语音信号对应的倒谱系数,
根据每帧语音信号对应的倒谱系数,得到目标语音信息的声纹特征。
第二方面,本申请提供了一种牲畜声纹识别装置,该装置包括:
语音信息获取模块,用于获取待确认身份牲畜的目标语音信息;
声纹识别模块,用于将目标语音信息输入至声纹识别模型,得到待确认身份牲畜的身份信息,声纹识别模型用于根据语音信息得到身份信息;
其中,声纹识别模型为基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到的模型,原始声纹识别模型为基于原始语音信息及对应的身份信息预先训练得到的模型。
本申请的可选实施例中,该装置还包括:
模型训练模块,用于基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型。
本申请的可选实施例中,模型训练模块在基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型时,具体用于:
将新确认身份的牲畜的语音信息和身份信息添加至牲畜语音信息库,其中,牲畜语音信息库用于存储语音信息与身份信息的对应关系,语音信息与身份信息的对应关系包括原始语音信息与对应的身份信息的对应关系;
根据牲畜语音信息库中的所有语音信息以及对应的身份信息,对原始声纹识别模型进行自适应训练,得到声纹识别模型。
本申请的可选实施例中,原始声纹识别模型中包括声纹特征提取器、声纹向量提取器和身份识别模型,声纹特征提取器用于根据语音信息得到声纹特征,声纹向量提取器用于根据语音信息的声纹特征得到声纹特征向量,身份识别模型用于根据声纹特征向量得到身份信息;
模型训练模块在根据牲畜语音信息库中的所有语音信息以及对应的身份信息,对原始声纹识别模型进行自适应训练,得到声纹识别模型时,具体用于:
根据声纹特征提取器,确定牲畜语音信息库中的所有语音信息的声纹特征;
根据声纹向量提取器,确定所有语音信息的声纹特征的声纹特征向量;
根据所有语音信息的声纹特征向量以及对应的身份信息,对身份识别模型进行自适应训练,得到更新后的身份识别模型,声纹识别模型中包括声纹特征提取器、声纹向量提取器和更新后的身份识别模型。
本申请的可选实施例中,声纹识别模块在将目标语音信息输入至声纹识别模型,得到待确认身份牲畜的身份信息时,具体用于:
根据声纹特征提取器,确定目标语音信息的声纹特征向量;
根据声纹向量提取器,确定目标语音信息的声纹特征的声纹特征向量;
根据更新后的身份识别模型,确定与目标语音信息的声纹特征向量对应的身份信息。
本申请的可选实施例中,声纹识别模块在根据更新后的身份识别模型,确定与目标语音信息的声纹特征向量对应的身份信息时,具体用于:
根据更新后的身份识别模型,确定目标语音信息对应的声纹特征向量属于牲畜语音信息库中所有语音信息中各个语音信息所对应的声纹特征向量的概率值;
将概率值大于预设阈值的语音信息所对应的身份信息确定为目标语音信息对应的身份信息。
本申请的可选实施例中,声纹识别模块在确定目标语音信息的声纹特征时,具体用于:
对目标语音信息中的每帧语音信号进行预处理,得到预处理后的每帧语音信号;
对预处理后的每帧语音信号进行傅里叶变换,得到预处理后的每帧语音信号对应的频谱;
对每帧语音信号对应的频谱进行倒谱处理,得到每帧语音信号对应的倒谱系数,
根据每帧语音信号对应的倒谱系数,得到目标语音信息的声纹特征。
第三方面,本申请提供了一种终端设备,该终端设备包括:处理器、存储器和总线;总线,用于连接处理器和存储器;存储器,用于存储操作指令;处理器,用于通过调用操作指令,执行如本申请的第一方面中任一实施例中所示的方法。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本申请的第一方面中任一实施例中所示的方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的牲畜声纹识别方法、装置、终端设备及计算机存储介质,可以基于声纹识别模型对待确认身份的牲畜的目标语音信息进行识别,识别出该待确认身份牲畜的身份信息,由于声纹识别模型是基于新确认身份的牲畜的语音信息不断对原始牲畜声纹识别模型进行自适应训练更新的模型,从而提高了牲畜身份识别的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种牲畜声纹识别方法的流程示意图;
图2为本申请实施例提供的一种牲畜声纹识别装置的结构示意图;
图3为本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,该实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在该特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例提供了一种牲畜声纹识别方法的流程示意图,如图1所示,该方法可以包括:
步骤S110,获取待确认身份牲畜的目标语音信息。
其中,待确认身份牲畜的目标语音信息指的是需要进行身份确认的牲畜的语音信息,该目标语音信息可以是单通道的语音信息,也可以是多通道语音信息,目标语音信息可以通过任何具有语音信号采集功能的设备进行采集。
步骤S120,将目标语音信息输入至声纹识别模型,得到待确认身份牲畜的身份信息,声纹识别模型用于根据语音信息得到身份信息;
其中,声纹识别模型为基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到的模型,原始声纹识别模型为基于原始语音信息及对应的身份信息预先训练得到的模型。
其中,原始声纹识别模型可以是基于大量的牲畜的原始语音信息及对应的身份信息训练的模型;声纹识别模型为根据新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到的模型,即根据不断加入的新确认身份的牲畜的语音信息,不断对原始声纹识别模型进行更新。原始语音信息及对应的身份信息中,身份信息可以是标识牲畜身份的编码信息,比如,身份编码,每个牲畜对应唯一一个身份编码。
本申请实施例中的方案,可以基于声纹识别模型对待确认身份的牲畜的目标语音信息进行识别,识别出该待确认身份牲畜的身份信息,由于声纹识别模型是基于新确认身份的牲畜的语音信息不断对原始牲畜声纹识别模型进行自适应训练更新的模型,从而提高了牲畜身份识别的准确度。
本申请的可选实施例中,该方法还可以包括:
基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型。
本申请的可选实施例中,基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型,可以包括:
将新确认身份的牲畜的语音信息和身份信息添加至牲畜语音信息库,其中,牲畜语音信息库用于存储语音信息与身份信息的对应关系,语音信息与身份信息的对应关系包括原始语音信息与对应的身份信息的对应关系;
根据牲畜语音信息库中的所有语音信息以及对应的身份信息,对原始声纹识别模型进行自适应训练,得到声纹识别模型。
其中,牲畜语音信息库中可以存储不同牲畜身份对应的语音信息,所有语音信息包括原始语音信息与对应的身份信息,以及新确认身份的牲畜的语音信息及对应的身份信息,当有新确认身份的牲畜的语音信息不断加入到牲畜语音信息库中时,表示牲畜语音信息库中已知身份牲畜的语音信息不断增加,进而使得基于牲畜语音信息库中所有语音信息及对应身份信息可以对原始声纹识别模型进行不断的更新,提高了声纹识别模型识别的准确性。
本申请的可选实施例中,原始声纹识别模型中可以包括声纹特征提取器、声纹向量提取器和身份识别模型,声纹特征提取器用于根据语音信息得到声纹特征,声纹向量提取器用于根据语音信息的声纹特征得到声纹特征向量(i-Vector),身份识别模型用于根据声纹特征向量得到身份信息。
其中,由于不同的声纹特征向量可反应不同语音信息的声纹特征,不同的声纹特征可以反应不同的身份信息,则依据不同的声纹特征向量可以确定语音信息对应的身份信息,通过原始声纹识别模型中包括的声纹向量提取器和身份识别模型,可识别出牲畜的语音信息对应的身份信息。
本申请的可选实施例中,根据牲畜语音信息库中的所有语音信息以及对应的身份信息,对原始声纹识别模型自适应训练,得到声纹识别模型,可以包括:
根据声纹特征提取器,确定牲畜语音信息库中的所有语音信息的声纹特征;
根据声纹向量提取器,确定所有语音信息的声纹特征的声纹特征向量;
根据所有语音信息的声纹特征向量以及对应的身份信息,对身份识别模型进行自适应训练,得到更新后的身份识别模型,声纹识别模型中包括声纹特征提取器、声纹向量提取器和更新后的身份识别模型。
其中,基于牲畜语音信息库中所有语音信息以及对应的身份信息对原始声纹识别模型进行自适应训练实质上是对身份识别模型进行自适应训练,以使得身份识别模型中的参数不断进行更新,身份识别模型可以根据声纹特征向量得到对应的身份信息,则基于新确认身份的牲畜的语音信息的声纹特征向量,可以对身份识别模型进行不断的更新,提高了身份识别模型识别声纹特征向量对应的身份信息的准确性。
本申请的可选实施例中,身份识别模型可以是基于不同身份牲畜的声纹特征向量对PLDA(Probabilistic Linear Discriminant Analysis,概率线性判别分析)矩阵进行训练得到的模型,由于PLDA矩阵是一个协方差矩阵,可以用于表示一个牲畜的语音信息与其他牲畜的语音信息之间的协方差,基于该协方差可以体现出一个牲畜的多通道语音信息与其他牲畜的语音信息之间的差异,PLDA协方差矩阵有助于更好地提取i-Vector中包含的牲畜声音本身的信息,尽量消除信道差异所带来的影响,因此,通过PLDA矩阵训练得到的身份识别模型对牲畜语音信息的声纹特征向量进行识别,可以提高识别的精度。
本申请的可选实施例中,将目标语音信息输入至声纹识别模型,得到待确认身份牲畜的身份信息,可以包括:
根据声纹特征提取器,确定目标语音信息的声纹特征;
根据声纹向量提取器,确定目标语音信息的声纹特征的声纹特征向量;
根据更新后的身份识别模型,确定与目标语音信息的声纹特征向量对应的身份信息。
其中,由于不同的声纹特征向量可反应不同语音信息的声纹特征,不同的声纹特征可以反应不同的身份信息,则依据不同的声纹特征向量可以确定目标语音信息对应的身份信息,则基于目标语音信息的声纹特征的声纹特征向量,通过更新后的身份识别模型进行牲畜语音信息的识别,可以提高识别的准确性。
本申请的可选实施例中,由于牲畜语音信息库中存储所有语音信息与身份信息的对应关系,则依据目标语音信息,可在牲畜语音信息库中判断出该待确认身份牲畜是否在牲畜语音信息库中,即该待确认身份牲畜的目标语音信息在牲畜语音信息库中是否有对应的身份信息。
本申请的可选实施例中,根据更新后的身份识别模型,确定与目标语音信息的声纹特征向量对应的身份信息,可以包括:
确定目标语音信息对应的声纹特征向量属于牲畜语音信息库中所有语音信息中各个语音信息所对应的声纹特征向量的概率值;
将概率值大于预设阈值的语音信息所对应的身份信息确定为目标语音信息对应的身份信息。
其中,牲畜语音信息库中包括所有语音信息的声纹特征向量及对应的身份信息,如果某个牲畜的语音信息与对应的身份信息在该牲畜语音信息库中,则基于该牲畜的目标语音信息的声纹特征向量,计算该目标语音信息的声纹特征向量属于各个语音信息所对应的声纹特征向量的概率值,将概率值大于预设阈值的语音信息所对应的身份信息确定为目标语音信息对应的身份信息,在实际应用中,如果大于预设阈值对应的声纹特征向量有多个,则将最高概率值对应的声纹特征向量所对应的身份信息确定为该目标语音信息对应的身份信息。
本申请的可选实施例中,确定目标语音信息的声纹特征,可以包括:
对目标语音信息中的每帧语音信号进行预处理,得到预处理后的每帧语音信号;
对预处理后的每帧语音信号进行傅里叶变换,得到预处理后的每帧语音信号对应的频谱;
对每帧语音信号对应的频谱进行倒谱处理,得到每帧语音信号对应的倒谱系数,
根据每帧语音信号对应的倒谱系数,得到目标语音信息的声纹特征。
其中,对目标语音信息提取声纹特征,需要先对目标语音信息中的每帧语音信号进行预处理,以使得预处理后的每帧语音信号可以准确反应牲畜声音的特点,在实际应用中,预处理可以包括预加重、分帧和加窗处理中的至少一项,对目标语音信息中的每帧语音信号预处理后,对预处理后的每帧语音信号进行傅里叶变换,得到每帧语音信号对应的频谱,对每帧语音信号对应的频谱进行倒谱处理,得到每帧语音信号对应的倒谱系数,则目标语音信息中的每帧语音信号对应的倒谱系数即为目标语音信息的声纹特征,在实际应用中,倒谱处理可以包括取对数和逆变换中的至少一种。
本申请的可选实施例中,声纹特征提取器可以为滤波器,则可以根据滤波器确定目标语音信息中的声纹特征,其中,滤波器可以为根据实际需求预配置的滤波器,用于提取语音信息中的声纹特征,在实际应用中,滤波器可以为梅尔滤波器,即Mel滤波器,则基于Mel滤波器可以提取语音信息中的梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC),以该梅尔频率倒谱系数作为语音信息的声纹特征。具体的,在得到每帧语音信号对应的频谱后,可以将得到的频谱通过Mel滤波器得到Mel频谱,在Mel频谱上面进行倒谱分析(例如,取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,该MFCC就是这帧语音的声纹特征。将每帧语音的MFCC特征组成特征数据矩阵,该特征数据矩阵即为语音数据的声纹特征向量。
本申请的可选实施例中,当预处理包括预加重时,对目标语音信息进行预处理,可以包括:
对目标语音信息中的低频信息进行过滤处理。
其中,预加重处理的目的是过滤掉目标语音信息中的低频信息,使目标语音信息的高频特性更加突现,相当于一个高通滤波器,该高通滤波器的传递函数为:
H(Z)=1-αZ-1 (1)
其中,Z为音频数据,即语音信息,α为常量系数,在本申请的一个可选实施例中,α的取值可以为0.97。
本申请的可选实施例中,当预处理包括分帧处理时,对目标语音信息进行预处理,可以包括:
将目标语音信息分为N段子语音信息,其中,N为不小于2的整数。
其中,由于语音信息只在较短时间内呈现平稳性,因此可以将一段语音信息分成N段短时间的语音信息即N段子帧,即N段子语音信息,并且为了避免丢失语音信息的连续性特征,N段子语音信息中相邻帧之间通常会有一段重复区域。本申请的一个可选实施例中,重复区域可以为每段子语音信息的帧长的1/2。
本申请的可选实施例中,当预处理包括加窗时,对目标语音信息进行预处理,可以包括:
将目标语音信息分为N段子语音信息,其中,N为不小于2的整数;
对每段子语音信息进行加窗处理,得到每段子语音信息对应的加窗语音信息。
其中,将目标语音信息分为N段子语音信息可以为对目标语音信息先进行分帧处理,处理后再进行加窗处理,在对语音信息进行分帧之后,每一帧语音信息都当成平稳信号来处理,之后用傅里叶展开每一项,以获取Mel频谱特征,这时问题就出来了,如下效应会出现:将具有不连续点的周期函数(如矩形脉冲)进行傅立叶级数展开后,选取有限项进行合成,当选取的项数越多,在所合成的波形中出现的峰起越靠近原信号的不连续点,当选取的项数很大时,该峰起值趋于一个常数,大约等于总跳变值的9%,这种现象称为吉布斯效应,这样就不好了,因为我们的帧在起始和结束肯定是会出现不连续情况的,那样这个信号在分帧之后,就会越来越背离原始信号,所以需要对语音信息进行加窗操作,通过加窗处理,可以减少帧起始和结束的地方信号的不连续性问题,使目标语音信息更稳定,由于语音信息一般在短时间内平稳,所以处理语音信息每次只处理一段时间的数据,因此需要对语音信号进行加窗处理,一次仅处理窗中的数据。
本申请的可选实施例中,原始声纹识别模型是基于原始语音信息及对应的身份信息,可以通过最大期望EM(Expectation Maximization)方法训练高斯混合模型和PLDA矩阵得到的模型,其具体训练过程为:
A1、确定训练样本,训练样本中包括每个牲畜的语音信息和对应的身份信息;
A2、将训练样本通过高斯混合模型进行训练,直至收敛,得到原始声纹识别模型。
本申请的可选实施例中,A2中,将训练样本通过高斯混合模型进行训练,直至收敛,得到原始声纹识别模型,可以包括:
1、对训练样本中的语音信息提取D维特征,D为不小于2的整数,将该D维特征对应的似然概率通过高斯混合模型中的k个高斯分量表示,表达公式为:
其中,为系数,πk为每个高斯模型的分布概率密度;p(x)为训练样本由高斯混合模型计算得到的概率,wk为第k个高斯模型的权重,高斯混合模型中每个高斯分量对应一个高斯模型,p(x|k)为训练样本通过第k个高斯模型计算得到的概率,k为高斯模型的数量。
则,第i个高斯分量的概率分布为:
其中,i为大于0小于等于k的整数,μi为第i个高斯模型的均值,Σi为第i个高斯模型的协方差。
则高斯混合模型中第i个高斯模型的参数可以表示为:
{wi,μi,Σi} (4)
其中,wi为第i个高斯模型的权重,μi为第i个高斯模型的均值,Σi为第i个高斯模型的协方差。
2、在k个高斯模型中选择第i个高斯模型.
3、利用第i个高斯模型得到一个参数样本X,即{wi,μi,Σi}。
其中,为了方便计算,设θ={w1,…,wk1,…,μk1,…,Σk}为k个高斯混合分布的参数集合,即由k个高斯模型的参数形成的参数集合。
4、依据参数样本X和参数集合θ,计算得到参数样本X的对数似然函数,并将此函数通过EM算法得到一个局部最优数值解;
其中,参数样本X为服从高斯混合分布的独立同分布样本集,参数样本X的最大对数似然函数的公式为:
其中,N(xikk)=pi(x),n=k。
由于上述公式中的ln函数里的求和项无法直接求得闭式解,因此可以用非监督的EM算法,对目标函数X采用最大似然估计,即通过选择参数使对数似然函数最大,即利用EM算法可以得到一个局部最优数值解。
其中,在求解过程中,每一步迭代更新的参数模型如下:
其中,wi为第i个高斯模型的权重,μi为第i个高斯模型的均值,Σi为第i个高斯模型的协方差;
p(i|xj,θ)是第i个高斯分量的后验概率,其计算公式为:
其中,wi为第i个高斯分量的权重,即第i个高斯模型的权重,pi(xii)为第i个高斯分量的概率,k为高斯分量的数量;
基于上述wi、μi和Σi三个参数模型,结合以下公式:
不断迭代计算直到参数样本X的最大对数似然值不再发生变化,得到原始声纹识别模型。
在上述原始声纹识别模型训练完成后,基于得到的权重向量、常数向量、协方差矩阵及均值乘以协方差的矩阵等,得到训练好的声纹向量提取器和身份识别模型。
其中,权重向量指的是由高斯模型的权重wi形成的向量,常数向量指的是由高斯混合模型训练收敛后的常数形成的向量,协方差矩阵指的是由高斯模型的协方差Σi形成的矩阵,均值乘以协方差的矩阵指的是由高斯模型的协方差Σi与均值μi相乘得到的矩阵。
可以理解的是,可采用上述训练原始声纹识别模型的方式,基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型,同理,可采用上述训练原始声纹识别模型的方式,基于新确认身份的牲畜的语音信息的声纹特征向量对身份识别模型进行自适应训练得到更新后的身份识别模型。
本申请的可选实施例中,在得到目标语音信息的声纹特征后,基于声纹向量提取器可确定目标语音信息的声纹特征对应的声纹特征向量,可以包括:
根据声纹向量提取器,选取高斯混合模型中的目标高斯模型;
根据目标高斯模型,计算目标语音信息的后验概率;
根据后验概率,确定一阶系数和二阶系数,以及一阶项和二阶项;
根据一阶系数和二阶系数,以及一阶项和二阶项,计算得到声纹特征向量。
本申请的可选实施例中,选取高斯混合模型中的目标高斯模型可以包括:
通过高斯混合模型中的参数计算目标语音信息中每帧语音信号在k个高斯模型的似然对数值,得到k个似然对数值;
将k个似然对数值形成似然对数值矩阵,对似然对数值矩阵中的每列进行并行排序,得到似然对数值的排序结果;
选取前N个似然对数值对应的高斯模型作为目标高斯模型,其中,N为预先配置的整数值;
其中,目标高斯模型为每帧语音信号在k个高斯混合模型中前N个似然对数值对应的似然对数矩阵。
本申请的可选实施例中,根据目标高斯模型,计算目标语音信息的后验概率,可以包括:
将目标语音信息中的每帧语音信号X进行X*XT计算,得到一个对称矩阵,可以将该对称矩阵简化为下三角矩阵,并将下三角矩阵中的元素按元素顺序排列为1行,得到排序后的矩阵;
将排序后的矩阵乘以N,变成一个向量,N为不小于2的正整数;
将目标语音信息中所有帧语音信息对应的向量组合成数据矩阵,并将高斯混合模型中的协方差矩阵也简化为下三角矩阵,变成与数据矩阵类似的矩阵;
通过高斯混合模型中的均值矩阵和协方差矩阵算出每帧语音信号在该目标高斯模型下的似然对数值,其中,均值矩阵为由高斯混合模型中的均值形成的矩阵;
对似然对数值进行Softmax回归计算,得到回归后的似然对数值;
对回归后的似然对数值进行归一化操作,得到每帧语音信号在高斯混合模型的后验概率分布,并将每帧语音信号的概率分布向量组成概率矩阵,该概率矩阵即为目标语音信息的后验概率。
其中,似然对数值计算公式为:
其中,loglikesi为由似然概率值形成的似然对数值矩阵中的第i行向量,Ci为第i个高斯模型的常数项,Ei为第i个高斯模型的均值矩阵,Covi为第i个高斯模型的协方差矩阵,Xi为目标语音信息中的第i帧语音信息。
其中,对似然对数值进行Softmax回归计算的公式为:
Xi=Exp(Xi-max(X))/∑Exp(Xi-max(X)) (12)
其中,Xi为似然对数值矩阵第一行中的第i个值,max(X)为该行向量中的最大值。
本申请的可选实施例中,根据后验概率,确定一阶系数和二阶系数,可以包括:
对概率矩阵列求和,确定一阶系数;
对概率矩阵进行转置并乘以数据矩阵,确定二阶系数,数据矩阵为基于高斯混合模型中常数向量形成的矩阵。
其中,对概率矩阵列求和,确定一阶系数,具体包括:
通过以下公式计算一阶系数:
其中,Gammai为一阶系数向量的第i个元素;loglikesji为概率矩阵的第j行,第i个元素,n为概率矩阵的列数。
其中,对概率矩阵进行转置并乘以数据矩阵,确定二阶系数,具体包括:
通过以下公式计算二阶系数:
X=loglikesT*feats (14)
其中,X为二阶系数矩阵,loglikes为概率矩阵,feats为数据矩阵。
本申请的可选实施例中,根据一阶系数和二阶系数,以及一阶项和二阶项,计算得到声纹特征向量,其计算公式为:
ivector=quadratic-1*linear (15)
其中,linear的计算公式为:
其中,Mi为高斯混合模型中的第i个高斯模型的均值矩阵,Σi为第i个高斯模型的协方差矩阵,Xi为二阶系数矩阵X的第i行向量,n为概率矩阵的列数。
quadratic的计算公式为:
其中,m为一阶系数向量Gamma。
基于与图1所示的方法相同的原理,本申请实施例还提供了一种牲畜声纹识别装置20,如图3所示,该牲畜声纹识别装置20可以包括语音信息获取模块210及声纹识别模块220,其中,
语音信息获取模块210,用于获取待确认身份牲畜的目标语音信息;
声纹识别模块220,用于将目标语音信息输入至声纹识别模型,得到待确认身份牲畜的身份信息,声纹识别模型用于根据语音信息得到身份信息;
其中,声纹识别模型为基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到的模型,原始声纹识别模型为基于原始语音信息及对应的身份信息预先训练得到的模型。
本申请实施例中的方案,可以基于声纹识别模型对待确认身份的牲畜的目标语音信息进行识别,识别出该待确认身份牲畜的身份信息,由于声纹识别模型是基于新确认身份的牲畜的语音信息不断对原始牲畜声纹识别模型进行自适应训练更新的模型,从而提高了牲畜身份识别的准确度。
本申请的可选实施例中,该装置还包括:
模型训练模块,用于基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型。
本申请的可选实施例中,模型训练模块在基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型时,具体用于:
将新确认身份的牲畜的语音信息和身份信息添加至牲畜语音信息库,其中,牲畜语音信息库用于存储语音信息与身份信息的对应关系,语音信息与身份信息的对应关系包括原始语音信息与对应的身份信息的对应关系;
根据牲畜语音信息库中的所有语音信息以及对应的身份信息,对原始声纹识别模型进行自适应训练,得到声纹识别模型。
本申请的可选实施例中,原始声纹识别模型中包括声纹特征提取器、声纹向量提取器和身份识别模型,声纹特征提取器用于根据语音信息得到声纹特征,声纹向量提取器用于根据语音信息的声纹特征得到声纹特征向量,身份识别模型用于根据声纹特征向量得到身份信息。
本申请的可选实施例中,模型训练模块在根据牲畜语音信息库中的所有语音信息以及对应的身份信息,对原始声纹识别模型进行自适应训练,得到声纹识别模型时,具体用于:
根据声纹特征提取器,确定牲畜语音信息库中的所有语音信息的声纹特征;
根据声纹向量提取器,确定所有语音信息的声纹特征的声纹特征向量;
根据所有语音信息的声纹特征向量以及对应的身份信息,对身份识别模型进行自适应训练,得到更新后的身份识别模型,声纹识别模型中包括声纹特征提取器、声纹向量提取器和更新后的身份识别模型。
本申请的可选实施例中,声纹识别模块220在将目标语音信息输入至声纹识别模型,得到待确认身份牲畜的身份信息时,具体用于:
根据声纹特征提取器,确定目标语音信息的声纹特征向量;
根据声纹向量提取器,确定目标语音信息的声纹特征的声纹特征向量;
根据更新后的身份识别模型,确定与目标语音信息的声纹特征向量对应的身份信息。
本申请的可选实施例中,声纹识别模块220在根据更新后的身份识别模型,确定与目标语音信息的声纹特征向量对应的身份信息时,具体用于:
根据更新后的身份识别模型,确定目标语音信息对应的声纹特征向量属于牲畜语音信息库中所有语音信息中各个语音信息所对应的声纹特征向量的概率值;
将概率值大于预设阈值的语音信息所对应的身份信息确定为目标语音信息对应的身份信息。
本申请的可选实施例中,声纹识别模块220在确定目标语音信息的声纹特征时,具体用于:
对目标语音信息中的每帧语音信号进行预处理,得到预处理后的每帧语音信号;
对预处理后的每帧语音信号进行傅里叶变换,得到预处理后的每帧语音信号对应的频谱;
对每帧语音信号对应的频谱进行倒谱处理,得到每帧语音信号对应的倒谱系数;
根据每帧语音信号对应的倒谱系数,得到目标语音信息的声纹特征。
本实施例的牲畜声纹识别装置20可执行本申请上述任一实施例提供的一种牲畜声纹识别方法,其实现原理相类似,此处不再赘述。
基于与图1所示的方法相同的原理,本申请实施例还提供了一种终端设备30,如图3所示,图3所示的终端设备30包括:处理器310和存储器330。其中,处理器310和存储器330相连,如通过总线320相连。可选的,该终端设备30还可以包括收发器340,用于实现该终端设备30与其它设备之间的数据交互,收发器340可以包括一个或多个接收器和发送器。需要说明的是,该终端设备30的结构并不构成对本申请实施例的限定。
其中,处理器310应用于本申请实施例中,用于实现图2所示的语音信息获取模块210及声纹识别模块220的功能。
处理器310可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器310也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线320可包括一通路,在上述组件之间传送信息。总线320可以是PCI总线或EISA总线等。总线320可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器330可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选地,存储器330用于存储执行本申请方案的应用程序代码,并由处理器310来控制执行。处理器310用于执行存储器330中存储的应用程序代码,以实现图2所示实施例提供的牲畜声纹识别装置20的动作。
本申请实施例提供的一种终端设备30,与现有技术相比,本申请实施例中的方案,可以基于声纹识别模型对待确认身份的牲畜的目标语音信息进行识别,识别出该待确认身份牲畜的身份信息,由于声纹识别模型是基于新确认身份的牲畜的语音信息不断对原始牲畜声纹识别模型进行自适应训练更新的模型,从而提高了牲畜身份识别的准确度。
本申请实施例提供的一种终端设备30适用于上述实施例中的装置实施例,且具有与上述装置实施例相同的发明构思及相同的有益效果,在此不再赘述。
基于与图1所示的方法相同的原理,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一方法实施例所示的方法。
本申请实施例提供了一种计算机可读存储介质,与现有技术相比,本申请实施例中的方案,可以基于声纹识别模型对待确认身份的牲畜的目标语音信息进行识别,识别出该待确认身份牲畜的身份信息,由于声纹识别模型是基于新确认身份的牲畜的语音信息不断对原始牲畜声纹识别模型进行自适应训练更新的模型,从而提高了牲畜身份识别的准确度。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种牲畜声纹识别方法,其特征在于,包括:
获取待确认身份牲畜的目标语音信息;
将所述目标语音信息输入至声纹识别模型,得到所述待确认身份牲畜的身份信息,所述声纹识别模型用于根据语音信息得到身份信息;
其中,所述声纹识别模型为基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到的模型,所述原始声纹识别模型为基于原始语音信息及对应的身份信息预先训练得到的模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型。
3.根据权利要求2所述的方法,其特征在于,所述基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到声纹识别模型,包括:
将新确认身份的牲畜的语音信息和身份信息添加至牲畜语音信息库,其中,所述牲畜语音信息库用于存储语音信息与身份信息的对应关系,所述语音信息与身份信息的对应关系包括所述原始语音信息与对应的身份信息的对应关系;
根据所述牲畜语音信息库中的所有语音信息以及对应的身份信息,对所述原始声纹识别模型进行自适应训练,得到声纹识别模型。
4.根据权利要求3所述的方法,其特征在于,所述原始声纹识别模型中包括声纹特征提取器、声纹向量提取器和身份识别模型,所述声纹特征提取器用于根据语音信息得到声纹特征,所述声纹向量提取器用于根据语音信息的声纹特征得到声纹特征向量,所述身份识别模型用于根据声纹特征向量得到身份信息;
所述根据所述牲畜语音信息库中的所有语音信息以及对应的身份信息,对所述原始声纹识别模型自适应训练,得到声纹识别模型,包括:
根据所述声纹特征提取器,确定所述牲畜语音信息库中的所有语音信息的声纹特征;
根据所述声纹向量提取器,确定所述所有语音信息的声纹特征的声纹特征向量;
根据所述所有语音信息的声纹特征向量以及对应的身份信息,对所述身份识别模型进行自适应训练,得到更新后的身份识别模型,所述声纹识别模型中包括所述声纹特征提取器、所述声纹向量提取器和所述更新后的身份识别模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述目标语音信息输入至声纹识别模型,得到所述待确认身份牲畜的身份信息,包括:
根据所述声纹特征提取器,确定所述目标语音信息的声纹特征;
根据所述声纹向量提取器,确定所述目标语音信息的声纹特征的声纹特征向量;
根据所述更新后的身份识别模型,确定与所述目标语音信息的声纹特征向量对应的身份信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述更新后的身份识别模型,确定与所述目标语音信息的声纹特征向量对应的身份信息,包括:
根据所述更新后的身份识别模型,确定所述目标语音信息对应的声纹特征向量属于所述牲畜语音信息库中所有语音信息中各个语音信息所对应的声纹特征向量的概率值;
将概率值大于预设阈值的语音信息所对应的身份信息确定为所述目标语音信息对应的身份信息。
7.根据权利要求5所述的方法,其特征在于,所述确定所述目标语音信息的声纹特征,包括:
对所述目标语音信息中的每帧语音信号进行预处理,得到预处理后的每帧语音信号;
对所述预处理后的每帧语音信号进行傅里叶变换,得到所述预处理后的每帧语音信号对应的频谱;
对所述每帧语音信号对应的频谱进行倒谱处理,得到所述每帧语音信号对应的倒谱系数;
根据所述每帧语音信号对应的倒谱系数,得到所述目标语音信息的声纹特征。
8.一种牲畜声纹识别装置,其特征在于,包括:
语音信息获取模块,用于获取待确认身份牲畜的目标语音信息;
声纹识别模块,用于将所述目标语音信息输入至声纹识别模型,得到所述待确认身份牲畜的身份信息,所述声纹识别模型用于根据语音信息得到身份信息;
其中,所述声纹识别模型为基于新确认身份的牲畜的语音信息对原始声纹识别模型进行自适应训练得到的模型,所述原始声纹识别模型为基于原始语音信息及对应的身份信息预先训练得到的模型。
9.一种终端设备,其特征在于,包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述权利要求1至7中任一所述的方法。
CN201811348261.7A 2018-11-13 2018-11-13 牲畜声纹识别方法、装置、终端设备及计算机存储介质 Pending CN109360573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811348261.7A CN109360573A (zh) 2018-11-13 2018-11-13 牲畜声纹识别方法、装置、终端设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811348261.7A CN109360573A (zh) 2018-11-13 2018-11-13 牲畜声纹识别方法、装置、终端设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN109360573A true CN109360573A (zh) 2019-02-19

Family

ID=65344996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811348261.7A Pending CN109360573A (zh) 2018-11-13 2018-11-13 牲畜声纹识别方法、装置、终端设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109360573A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112298104A (zh) * 2019-07-31 2021-02-02 比亚迪股份有限公司 车辆控制的方法、装置、存储介质及电子设备和车辆
CN113948089A (zh) * 2020-06-30 2022-01-18 北京猎户星空科技有限公司 声纹模型训练和声纹识别方法、装置、设备及介质
CN116259145A (zh) * 2022-09-26 2023-06-13 广州当康自然资源科技有限公司 一种基于ai智能识别的野猪预警与处置系统
CN120236591A (zh) * 2025-05-07 2025-07-01 四川省大熊猫科学研究院 基于声纹识别的野生动物声音检测系统、方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及系统
CN107274905A (zh) * 2016-04-08 2017-10-20 腾讯科技(深圳)有限公司 一种声纹识别方法及系统
CN108154371A (zh) * 2018-01-12 2018-06-12 平安科技(深圳)有限公司 电子装置、身份验证的方法及存储介质
CN108520752A (zh) * 2018-04-25 2018-09-11 西北工业大学 一种声纹识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274905A (zh) * 2016-04-08 2017-10-20 腾讯科技(深圳)有限公司 一种声纹识别方法及系统
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及系统
CN108154371A (zh) * 2018-01-12 2018-06-12 平安科技(深圳)有限公司 电子装置、身份验证的方法及存储介质
CN108520752A (zh) * 2018-04-25 2018-09-11 西北工业大学 一种声纹识别方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王跃: "基于 I-VECTOR的与文本无关的说话人识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 February 2018 (2018-02-15), pages 136 - 383 *
王跃: "基于I-VECTOR的与文本无关的说话人识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 136 - 383 *
管涛: "《数据分析基础及模型》", 31 July 2015, 合肥:合肥工业大学出版社, pages: 80 - 82 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112298104A (zh) * 2019-07-31 2021-02-02 比亚迪股份有限公司 车辆控制的方法、装置、存储介质及电子设备和车辆
CN113948089A (zh) * 2020-06-30 2022-01-18 北京猎户星空科技有限公司 声纹模型训练和声纹识别方法、装置、设备及介质
CN116259145A (zh) * 2022-09-26 2023-06-13 广州当康自然资源科技有限公司 一种基于ai智能识别的野猪预警与处置系统
CN120236591A (zh) * 2025-05-07 2025-07-01 四川省大熊猫科学研究院 基于声纹识别的野生动物声音检测系统、方法及设备

Similar Documents

Publication Publication Date Title
JP6876641B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Hajibabaei et al. Unified hypersphere embedding for speaker recognition
US8751227B2 (en) Acoustic model learning device and speech recognition device
JP4218982B2 (ja) 音声処理
CN104392718B (zh) 一种基于声学模型阵列的鲁棒语音识别方法
CN108417224B (zh) 双向神经网络模型的训练和识别方法及系统
US8433567B2 (en) Compensation of intra-speaker variability in speaker diarization
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
CN109360573A (zh) 牲畜声纹识别方法、装置、终端设备及计算机存储介质
CN107564513A (zh) 语音识别方法及装置
CN102945670B (zh) 一种用于语音识别系统的多环境特征补偿方法
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
CN107369451B (zh) 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
CN109493873A (zh) 牲畜声纹识别方法、装置、终端设备及计算机存储介质
CN105355199A (zh) 一种基于gmm噪声估计的模型组合语音识别方法
CN108257606A (zh) 一种基于自适应并行模型组合的鲁棒语音身份识别方法
Zou et al. Improved voice activity detection based on support vector machine with high separable speech feature vectors
CN105355198A (zh) 一种基于多重自适应的模型补偿语音识别方法
Tran et al. Nonparametric uncertainty estimation and propagation for noise robust ASR
Sharma et al. A modified MFCC feature extraction technique for robust speaker recognition
EP3254282A1 (en) Determining features of harmonic signals
US6076058A (en) Linear trajectory models incorporating preprocessing parameters for speech recognition
CN104392719A (zh) 一种用于语音识别系统的中心子带模型自适应方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190219

RJ01 Rejection of invention patent application after publication