CN101375329A - 用于语音转换的自动施主分级和选择系统及方法 - Google Patents
用于语音转换的自动施主分级和选择系统及方法 Download PDFInfo
- Publication number
- CN101375329A CN101375329A CNA2006800128920A CN200680012892A CN101375329A CN 101375329 A CN101375329 A CN 101375329A CN A2006800128920 A CNA2006800128920 A CN A2006800128920A CN 200680012892 A CN200680012892 A CN 200680012892A CN 101375329 A CN101375329 A CN 101375329A
- Authority
- CN
- China
- Prior art keywords
- classification
- distributes
- value
- duration
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims description 44
- 238000012549 training Methods 0.000 claims description 40
- 230000003044 adaptive effect Effects 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 9
- 210000001260 vocal cord Anatomy 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 5
- 210000004704 glottis Anatomy 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003442 weekly effect Effects 0.000 claims 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 17
- 230000029036 donor selection Effects 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 abstract description 3
- 238000000844 transformation Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 20
- 230000008859 change Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种自动施主选择算法根据源发音人和目标发音人的声学特征之间的一组客观距离度量估计主观语音转换输出质量。该算法用MLP通过非线性回归学习主观分数与客观距离度量之间的关系。一旦MLP经过训练,该算法可被用于根据所期望的对特定目标声音的变换的输出质量对一组源发音人进行选择和分级。
Description
技术领域
本发明涉及语音处理领域,尤其涉及为语音转换过程选择施主发音人的技术。
背景技术
语音转换的目的在于将源(即,施主)发音人的语音变换为目标发音人的语音。虽然出于此目的已提出了多种算法,但是没有一种能够确保不同施主-目标发音人对的等效性能。
语音转换性能对施主-目标发音人对的依赖性对于实际应用是不利的。然而,在大多数情形中,目标发音人是固定的,即语音转换应用旨在生成特定目标发音人的语音,而施主发音人可以从一组候选人中选择。作为一个示例,考虑涉及在例如计算机游戏应用中将普通语音变换为名人语音的配音应用。不是使用该实际的名人来记录声轨——这可能非常昂贵或不可行,而是使用语音转换系统将普通人的语音(即,施主的语音)转换成听起来与该名人相同的语音。在这种情形中,在一组施主候选人即可利用的人中选择最合适的施主发音人从而显著地提高了输出质量。例如,来自女性罗马语发音人的语音在一特定应用中可能比来自男性德语发音人的语音更适合作为施主语音。然而,从所有可能的候选人当中收集整个训练数据库、为每个可能的候选人执行适当的转换、在各转换之间进行比较、以及获得一个或多个收听人对每个候选人的输出质量或适用性的主观决策。
发明内容
本发明通过提供用于从一组施主候选人当中自动地评估和选择合适的施主发音人用于转换到给定目标发音人的施主选择系统克服了现有技术的这些和其它缺陷。具体地,本发明尤其在通过比较从若干施主获得的声学特征与目标发声而无需实际执行语音转换的选择过程中采用了客观准则。客观准则与输出质量之间的某种关系使得能够选择最佳施主候选人。这种系统尤其避免了转换大量语音并且用一组人主观地收听转换质量的需要。
在本发明的一个实施例中,用于将施主分级的系统包括:声学特征提取器,从施主语音样本和目标发音人语音样本提取声学特征;以及自适应系统,根据所提取的声学特征生成语音转换质量的预测。语音转换质量可以依据转换的整体质量以及所转换的语音与目标发音人的声音特性的相似性。声学特征可包括诸如线谱频率(LSF)距离、音高、音素持续时间、单词持续时间、发声持续时间、词间静默持续时间、能量、频谱倾斜、频率微扰、开商、幅度微扰、以及电声门图(EGG)形状值。
在另一实施例中,一种为目标发音人选择合适施主的系统采用施主分级系统并基于该分级结果选择施主。
在另一实施例中,一种用于将施主分级的方法包括提取一种或多种声学特征并使用自适应系统根据该声学特征预测语音转换质量。
在又一实施例中,一种用于训练施主分级系统的方法包括以下步骤:从语音样本的训练数据库选择施主和目标发音人;获取主观质量值;从施主声音语音样本和目标发音人声音语音样本提取一种或多种声学特征;将该声学特征提供给自适应系统;使用该自适应系统预测质量值;计算所预测的质量值与主观质量值之间的误差;以及根据该误差调整改自适应系统。此外,主观质量值可通过将施主声音语音样本转换为转换后具有目标发音人的声音特性的声音语音样本、将转换后的声音语音样本和目标发音人声音语音样本两者都提供给一个或多个主观收听者、以及从主观听收者接收主观质量值。该主观质量值可以是从每个主观收听者获得的单个主观质量值的统计组合。
根据以下本发明的优选实施例的更为具体的说明、附图、以及权利要求,本发明的上述和其它特征及优点将是显而易见的。
附图说明
为了更加完整地理解本发明及其目的和优点,现在结合附图参照以下说明,其中:
图1示出了根据本发明的一个实施例的自动施主分级系统;
图2示出了根据本发明的一个实施例由特征提取器实现的用以从给定语音样本提取一组声学特征的过程;
图3示出了根据本发明的一个实施例的来自示例性男性发音人的EGG记录的开商评估。
图4示出了根据本发明的一个实施例的表征示例性男性发音人的EGG信号的一个周期的EGG形状。
图5示出了根据本发明的一个实施例的示例性女性到女性语音转换的不同声学特征的示例性直方图;
图6示出了根据本发明的一个实施例的包括多层感知器(MLP)的自适应系统。
图7示出了根据本发明的一个实施例的在训练期间配置的自动施主分级系统。
图8示出了根据本发明的一个实施例的生成训练集的方法。
图9和10示出了列有根据实验的所有源-目标发音人对的S分数的表;
图11和12示出了列有根据实验的所有源-目标发音人对的Q分数的表;以及
图13示出了根据本发明的一个实施例的10重交叉效度确认和测试基于MLP的自动施主选择算法的结果。
具体实施方式
以下参照其中相同附图标记表示相同要素的附图1-13对本发明的进一步特征和优点以及本发明各种实施例的结构和操作进行了说明。本发明的实施例是在语音转换系统的语境中说明的。尽管如此,本发明的普通技术人员很容易认识到在此公开的本发明及其特征还适用于需要施主语音选择的任何语音处理系统或可提高转换质量。
在诸如电影配音等许多语音转换应用中,配音演员的声音被转换为特征演员的声音。在这样的应用中,由诸如配音演员等源(施主)发音人记录的语音被转换为具有诸如特征演员等目标发音人的声音特性的声道。例如,电影会从英语被配音为西班牙语同时希望在西班牙语声轨中保持原始英语演员声音的声音特性。在这样的应用中,目标发音人(即,英语演员)的声音特性是固定的,但是有一群具有对配音过程起作用的各种声音特性的施主(即,西班牙语发音人)。一些施主在总体声音质量和与目标发音人的相似性上比其它施主产生较佳的转换。
传统地,通过将语音样本转换为目标发音人的声音特性、以及随后主观地将每个经过转换的样本与目标发音人的样本进行比较来评价施主。换言之,一个或多个人必须介涉其中并在收听所有转换的基础上来决定哪一特定施主是最适合的。在电影配音情景中,必须针对每个目标发音人和每组施主重复该过程。
相反,本发明提供了一种自动施主分级和选择系统,并且只需要目标发音人样本以及一个或多个施主发音人样本。客观分数根据多个声学特性被记算以预测给定施主将产生优质转换的似然性而不需要转换所有施主语音样本这一高成本步骤。
自动施主分级系统包括使用关键声学特征针对到给定目标发音人的声音的转换评价给定施主的质量的自适应系统。在自动施主分级系统可被用于评价施主之前,训练该自适应系统。在该训练过程中,向自适应系统提供从来自多个发音人的示例性语音样本得到的训练集。从这多个发音人得到多个施主-目标发音人对。首先,在施主语音被转换为目标发音人的声音特性并由一人或多人进行评价时得到主观质量分数。虽然在训练该自适应系统时执行了一些量的转换,但是一旦经过训练,该自动施主分级系统就不需要任何其它的语音转换。
图1示出了根据本发明的自动施主分级系统100。施主语音样本102和目标语音样本104被送进声学特征提取器106——其实现对本领域的普通技术人员是显而易见的——以从施主语音样本102和目标语音样本104提取声学特征。这些声学特征然后被提供给生成Q分数输出110和S分数输出112的自适应系统108。Q分数输出110是所预测的从施主声音到目标声音的语音转换的平均意见等级(MOS)声音质量,其对应于声音质量的标准MOS等级:1=差,2=较差,3=较好,4=好,5=优。S输出112是所预测的从施主声音到目标声音的语音转换的相似性,分级为从1=差到10=优。在以下所述的自适应系统的训练过程中,训练集114被提供给声学特征提取器106并由自适应系统108处理。训练集包括伴有Q分数和S分数的多个施主-目标发音人对。对于每个施主-目标发音人对,声学特征提取器106从施主语音和目标发音人语音提取声学特征并将结果提供给计算和提供Q分数输出110和S分数输出112自适应信号。来自训练集施主-目标发音人对的Q分数和S分数被提供给将它们与Q分数输出110和S分数输出112相比的自适应系统。自适应系统108然后被修改以使所生成的Q分数和S分数与训练集中的Q分数和S分数之间的差异最小化。
对于任意给定目标发音人,如果有多个施主声道可为系统100所用,则得到的Q分数输出110和S分数输出112的值分别指示在转换后的声音与目标发音人的声音的相似性以及转换后的声音的总体声音质量这两者上这多个施主中哪个施主可能得到较高质量的语音转换。
图2示出了根据本发明的一个实施例的由特征提取器106实现的用以从给定语音样本即声道提取一组声学特征的过程200。在步骤202,每个样本作为电声门图(EGG)记录被接收。EGG记录将器官声门(声襞)出口处的体积速度作为电信号给出。它显示了在讲话发声期间人的激励特性。在步骤204,每个样本由例如隐式马尔可夫模型工具包(HTK)来语音地贴加标签,其实现对本领域的普通技术人员是显而易见的。在步骤206,分析持续元音/aa/的EGG信号并确定音高标记。使用/aa/音是因为对于/aa/音,在声道上的任意一点没有施加收缩,因此它是比较源和目标发音人激励特性的一个良好基准,而对于其它音的产生,口音或方言可能会强加其它的可变性。在步骤208,提取音高和能量轮廓线。在步骤210,根据语音标签确定每个源和目标发声之间的对应帧。在步骤212,提取各个声学特征。
在本发明的一个实施例中,所提取的各个声学特征包括以下特征中的一个或多个:线谱频率(LSF)距离、音高、持续时间、能量、频谱倾斜、开商(OQ)、频率微扰、振幅微扰、软发声索引(SPI)、H1-H2、以及EGG形状。以下更加具体地说明这些特征。
具体地,在本发明的一个实施例中,使用16KHz上20的线性预测阶数在逐帧的基础上计算LSF。两个LSF向量之间的距离d使用下式计算:
其中
其中,w1k是第一LSF向量的第k项,w2k是第二LSF向量的第k项,P是预测阶数,以及hk是对应于第一LSF向量的第k项的加权。
音高(f0)值是使用基于标准自相关的音高检测算法来计算的,其标识和实现对于本领域的普通技术人员是显而易见的。
对于持续时间特征,音素、单词、发声、以及词间静默持续时间从语音标签来计算。
对于能量特征,计算逐帧的能量。
对于频谱倾斜,使用全局(global)频谱峰值的dB振幅值与4KHz上的dB振幅值之间LP频谱的最小二乘线拟合(预测阶数为2)的斜率。
对于EGG信号的每个周期,如图3中针对一示例性男性发音人所示的,OQ作为信号的正的部分相对于信号长度的比率被估计。
频率微扰是排除持续元音/aa/中未发声部分的基本音高周期T0的平均周期间变化,使用下式计算:
振幅微扰是排除持续元音/aa/中未发声部分的峰-峰振幅A的平均周期间变化,使用下式计算:
软发声索引(SPI)是70-1600Hz范围中低频谐波能量与1600-4500Hz范围中谐波能量的平均比率。
H1-H2是从功率频谱估计得到的频谱中第一与第二谐波之间逐帧的振幅差异。
如图4中针对示例性男性发音人所示的,EGG形状是用以表征EGG信号的一个周期的简单的三参数模型,其中α是从声门闭合瞬间到EGG信号峰值的最小二乘(LS)线拟合的斜率,β是声襞开启时的EGG信号部分的LS线拟合的斜率,以及是声襞关闭时信号部分的LS线拟合的斜率。
与生成单个值的LSF距离不同,上述提取的所有其它特征都是分布式状态。
图5示出了根据本发明的一个实施例的两个示例性女性的不同声学特征的示例性直方图。在这些直方图中,y轴对应于x轴中参数值出现的归一化频率。具体地,图5(a)示出了两个女性的音高分布。图5(b)示出了两个女性的频谱倾斜。图5(c)示出了这两个女性的开商。图5(d)-(f)示出了她们的EGG形状,具体分别是α、β、γ。图5中所示的时间和谱特征是依赖于发音人的,从而可被用于对发音人之间的差异进行分析和建模。在本发明的实施例中,以上所列的一组声学特征被用来对源-目标发音人对之间的差异进行建模。
在本发明的一个实施例中,使用例如比较分布的常规统计学方法的Wilcoxon分级和(rank-sum)测试来计算两个发音人之间的声学特征距离。该分级和测试是Wild和Seber所述的双样本t测试的非参数替换,并且对来自任何分布的数据都有效且相比于双样本t测试对于离群值不敏感得多。它不仅对分布的平均值之间的差异起作用,而且还对分布的形状之间的差异起作用。分级和值越低,比较下的两个分布越接近。
在本发明的一个实施例中,上述一个或多个声学特征作为输入被提供给自适应系统108。在使用自适应系统108对施主分级之前,必须经过训练阶段。具体地,包括一组施主-目标发音人对的训练集114与其S和Q分数一起被提供。以下对获得或观察用以发展训练集的数据的示例进行说明。另外,具有S和Q分数的一组施主-目标对作为测试集被保存。在训练阶段,每个施主-目标对具有诸如上述一个或多个特征的由声学特征提取器106所提取的声学特征。这些特征被送进自适应系统108,由其生成预测的S和Q分数。将这些预测的分数与作为训练集114的一部分被提供的S和Q分数相比较。将差异作为其误差提供给自适应系统108。自适应系统108然后进行调整以最小化其误差。有许多种本领域内已知的用于误差最小化的方法,具体示例在以下示出。在一段训练之后,测试集中施主-目标发音人对的声学特征被提取。自适应系统108产生预测的S和Q分数。这些值被与作为测试值的一部分被提供的S和Q分数相比较。如果所预测的与实际S和Q分数之间的差异在可接受的阈值之内,则自适应系统108已经过训练并准备好可以使用。例如,当误差在实际值的±5%之内时。否则,过程返回训练。
在本发明的至少一个实施例中,自适应系统108包括多层感知器(MLP)网络或后向传播网络。图6示出了MLP网络的一个示例。它包括:输入层602,接收声学特征;一个或多个隐式层604,被耦合至输入层;以及输出层606,分别生成所预测的Q和S输出608和610。每层包括具有与每个输入相耦合的可在训练中调整的加权的一个或多个感知器。用于构造、训练、以及使用MLP网络的方法是本领域中公知的(参照例如,R.Hecht-Nielsen的Neurocomputing,pp.124-138,1987)。这样一种训练MLP网络的方法是误差最小化的梯度下降法,其实现对本领域的普通技术人员是显而易见的。
图7示出了根据本发明的一个实施例的在训练期间配置时的自动施主分级系统100。在训练期间,训练数据库702设有许多发音人的样本发生记录,并且形成外加有该训练数据库702中记录的施主-目标发音人对的Q和S分数的训练集114。为了生成Q和S分数708,每个可能的施主-目标发音人对将施主语音进行转换以模仿目标发音人704的声音特性。开始应用主观收听准则以比较转换后的语音和目标发音人语音706。例如,收听的人可对感知的每个转换的质量评定等级。需要注意的是,该主观收听只是开始在训练期间执行一次。随后的感知分析由系统100客观地执行。
可以体现为硬件和/或软件的语音转换元件704应该实现系统100针对其被设计用以评估施主质量的转换方法相同的方法。例如,如果系统100被用于使用使用分段码本的发音人变换算法(STASC)确定语音转换的最佳施主,则应使用STASC转换。然而,如果施主被选择用于另一种语音转换技术,例如Tur等人于2006年3月8日提交的题为“Codebook-less Speech Conversion Method and System(少量码本语音转换方法和系统)”、其全部公开内容通过援引包括于此的共同所有的美国专利申请No.11/370,682中公开的Codebook-less技术,则语音转换704应使用相同的语音转换技术。
在训练过程中,施主-目标发音人对被提供给提取特征的特征提取器106,自适应系统108使用这些特征如上所述地预测Q分数和S分数。另外,实际Q分数710和S分数712被提供给自适应系统108。基于所使用的具体训练算法,自适应系统108修改以最小化所预测的与实际Q分数和S分数之间的误差。
图8示出了根据本发明的一个实施例生成训练集的方法800。具体地,在步骤802,记录测试发音人预定的一组发声。在步骤804,记录其余测试发音人相同的预定的一组发声并被要求尽可能接近地模仿第一测试发音人定时,这有助于改善自动对准性能。在步骤806,对于每个预选的施主-目标发音人对,施主的发声被转换为目标发音人的声音特性。如上所述,如果系统100被用于使用STASC确定语音转换的最佳施主,则在步骤S806应使用STASC转换。然而,如果施主被选择用于另一种语音转换技术,则步骤806的语音转换应该使用相同的语音转换技术。
因为声音中的差异和记录质量是非常主观的,诸如上述的Q和S值,所以训练和测试数据的获取开始应该基于主观测试。相应地,在步骤808,一个或多个受实验者被呈现源发声、目标发声以及经转换的发声,并被要求使用上述评分范围为每个变换提供两个主观分数:变换输出到目标发音人声音的相似性(S分数)以及语音转换输出的MOS质量(Q分数)。在步骤810,诸如使用某些形式的统计学组合可以确定Q分数和S分数的代表性分数。例如,可使用该组中每个人的所有S分数和所有Q分数的平均值。在另一实施例中,可以使用在剔除最高和最低分数之后该组中每个人的所有S分数和所有Q分数的平均值。在另一示例中,可使用该组中每个人的S分数和所有Q分数的中值。
作为发展训练集的一个示例,以下说明了一个实验研究。对于该示例,STASC被用作语音转换技术,它是在L.M.Arslan等人的“Speaker transformation algorithmusing segmental codebooks(使用分段码本的发音人变换算法)”(SpeechCommunication 28,pp211-226,1999)中提出的基于码本映射的算法。STASC采用自适应变换平滑滤波器来降低不连续性,从而产生自然的声音和高质量的输出。STASC是基于两级码本映射的算法。在STASC算法的训练级,源声学参数与目标声学参数之间的映射被建模。在STASC算法的变换级,源发音人声学参数在逐帧的基础上与源发音人码本条目相匹配并且目标声学参数作为目标码本条目的加权平均被估计。加权算法显著地降低了不连续性。现在它正被使用在商业应用中以用于国际配音、歌声语音转换、以及创造新的文本到语音(TTS)声音。
实验结果
以下实验研究被用于生成施主-目标发音人对的训练集180。首先,语音转换数据库由10位男性和10位女性本土土耳其语发音人在声学隔离的房间中被记录的20个发声(18个训练,2个测试)。这些发声是描述房间的自然句子,例如“地板上有块灰色的毯子”。同时采集EGG记录。男性发音人中的一个被选为基准发音人,而其余发音人被要求尽可能接近地模仿该基准发音人的定时。
为了避免由于性别间转换所需的大量音高缩放而造成的质量下降,所以单独考虑男性到男性以及女性到女性转换。将每个发音人考虑为目标并执行从相同性别的其余9名发音人到该目标发音人的转换。因此,源-目标对的总数为180(90对男性到男性,90对女性到女性)。
十二位受实验者被呈现源记录、目标记录、以及经经变换的记录,并被要求为每个变换提供两个主观分数,S分数和Q分数。
图9和10示出了列有根据本实验的所有源-目标发音人对的平均S分数的表格。具体地,图9列出了所有男性源-目标对的评估S分数,而图10列出了所有女性源-目标对的平均S分数。对于男性对,当基准发音人是源发音人时获得最高的S分数。因此,当源定时更好地匹配训练集中的目标定时时,语音转换的性能得到改善。排除基准发音人,产生最佳语音转换性能的源发音人随目标发音人而变换。因此,语音转换算法的性能取决于所选的具体源-目标对。表的最后一行显示一些源发音人与其他人相比不适合语音转换,例如男性源发音人4号和女性源发音人4号。表中的最后一列指示较难生成某些目标发音人的声音,即,男性目标发音人6号和女性目标发音人1号。
图11和12示出了列有根据本实验的所有源-目标发音人对的平均Q分数的表。具体地,图11列出了所有男性源-目标对的平均Q分数,而图12列出了所有女性源-目标对的平均S分数。
在本发明的一个实施例中,在如上所述地创建训练集之后系统100被训练。使用10重交叉效度确认分析来评估系统100预测主观测试值的性能。为此,2位男性和2位女性发音人被预留作为测试集。2位男性和2位女性发音人被预留作为效度确认集。其余男性-男性对和女性-女性对之间的客观距离被用作对系统100的输入,而相应的主观分数作为输出。在训练后,估计效度确认集中目标发音人的主观分数并计算S分数和Q分数的误差。
图13示出了根据本发明的一个实施例的10重交叉效度确认分析以及测试基于MLP自动施主选择算法的结果。每次交叉效度确认步骤上的误差被定义为系统100决策与主观测试结果之间的绝对差,其中
以及
其中,T是测试中源-目标对的总数,SSUB(i)是第i对的主观S分数,SMLP(i)是第i对由MLP估计的S分数,QSUB(i)是第i对的主观Q分数,QMLP(i)是第i对由MLP估计的Q分数。ES标示S分数中的误差而EQ标示Q分数中的误差。通过使用效度确认集中不同发音人将上述两个步骤重复10次。将平均交叉效度确认误差计算作为各步骤中误差的平均。最终,使用除测试集中发音人之外的所有发音人训练MLP并关于测试集评价其性能。
此外,可用研究主观测试结果与声学特征距离之间的关系的ID3算法训练决策树。在实验结果中,使用来自所有源-目标发音人对的数据训练的决策树仅通过使用H1-H2特性将男性源发音人3号与其他人区分开来。当其被用作目标发音人时所得到的低主观分数指示使用语音转换很难生成该发音人的声音。如决策树正确标识的,该发音人与其余发音人相比具有显著较低的H1-H2和f0。
上述系统基于给定施主预测转换质量。可以根据所预测的Q分数和S分数从多个施主中选择一个施主用于所分派的语音转换。Q和S分数的相对重要性取决于应用。例如,在电影配音示例中,音频质量非常重要,所以高Q分数是优选的,即使这样会牺牲对目标发音人的一定相似性。相反,在应用于环境可能嘈杂的电话系统的语音响应的TTS系统中,诸如路旁的援助呼叫中心,Q分数并不重要,所以在施主选择过程中可能更多地偏重S分数。因此在施主选择系统中,使用Q分数和S分数将来自多个施主的各施主分级并根据Q分数和S分数选取最佳选择,其中Q和S分数之间的关系根据具体应用来确定。
在此仅出于说明目的使用具体实施例对本发明进行了说明。然而,对于本领域的普通技术人员显而易见的是还可以其它方式体现本发明的原理。因此,本发明不应该被理解为被限制于在此所公开的具体实施例的范围中,而应完全与所附权利要求的范围相匹配。
Claims (22)
1.一种施主分级系统,包括:
声学特征提取器,用于从施主语音样本和目标发音人语音样本提取一个或多个声学特征;以及
自适应系统,用于根据所述声学特征生成语音转换质量值的预测。
2.如权利要求1所述的系统,其特征在于,所述自适应系统是根据包括施主语音样本、目标发音人语音样本、以及实际语音转换质量值在内的训练数据集来训练的。
3.如权利要求1所述的系统,其特征在于,所述语音转换质量值包括对从所述施主语音样本得到的经过变换的语音样本与所述目标发音人样本之间的相似性的主观分级。
4.如权利要求1所述的系统,其特征在于,所述语音转换质量值包括MOS质量值。
5.如权利要求1所述的系统,其特征在于,所述一个或多个声学特征是从包括以下特征的组中选择的:LSF距离、持续时间分布的分级和、音高分布的分级和、包括多个逐帧能量值的能量分布的分级和、频谱倾斜值分布的分级和、EGG信号周期的每周期开商值分布的分级和、周期间频率微扰值分布的分级和、周期间振幅微扰值分布的分级和、软发声索引分布的分级和、第一与第二谐波之间逐帧振幅差分布的分级和、逐周期EGG形状值分布的分级和,及其组合。
6.如权利要求5所述的系统,其特征在于,所述持续时间分布包括来自包含音素持续时间、单词持续时间、发声持续时间、以及词间静默持续时间的组中的持续时间特征。
7.如权利要求5所述的系统,其特征在于,所述一个周期的EGG形状值是包括声门闭合瞬间到所述周期的最大值之间的部分、声襞打开时的所述EGG信号部分、以及声襞闭合时的部分的组中部分的最小二乘拟合线的斜率。
8.一种包括如权利要求1所述的施主分级系统的施主选择系统,其特征在于,来自多个施主的多个语音样本被与所述目标语音样本配对,并且根据所述多个语音样本中每一个的预测从所述多个施主当中选择一个施主。
9.一种用于将施主分级的方法,包括:
从来自施主语音样本和目标发音人语音样本的特征当中提取一个或多个声学特征;以及
使用经过训练的自适应系统,根据所述声学特征对语音转换质量值进行预测。
10.如权利要求9所述的方法,其特征在于,所述自适应系统是根据包括施主语音样本、目标发音人语音样本、以及实际语音转换质量值在内的训练数据集来训练的。
11.如权利要求9所述的方法,其特征在于,所述语音转换质量值包括对从所述事主语音样本得到的经过变换的语音样本与所述目标发音人样本之间的相似性的主观分级。
12.如权利要求9所述的方法,其特征在于,所述语音转换质量值包括MOS质量值。
13.如权利要求9所述的方法,其特征在于,所述一个或多个声学特征是从包括以下特征的组中选择的:LSF距离、持续时间分布的分级和、音高分布的分级和、包括多个逐帧的能量值的能量分布的分级和、频谱倾斜值分布的分级和、EGG信号周期的每周期开商值分布的分级和、周期间频率微扰值分布的分级和、周期间振幅微扰值分布的分级和、软发声索引分布的分级和、第一与第二谐波之间逐帧振幅差分布的分级和、逐周期EGG形状值分布的分级和、及其组合。
14.如权利要求13所述的方法,其特征在于,所述持续时间分布包括来自包含音素持续时间、单词持续时间、发声持续时间、以及词间静默持续时间的组中的持续时间特征。
15.如权利要求13所述的方法,其特征在于,所述一个周期的EGG形状值是包括声门闭合瞬间到所述周期的最大值之间的部分、声襞打开时的所述EGG信号部分、以及声襞闭合时的部分的组中的部分的最小二乘拟合线的斜率。
16.一种用于训练施主分级系统的方法,包括:
从语音样本训练数据库选择具有声学特性的施主和目标发音人;
获取实际主观质量值;
从施主声音语音样本和目标发音人声音语音样本提取一个或多个声学特征;
将所述一个或多个声学特征提供给自适应系统;
使用所述自适应系统预测所预测的主观质量值;
计算所预测的主观质量值与所述实际主观质量值之间的误差值;以及
根据所述误差值调整所述自适应系统。
17.如权利要求16所述的方法,其特征在于,所述获取实际主观质量值包括:
将所述施主声音语音样本转换为具有所述目标发音人的声音特性的转换后的声音语音样本;
将所述转换后的声音语音样本和所述目标发音人声音语音样本提供给主观收听者;以及
从所述主观收听者接收所述实际主观质量值。
18.如权利要求17所述的方法,其特征在于,所述主观收听者包括多个投票收听者,并且所述实际主观质量值是从所述投票收听者中的每个人接收到的投票质量值的统计学组合。
19.如权利要求18所述的方法,其特征在于,所述统计学组合是平均值。
20.如权利要求17所述的方法,其特征在于,所述一个或多个声学特征是从包括以下特征的组中选择的:LSF距离、持续时间分布的分级和、音高分布的分级和、包括多个逐帧的能量值的能量分布的分级和、频谱倾斜值分布的分级和、EGG信号周期的每周期开商值分布的分级和、周期间频率微扰值分布的分级和、周期间振幅微扰值分布的分级和、软发声索引分布的分级和、第一与第二谐波之间逐帧振幅差分布的分级和、逐周期EGG形状值分布的分级和,及其组合。
21.如权利要求20所述的方法,其特征在于,所述持续时间分布包括来自包含音素持续时间、单词持续时间、发声持续时间、以及词间静默持续时间的组中的持续时间特征。
22.如权利要求20所述的方法,其特征在于,所述一个周期的EGG形状是包括声门闭合瞬间到所述周期的最大值之间的部分、声襞打开时的所述EGG信号部分、以及声襞闭合时的部分的组中的部分的最小二乘拟合线的斜率。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US66180205P | 2005-03-14 | 2005-03-14 | |
| US60/661,802 | 2005-03-14 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN101375329A true CN101375329A (zh) | 2009-02-25 |
Family
ID=36992395
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CNA2006800128920A Pending CN101375329A (zh) | 2005-03-14 | 2006-03-14 | 用于语音转换的自动施主分级和选择系统及方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20070027687A1 (zh) |
| EP (1) | EP1859437A2 (zh) |
| JP (1) | JP2008537600A (zh) |
| CN (1) | CN101375329A (zh) |
| WO (1) | WO2006099467A2 (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105575383A (zh) * | 2014-10-28 | 2016-05-11 | 现代摩比斯株式会社 | 利用用户的语音特征的对象信息语音输出控制装置及方法 |
| CN107785010A (zh) * | 2017-09-15 | 2018-03-09 | 广州酷狗计算机科技有限公司 | 歌曲演唱评价方法、设备、评价系统及可读存储介质 |
| CN108922516A (zh) * | 2018-06-29 | 2018-11-30 | 北京语言大学 | 检测调域值的方法和装置 |
| CN114067841A (zh) * | 2020-07-29 | 2022-02-18 | 广州汽车集团股份有限公司 | 声品质评价方法、计算机设备及存储介质 |
Families Citing this family (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7809145B2 (en) * | 2006-05-04 | 2010-10-05 | Sony Computer Entertainment Inc. | Ultra small microphone array |
| US8947347B2 (en) | 2003-08-27 | 2015-02-03 | Sony Computer Entertainment Inc. | Controlling actions in a video game unit |
| US8073157B2 (en) * | 2003-08-27 | 2011-12-06 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
| US7783061B2 (en) | 2003-08-27 | 2010-08-24 | Sony Computer Entertainment Inc. | Methods and apparatus for the targeted sound detection |
| US8160269B2 (en) | 2003-08-27 | 2012-04-17 | Sony Computer Entertainment Inc. | Methods and apparatuses for adjusting a listening area for capturing sounds |
| US7803050B2 (en) | 2002-07-27 | 2010-09-28 | Sony Computer Entertainment Inc. | Tracking device with sound emitter for use in obtaining information for controlling game program execution |
| US8139793B2 (en) * | 2003-08-27 | 2012-03-20 | Sony Computer Entertainment Inc. | Methods and apparatus for capturing audio signals based on a visual image |
| US8233642B2 (en) | 2003-08-27 | 2012-07-31 | Sony Computer Entertainment Inc. | Methods and apparatuses for capturing an audio signal based on a location of the signal |
| US9174119B2 (en) | 2002-07-27 | 2015-11-03 | Sony Computer Entertainement America, LLC | Controller for providing inputs to control execution of a program when inputs are combined |
| JP4769086B2 (ja) * | 2006-01-17 | 2011-09-07 | 旭化成株式会社 | 声質変換吹替システム、及び、プログラム |
| US20110014981A1 (en) * | 2006-05-08 | 2011-01-20 | Sony Computer Entertainment Inc. | Tracking device with sound emitter for use in obtaining information for controlling game program execution |
| US20080120115A1 (en) * | 2006-11-16 | 2008-05-22 | Xiao Dong Mao | Methods and apparatuses for dynamically adjusting an audio signal based on a parameter |
| US20080147385A1 (en) * | 2006-12-15 | 2008-06-19 | Nokia Corporation | Memory-efficient method for high-quality codebook based voice conversion |
| CA2685779A1 (en) * | 2008-11-19 | 2010-05-19 | David N. Fernandes | Automated sound segment selection method and system |
| JP5194197B2 (ja) * | 2011-07-14 | 2013-05-08 | パナソニック株式会社 | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 |
| CN104050964A (zh) * | 2014-06-17 | 2014-09-17 | 公安部第三研究所 | 音频信号还原度检测方法及系统 |
| US9659564B2 (en) * | 2014-10-24 | 2017-05-23 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi | Speaker verification based on acoustic behavioral characteristics of the speaker |
| US10410219B1 (en) * | 2015-09-30 | 2019-09-10 | EMC IP Holding Company LLC | Providing automatic self-support responses |
| US9852743B2 (en) * | 2015-11-20 | 2017-12-26 | Adobe Systems Incorporated | Automatic emphasis of spoken words |
| US10706867B1 (en) * | 2017-03-03 | 2020-07-07 | Oben, Inc. | Global frequency-warping transformation estimation for voice timbre approximation |
| CN112382268A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
| US6263307B1 (en) * | 1995-04-19 | 2001-07-17 | Texas Instruments Incorporated | Adaptive weiner filtering using line spectral frequencies |
| JP3280825B2 (ja) * | 1995-04-26 | 2002-05-13 | 富士通株式会社 | 音声特徴分析装置 |
| US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
| DE19647399C1 (de) * | 1996-11-15 | 1998-07-02 | Fraunhofer Ges Forschung | Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen |
| WO1998035340A2 (en) * | 1997-01-27 | 1998-08-13 | Entropic Research Laboratory, Inc. | Voice conversion system and methodology |
| US6490562B1 (en) * | 1997-04-09 | 2002-12-03 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
| TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
| JP3417880B2 (ja) * | 1999-07-07 | 2003-06-16 | 科学技術振興事業団 | 音源情報の抽出方法及び装置 |
| AUPR329501A0 (en) * | 2001-02-22 | 2001-03-22 | Worldlingo, Inc | Translation information segment |
| FR2843479B1 (fr) * | 2002-08-07 | 2004-10-22 | Smart Inf Sa | Procede de calibrage d'audio-intonation |
| FR2868587A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme de conversion rapides d'un signal vocal |
| FR2868586A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme ameliores de conversion d'un signal vocal |
| JP4207902B2 (ja) * | 2005-02-02 | 2009-01-14 | ヤマハ株式会社 | 音声合成装置およびプログラム |
-
2006
- 2006-03-14 US US11/376,377 patent/US20070027687A1/en not_active Abandoned
- 2006-03-14 CN CNA2006800128920A patent/CN101375329A/zh active Pending
- 2006-03-14 JP JP2008501990A patent/JP2008537600A/ja active Pending
- 2006-03-14 WO PCT/US2006/009264 patent/WO2006099467A2/en not_active Ceased
- 2006-03-14 EP EP06738338A patent/EP1859437A2/en not_active Withdrawn
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105575383A (zh) * | 2014-10-28 | 2016-05-11 | 现代摩比斯株式会社 | 利用用户的语音特征的对象信息语音输出控制装置及方法 |
| CN107785010A (zh) * | 2017-09-15 | 2018-03-09 | 广州酷狗计算机科技有限公司 | 歌曲演唱评价方法、设备、评价系统及可读存储介质 |
| CN108922516A (zh) * | 2018-06-29 | 2018-11-30 | 北京语言大学 | 检测调域值的方法和装置 |
| CN108922516B (zh) * | 2018-06-29 | 2020-11-06 | 北京语言大学 | 检测调域值的方法和装置 |
| CN114067841A (zh) * | 2020-07-29 | 2022-02-18 | 广州汽车集团股份有限公司 | 声品质评价方法、计算机设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2006099467A3 (en) | 2008-09-25 |
| JP2008537600A (ja) | 2008-09-18 |
| US20070027687A1 (en) | 2007-02-01 |
| EP1859437A2 (en) | 2007-11-28 |
| WO2006099467A2 (en) | 2006-09-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101375329A (zh) | 用于语音转换的自动施主分级和选择系统及方法 | |
| Le et al. | Automatic quantitative analysis of spontaneous aphasic speech | |
| CN101894552B (zh) | 基于语谱切分的唱歌评测系统 | |
| TWI220511B (en) | An automatic speech segmentation and verification system and its method | |
| Scanzio et al. | On the use of a multilingual neural network front-end. | |
| Bartelds et al. | Neural representations for modeling variation in speech | |
| Aryal et al. | Can voice conversion be used to reduce non-native accents? | |
| US20100004931A1 (en) | Apparatus and method for speech utterance verification | |
| Sharma et al. | Acoustic model adaptation using in-domain background models for dysarthric speech recognition | |
| TWI275072B (en) | Pronunciation assessment method and system based on distinctive feature analysis | |
| CN102354495A (zh) | 半开放式口语试题的测试方法及系统 | |
| Ryant et al. | Highly accurate mandarin tone classification in the absence of pitch information | |
| Zhang et al. | Multilingual speech evaluation: case studies on English, Malay and Tamil | |
| Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
| Mairano et al. | Acoustic distances, Pillai scores and LDA classification scores as metrics of L2 comprehensibility and nativelikeness | |
| Nidhyananthan et al. | Language and text-independent speaker identification system using GMM | |
| Deekshitha et al. | Broad phoneme classification using signal based features | |
| Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
| Yusnita et al. | Analysis of accent-sensitive words in multi-resolution mel-frequency cepstral coefficients for classification of accents in Malaysian English | |
| Gaikwad et al. | Feature extraction using fusion MFCC for continuous marathi speech recognition | |
| Sinha et al. | Fusion of multi-stream speech features for dialect classification | |
| Proença et al. | Children's reading aloud performance: a database and automatic detection of disfluencies. | |
| Rafi et al. | Relative significance of speech sounds in speaker verification systems | |
| Ranjan et al. | Text-dependent multilingual speaker identification for indian languages using artificial neural network | |
| Zheng | [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090225 |