[go: up one dir, main page]

CN115881088A - 基于cbam和动态卷积分解的歌唱语音转换方法 - Google Patents

基于cbam和动态卷积分解的歌唱语音转换方法 Download PDF

Info

Publication number
CN115881088A
CN115881088A CN202211423682.8A CN202211423682A CN115881088A CN 115881088 A CN115881088 A CN 115881088A CN 202211423682 A CN202211423682 A CN 202211423682A CN 115881088 A CN115881088 A CN 115881088A
Authority
CN
China
Prior art keywords
feature
singing voice
dynamic
singing
cbam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211423682.8A
Other languages
English (en)
Inventor
李燕萍
高崧皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211423682.8A priority Critical patent/CN115881088A/zh
Publication of CN115881088A publication Critical patent/CN115881088A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

本发明属于语音转换技术领域,具体地说,是一种基于CBAM和动态卷积分解的歌唱语音转换方法,包括训练阶段和转换阶段,模型网络包括生成器、鉴别器和风格编码器。首先在生成器中引入动态卷积分解,通过动态通道融合来代替通道组的动态关注,解决生成器中动态卷积会导致卷积权重的数量增加K倍的问题,减轻了联合优化的难度,并且使得模型在不牺牲精度的情况下,需要的参数更少,提高算法的运行性能。进一步在生成器的编码网络和解码网络引入CBAM注意力模块,在通道和空间施加注意力,提升对频谱中细节信息的关注与捕获,显著改善转换歌唱语音的质量。

Description

基于CBAM和动态卷积分解的歌唱语音转换方法
技术领域
本发明属于语音转换技术领域,具体地说,是一种基于CBAM和动态卷积分解的歌唱语音转换方法。
背景技术
语音转换(Voice Conversion,VC)技术的定义是将源说话人(source speaker)的身份特征改变为目标说话人(target speaker)的身份特征,同时保持源说话人的内容特征不变,语音转换技术的关键在于保证语音质量的同时有效地改变说话人的音色。
歌唱语音转换是语音转换中的一个新的研究方向,它将源歌手的声音转换为目标歌手的声音,同时保留歌唱内容。通过歌唱语音转换,可以让每个人都像专业人士一样唱歌,克服专业上的限制,自由地控制声音的音调,并以不同的方式表达情感。歌唱语音的分析更关注持续音符、和声/节奏结构和相对音高,而在普通语音中,这些音乐价值是不存在的。进一步,歌唱语音更强调非周期方面,如辅音话语和快速移动的频谱包络,需要处理更广泛的频率变化,以及在歌唱语音中音量和音调更尖锐的变化。
歌唱语音转换领域涌现了很多种方法,如2015年Kazuhiro Kobayashi等人提出的基于全局方差的直接波形修正的统计歌唱语音转换,与基于频谱差分的直接波形修正歌唱语音转换;或者2016年Fernando Villavicencio等人提出的级联声乐合成等方法。它们通常都需要并行数据来训练转换模型。
为了克服歌唱语音转换依赖并行训练数据的局限性,2019年,FaceBookAI提出了一种利用非并行数据的无监督方法,该方法采用了一种由类WaveNet编码器、WaveNet自回归译码器和可学习的歌手嵌入向量表组成的自动编解码器体系结构。通过切换不同歌手的嵌入向量,可以实现歌唱语音的转换。
虽然上述方法可以产生与目标歌手在感知上相似的歌唱语音,但由于语音和音高联合表示的学习存在困难,所产生的歌唱质量往往会受到影响。2020年,TencentAI Lab中的Deng等人提出了一种新的无监督歌唱语音转换方法PitchNet,该方法利用音高回归网络将音高相关信息从编码器的潜在空间中分离出来,生成音高不变表示,实现了灵活的音高处理。
近些年来,基于GAN的方法在语音转换和歌唱语音转换中得到了广泛的应用,它可以通过一个小的参数模型快速生成高质量的音频,这有助于端到端的训练。然而,直接使用GAN进行歌唱语音转换会导致一些问题,如基音抖动和高音误差,这些将主要体现在和声成分中,而和声成分在歌唱语音中非常重要,会直接影响生成的歌唱语音的质量,从而降低对整首歌曲的听觉体验。
得益于语音转换领域的蓬勃发展,上述提到的方法在一定程度上提升了转换歌唱语音的质量和个性相似度,但是还缺少对歌唱语音细节的关注,对音高,基频和宽泛频率的变化处理程度不够好,目前这方面行之有效的方法还比较少。另一方面,在提升转换歌唱语音质量的同时,保持尽可能低的联合优化难度和训练成本,也成为了一个亟需解决的问题。
发明内容
为了解决上述问题,本发明提出一种基于CBAM和动态卷积分解的歌唱语音转换方法,该方法可以通过对空间和通道施加注意力,提升网络对歌唱语音细节的处理能力,进而提升转换歌唱语音的质量;另一方面从矩阵分解的角度重新审视动态卷积,通过动态通道融合,降低了潜在空间的维数,大幅度减少模型的参数量和计算量,显著降低动态注意和静态卷积核的联合优化的难度,提升了模型的运行效率。
本发明采用的具体技术方案如下:
一种基于CBAM和动态卷积分解的歌唱语音转换方法,包括训练阶段和转换阶段,其中,训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由多名歌手的歌唱语音组成;
(1.2)使用WORLD语音分析/合成模型提取出源歌唱语音频谱特征xs、基频特征f0s和非周期性特征;
(1.3)通过风格编码器S提取目标歌唱语音风格特征st。生成器G包括编码网络和解码网络,通过编码网络生成源歌唱语音内容特征xc,然后通过解码网络将源歌唱语音内容特征xc和目标歌唱语音风格特征st进行重构,恢复出歌唱语音;
(1.4)不断调整转换网络的超参数,使得损失函数最小化,直至理想的迭代次数,从而得到训练好的转换网络;
(1.5)构建从源歌唱语音基频特征f0s到目标歌唱语音基频特征f0t的基频转换函数;
转换阶段包括以下步骤:
(2.1)使用WORLD语音分析/合成模型提取出待转换语料中源歌唱语音频谱特征xs′、基频特征f0s′和非周期性特征;
(2.2)通过风格编码器S提取目标歌唱语音风格特征st′,将上述源歌唱语音频谱特征xs′和目标歌唱语音风格特征st′输入到步骤(1.4)中训练好的转换网络中,重构出目标歌唱语音频谱特征xst′;
(2.3)通过步骤(1.5)中的基频转换函数,将步骤(2.1)提取出的源歌唱语音的基频特征f0s′转换为目标歌唱语音基频特征f0t′;
(2.4)使用WORLD语音分析/合成模型将步骤(2.1)中提出的非周期性特征、步骤(2.2)中得到的重构目标歌唱语音频谱特征xst′和步骤(2.3)中得到的目标歌唱语音基频特征f0t′进行合成,得到转换后的歌唱语音。
本发明的进一步改进,上述风格编码器S由5层一维模块组成,包括一维卷积模块和一维池化模块,其中每层卷积模块由卷积层和ReLU激活函数组成,每层池化模块由平均池化构成,输出层由全连接层构成。
本发明的进一步改进,上述(1.3)的训练过程包括以下步骤:
步骤1、将源歌唱语音频谱特征xs输入生成器G的编码网络中,得到身份无关的内容特征G(xs);
步骤2、通过风格编码器S提取目标歌唱语音风格特征st
步骤3、将上述生成的内容特征G(xs)和目标歌唱语音风格特征st输入到生成器G的解码网络进行训练,在训练的过程中,最小化生成器G的损失函数,从而得到转换目标歌唱语音频谱特征xst
步骤4、将源歌唱语音频谱特征xs输入风格编码器S,得到源歌唱语音风格特征ss
步骤5、将上述生成的转换目标歌唱语音的频谱特征xst再次输入生成器G的编码网络,得到身份无关的内容特征G(xst);
步骤6、将上述生成的内容特征G(xst)与源歌唱语音风格特征ss,输入生成器G的解码网络进行训练,在训练的过程中最小化生成器G的损失函数,得到重构的源歌唱语音频谱特征
Figure BDA0003943946480000031
步骤7、将步骤3中生成的转换目标歌唱语音频谱特征xst输入鉴别器D中进行训练,最小化鉴别器D的损失函数;
步骤8、将步骤3中生成的转换目标歌唱语音频谱特征xst,输入风格编码器S进行训练,最小化风格编码器S的风格损失函数;
步骤9、返回步骤1重复上述步骤,直到达到理想的迭代次数,从而得到训练好的转换网络。
本发明所提出的基于CBAM和动态卷积分解的歌唱语音转换方法,所述动态卷积的核的生成函数表示为:
Figure BDA0003943946480000041
其中,Wk为静态卷积核,K为静态卷积核的数目,πk(x)为注意力得分,并且
Figure BDA0003943946480000042
本发明所提出的基于CBAM和动态卷积分解的歌唱语音转换方法,所述动态卷积分解的核的生成函数表示为:
W(x)=Λ(x)W0+Pφ(x)QT
Figure BDA0003943946480000043
其中Λ(x)是一个C×C的对角矩阵,通过这种方式在W0上实现了动态通道注意;P矩阵的维度为C×L,QT为L×C,并且L<<C,Pφ(x)QT代表了稀疏动态残差,为一个对角矩阵;φ(x)为一个全动态矩阵,用于实现动态通道融合;W0为K个静态卷积核的加权平均值。
本发明所提出的基于CBAM和动态卷积分解的歌唱语音转换方法,所述动态卷积分解使用一个轻量级动态分支来生成动态通道融合φ(x)的系数和动态通道注意Λ(x)。动态分支首先将平均池化应用于输入向量x,然后使向量x依次经过两个全连接层和一个激活层,最终加权生成卷积核W(x)。与静态卷积类似,动态卷积分解层还包括批量归一化层和激活层。
本发明所提出的基于CBAM和动态卷积分解的歌唱语音转换方法,所述CBAM注意力模块包括两个子模块,首先是通道注意力模块,输入特征图F,具体函数为:
Figure BDA0003943946480000044
Figure BDA0003943946480000051
Mc(F)代表生成的通道注意力,σ代表激活函数Sigmoid,MLP代表多层感知机,AvgPool代表全局平均池化,MaxPool代表全局最大池化,W0和W1代表MLP的权重矩阵。
Figure BDA0003943946480000052
Figure BDA0003943946480000053
分别代表全局平均池化特征图和全局最大池化特征图。
Figure BDA0003943946480000054
F′代表通道注意力模块输出的特征图,由输入特征图F和生成的通道注意力Mc(F)相乘得到。
本发明所提出的基于CBAM和动态卷积分解的歌唱语音转换方法,所述CBAM注意力模块将通道注意力模块输出的特征图F′作为空间注意力模块的输入特征图,具体函数为:
Figure BDA0003943946480000055
Ms(F′)代表生成的空间注意力,σ代表激活函数Sigmoid,f7×7代表7×7的卷积操作,
Figure BDA0003943946480000056
Figure BDA0003943946480000057
分别代表全局平均池化特征图和全局最大池化特征图。
Figure BDA0003943946480000058
F″代表最终特征图,由输入特征图F′和生成的空间注意力Ms(F′)相乘得到。
本发明有益效果:与现有技术相比,本发明首先在生成器中引入动态卷积分解,通过动态通道融合代替对通道组的动态关注,解决生成器中动态卷积会导致卷积权重的数量增加K倍的问题,减轻了联合优化的难度,使得模型在不牺牲精度的情况下,需要的参数更少。并且能够在不降低歌唱语音质量的前提下减少训练时间,提升整个模型的运行效率;本发明进一步针对歌唱语音更广泛的频率变化,引入CBAM注意力模块,输入特征图将依次通过通道注意力模块和空间注意力模块,通过共享神经元网络对特征图的池化等操作,增加对频谱中细节的关注,识别不太显著的特征,有效提高网络的表征能力,从而提升歌唱语音的质量。同时由于该模型能够适应广泛的频率变化,因此可以针对目标的非歌唱语音进行转换,即将普通人的说话语音转换成高质量的歌唱语音。因此,本发明是具有高合成语音质量和个性相似度的歌唱语音转换方法。
附图说明
图1是本发明的模型的原理示意图。
图2是本发明实施例所述的模型中生成器的网络结构图。
图3是本发明实施例所述的模型中动态卷积分解的网络结构图。
图4是本发明实施例所述的模型中CBAM注意力模块的原理示意图。
图5是本发明实施例所述的模型中通道注意力模块的原理示意图。
图6是本发明实施例所述的模型中空间注意力模块的原理示意图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例:如图1所示,一种基于CBAM和动态卷积分解的歌唱语音转换方法,包括训练阶段和转换阶段,训练阶段用于得到歌唱语音转换所需的参数和转换函数,而转换阶段用于实现源歌唱语音转换为目标歌唱语音。
进一步说明,训练阶段包括以下步骤:
步骤1、获取非平行文本的训练语料,训练语料由多名歌手的歌唱语料组成。实验选取新加坡国立大学声音与音乐计算实验室开发的歌唱和口语语料库NUS-48E中的非平行语料库数据集,该语料库是一个169分钟的集合,有12名歌手的48首英语歌词的歌唱和朗读录音,以及一套完整的转录和持续时间注释,每名歌手对应一个文件夹,每个文件夹包括4个歌唱和朗读的wav格式文件。
此次实验选取该语料库中8名歌手所对应的所有歌唱录音,重新命名为SF3、SF4、SM3、SM4、TF1、TF2、TM1、TM2,其中S代表源歌手,T代表目标歌手,F代表女性歌手,M代表男性歌手。并且将每名歌手的歌唱录音进行切分处理,每名歌手处理之后得到80句录音,每句录音时长在3~4秒,采样率设置为24kHz。其中65句用于训练任务,15句录音用于测试任务,在转换阶段,上述8名歌手将构成16组源-目标转换情形,分别为SF3-TFl、SF3-TF2、SF3-TM1、SF3-TM2、SF4-TF1、SF4-TF2、SF4-TM1、SF4-TM2、SM3-TF1、SM3-TF2、SM3-TM1、SM3-TM2、SM4-TF1、SM4-TF2、SM4-TM1、SM4-TM2。
步骤2、使用WORLD语音分析/合成模型从训练语料中提取出源歌唱语音频谱特征xs、基频特征f0s和非周期性特征。快速傅里叶变换参数设置为1024,时间帧长度设置为256,梅尔倒谱维度设置为36。因此,提取的梅尔倒谱维度为(36,256),基频特征维度为(1,256),非周期性特征维度为(1,256),一次训练时的批次设置为8。
步骤3、本实施例中的基于CBAM和动态卷积分解的歌唱语音转换方法由三部分组成:一个产生真实频谱的生成器G,一个判断输入频谱是真实频谱特征还是生成频谱特征的鉴别器D,以及一个用于提取目标风格特征的风格编码器S。
网络的目标函数L为:
L=LG+LD+Ls
其中,LG、LD和Ls分别是生成器G、鉴别器D和风格编码器S的损失函数。
生成器的损失函数LG表示为:
Figure BDA0003943946480000071
其中,λcyc和λsty是一组正则化超参数,分别表示循环一致性损失和风格重构损失的权重,
Figure BDA0003943946480000072
Figure BDA0003943946480000073
分别表示生成器的对抗损失、循环一致性损失、风格编码器的风格重构损失;
鉴别器的损失函数LD为:
Figure BDA0003943946480000074
其中,
Figure BDA0003943946480000075
是鉴别器的对抗损失。
步骤4、使用WORLD语音分析/合成模型从训练语料中提取出目标歌唱语音频谱特征xt,并将其输入风格编码器S中,得到目标歌唱语音风格特征st;风格编码器由5层一维卷积模块和5层一维池化模块构成,其中,每层一维卷积模块包括卷积和ReLU激活函数,每层一维池化模块由平均池化构成,输出层由全连接层构成。
步骤5、将提取的源歌唱语音频谱特征xs与步骤4中得到的目标歌唱语音风格特征st一起输入生成器进行训练,使生成器的损失函数LG尽量小,得到转换目标歌唱语音频谱特征xst
如图2所示,生成器采用二维卷积网络,激活函数使用Mish函数,生成器由编码网络和解码网络组成。编码网络由7层模块组成,其中,前3层为二维卷积模块,每层二维卷积模块包括二维卷积、实例归一化和Mish函数,后4层为动态卷积分解整合CBAM注意力模块,每层包括动态卷积分解、实例归一化、Mish函数和通道注意力模块以及空间注意力模块。解码网络由6层模块组成,其中,前4层为动态卷积分解整合CBAM注意力模块,每层包括动态卷积分解、实例归一化、Mish函数和通道注意力模块以及空间注意力模块,后2层为二维转置卷积模块,每层二维转置卷积模块包括转置动态卷积、自适应实例归一化和Mish函数。具体动态卷积分解的网络结构图如图3所示,CBAM注意力模块的原理图如图4所示,图5和图6分别是上述通道注意力模块以及空间注意力模块。
步骤6、将目标歌唱语音频谱特征xt和步骤5得到的转换目标歌唱语音频谱特征xst输入鉴别器,训练鉴别器,使鉴别器的对抗损失函数
Figure BDA0003943946480000081
尽可能小。鉴别器由5层二维卷积模块和输出层构成。其中,每层二维卷积模块包括二维卷积和LeakyReLU函数,鉴别器的输出层卷积通道数设置为1。
鉴别器的损失函数为:
Figure BDA0003943946480000082
其中,
Figure BDA0003943946480000083
是鉴别器的对抗损失。
Figure BDA0003943946480000084
其中,D(xs)表示鉴别器D判别真实频谱特征,st表示风格编码器S生成的目标歌唱语音风格特征,即S(xt)=st,G(xs,st)表示生成器G生成的转换目标歌唱语音频谱特征,D(G(xs,st))表示鉴别器判别生成的频谱特征,
Figure BDA0003943946480000085
表示生成器G生成的概率分布的期望,
Figure BDA0003943946480000086
表示真实概率分布的期望。
优化目标为:
Figure BDA0003943946480000087
步骤7、将步骤5得到的转换目标歌唱语音频谱特征xst,再次输入到生成器G的编码网络,得到与身份无关的内容特征G(xst),将源歌唱语音频谱特征xs输入到风格编码器S,得到源歌唱语音风格特征ss,将得到的内容特征G(xst)和源歌唱语音风格特征ss一起输入到生成器G的解码网络进行训练,在训练过程中最小化生成器G的损失函数,得到重构的源歌唱语音频谱特征
Figure BDA0003943946480000088
在训练过程中最小化生成器的损失函数,包括生成器的对抗损失、循环一致性损失、风格编码器的风格重构损失。其中,训练循环一致损失是为了使源歌唱语音频谱特征xs在经过生成器G后,所重构的源歌唱语音频谱特征
Figure BDA0003943946480000089
可以和xs尽可能保持一致,训练风格重构损失是为了约束风格编码器生成更加符合目标歌唱语音的风格特征st
生成器的损失函数为:
Figure BDA0003943946480000091
优化目标为:
Figure BDA0003943946480000092
其中,λcyc和λsty是一组正则化超参数,分别表示循环一致性损失和风格重构损失的权重。
Figure BDA0003943946480000093
表示生成器G的对抗损失:
Figure BDA0003943946480000094
其中,
Figure BDA0003943946480000095
表示生成器生成的概率分布的期望,st表示风格编码器生成的目标歌唱语音风格特征,即S(xt)=st,G(xs,st)表示生成器生成的转换目标歌唱语音频谱特征,D(G(xs,st))表示鉴别器判别真实目标频谱特征,用来判别输入鉴别器的频谱是真实频谱还是生成频谱。在训练过程中
Figure BDA0003943946480000096
尽可能小,生成器不断优化,直至生成能够以假乱真的频谱特征G(xs,ss),使得鉴别器难以判别真假。
Figure BDA0003943946480000097
为生成器G中的循环一致损失:
Figure BDA0003943946480000098
其中,ss表示源歌唱语音风格特征,即S(xs)=ss,G(G(xs,st),ss)为生成器生成的重构的源歌唱语音频谱特征,
Figure BDA0003943946480000099
为重构源歌唱语音频谱和真实源歌唱语音频谱的损失期望,||·||1表示1-范数。在训练生成器的损失中,
Figure BDA00039439464800000910
尽可能小,使生成的目标歌唱语音频谱特征G(xs,st)和源歌唱语音风格特征ss再次输入到生成器后,得到的重构源歌唱语音频谱特征尽可能和xs相似。通过训练
Figure BDA00039439464800000911
可以有效保证歌唱语音的内容特征在经过生成器的编码以后不被损失。
Figure BDA00039439464800000912
为风格编码器S的风格重构损失,用来优化风格特征st
Figure BDA00039439464800000913
其中,st表示风格编码器S生成的目标歌唱语音风格特征,即S(xt)=st,G(xs,st)表示生成器生成的转换目标歌唱语音频谱特征,||·||1表示1-范数,S(G(xs,st))表示风格编码器S生成的转换目标歌唱语音风格特征。
将转换目标歌唱语音频谱特征G(xs,st)输入到风格编码器S中得到重构的风格特征S(G(xs,st)),与风格编码器生成的目标歌唱语音风格特征st求绝对值,在训练过程中,
Figure BDA0003943946480000101
尽可能小,使得风格编码器S生成的目标歌唱语音风格特征st能够充分表达。
步骤8、不断重复步骤4至步骤7,达到理想的迭代次数,从而得到训练好的网络。由于神经网络具体设置不同以及实验设备性能不同,设置的迭代次数也各不相同。本实验中设置迭代次数为250000次。
步骤9、构建从源歌唱语音基频特征f0s到目标歌唱语音基频特征f0t的基频转换函数,针对均值和均方差建立转换关系。
进一步说明,基频转换函数为:
Figure BDA0003943946480000102
其中,μs和σs分别为源歌唱语音基频特征在对数域的均值和均方差,μt和σt分别为目标歌唱语音基频特征在对数域的均值和均方差,log f0s为源歌唱语音的对数域基频特征,log f0t为转换的目标歌唱语音对数域基频特征。
在本实施例中,转换阶段包括以下步骤:
步骤1、通过WORLD语音分析/合成模型提取待转换语料中源歌唱语音频谱特征xs′、基频特征f0s′和非周期性特征;
步骤2、通过风格编码器S提取目标歌唱语音风格特征st′,将上述待转换语料中源歌唱语音频谱特征xs′和目标歌唱语音风格特征st′输入到训练阶段步骤8训练好的网络中,重构出目标歌唱语音频谱特征xst′;
步骤3、通过训练阶段步骤9中的基频转换函数,将步骤1提取出的源歌唱语音的基频特征f0s′转换为目标歌唱语音基频特征f0t′;
步骤4、使用WORLD语音分析/合成模型,将步骤1中提取的非周期性特征、步骤2中得到的重构目标歌唱语音频谱特征xst′和步骤3中得到的目标歌唱语音基频特征f0t′等进行合成,得到最终转换后的歌唱语音。
本实施例披露的一种基于动态卷积分解和CBAM注意力机制的歌唱语音转换方法可通过计算机程序进行运行,该计算机程序可以安装在计算机上抑或封装在移动存储介质里。
以上所述为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于CBAM和动态卷积分解的歌唱语音转换方法,其特征在于,包括训练阶段和转换阶段:
所述训练阶段包括以下步骤:
步骤1.1、获取训练语料,训练语料由多名歌手的歌唱语音组成;
步骤1.2、使用WORLD语音分析/合成模型提取出源歌唱语音频谱特征xs、基频特征f0s和非周期性特征;
步骤1.3、通过风格编码器S提取目标歌唱语音风格特征st,生成器G包括编码网络和解码网络,通过编码网络生成源歌唱语音内容特征xc,然后通过解码网络将源歌唱语音内容特征xc和目标歌唱语音风格特征st进行重构,恢复出歌唱语音;
步骤1.4、不断调整转换网络的超参数,使得损失函数最小化,直至理想的迭代次数,从而得到训练好的转换网络;
步骤1.5、构建从源歌唱语音基频特征f0s到目标歌唱语音基频特征f0t的基频转换函数;
所述转换阶段包括以下步骤:
步骤2.1、使用WORLD语音分析/合成模型提取出待转换语料中源歌唱语音的频谱特征xs'、基频特征f0s’和非周期性特征;
步骤2.2、通过风格编码器S提取目标歌唱语音风格特征st',将上述源歌唱语音的频谱特征xs'和目标歌唱语音风格特征st'输入到步骤1.4中训练好的转换网络中,重构出目标歌唱语音频谱特征xst';
步骤2.3、通过步骤1.5中的基频转换函数,将步骤2.1提取出的源歌唱语音的基频特征f0s’转换为目标歌唱语音基频特征f0t’;
步骤2.4、使用WORLD语音分析/合成模型将步骤2.1中提取的非周期性特征、步骤2.2中得到的重构目标歌唱语音频谱特征xst'和步骤2.3中得到的目标歌唱语音基频特征f0t’进行合成,得到转换后的歌唱语音。
2.根据权利要求1所述的基于CBAM和动态卷积分解的歌唱语音转换方法,其特征在于,所述步骤1.4中,所述的转换网络由生成器G、鉴别器D、风格编码器S组成,所述的生成器G由编码网络和解码网络构成,将生成器中的动态卷积的核进行分解,通过动态通道融合来代替对通道组的动态关注,降低潜在空间的维数,并且在编码网络的后四层和解码网络的前四层网络中引入CBAM注意力模块。
3.根据权利要求2所述的基于CBAM和动态卷积分解的歌唱语音转换方法,其特征在于,所述动态卷积的核的生成函数表示为:
Figure FDA0003943946470000021
其中,Wk为静态卷积核,K为静态卷积核的数目,πk(x)为注意力得分,并且
Figure FDA0003943946470000022
0≤πk(x)≤1。
4.根据权利要求3所述的基于CBAM和动态卷积分解的歌唱语音转换方法,其特征在于,所述动态卷积分解的核的生成函数表示为:
W(x)=Λ(x)W0+Pφ(x)QT
Figure FDA0003943946470000023
其中Λ(x)是一个C×C的对角矩阵,通过这种方式在W0上实现了动态通道注意;P矩阵的维度为C×L,QT为L×C,并且L<<C,Pφ(x)QT代表了稀疏动态残差,为一个对角矩阵;φ(x)为一个全动态矩阵,用于实现动态通道融合;W0为K个静态卷积核的加权平均值。
5.根据权利要求4所述的基于CBAM和动态卷积分解的歌唱语音转换方法,其特征在于,所述动态卷积分解使用一个轻量级动态分支来生成动态通道融合φ(x)的系数和动态通道注意Λ(x);动态分支首先将平均池化应用于输入向量x,然后使向量x依次经过两个全连接层和一个激活层,最终加权生成卷积核W(x);动态卷积分解层还包括批量归一化层和激活层。
6.根据权利要求5所述的基于CBAM和动态卷积分解的歌唱语音转换方法,其特征在于,所述CBAM注意力模块包含两个子模块:通道注意力模块和空间注意力模块,输入特征图F,CBAM依次推导出一维通道注意力Mc(F)和二维空间注意力Ms(F')。
7.根据权利要求6所述的基于CBAM和动态卷积分解的歌唱语音转换方法,其特征在于,所述通道注意力模块的输入为H×W×C的特征图F,分别经过基于通道的全局最大池化和基于通道的全局平均池化,得到两个1×1×C的特征图;然后经过一个神经网络共享的多层感知机,将共享多层感知机输出的特征图进行加权操作,再经过Sigmoid激活操作,生成最终的通道注意力Mc(F);最后将其和输入特征图F做乘法操作,生成空间注意力模块需要的输入特征图F'。
8.根据权利要求7所述的基于CBAM和动态卷积分解的歌唱语音转换方法,其特征在于,所述空间注意力模块将通道注意力模块输出的特征图F'作为本模块的输入特征图;输入特征图F'依次经过基于通道的全局最大池化和基于通道的全局平均池化,得到两个H×W×1的特征图,然后两个特征图做通道拼接操作;接着经过一个7×7卷积操作,降维为一个通道,即H×W×1,再经过Sigmoid生成空间注意力Ms(F'),最后和本模块的输入特征图F'做乘法操作,得到最终特征图F”。
CN202211423682.8A 2022-11-15 2022-11-15 基于cbam和动态卷积分解的歌唱语音转换方法 Pending CN115881088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211423682.8A CN115881088A (zh) 2022-11-15 2022-11-15 基于cbam和动态卷积分解的歌唱语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211423682.8A CN115881088A (zh) 2022-11-15 2022-11-15 基于cbam和动态卷积分解的歌唱语音转换方法

Publications (1)

Publication Number Publication Date
CN115881088A true CN115881088A (zh) 2023-03-31

Family

ID=85759875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211423682.8A Pending CN115881088A (zh) 2022-11-15 2022-11-15 基于cbam和动态卷积分解的歌唱语音转换方法

Country Status (1)

Country Link
CN (1) CN115881088A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118969013A (zh) * 2024-07-15 2024-11-15 中国科学院声学研究所 一种端到端多尺度风格迁移的歌声转换方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090281807A1 (en) * 2007-05-14 2009-11-12 Yoshifumi Hirose Voice quality conversion device and voice quality conversion method
CN102592607A (zh) * 2012-03-30 2012-07-18 北京交通大学 一种使用盲语音分离的语音转换系统和方法
CN103295574A (zh) * 2012-03-02 2013-09-11 盛乐信息技术(上海)有限公司 唱歌语音转换设备及其方法
CN113643687A (zh) * 2021-07-08 2021-11-12 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN114119997A (zh) * 2021-11-26 2022-03-01 腾讯科技(深圳)有限公司 图像特征提取模型的训练方法、装置、服务器和存储介质
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN115101050A (zh) * 2022-07-29 2022-09-23 平安科技(深圳)有限公司 语音识别模型训练方法和装置、语音识别方法、介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090281807A1 (en) * 2007-05-14 2009-11-12 Yoshifumi Hirose Voice quality conversion device and voice quality conversion method
CN103295574A (zh) * 2012-03-02 2013-09-11 盛乐信息技术(上海)有限公司 唱歌语音转换设备及其方法
CN102592607A (zh) * 2012-03-30 2012-07-18 北京交通大学 一种使用盲语音分离的语音转换系统和方法
CN113643687A (zh) * 2021-07-08 2021-11-12 南京邮电大学 融合DSNet与EDSR网络的非平行多对多语音转换方法
CN114119997A (zh) * 2021-11-26 2022-03-01 腾讯科技(深圳)有限公司 图像特征提取模型的训练方法、装置、服务器和存储介质
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN115101050A (zh) * 2022-07-29 2022-09-23 平安科技(深圳)有限公司 语音识别模型训练方法和装置、语音识别方法、介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAZUHIRO KOBAYASHI 等: "Voice Timbre Control Based on Perceived Age in Singing Voice Conversion", 《 IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS》, 30 June 2014 (2014-06-30), pages 1419 - 1428 *
李锦珑 等: "歌词到歌曲转换系统的实现", 《计算机工程与应用》, 31 December 2010 (2010-12-31), pages 124 - 126 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118969013A (zh) * 2024-07-15 2024-11-15 中国科学院声学研究所 一种端到端多尺度风格迁移的歌声转换方法及系统

Similar Documents

Publication Publication Date Title
Kaur et al. Conventional and contemporary approaches used in text to speech synthesis: A review
Kameoka et al. ConvS2S-VC: Fully convolutional sequence-to-sequence voice conversion
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
Kameoka et al. Many-to-many voice transformer network
CN113761841B (zh) 将文本数据转换为声学特征的方法
CN116648742A (zh) 音频发生器及用于生成音频信号和训练音频发生器的方法
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
Choi et al. Korean singing voice synthesis based on auto-regressive boundary equilibrium gan
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN117649839B (zh) 一种基于低秩适应的个性化语音合成方法
Lee et al. Hiervst: Hierarchical adaptive zero-shot voice style transfer
CN118841029A (zh) 一种解耦式语音自监督预训练方法
Zhang et al. Voice conversion with denoising diffusion probabilistic gan models
Guo et al. Phonetic posteriorgrams based many-to-many singing voice conversion via adversarial training
Guo et al. Zero-shot voice conversion based on feature disentanglement
CN115881088A (zh) 基于cbam和动态卷积分解的歌唱语音转换方法
CN120599998A (zh) 一种基于情感增强的语音克隆方法、装置及相关介质
Ai et al. Denoising-and-dereverberation hierarchical neural vocoder for statistical parametric speech synthesis
Xiao et al. Speech intelligibility enhancement by non-parallel speech style conversion using cwt and imetricgan based cyclegan
CN116403562B (zh) 一种基于语义信息自动预测停顿的语音合成方法、系统
Baali et al. Arabic dysarthric speech recognition using adversarial and signal-based augmentation
CN118447863A (zh) 一种人声音色替换方法及系统
Ezhilan et al. Audio style conversion using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination