CN111052232A - 使用视觉信息增强视频中人类说话者的语音信号的方法和系统 - Google Patents
使用视觉信息增强视频中人类说话者的语音信号的方法和系统 Download PDFInfo
- Publication number
- CN111052232A CN111052232A CN201880054901.5A CN201880054901A CN111052232A CN 111052232 A CN111052232 A CN 111052232A CN 201880054901 A CN201880054901 A CN 201880054901A CN 111052232 A CN111052232 A CN 111052232A
- Authority
- CN
- China
- Prior art keywords
- speech
- video
- speaker
- original
- spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本文提供了一种用于增强语音信号的方法和系统。该方法可以包括以下步骤:获得原始视频,其中该原始视频包括显示至少一个人类说话者面部的原始输入图像序列,以及与所述图像序列同步的原始声轨;以及使用计算机处理器处理原始视频,以基于从原始输入图像序列导出的视觉数据,通过检测与至少一个人类说话者的语音在听觉上无关的声音,产生所述至少一个人类说话者的增强语音信号。
Description
发明领域
本发明总体上涉及语音信号增强,更具体地,涉及通过使用面部和嘴部运动的视觉信息去除听觉上不相关的声音来增强语音信号。
发明背景
当视频在演播室录制时,声音中没有外部噪音和不相关的声音。然而,大多数视频不是在工作室拍摄的。在家庭活动中拍摄的人们的话音与音乐和其他话音混合在一起。家里或办公室的视频会议经常被其他人、响铃的电话或吠叫的狗打扰。城市街道上的电视报道混杂着交通噪音、风的声音等等。
本领域中先前已知的单通道或单声道语音分离方法通常仅使用音频信号作为输入。一种主要的方法是频谱掩蔽,其中分离模型发现包含由每个说话者主导的时间-频率(TF)分量的矩阵。掩模或滤波器可以是二元或软的。一种方法使用被称为深度聚类的方法来处理单通道多说话者分离,其中使用经过区分训练的语音嵌入作为聚类以及随后分离语音的基础。
视听(Audio-Visual)语音处理
视听语音处理的最新研究广泛使用了神经网络。具有视觉输入的神经网络已经用于唇读、声音预测,并用于学习无监督的声音表示。视听语音增强和分离方面的工作也已经完成。一种方法使用手动设计(handcrafted)的视觉特征来导出用于说话者分离的二元和软掩模。大多数已知的方法描述了一种神经网络,其输出表示增强语音的频谱图。
存在从说话者的无声视频帧生成可理解语音的不同方法。
在由本发明的发明人在“ICASSP 2017-Vid2Speech:Speech Reconstructionfrom Silent Video”和其他地方提出的被称为Vid2speech的方法中,生成表示语音的线性频谱图,该语音来自说话的人的无声视频帧序列。Vid2speech模型采用两个输入:显示说话者面部或说话者面部的一部分的K个连续视频帧的剪辑,以及对应于连续帧的像素在(u;v)方向上的运动的(K+1)个连续密集光流场的“剪辑”。
Vid2speech架构由双塔残差神经网络(ResNet)组成,ResNet由He,Kaiming等人在2016年发表于CVPR上的题为“Deep residual learning for image recognition”的文章中公开,其采用前述输入并将它们编码成表示视觉特征的潜在向量。潜在向量被馈送到一系列两个完全连接的层中,随后是后处理网络,后处理网络聚集多个连续的mel-scale频谱图预测,并将它们映射到表示最终语音预测的线性尺度频谱图。
应当理解,本文对Vid2speech技术的任何提及不应被解释为限制性的,并且可以包括基于视觉分析的任何其他发声到听觉(articulatory-to-acoustic)的映射。
发明概述
本发明的一些实施例建议使用视频中看到的面部和嘴部运动的视觉信息来增强说话者的话音,特别是消除与面部运动无关的声音。该方法基于由视频到语音系统预测的语音的频谱信息。
如果没有视觉信息,在滤除其他话音或背景噪音的同时隔离特定人类话音的任务被称为鸡尾酒会(cocktail party)问题。在某些情形中,当N个麦克风录制N个话音时,这个问题是可以解决的。
说话者分离和语音增强是语音处理中的基本问题,多年来一直是广泛研究的主题,尤其是最近神经网络成功地用于这一任务。解决这些问题的一种常见方法是训练神经网络以将音频混合物分离成它们的源,利用网络的能力学习独特的语音特征,如频谱带、音高、啁啾等。纯音频方法的主要困难是它们不能分离相似人类的话音(典型地相同性别的话音)。
根据本发明的一些实施例,本文提供了一种使用视听输入进行语音分离和隔离的方法。在这种情形中,除了声轨,还可以获得显示说话者面部或面部部分的视频。下文将描述分离两个可见说话者的混合语音并继续从背景声音中隔离单个可见说话者的语音的情况。这项工作建立在机器语音读取的最新进展基础上,机器语音读取具有基于视觉面部运动学习听觉语音信号的能力。
附图简述
关于本发明的主题在说明书的结论部分被特别指出并被清楚地要求保护。然而,本发明关于操作的组织和方法以及其目的、特征和优点,在参照附图一起阅读时,通过参考以下详细描述可得到最好的理解,其中:
图1是示出根据本发明一些实施例的实现视觉分析模块方法的系统的非限制示例性架构的框图;
图2是示出根据本发明一些实施例的实现滤波器或掩模方法的系统的非限制示例性架构的框图;
图3是示出根据本发明一些实施例的使用神经网络实现滤波器或掩模方法的系统的非限制示例性架构的框图;
图4是示出根据本发明一些实施例的使用神经网络实现滤波器或掩模方法的系统的另一非限制示例性架构的框图;
图5是示出根据本发明一些实施例的使用滤波器生成模块实现滤波器或掩模方法的系统的另一个非限制示例性架构的框图,该滤波器生成模块利用发声到听觉的映射;
图6是示出根据本发明实施例的利用视觉分析方法的非限制示例性方法的高级流程图;
图7是示出根据本发明实施例的利用滤波器生成的非限制示例性方法的高级流程图;
图8是示出根据本发明一些实施例的实现端到端方法的系统的非限制示例性架构的框图;
图9是示出根据本发明一些实施例的非限制示例性架构的框图;
图10是示出根据本发明实施例的另一非限制示例性方法的高级流程图;
图11是示出根据本发明实施例的又一非限制示例性方法的高级流程图;
图12是示出根据本发明实施例的又一非限制示例性方法的高级流程图;
图13是示出根据本发明实施例的方法的高级流程图;以及
图14示出了根据本发明实施例的增强语音信号的频谱图。
将认识到,为了说明的简单和清楚,图中所示的元素不一定按比例绘制。例如,为了清楚起见,一些元素的尺寸可以相对于其他元素被放大。此外,在认为适当的情况下,参考数字可在多个图中重复以指示对应的或类似的元素。
发明的详细描述
在阐述本发明的详细描述之前,提供在下文中将使用的某些术语的定义可能是有帮助的。
本文使用的术语“频谱图(spectrogram)”应该广义地解释为包括任何时间-频率表示二维(2D)离散时间-频率音频变换(DTF),并且可以包括但不限于:由Jont B.Allen(1977年6月)公开的短时傅立叶变换(STFT),“Short Time Spectral Analysis,Synthesis,and Modification by Discrete Fourier Transform”,IEEE Transactionson Acoustics,Speech,and Signal Processing,ASSP-25(3):235-238;由Narasimha,M.Peterson,A.(1978年6月)公开的小波变换,“On the Computation of the DiscreteCosine Transform”,IEEE Transactions on Communications,26(6):934-936;由Delprat,N.,Escudii,B.,Guillemain,P.,Kronland-Martinet,R.,Tchamitchian,P.,和Torrksani,B.(1992年)公开的离散余弦变换(DCT),“Asymptotic wavelet and Gaboranalysis:extraction of instantaneous frequencies”,IEEE Transactions onInformation Theory,38(2):644-664,Cochleagram Brown,G.J.和Cooke,M.P.(1994年),"Computational auditory scene analysis"Computer Speech and Language,8:297-336,以及许多其他变换。应当注意,这些变换可以具有实值或复值。
在下面的描述中,将描述本发明的各个方面。为了解释的目的,阐述了特定配置和细节,以便提供对本发明的透彻理解。然而,对本领域中的技术人员将明显的是,本发明可以在没有本文中所提出的特定细节的情况下实践。此外,可以省略或简化众所周知的特征,以免模糊本发明。
除非另外特别声明,否则从下面的讨论中明显的是,应当认识到,在整个说明书中,使用诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”等的术语的讨论是指计算机或计算系统或类似的电子计算设备的动作和/或过程,该计算机或计算系统或类似的电子计算设备将在计算系统的寄存器和/或存储器内表示为物理(诸如,电子)量的数据操纵和/或变换为在计算系统的存储器或寄存器或其他此类信息存储、传输或显示设备内类似地表示为物理量的其他数据。
图1是示出根据本发明一些实施例的实现视觉分析模块方法的系统的非限制示例性架构的框图。系统100可以包括被配置成获得视频10的计算机存储器110,其中视频10可以包括:显示至少一个人类说话者的面部或面部部分的图像序列20,以及对应于所述视频的原始声轨(soundtrack)30。系统100还可以包括计算机处理器120,其被配置成使用听觉上不相关声音的视觉分析模块130来处理视频10,以产生至少一个人类说话者的增强语音信号140,该听觉上不相关声音的视觉分析模块130被配置成检测与至少一个人类说话者的语音听觉上不相关的声音,其中检测可以基于从图像序列20导出的视觉数据和原始声轨30。
图2是示出根据本发明一些实施例的实现滤波器或掩模方法的系统的非限制示例性架构的框图。系统200可以包括被配置成获得视频10的计算机存储器110,其中视频10可以包括:显示至少一个人类说话者的面部或面部部分的图像序列20,以及对应于所述视频的原始声轨30。系统100还可以包括计算机处理器120,计算机处理器120被配置成使用滤波器生成模块210处理视频10,以产生至少一个人类说话者的增强语音信号140,该滤波器生成模块210被配置成生成滤波器220,滤波器220被配置成去除与图像序列20上的人类说话者听觉上不相关的声音。
滤波器方法从获得视频开始,视频包括:显示一个或更多个人类说话者的面部或面部部分的图像序列,以及对应于该视频的原始声轨。
然后,使用计算机处理器,通过去除在听觉上与一个或更多个人类说话者的语音不相关的声音,处理视频以产生至少一个人类说话者的增强语音信号,其中去除基于从图像序列中导出的数据。
图3是示出根据本发明一些实施例的使用神经网络实现滤波器或掩模方法的系统的非限制示例性架构的框图。系统300可以包括被配置成获得视频10的计算机存储器110,其中视频10可以包括:显示至少一个人类说话者的面部或面部部分的图像序列20,以及对应于所述视频的原始声轨30。系统100还可以包括计算机处理器120,计算机处理器120被配置成使用神经网络310来处理视频10,以产生至少一个人类说话者的增强语音信号140,神经网络310可以生成滤波器320或者仅检测如系统100中的听觉上不相关的声音。
图4是示出根据本发明一些实施例的使用神经网络实现滤波器或掩模方法的系统的另一非限制示例性架构的框图。系统400类似于系统300,除了通过二维(2D)离散时间-频率(DTF)变换(410和440)分别表示原始声轨和增强语音信号,其中每个单元表示在给定时间范围给定频率范围的所述语音信号的幅度和/或相位。
根据本发明的一些实施例,原始声轨和增强语音信号分别由第一短期傅立叶变换(STFT)或频谱图以及第二STFT或频谱图表示。
根据本发明的一些实施例,处理是通过生成2D滤波器,并通过原始声轨的2D DTF中的每个单元与2D滤波器的相应单元逐点相乘来执行的。
根据本发明的一些实施例,2D滤波器可以至少部分基于原始视频生成。
根据本发明的一些实施例,2D滤波器使用发声到听觉的映射来生成,该映射将所述原始输入图像序列作为输入。
根据本发明的一些实施例,至少部分地使用神经网络计算2D滤波器。神经网络可以在从原始视频和干净语音信号中提取的样本上进行训练。
图5是示出根据本发明一些实施例的使用滤波器生成模块实现滤波器或掩模方法的系统的另一个非限制示例性架构的框图,该滤波器生成模块利用发声到听觉的映射。系统500类似于系统200,但是具有发声到听觉的映射510,该映射510馈送滤波器生成模块520以生成滤波器500。
图6是示出根据本发明实施例的利用视觉分析方法的非限制示例性方法的高级流程图。方法600可以包括以下步骤:获得原始视频610,该原始视频包括显示一个或更多个人类说话者面部的原始输入图像序列,以及与原始输入图像序列同步的原始声轨;使用计算机处理器分析原始视频和原始声轨,以基于视觉数据确定与一个或更多个人类说话者的语音在听觉上无关的声音620;以及基于被确定为在听觉上与一个或更多个人类说话者的语音无关的声音来增强原始声轨630。
图7是示出根据本发明实施例的利用滤波器生成的非限制示例性方法的高级流程图。方法700可以包括以下步骤:获得原始视频710,该原始视频包括显示一个或更多个人类说话者面部的原始输入图像序列,以及与原始输入图像序列同步的原始声轨;基于原始视频和原始声轨,使用计算机处理器生成滤波器720,该滤波器被配置成去除与一个或更多个人类说话者的语音听觉上无关的声音;以及通过将滤波器应用于原始声轨来增强原始声轨730。
根据本发明的一些实施例,本文提供了一种用于将可见说话者的话音与背景噪声分离的视听端到端神经网络模型。一旦模型针对特定的说话者进行了训练,就可以用来增强这个说话者的话音。本文假设显示目标说话者的面部的视频与嘈杂声轨一起可用,并且使用可见的嘴部运动来将期望的话音与背景噪声隔离。
虽然训练深层神经网络来区分不同来源的独特语音或听觉特征的想法在几种情形中可能非常有效,但是性能受到来源变化的限制。根据本发明的一些实施例,使用视觉信息导致不同场景中增强性能的显著改善。为了覆盖仅使用音频信息不能完全分离目标语音和背景语音的情况,本发明的发明人已经建议向训练数据视频中添加从目标说话者的话音中获取的合成背景噪声。利用训练数据中的这些视频,训练后的模型更好地利用了视觉输入,并很好地推广到不同的噪声类型。
语音增强神经网络模型得到两个输入:(i)显示说话者的嘴部的视频帧序列;以及(ii)嘈杂音频的频谱图。输出是增强语音的频谱图。网络层以编码器-解码器的方式堆叠。
端到端方法的示例性实现
图8是示出根据本发明一些实施例的实现端到端方法的一个系统的非限制示例性架构的框图。编码器模块由双塔卷积神经网络组成,该双塔卷积神经网络接受视频和音频输入,并将它们编码成表示视听特征的共享嵌入。解码器模块由转置卷积层组成,并将共享嵌入解码成表示增强语音的频谱图。整个模型是端到端训练的。
视频编码器
视频编码器的输入是大小为128的5个连续灰度视频帧的序列,这些帧被裁剪并以嘴部区域为中心。虽然使用5帧效果很好,但其他数量的帧也可能有效。视频编码器有6个连续的卷积层。每一层之后是批标准化(Batch Normalization)、非线性Leaky-ReLU、最大池化(max pooling)和0.25的Dropout。
音频编码器
输入和输出音频都由对数mel-scale频谱图表示,该频谱图具有0至8kHz之间的80个频率间隔和跨越200ms的20个时间步长。如先前在几个音频编码网络中所做的,我们将音频编码器设计为卷积神经网络,使用频谱图作为输入。该网络由5个卷积层组成。每一层之后是批标准化和非线性Leaky-ReLU。为了保持时间顺序,使用步幅卷积(strideconvolutions)代替最大池化。
视频和音频编码器的详细架构(共享表示)
视频编码器输出具有2,048个值的特征向量,而音频编码器输出具有3,200个值的特征向量。特征向量被连接成表示视听特征的共享嵌入,具有5,248个值。然后,共享嵌入被馈送到大小分别为1,312、1,312和3,200的3个连续完全连接层的块中。得到的矢量然后被馈送到音频解码器。
音频解码器
音频解码器由5个转置卷积层组成,镜像音频编码器的层。最后一层与输入频谱图大小相同,表示增强的语音。
优化
网络被训练成最小化输出频谱图与目标语音频谱图之间的均方误差损失。在示例性实现中,Adam优化器以初始学习速率用于反向传播。一旦学习停滞,学习速率下降50%,即验证误差在5个时期(epochs)内没有改善。
多模态训练
具有多模态输入的神经网络通常可能被其中一个输入所支配。在以前的工作中已经考虑了不同的方法来克服这个问题。为了强制使用视频特征,添加了应当与输入类似的辅助视频输出。
本发明的发明人通过引入新的训练策略来加强视觉特征的开发。训练中包括了这样的数据样本,其中添加的噪声是同一说话者的话音。由于仅使用音频信息很难分离同一个人所说的两个重叠语句,网络被迫利用音频特征之外的视觉特征。本发明的一些实施例已经表明,使用这种方法训练的模型可以很好地推广到不同的噪声类型,并且能够将目标语音与无法区分的背景语音分离。
相应的音频信号被重新采样到16kHz。对波形信号应用短时傅立叶变换(STFT)。频谱图(STFT幅度)被用作神经网络的输入,相位被保留在一边用于增强信号的重建。我们将STFT窗口大小设置为640个样本,这等于40毫秒,并且对应于单个视频帧的长度。我们将窗口一次移动160个样本的跳跃长度,产生75%的重叠。对数mel-scale频谱图通过将频谱图乘以mel间隔滤波器组来计算。对数mel-scale频谱图包括从0到8000Hz的80个mel频率。我们将频谱图切割成200毫秒长度(对应于5个视频帧的长度)的片段,得到大小为80×20的频谱图:20个时间样本,每个样本有80个频率仓。
提出了一种将可见说话者的话音与背景噪声分离的端到端神经网络模型。同时,提出了一种有效的视听语音增强训练策略——使用同一个人说的重叠语句作为噪声。这种训练建立了一个模型,该模型对目标说话者和噪声说话者的类似发声特征是鲁棒的,并且有效地利用了视觉信息。
所提出的模型持续提高了嘈杂语音的质量和可理解性,并在两个公共基准数据集上优于之前的方法。最后,我们第一次演示了不是针对唇读研究设计的通用数据集上的视听语音增强。我们的模型是紧凑的,并在短的语音片段上操作,因此适合实时应用。平均而言,增强200ms的片段需要36ms的处理(使用NVIDIA Tesla M60 GPU)。
本发明的实施例提供了一种从无声视频帧生成语音的新方法。语音生成将只使用基于视觉图形组(VGG)-Face的描述符,而不是给话音生成系统提供未经处理的视频帧。这种参数减少大大加快了训练。在某些情形中,它甚至被证明能给出更好的结果。发明人已经使用预先训练的VGG-Face网络来生成说话者的面部描述符,作为初始步骤。最后三个完全连接的VGG层被省略,给出了512的描述符长度,这是从VGG提取面部描述符的常用方法。
来自每个帧的描述符序列作为输入被馈送到另一个神经网络,该另一个神经网络将它映射到预测的语音频谱图,如图9所示。批中的帧数取决于数据集。在我们的实验中,我们选择了一些帧,使得它们的持续时间跨越330ms。该网络有3个完全连接的层,每个层有1024个神经元,还有一个表示语音mel-scaled频谱图的输出层。频谱图包括从0到8kHz的128个频率(人类话音频带范围从大约20Hz到10000Hz)。
基于视觉数据的滤波器方法的示例性实现
根据本发明的一些其他实施例,提供了一种将混合音频信号(包括两个或多个竞争信号)分解成频谱图,以便将每个时间-频率(TF)元素分配给其各自来源的方法。这些分配被用作掩蔽函数来提取每个来源的主导部分。掩蔽频谱图随后被重建成估计的来源信号。
分配操作通过使用本领域已知的任何发声到听觉方法获得每个说话人的语音频谱信息而变得容易,该发声到听觉方法可以包括但不限于在Vid2speech和VGG-Face中提到的两种不同的视频到语音方法。
由于视频到语音的方法并不生成完美的语音信号,发明人已经仅使用他们的预测语音生成掩模,该掩模可用于隔离嘈杂混合物的适当成分,这将在后面描述。
分离两个说话者
在这种场景中,有两个说话者(D1、D2)面对一台带有单个麦克风的摄像机。我们假设说话者是已知的,并且我们可以预先训练两个独立的视频到语音模型(N1,N2)。N1使用说话者D1的视听数据集进行训练,N2使用说话者D2的视听数据集进行训练。
给定一个新的视频帧序列,以及具有D1和D2混合声音的同步声轨,分离过程如下。该过程在图10和图11中示出。
1.使用面部检测方法在输入视频中检测说话者D1和D2的面部。
2.以面部裁剪帧作为输入,利用网络N1预测说话者D1的语音mel-scaled频谱图S1。
3.以面部裁剪帧作为输入,利用网络N2预测说话者D2的语音mel-scaled频谱图S2。
4.混合mel-scaled频谱图C直接从音频输入生成。
5.在视觉预测的频谱图S1和S2的指导下,混合频谱图C被分成两个单独的频谱图P1和P2,如下所示:
对于每个(t;f),如果S1(t;f)>S2(t;f)那么P1(t;f)=C(t;f)并且P2(t;f)=0,
否则P1(t;f)=0而P2(t;f)=C(t;f)。
6.每个人的分离语音是从在前一步骤中构建的相应mel-scaled频谱图P1或P2重建的。
应该注意的是,这种“赢家通吃(winner takes al)”的简单分离方法可以修改。例如,代替上面步骤5中使用的二元决策,可以如下使用softmax函数:从视觉预测的频谱图计算出两个掩模F1和F2,使得F1(t;f)+F2(t;f)=1:
两个说话者的单独mel-scaled频谱图可以使用以下掩模从混合频谱图C中生成:
P1=CxF1;P2=CxF2,其中x代表元素逐个相乘。
单个说话者的语音增强
在语音增强场景中,一个说话者(D)面对摄像机,他的话音用麦克风记录下来。其他(看不见的)说话者的话音或一些背景噪声也会被记录下来。任务是将说话者的话音与背景噪声分离。我们假设说话者是先前已知的,并且我们可以在该说话者的视听数据集上训练上面提到的视频到语音模型的网络(N)。
给定同一说话者的新的视频帧序列,以及同步的嘈杂声轨,分离说话者声音的过程如下。图12和图13显示了这一过程的示意图。
1.使用面部检测方法在输入视频中检测说话者D的面部。
2.以面部裁剪帧作为输入,利用网络N预测说话者D的语音mel-scale频谱图S。
3.混合mel-scale频谱图C直接从音频输入生成。
4.使用阈值来构造分离掩模F,其中τ是期望的阈值:对于在频谱图中的每个(t;f),可以计算以下公式:
阈值τ可以预先确定,也可以在训练过程中学习。
5.通过以下掩蔽对隔离的mel-scaled频谱图进行滤波:P=C×F,其中×代表元素逐个相乘。
6.说话者干净的话音从预测的mel-scale频谱图重建。
如同在话音分离的情形中,应该注意的是,话音隔离方法可以被修改,并且将获得类似的结果。例如,代替如上面步骤4中基于阈值τ的二元决策,掩模F可以具有由softmax或另一个类似函数给出的在0和1之间的连续值。
实验
为了测试本发明的一些实施例,发明人已经在数据库上进行了各种实验。应当理解,以下实验仅用作本发明实施例的技术驱动力(technical enablers),不应被视为限制本发明的范围。
在GRID库视听语句语料库上进行了基础实验,该语料库是视听(面部)记录的大的数据集,记录了34个人(18名男性,16名女性)说出的1000个语句。每个语句由六个单词组成,例如“现在把绿色放在H7”。GRID语料库中总共包含51个不同的单词。视频具有3秒的固定持续时间,帧速率是25FPS,分辨率是720 576像素,产生的序列包含75个帧。
为了更好地展示根据本发明一些实施例的方法的能力,在TCDTIMIT数据集上进行了进一步的实验。这个数据集由60名志愿说话者组成,每个志愿说话者有大约200个视频,还有三名嘴唇说话者,这些人都经过特殊训练,能够以帮助聋人理解他们的视觉语音的方式说话。说话者被记录下说出TIMIT数据集中的各种语句,并用正面和30度摄像机记录下来。在这个数据集上的实验表明,使用我们提出的方法,仍然可以利用难以理解的视频到语音预测来产生高质量的语音信号。
测试本发明的发明人提出的方法需要在摄像机和单个麦克风前同时说话的多个人的视听数据集。由于缺乏这种数据集,我们使用上述数据集,同时从几个说话者(假设说话者彼此相邻)的语音信号中生成人工瞬时音频混合。给定相同长度和采样率的音频信号s1(t);……sn(t),它们的混合信号假定为:
其中α代表任何乘数,例如1、1/n等。
频谱图的音频频谱图操作生成可以通过对波形信号应用短时傅立叶变换(STFT)来完成。Mel-scale频谱图通过将频谱图乘以Mel间隔滤波器组来计算。波形重建是通过将mel-scale频谱图乘以mel间隔滤波器组的伪逆,然后应用逆STFT来完成的。可以使用原始相位,或者可以通过应用Griffin-Lim算法来使用相位估计。
使用通常用于语音分离和增强的客观质量测量值来评估发明人的实验结果。不用说,除了我们接下来将描述的测量值,我们还使用非正式的人类听力来评估结果的可理解性和质量。
增强评估
发明人已经使用了语音质量的感知评估(PESQ),这是最初为窄带电话网络和语音编解码器开发的端到端语音质量评估的客观方法。虽然它不完全适合我们的任务,但我们用它进行粗略的比较。
分离评估
发明人已经使用BSS评估工具箱来测量我们的来源分离方法的性能,这些方法提供原始来源信号作为真值(ground truth)。这些度量是基于将每个估计的来源信号分解成对应于目标来源、来自不想要来源的干扰和伪像的多个贡献。评估由三种不同的客观得分组成:SDR(源失真比)、SIR(源干扰比)和SAR(源伪像比)。
理想掩模(滤波器)
知晓来源信号的真值,我们可以为我们的方法建立基准,称为“理想掩模”。使用来源信号的频谱图作为视频到语音系统的理想预测,我们可以估计每种方法的性能上限。稍后我们将参考该基线来评估结果。
在下面的实验中,我们将通过数据集中说话者的ID来指代GRID语料库中的说话者:2、3和5(均为男性)。
语音增强
在这个实验中,我们在说话者2的视听数据上训练了2中提到的视频到语音模型之一的网络。然后,我们合成了来自说话者2和说话者3的看不见的样本的混合物,并应用语音增强对说话者2所说的语句去噪。训练数据由随机选择的语句组成,包括说话者2的80%的样本(总长度40分钟)。
语音分离
在这个实验中,我们分别在说话者2和3的视听数据上训练了2中提到的两个视频到语音模型。然后,我们合成了来自说话者2和3的看不见的语句的混合物,并应用了语音分离。训练数据由随机选择的语句组成,包括每个说话者80%的样本(总长度40分钟)。图14中示出了分离频谱图的示例。
来源分离与未经处理的语音预测
来源分离的一种天真方法是使用视频到语音模型生成的未经处理的语音预测作为分离信号,而不使用我们的任何分离方法。
这种方法在处理像GRID这种词汇受限的数据集时会产生合理的结果。然而,当处理更复杂的数据集时,如TCD-TIMIT(该数据集包含来自更大词汇的语句),它通常生成低质量且大多数难以理解的语音预测。在这种情形中,我们的分离方法有实际作用,最终的语音信号听起来比未经处理的语音预测好得多。
假设的同一说话者分离以强调在语音分离中利用视觉信息的能力,我们进行了分离同一个人所说的两个重叠语句的非现实实验(分别给定相应的视频帧)。实验以与前一个实验相似的方式进行,用说话者2的另一个实例代替说话者3。
多说话者语音分离
上面已经描述了两个说话人的分离方法。这可以很容易地推广到n个说话人的分离方法。也可以分别训练N个不同的网络,因为构建n个掩模很简单。
未知说话者的语音分离
在这个实验中,我们试图分离两个未知说话者(3和5)的语音。首先,在说话者2的视听数据上对vid2speech网络进行了训练。训练数据由随机选择的语句组成,包括说话者2的80%的样本(总长度40分钟)。
在按照分离方法的要求预测每个说话者的语音之前,我们使用实际说话者样本的10%(总长度5分钟)对网络进行微调。然后,我们将语音分离过程应用于看不见的语句的合成的混合物。结果总结在表5中,并与使用VGG-Face作为基线的分离进行了比较。
为了实现根据本发明实施例的方法,计算机处理器可以从只读存储器或随机存取存储器或两者接收指令和数据。前述步骤中的至少一个由与计算机相关联的至少一个处理器执行。计算机的关键元件是用于执行指令的处理器和用于存储指令和数据的一个或更多个存储器。一般来说,计算机还将包括用于存储数据文件的一个或更多个大容量存储设备,或者可以可操作地耦合成与存储数据文件的一个或更多个大容量存储设备通信。适于有形地体现计算机程序指令和数据的存储模块包括所有形式的非易失性存储器,包括例如半导体存储器设备,如EPROM、EEPROM以及闪存设备和磁光存储设备。
如将由本领域中的技术人员所理解的,本发明的方面可被体现为系统、方法或计算机程序产品。因此,本发明的方面可采用完全硬件实施方案、完全软件实施方案(包括固件、驻留软件、微代码等等)或组合软件和硬件方面的实施方案的形式,这些实施方案可在本文中被全部统称为“电路”、“模块”或“系统”。此外,本发明的方面可采用体现在一个或更多个计算机可读介质中的计算机程序产品的形式,该一个或更多个计算机可读介质具有体现在其上的计算机可读程序代码。
可使用一个或更多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备或者前述项的任何合适的组合。计算机可读介质的更多具体示例(非穷尽列表)将包括以下项:具有一个或更多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学存储设备、磁存储设备、或前述项的任何合适的组合。在该文档的上下文中,计算机可读存储介质可以是任何有形介质,其可包含或存储由指令执行系统、装置或设备使用的或与指令执行系统、装置或设备结合使用的程序。
计算机可读介质可包括传播的数据信号,例如,其计算机可读程序代码在基带中或作为载波的部分实现。这种可传播信号可采取多种形式中的任意一种,包括但不限于,电磁、光学或其任何合适的组合。计算机可读信号介质可以是任何计算机可读介质,其不是计算机可读存储介质并且可通信、传播或传输用于被指令执行系统、装置或设备使用或与其结合的程序。
在计算机可读介质上体现的程序代码可使用任何适当的介质传输,包括但不限于,无线的、有线的、光缆、RF等或前述项的任何合适的组合。
用于实施本发明的方面的操作的计算机程序代码可用一种或更多种编程语言的任何组合编写,包括面向对象编程语言,诸如Java、Smalltalk、C++、Python等等,以及传统程序编程语言,诸如“C”编程语言或类似编程语言。程序代码可完全在用户的计算机上执行、部分在用户的计算机上执行、作为单机软件包执行、部分在用户的计算机上执行且部分在远程计算机上执行或者完全在远程计算机上或服务器上执行。在后者的情景中,远程计算机可通过任何类型的网络连接到用户的计算机,该任何类型的网络包括局域网(LAN)或广域网(WAN),或者(例如,通过使用互联网服务提供商的互联网)可到外部计算机的连接。
参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或部分示意图描述了本发明的各方面。应理解的是,流程图图示和/或部分示意图中的每个部分和流程图图示和/或部分示意图的组合可以由计算机程序指令来实现。这些计算机程序指令可被提供到通用计算机的、专用计算机的、或用于生产机器的其他可编程数据处理装置的处理器,使得经由计算机的或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图中和/或部分示意图的一个或更多个部分中所指定的功能/动作。
这些计算机程序指令还可被存储在计算机可读介质中,所述计算机程序指令可指导计算机、其他可编程数据处理装置或其他设备以特定方式起作用,以使存储在计算机可读介质中的指令产生所制造的物品,包括实现流程图和/或部分示意图的一个或更多个部分中所指定的功能/动作的指令。
计算机程序指令还可被装载到计算机、其他可编程数据处理装置、或其他设备,以使将在计算机、其他可编程装置或其他设备上执行的一系列操作步骤产生计算机实现的过程,使得在计算机或其他可编程装置上执行的指令实现在流程图和/或部分示意图中的一个或更多个部分中指定的功能/动作。
前述流程图和示意图示出了根据本发明各种实施例的系统、方法、和计算机程序产品的可能的实现的架构、功能、和操作。就这点而言,流程图或部分示意图中的每个部分可以表示模块、段、或代码部分,该模块、段、或代码部分包括用于实现指定逻辑功能的一个或更多个可执行指令。还应当注意,在某些替代的实现中,在部分中提到的功能可以不以图中提到的顺序发生。例如,连续地显示的两个部分事实上可以基本上同时执行,或者部分有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意的是,部分示意图和/或流程图图示的每个部分,以及在部分示意图和/或流程图图示中的部分的组合可以由执行指定的功能或动作的基于专用目的硬件的系统或专用目的硬件和计算机指令的组合来实施。
在上面的描述中,实施例是本发明的例子或实现。“一个实施例”、“实施例”或“一些实施例”的各种出现并不一定都指相同的实施例。
尽管本发明的各种特征可以在单个实施例的上下文中进行描述,这些特征也可以单独地或以任何合适的组合提供。相反,尽管为了清楚起见,本发明可在本文中在单独实施例的上下文中进行描述,本发明也可以在单个实施例中实现。
在说明书中对“一些实施例”、“实施例”、“一个实施例”或“其它实施例”的引用指的是,结合实施例描述的特定特征、结构或特性包括在本发明的至少一些实施例中,但没有必要包括在所有实施例中。
应该理解,在本文使用的措辞和术语不应被解释为限制性的,并且仅用于描述性目的。
参考所附说明书、附图和例子可以更好地理解本发明的教导的原理和用途。
应该理解,在本文阐述的细节并不被认作对本发明的应用的限制。
此外,可以理解的是,本发明可以按照各种方式执行或实施,并且本发明可以在不同于上述描述中概括的实施例的实施例中实现。
应该理解,术语“包括(including)”、“包括(comprising)”、“由...组成”及其语法变体并不排除一个或更多个组件、特征、步骤或完整事物或其组的添加,并且术语应被解释为指定组件、特征、步骤或完整事物。
如果说明书或权利要求提到“附加”元件,其并不排除有多于一个的附加元件。
应该理解,在权利要求或说明书提到“一个(a)”或“一个(an)”元件的情况下,这样的提及并不被解释为仅存在该元件中的一个。
应理解的是,在说明书规定了组件、特性、结构或特征“可”“可能”“可以”或“应”被包括处,特定的组件、特性、结构或特征不必须被包括。
在可适用的情况下,虽然可以使用状态图、流程图或两者来描述实施例,但是本发明不限于这些图或相应的描述。例如,流程不需要经过每个示出的框或状态来进行,也不需要完全按照说明和描述的顺序进行。
本发明的方法可以通过手动地、自动地或其组合执行或完成所选择的步骤或任务来实现。
术语“方法”可指用于完成给定任务的方式、装置、技术和程序,该给定任务包括但不限于本发明所属的领域的从业者已知的或由本发明所属的领域的从业者从已知的方式、装置、技术和程序容易地开发的那些方式、装置、技术和程序。
权利要求和说明书中的描述、示例、方法和材料不被解释为限制而仅解释为说明。
除非另有定义,本文使用的所有技术术语和科学术语的含义是如同本发明所属技术领域的普通技术人员通常理解的含义。
本发明可借助等效或类似于在本文中描述的那些方法和材料在测试和实践中实现。
在本说明书中参考或提及的任何出版物(包括专利、专利申请和文章)在此均以其整体并入到本说明书中,其程度就仿佛每一篇单独的出版物都被具体地且单独地指出并入本文一样。此外,本发明一些实施例的描述中引用或标识任何参考文献不应解释为承认该参考文献可用作本发明的现有技术。
虽然本发明关于有限数量的实施例进行了描述,但是这些不应被解释为对本发明的范围的限制,而是应作为一些优选实施例的示例。其他可能的变化、修改和应用也落入本发明的范围内。相应地,本发明的范围不应被迄今为止已经描述的内容限定,而是由所附的权利要求及其法律等效物限定。
Claims (15)
1.一种方法,包括:
获得视频,其中所述视频包括:显示至少一个人类说话者的面部或面部部分的图像序列,以及对应于所述视频的原始声轨;以及
使用计算机处理器处理所述视频,以通过检测与所述至少一个人类说话者的语音在听觉上无关的声音来产生所述至少一个人类说话者的增强语音信号,其中所述检测基于从所述图像序列导出的视觉数据和所述原始声轨。
2.根据权利要求1所述的方法,其中,所述处理包括移除与所述至少一个人类说话者的语音在听觉上无关的所述声音。
3.根据权利要求1所述的方法,其中,所述原始声轨和所述增强语音信号各自分别由二维(2D)离散时间-频率(DTF)变换表示,其中每个单元至少表示在给定时间范围、在给定频率范围的所述语音信号的幅度。
4.根据权利要求1所述的方法,其中,所述原始声轨和所述增强语音信号分别由第一短期傅立叶变换(STFT)或频谱图以及第二STFT或频谱图表示。
5.根据权利要求3所述的方法,其中,所述处理是通过所述原始声轨的所述2D DTF中的每个单元与2D滤波器的相应单元逐点相乘来执行的。
6.根据权利要求1至5中任一项所述的方法,其中,所述处理至少部分地使用神经网络来执行。
7.根据权利要求5所述的方法,其中,所述2D滤波器至少部分基于所述原始视频生成。
8.根据权利要求5或7中任一项所述的方法,其中,所述2D滤波器使用发声到听觉的映射来生成,所述映射将所述原始输入图像序列作为输入。
9.根据权利要求6所述的方法,其中,所述神经网络已经在具有相应的干净语音信号的一组视频上被训练。
10.根据权利要求5、7或8中任一项所述的方法,其中,所述2D滤波器至少部分地使用神经网络来计算。
11.根据权利要求10所述的方法,其中,所述神经网络在具有相应的干净语音信号的一组视频上被训练。
12.根据前述权利要求中任一项所述的方法,其中,与所述原始声轨相比,所述增强语音信号表现出较少的噪声。
13.根据前述权利要求中任一项所述的方法,其中,与所述原始声轨相比,所述增强语音信号表现出所述至少一个人类说话者与包括在所述原始声轨中的另一个说话者的更好的说话者分离。
14.一种系统,包括被配置成实现前述权利要求中任一项的至少一个计算机处理器。
15.一种非暂时性计算机可读介质,包括一组指令,所述一组指令当被执行时使得至少一个计算机处理器实现权利要求1至13中的任一项。
Applications Claiming Priority (7)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201762528225P | 2017-07-03 | 2017-07-03 | |
| US62/528,225 | 2017-07-03 | ||
| US201762586472P | 2017-11-15 | 2017-11-15 | |
| US62/586,472 | 2017-11-15 | ||
| US201762590774P | 2017-11-27 | 2017-11-27 | |
| US62/590,774 | 2017-11-27 | ||
| PCT/IL2018/050722 WO2019008580A1 (en) | 2017-07-03 | 2018-07-03 | METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111052232A true CN111052232A (zh) | 2020-04-21 |
Family
ID=63165423
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201880054901.5A Pending CN111052232A (zh) | 2017-07-03 | 2018-07-03 | 使用视觉信息增强视频中人类说话者的语音信号的方法和系统 |
Country Status (5)
| Country | Link |
|---|---|
| US (2) | US10475465B2 (zh) |
| EP (1) | EP3649642A1 (zh) |
| CN (1) | CN111052232A (zh) |
| IL (1) | IL271801A (zh) |
| WO (1) | WO2019008580A1 (zh) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111491176A (zh) * | 2020-04-27 | 2020-08-04 | 百度在线网络技术(北京)有限公司 | 一种视频处理方法、装置、设备及存储介质 |
| CN112420078A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 一种监听方法、装置、存储介质及电子设备 |
| CN112712819A (zh) * | 2020-12-23 | 2021-04-27 | 电子科技大学 | 视觉辅助跨模态音频信号分离方法 |
| CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
| CN112951258A (zh) * | 2021-04-23 | 2021-06-11 | 中国科学技术大学 | 一种音视频语音增强处理方法及模型 |
| WO2022062800A1 (zh) * | 2020-09-25 | 2022-03-31 | 华为技术有限公司 | 语音分离方法、电子设备、芯片及计算机可读存储介质 |
| CN114333863A (zh) * | 2021-12-16 | 2022-04-12 | 科大讯飞股份有限公司 | 语音增强方法、装置、电子设备及计算机可读存储介质 |
| CN116631426A (zh) * | 2023-05-26 | 2023-08-22 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法及相关设备 |
| CN117292304A (zh) * | 2023-11-23 | 2023-12-26 | 南京良亚科技有限责任公司 | 一种多媒体数据传输控制方法及系统 |
Families Citing this family (46)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106887225B (zh) * | 2017-03-21 | 2020-04-07 | 百度在线网络技术(北京)有限公司 | 基于卷积神经网络的声学特征提取方法、装置和终端设备 |
| WO2019008580A1 (en) * | 2017-07-03 | 2019-01-10 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION |
| DE102017115871A1 (de) * | 2017-07-14 | 2019-01-17 | Elringklinger Ag | Brennstoffzellenvorrichtung und Verfahren zum Betreiben einer Brennstoffzellenvorrichtung |
| WO2019104229A1 (en) * | 2017-11-22 | 2019-05-31 | Google Llc | Audio-visual speech separation |
| US10991379B2 (en) | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
| CN112567455B (zh) * | 2018-08-27 | 2024-05-17 | Oppo广东移动通信有限公司 | 使用深度信息净化声音的方法和系统以及计算机可读介质 |
| US10891949B2 (en) * | 2018-09-10 | 2021-01-12 | Ford Global Technologies, Llc | Vehicle language processing |
| US10846522B2 (en) * | 2018-10-16 | 2020-11-24 | Google Llc | Speaking classification using audio-visual data |
| CN109859770A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 音乐分离方法、装置及计算机可读存储介质 |
| US11456007B2 (en) * | 2019-01-11 | 2022-09-27 | Samsung Electronics Co., Ltd | End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization |
| US11587305B2 (en) * | 2019-03-14 | 2023-02-21 | Fujifilm Business Innovation Corp. | System and method for learning sensory media association without using text labels |
| AU2020242078A1 (en) * | 2019-03-20 | 2021-11-04 | Research Foundation Of The City University Of New York | Method for extracting speech from degraded signals by predicting the inputs to a speech vocoder |
| EP3726529A1 (en) * | 2019-04-16 | 2020-10-21 | Fraunhofer Gesellschaft zur Förderung der Angewand | Method and apparatus for determining a deep filter |
| US20220358703A1 (en) * | 2019-06-21 | 2022-11-10 | Deepbrain Ai Inc. | Method and device for generating speech video on basis of machine learning |
| WO2020256475A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 텍스트를 이용한 발화 동영상 생성 방법 및 장치 |
| CN110246510B (zh) * | 2019-06-24 | 2021-04-06 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
| US11276419B2 (en) * | 2019-07-30 | 2022-03-15 | International Business Machines Corporation | Synchronized sound generation from videos |
| CN112446727B (zh) * | 2019-09-04 | 2023-09-12 | 百度在线网络技术(北京)有限公司 | 广告触发的方法、装置、设备及计算机可读存储介质 |
| US11244696B2 (en) * | 2019-11-06 | 2022-02-08 | Microsoft Technology Licensing, Llc | Audio-visual speech enhancement |
| CN110827849B (zh) * | 2019-11-11 | 2022-07-26 | 广州国音智能科技有限公司 | 数据建库的人声分离方法、装置、终端及可读存储介质 |
| US10699715B1 (en) * | 2019-12-27 | 2020-06-30 | Alphonso Inc. | Text independent speaker-verification on a media operating system using deep learning on raw waveforms |
| US11687778B2 (en) | 2020-01-06 | 2023-06-27 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
| US11348253B2 (en) * | 2020-01-09 | 2022-05-31 | Alibaba Group Holding Limited | Single-channel and multi-channel source separation enhanced by lip motion |
| US11039043B1 (en) * | 2020-01-16 | 2021-06-15 | International Business Machines Corporation | Generating synchronized sound from videos |
| CN111831820B (zh) * | 2020-03-11 | 2022-07-19 | 昆明理工大学 | 基于案件要素指导及深度聚类的新闻与案件相关性分析方法 |
| JP7148737B2 (ja) * | 2020-03-24 | 2022-10-05 | 楽天グループ株式会社 | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 |
| US11790900B2 (en) | 2020-04-06 | 2023-10-17 | Hi Auto LTD. | System and method for audio-visual multi-speaker speech separation with location-based selection |
| CN113516990B (zh) * | 2020-04-10 | 2024-08-13 | 华为技术有限公司 | 一种语音增强方法、训练神经网络的方法以及相关设备 |
| US11688412B2 (en) * | 2020-06-15 | 2023-06-27 | Tencent America LLC | Multi-modal framework for multi-channel target speech separation |
| CN111986689A (zh) * | 2020-07-30 | 2020-11-24 | 维沃移动通信有限公司 | 音频播放方法、音频播放装置和电子设备 |
| US11611581B2 (en) * | 2020-08-26 | 2023-03-21 | ID R&D, Inc. | Methods and devices for detecting a spoofing attack |
| US12073844B2 (en) * | 2020-10-01 | 2024-08-27 | Google Llc | Audio-visual hearing aid |
| CN112365414B (zh) * | 2020-11-04 | 2022-11-08 | 天津大学 | 一种基于双路残差卷积神经网络的图像去雾方法 |
| KR102412148B1 (ko) * | 2020-11-04 | 2022-06-22 | 주식회사 딥히어링 | 뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템 |
| WO2022168297A1 (ja) * | 2021-02-08 | 2022-08-11 | 日本電信電話株式会社 | 音源分離方法、音源分離装置、およびプログラム |
| CN114999499B (zh) * | 2021-03-02 | 2025-09-30 | 阿里巴巴创新公司 | 语音数据处理方法、装置、智能设备及计算机存储介质 |
| US11715480B2 (en) * | 2021-03-23 | 2023-08-01 | Qualcomm Incorporated | Context-based speech enhancement |
| CN114466178B (zh) * | 2021-09-09 | 2025-01-24 | 马上消费金融股份有限公司 | 语音与图像同步性的衡量方法及装置 |
| CN114171053B (zh) * | 2021-12-20 | 2024-04-05 | Oppo广东移动通信有限公司 | 一种神经网络的训练方法、音频分离方法、装置及设备 |
| CN114360573B (zh) * | 2021-12-31 | 2025-04-04 | 科大讯飞股份有限公司 | 说话者分离模型的训练方法和说话者分离方法及相关装置 |
| CN114818769A (zh) * | 2022-02-16 | 2022-07-29 | 清华大学 | 基于人机共生的声音信号处理的优化方法及装置 |
| CN114694683B (zh) * | 2022-05-09 | 2025-04-11 | 北京达佳互联信息技术有限公司 | 语音增强评测方法、语音增强评测模型的训练方法和装置 |
| WO2023234939A1 (en) * | 2022-06-02 | 2023-12-07 | Innopeak Technology, Inc. | Methods and systems for audio processing using visual information |
| CN114999508B (zh) * | 2022-07-29 | 2022-11-08 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
| GB2622386A (en) * | 2022-09-14 | 2024-03-20 | Nokia Technologies Oy | Apparatus, methods and computer programs for spatial processing audio scenes |
| CN116468639A (zh) * | 2023-05-06 | 2023-07-21 | 平安科技(深圳)有限公司 | 增强型人脸图像生成方法、装置、电子设备及存储介质 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1443498A1 (en) * | 2003-01-24 | 2004-08-04 | Sony Ericsson Mobile Communications AB | Noise reduction and audio-visual speech activity detection |
| US20040267536A1 (en) * | 2003-06-27 | 2004-12-30 | Hershey John R. | Speech detection and enhancement using audio/video fusion |
| CN1742322A (zh) * | 2003-01-24 | 2006-03-01 | 索尼爱立信移动通讯股份有限公司 | 噪声减小和视听语音活动检测 |
| CN102893327A (zh) * | 2010-03-19 | 2013-01-23 | 数字标记公司 | 直觉计算方法和系统 |
| US20140037117A1 (en) * | 2011-04-18 | 2014-02-06 | Dolby International Ab | Method and system for upmixing audio to generate 3d audio |
| JP2017037250A (ja) * | 2015-08-12 | 2017-02-16 | 日本電信電話株式会社 | 音声強調装置、音声強調方法及び音声強調プログラム |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7027124B2 (en) * | 2002-02-28 | 2006-04-11 | Fuji Xerox Co., Ltd. | Method for automatically producing music videos |
| US7574352B2 (en) * | 2002-09-06 | 2009-08-11 | Massachusetts Institute Of Technology | 2-D processing of speech |
| US8712061B2 (en) * | 2006-05-17 | 2014-04-29 | Creative Technology Ltd | Phase-amplitude 3-D stereo encoder and decoder |
| US9955277B1 (en) * | 2012-09-26 | 2018-04-24 | Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) | Spatial sound characterization apparatuses, methods and systems |
| US9721202B2 (en) * | 2014-02-21 | 2017-08-01 | Adobe Systems Incorporated | Non-negative matrix factorization regularized by recurrent neural networks for audio processing |
| US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
| CN109314619B (zh) * | 2016-03-23 | 2021-05-25 | 凝聚技术公司 | 正交时间频率空间调制信号的接收器侧处理 |
| WO2019008580A1 (en) * | 2017-07-03 | 2019-01-10 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION |
| US10839826B2 (en) * | 2017-08-03 | 2020-11-17 | Spotify Ab | Extracting signals from paired recordings |
-
2018
- 2018-07-03 WO PCT/IL2018/050722 patent/WO2019008580A1/en not_active Ceased
- 2018-07-03 EP EP18752871.6A patent/EP3649642A1/en not_active Withdrawn
- 2018-07-03 US US16/026,449 patent/US10475465B2/en active Active
- 2018-07-03 CN CN201880054901.5A patent/CN111052232A/zh active Pending
-
2019
- 2019-11-11 US US16/679,841 patent/US10777215B2/en active Active
-
2020
- 2020-01-01 IL IL271801A patent/IL271801A/en unknown
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1443498A1 (en) * | 2003-01-24 | 2004-08-04 | Sony Ericsson Mobile Communications AB | Noise reduction and audio-visual speech activity detection |
| CN1742322A (zh) * | 2003-01-24 | 2006-03-01 | 索尼爱立信移动通讯股份有限公司 | 噪声减小和视听语音活动检测 |
| US20060224382A1 (en) * | 2003-01-24 | 2006-10-05 | Moria Taneda | Noise reduction and audio-visual speech activity detection |
| US20040267536A1 (en) * | 2003-06-27 | 2004-12-30 | Hershey John R. | Speech detection and enhancement using audio/video fusion |
| CN102893327A (zh) * | 2010-03-19 | 2013-01-23 | 数字标记公司 | 直觉计算方法和系统 |
| US20140037117A1 (en) * | 2011-04-18 | 2014-02-06 | Dolby International Ab | Method and system for upmixing audio to generate 3d audio |
| JP2017037250A (ja) * | 2015-08-12 | 2017-02-16 | 日本電信電話株式会社 | 音声強調装置、音声強調方法及び音声強調プログラム |
Non-Patent Citations (2)
| Title |
|---|
| FAHEEM KHAN等: "Speaker Separation using Visually-derived Binary Masks", 《ISCA》 * |
| JEN-CHENG HOU等: "Audio-Visual Speech Enhancement using Deep Neural Networks", 《IEEE》 * |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111491176B (zh) * | 2020-04-27 | 2022-10-14 | 百度在线网络技术(北京)有限公司 | 一种视频处理方法、装置、设备及存储介质 |
| CN111491176A (zh) * | 2020-04-27 | 2020-08-04 | 百度在线网络技术(北京)有限公司 | 一种视频处理方法、装置、设备及存储介质 |
| WO2022062800A1 (zh) * | 2020-09-25 | 2022-03-31 | 华为技术有限公司 | 语音分离方法、电子设备、芯片及计算机可读存储介质 |
| US12334092B2 (en) | 2020-09-25 | 2025-06-17 | Huawei Technologies Co., Ltd. | Speech separation method, electronic device, chip, and computer- readable storage medium |
| CN114333896A (zh) * | 2020-09-25 | 2022-04-12 | 华为技术有限公司 | 语音分离方法、电子设备、芯片及计算机可读存储介质 |
| CN112420078A (zh) * | 2020-11-18 | 2021-02-26 | 青岛海尔科技有限公司 | 一种监听方法、装置、存储介质及电子设备 |
| CN112712819A (zh) * | 2020-12-23 | 2021-04-27 | 电子科技大学 | 视觉辅助跨模态音频信号分离方法 |
| CN112712819B (zh) * | 2020-12-23 | 2022-07-26 | 电子科技大学 | 视觉辅助跨模态音频信号分离方法 |
| CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
| CN112863538B (zh) * | 2021-02-24 | 2022-06-14 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
| CN112951258A (zh) * | 2021-04-23 | 2021-06-11 | 中国科学技术大学 | 一种音视频语音增强处理方法及模型 |
| CN112951258B (zh) * | 2021-04-23 | 2024-05-17 | 中国科学技术大学 | 一种音视频语音增强处理方法及装置 |
| CN114333863A (zh) * | 2021-12-16 | 2022-04-12 | 科大讯飞股份有限公司 | 语音增强方法、装置、电子设备及计算机可读存储介质 |
| CN116631426A (zh) * | 2023-05-26 | 2023-08-22 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法及相关设备 |
| CN117292304A (zh) * | 2023-11-23 | 2023-12-26 | 南京良亚科技有限责任公司 | 一种多媒体数据传输控制方法及系统 |
| CN117292304B (zh) * | 2023-11-23 | 2024-01-23 | 南京良亚科技有限责任公司 | 一种多媒体数据传输控制方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| IL271801A (en) | 2020-02-27 |
| WO2019008580A1 (en) | 2019-01-10 |
| US20200075034A1 (en) | 2020-03-05 |
| US20190005976A1 (en) | 2019-01-03 |
| US10475465B2 (en) | 2019-11-12 |
| EP3649642A1 (en) | 2020-05-13 |
| US10777215B2 (en) | 2020-09-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10777215B2 (en) | Method and system for enhancing a speech signal of a human speaker in a video using visual information | |
| Gabbay et al. | Visual speech enhancement | |
| Gabbay et al. | Seeing through noise: Visually driven speaker separation and enhancement | |
| Biswas et al. | Audio codec enhancement with generative adversarial networks | |
| Abouzid et al. | Signal speech reconstruction and noise removal using convolutional denoising audioencoders with neural deep learning | |
| Hsu et al. | Revise: Self-supervised speech resynthesis with visual input for universal and generalized speech regeneration | |
| Almaadeed et al. | Text-independent speaker identification using vowel formants | |
| Gogate et al. | Robust real-time audio-visual speech enhancement based on dnn and gan | |
| Roman et al. | Pitch-based monaural segregation of reverberant speech | |
| Abdulatif et al. | Aegan: Time-frequency speech denoising via generative adversarial networks | |
| Okamoto et al. | An investigation of subband WaveNet vocoder covering entire audible frequency range with limited acoustic features | |
| WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
| Gabbay et al. | Seeing through noise: Speaker separation and enhancement using visually-derived speech | |
| Hasan et al. | Preprocessing of continuous bengali speech for feature extraction | |
| Parisae et al. | Adaptive attention mechanism for single channel speech enhancement | |
| Opochinsky et al. | Single-microphone speaker separation and voice activity detection in noisy and reverberant environments | |
| Chen et al. | CITISEN: A deep learning-based speech signal-processing mobile application | |
| Zouhir et al. | A bio-inspired feature extraction for robust speech recognition | |
| Tiwari et al. | Real-time audio visual speech enhancement: integrating visual cues for improved performance | |
| CN120236588A (zh) | 会议语音的翻译方法、装置及电子设备 | |
| Gul et al. | Single-channel speech enhancement using colored spectrograms | |
| JP7551805B2 (ja) | オーディオ処理方法及び装置 | |
| Dahy et al. | A speech separation system in video sequence using dilated inception network and U-Net | |
| Gul et al. | Single channel speech enhancement by colored spectrograms | |
| Misra et al. | Analysis and extraction of LP-residual for its application in speaker verification system under uncontrolled noisy environment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200421 |