CN110572600A

CN110572600A - 一种录像处理方法及电子设备

Info

Publication number: CN110572600A
Application number: CN201910768733.2A
Authority: CN
Inventors: 张凯
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-12-13

Abstract

本发明提供一种录像处理方法及电子设备。该方法包括：采集录像过程中的音频信号和图像信息；根据所述音频信号，获取多个音频子序列以及每一所述音频子序列所对应声源的位置信息；根据所述图像信息，获取录像主体的位置信息；根据所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息，确定所述录像主体相对应的目标声源以及与所述目标声源相对应的目标音频子序列；根据所述目标音频子序列，得到录像音频。本发明在嘈杂的环境中录像时，能够提升主体声音的音频质量以及录像的视频效果，提升用户的录像体验。

Description

一种录像处理方法及电子设备

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种录像处理方法及电子设备。

背景技术

手机录像主要记录生活中的美好瞬间，随着越来越多的人开通直播，现在已经进入全民直播的时代，因此，视频录像逐渐成为手机最重要的功能考量。

现有的手机录像功能，主要通过摄像头和麦克风两个完全不相干通道的简单叠加，一边用摄像头记录图像，一边记录麦克风收集到的所有声音，因此，在嘈杂的环境中得到的录像视频，除主体发出的声音外，还有很多旁人、机器等发出的噪音，主体的声音淹没在背景声中，从而造成录像、直播的效果差的问题。如何在手机录像的同时，提升主体声音的音频质量成为一个亟待解决的问题。

发明内容

本发明实施例提供一种录像处理方法及电子设备，以解决在嘈杂的环境中录像、直播的视频效果差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明的实施例提供了一种录像处理方法，应用于电子设备，包括：

采集录像过程中的音频信号和图像信息；

根据所述音频信号，获取多个音频子序列以及每一所述音频子序列所对应声源的位置信息；

根据所述图像信息，获取录像主体的位置信息；

根据所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息，确定所述录像主体相对应的目标声源以及与所述目标声源相对应的目标音频子序列；

根据所述目标音频子序列，得到录像音频。

可选地，所述根据所述目标音频子序列，得到录像音频，包括：

滤除所述音频信号中除所述目标音频子序列之外的剩余音频子序列，得到第一音频信号；

对所述第一音频信号进行降噪处理，得到录像音频。

可选地，所述根据所述音频信号，获取多个音频子序列以及每一所述音频子序列所对应声源的位置信息，包括：

对所述音频信号进行声源分离，得到多个音频子序列；

对所述音频信号进行声源定位，得到每一所述音频子序列所对应声源的位置信息。

可选地，所述根据所述图像信息，获取录像主体的位置信息，包括：

获取所述图像信息中的深度信息；

对所述图像信息进行人脸识别，确定录像主体以及所述录像主体的方位信息；

根据所述方位信息以及所述图像信息中的深度信息，确定所述录像主体的位置信息。

可选地，所述获取所述图像信息中的深度信息，包括：

基于飞行时间技术，获取所述图像信息中的深度信息。

可选地，所述根据所述方位信息以及所述图像信息中的深度信息，确定所述录像主体的位置信息，包括：

将所述方位信息与所述图像信息中的深度信息进行匹配，得到与所述方位信息对应的所述录像主体的第一深度信息，将所述方位信息及所述第一深度信息确定为所述录像主体的位置信息。

可选地，所述根据所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息，确定所述录像主体相对应的目标声源以及与所述目标声源相对应的目标音频子序列，包括：

将所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息进行匹配；

将多个声源的位置信息中与所述录像主体的位置信息的匹配度最高的声源确定为所述录像主体相对应的目标声源，并将与所述目标声源相对应的音频子序列确定为目标音频子序列。

第二方面，本发明的实施例还提供了一种电子设备，包括：

采集模块，用于采集录像过程中的音频信号和图像信息；

第一获取模块，用于根据所述音频信号，获取多个音频子序列以及每一所述音频子序列所对应声源的位置信息；

第二获取模块，用于根据所述图像信息，获取录像主体的位置信息；

第一处理模块，用于根据所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息，确定所述录像主体相对应的目标声源以及与所述目标声源相对应的目标音频子序列；

第二处理模块，用于根据所述目标音频子序列，得到录像音频。

可选地，所述第二处理模块包括：

滤除单元，用于滤除所述音频信号中除所述目标音频子序列之外的剩余音频子序列，得到第一音频信号；

降噪单元，用于对所述第一音频信号进行降噪处理，得到录像音频。

可选地，所述第一获取模块包括：

第一获取单元，用于对所述音频信号进行声源分离，得到多个音频子序列；

第二获取单元，用于对所述音频信号进行声源定位，得到每一所述音频子序列所对应声源的位置信息。

可选地，所述第二获取模块包括：

获取单元，用于获取所述图像信息中的深度信息；

第一处理单元，用于对所述图像信息进行人脸识别，确定录像主体以及所述录像主体的方位信息；

第二处理单元，用于根据所述方位信息以及所述图像信息中的深度信息，确定所述录像主体的位置信息。

可选地，所述获取单元具体用于：

基于飞行时间技术，获取所述图像信息中的深度信息。

可选地，所述第二处理单元具体用于：

可选地，所述第一处理模块包括：

位置匹配单元，用于将所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息进行匹配；

第三处理单元，用于将多个声源的位置信息中与所述录像主体的位置信息的匹配度最高的声源确定为所述录像主体相对应的目标声源，并将与所述目标声源相对应的音频子序列确定为目标音频子序列。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的录像处理方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的录像处理方法的步骤。

本发明实施例的上述方案中，通过采集录像过程中的音频信号和图像信息；根据音频信号，获取多个音频子序列以及每一音频子序列所对应声源的位置信息；根据图像信息，获取录像主体的位置信息；根据录像主体的位置信息与每一音频子序列所对应声源的位置信息，确定录像主体相对应的目标声源以及与目标声源相对应的目标音频序列；根据目标音频子序列，得到录像音频，如此，在嘈杂的环境中录像时，能够提升主体声音的音频质量以及录像的视频效果，提升用户的录像体验。

附图说明

图1为本发明实施例提供的录像处理方法的流程示意图；

图2为本发明实施例提供的电子设备的结构示意图；

图3为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例提供的录像处理方法的流程示意图，该方法应用于电子设备。下面就该图具体说明该方法的实施过程。

步骤101，采集录像过程中的音频信号和图像信息。

本步骤中，在使用电子设备录像过程中，可通过麦克风采集音频信号，通过摄像头采集图像信息。

需要说明的是，在嘈杂的环境中，如游乐场、闹市等，电子设备通过麦克风采集的音频信号除了包括录像主体发出的声音信号外，还包括很多其他人或机器发出的声音信号。

步骤102，根据所述音频信号，获取多个音频子序列以及每一所述音频子序列所对应声源的位置信息。

本步骤中，具体的，可通过声源分离技术，从音频信号中提取出多个音频子序列；可通过声源定位技术，从音频信号中获取多个声源的位置信息。

这里，多个音频子序列与多个声源的位置信息一一对应。

步骤103，根据所述图像信息，获取录像主体的位置信息。

本步骤中，可基于人脸识别技术，获取图像信息中录像主体的大致位置信息；根据图像信息中的深度信息以及该大致位置信息，获取录像主体的精确位置信息。

步骤104，根据所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息，确定所述录像主体相对应的目标声源以及与所述目标声源相对应的目标音频子序列。

步骤105，根据所述目标音频子序列，得到录像音频。

本步骤中，具体的，将目标音频子序列作为录像音频，也就是说，最终录像过程中的录像视频包括图像信息以及对应图像信息的录像音频。这里，录像视频播放后，录像音频仅为录像主体对应的目标音频子序列，也就是，视频中仅存在录像主体发出的声音，录像主体周围环境的其余声音均被滤除了，这样，能够提升主体声音的音频质量以及录像的视频效果，提升用户的录像体验。

本发明实施例中，通过采集录像过程中的音频信号和图像信息；根据音频信号，获取多个音频子序列以及每一音频子序列所对应声源的位置信息；根据图像信息，获取录像主体的位置信息；根据录像主体的位置信息与每一音频子序列所对应声源的位置信息，确定录像主体相对应的目标声源以及与目标声源相对应的目标音频序列；根据目标音频子序列，得到录像音频，如此，在嘈杂的环境中录像时，能够提升主体声音的音频质量以及录像的视频效果，提升用户的录像体验。

基于图1所示的实施例，作为一可选的实现方式，步骤105可具体包括：

滤除音频信号中除所述目标音频子序列之外的剩余音频子序列，得到第一音频信号；

本步骤中，滤除音频信号中除目标音频子序列之外的剩余音频子序列，其目的是为了使得录像视频中的录像音频仅包含录像主体的声音，这样，能够提升主体声音的音频质量。

对所述第一音频信号进行降噪处理，得到录像音频。

本步骤中，第一音频信号包括目标音频子序列，对第一音频信号进行降噪处理，其目的是为了得到更加清晰的录像主体的声音，最终得到高音频质量的录像视频。

基于图1所示的实施例，作为一可选的实现方式，步骤102可具体包括：

对所述音频信号进行声源分离，得到多个音频子序列；

本步骤中，电子设备一般都设置有多个麦克风，具体的，可利用电子设备上的麦克风阵列对音频信号进行提取与分离。

更具体的，可基于波束形成的方法对音频信号进行提取与分离，即通过向不同方向的声源分别形成拾音波束，并抑制其他方向的声音，来进行音频信号的提取或分离。

还可基于传统的声源信号分离的方法对音频信号进行提取与分离，主要包括主成分分析和基于独立成分分析的方法。

对所述音频信号进行声源定位，得到每一音频子序列所对应声源的位置信息。

本步骤中，可具体通过波束形成、超分辨谱分析和到达时间差等方法对音频信号进行声源定位，得到每一音频子序列所对应声源的位置信息。

这里，波束形成的方法具体是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰。

波束形成可分为常规波束形成(Conventional Beam Forming，简称CBF)、CBF+自适应滤波器Adaptive Filter和自适应波束形成(Adaptive Beam Forming，简称ABF)。

超分辨谱分析如MUSIC，ESPRIT等，对其协方差矩阵(相关矩阵)进行特征分解，构造空间谱，关于方向的频谱，谱峰对应的方向即为声源方向。

到达时间差(Time Difference Of Arrival，简称TDOA)是先后估计声源到达不同麦克风的时延差，通过时延来计算距离差，再利用距离差和麦克风阵列的空间几何位置来确定声源的位置。

基于图1所示的实施例，作为一可选的实现方式，步骤103可具体包括：

获取所述图像信息中的深度信息；

本步骤中，获取所述视频图像的深度信息可具体包括：

基于飞行时间技术，获取所述图像信息中的深度信息。

这里，飞行时间(Time of Flight，简称TOF)技术，其基本原理是通过连续发射光脉冲(一般为不可见光)到被测物体上，然后接收从物体反射回的光脉冲，通过探测光脉冲的飞行(往返)时间来计算被测物体离电子设备摄像头的距离。

也就是说，通过计算光线发射和反射的时间差或相位差，能够产生深度信息。

一般地，电子设备上需配置有近红外波段的LED光源，该光源发出特定频率的近红外光，遇到物体反射后，电子设备相机会将光线发射时间和接收到的光线的时间相减，或者根据特定频率的相位差来换算被测物的距离，从而产生深度信息。

这里，图像信息中的深度信息包括图像信息中所有被拍摄对象的深度信息。被拍摄对象可包括：人物、景物、建筑物等。

这里，具体的，若通过对图像信息进行人脸识别，识别出多张人脸，则将多张人脸中人脸面积最大的确定为录像主体；或者，将识别出的人脸与预设人脸进行匹配，确定匹配度大于预设阈值的人脸为录像主体。

这里，通过人脸识别技术，可确定出录像主体在视频中具体方位，即录像主体的方位信息。也就是说，通过对所述图像信息进行人脸识别，确定的录像主体的方位信息，是录像主体的一个大致位置信息。

本步骤中，具体的，将所述方位信息与所述图像信息中的深度信息进行匹配，得到与所述方位信息对应的所述录像主体的第一深度信息，将所述方位信息及所述第一深度信息确定为所述录像主体的位置信息。

这里，通过将录像主体的方位信息与图像信息中的深度信息的匹配，得到包括录像主体的方位信息以及录像主体的第一深度信息(即录像主体距离电子设备的距离)的录像主体的精确位置信息，便于后续与多个音频子序列所对应的声源的位置信息进行匹配处理，从而准确地确定出对应录像主体的目标声源。

基于图1所示的实施例，作为一可选的实现方式，步骤104可具体包括：

本步骤中，与所述录像主体的位置信息的匹配度最高的声源，即该声源的位置信息与录像主体的位置信息相同或大致相同，也就是，该声源即为录像主体发出的声音。

本发明实施例提供的录像处理方法，通过采集录像过程中的音频信号和图像信息；根据音频信号，获取多个音频子序列以及每一音频子序列所对应声源的位置信息；根据图像信息，获取录像主体的位置信息；根据录像主体的位置信息与每一音频子序列所对应声源的位置信息，确定录像主体相对应的目标声源以及与目标声源相对应的目标音频序列；根据目标音频子序列，得到录像音频，如此，在嘈杂的环境中录像时，能够提升主体声音的音频质量以及录像的视频效果，提升用户的录像体验。

基于上述方法，本发明实施例提供一种用以实现上述方法的电子设备。

如图2所示，为本发明实施例提供的电子设备的结构示意图。本发明实施例提供一种电子设备200，该电子设备200可以包括：

采集模块201，用于采集录像过程中的音频信号和图像信息；

第一获取模块202，用于根据所述音频信号，获取多个音频子序列以及每一所述音频子序列所对应声源的位置信息；

第二获取模块203，用于根据所述图像信息，获取录像主体的位置信息；

第一处理模块204，用于根据所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息，确定所述录像主体相对应的目标声源以及与所述目标声源相对应的目标音频子序列；

第二处理模块205，用于根据所述目标音频子序列，得到录像音频。

可选地，所述第二处理模块205包括：

可选地，所述第一获取模块202包括：

可选地，所述第二获取模块203包括：

获取单元，用于获取所述图像信息中的深度信息；

可选地，所述获取单元具体用于：基于飞行时间技术，获取所述图像信息中的深度信息。

可选地，所述第二处理单元具体用于：将所述方位信息与所述图像信息中的深度信息进行匹配，得到与所述方位信息对应的所述录像主体的第一深度信息，将所述方位信息及所述第一深度信息确定为所述录像主体的位置信息。

可选地，所述第一处理模块204包括：

本发明实施例提供的电子设备能够实现图1方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

本发明实施例提供的电子设备，通过采集模块采集录像过程中的音频信号和图像信息；第一获取模块根据音频信号，获取多个音频子序列以及每一音频子序列所对应声源的位置信息；第二获取模块根据图像信息，获取录像主体的位置信息；第一处理模块根据录像主体的位置信息与每一音频子序列所对应声源的位置信息，确定录像主体相对应的目标声源以及与目标声源相对应的目标音频序列；第二处理模块根据目标音频子序列，得到录像音频，如此，在嘈杂的环境中录像时，能够提升主体声音的音频质量以及录像的视频效果，提升用户的录像体验。

图3为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备300包括但不限于：射频单元301、网络模块302、音频输出单元303、输入单元304、传感器305、显示单元306、用户输入单元307、接口单元308、存储器309、处理器310、以及电源311等部件。本领域技术人员可以理解，图3中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、以及计步器等。

其中，输入单元304用于采集录像过程中的音频信号和图像信息；处理器310用于根据所述音频信号，获取多个音频子序列以及每一所述音频子序列所对应声源的位置信息；根据所述图像信息，获取录像主体的位置信息；根据所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息，确定所述录像主体相对应的目标声源以及与所述目标声源相对应的目标音频子序列；根据所述目标音频子序列，得到录像音频。

本发明实施例中，在嘈杂的环境中录像时，能够提升主体声音的音频质量以及录像的视频效果，提升用户的录像体验。

应理解的是，本发明实施例中，射频单元301可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器310处理；另外，将上行的数据发送给基站。通常，射频单元301包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元301还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块302为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元303可以将射频单元301或网络模块302接收的或者在存储器309中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元303还可以提供与电子设备300执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元303包括扬声器、蜂鸣器以及受话器等。

输入单元304用于接收音频或视频信号。输入单元304可以包括图形处理器(Graphics Processing Unit，GPU)3041和麦克风3042，图形处理器3041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元306上。经图形处理器3041处理后的图像帧可以存储在存储器309(或其它存储介质)中或者经由射频单元301或网络模块302进行发送。麦克风3042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元301发送到移动通信基站的格式输出。

电子设备300还包括至少一种传感器305，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板3031的亮度，接近传感器可在电子设备300移动到耳边时，关闭显示面板3031和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器305还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元306用于显示由用户输入的信息或提供给用户的信息。显示单元306可包括显示面板3031，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板3031。

用户输入单元307可用于接收输入的数字或字符信息，以及产生与移动电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元307包括触控面板3071以及其他输入设备3072。触控面板3071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板3071上或在触控面板3071附近的操作)。触控面板3071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器310，接收处理器310发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板3071。除了触控面板3071，用户输入单元307还可以包括其他输入设备3072。具体地，其他输入设备3072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板3071可覆盖在显示面板3031上，当触控面板3071检测到在其上或附近的触摸操作后，传送给处理器310以确定触摸事件的类型，随后处理器310根据触摸事件的类型在显示面板3031上提供相应的视觉输出。虽然在图3中，触控面板3071与显示面板3031是作为两个独立的部件来实现移动电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板3071与显示面板3031集成而实现移动电子设备的输入和输出功能，具体此处不做限定。

接口单元308为外部装置与电子设备300连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元308可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备300内的一个或多个元件或者可以用于在电子设备300和外部装置之间传输数据。

存储器309可用于存储软件程序以及各种数据。存储器309可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器309可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器310是移动电子设备的控制中心，利用各种接口和线路连接整个移动电子设备的各个部分，通过运行或执行存储在存储器309内的软件程序和/或模块，以及调用存储在存储器309内的数据，执行移动电子设备的各种功能和处理数据，从而对移动电子设备进行整体监控。处理器310可包括一个或多个处理单元；优选的，处理器310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器310中。

电子设备300还可以包括给各个部件供电的电源311(比如电池)，优选的，电源311可以通过电源管理系统与处理器310逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备300包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器310，存储器309，存储在存储器309上并可在处理器310上运行的计算机程序，该计算机程序被处理器310执行时实现上述录像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述录像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种录像处理方法，应用于电子设备，其特征在于，包括：

采集录像过程中的音频信号和图像信息；

根据所述图像信息，获取录像主体的位置信息；

根据所述目标音频子序列，得到录像音频。

2.根据权利要求1所述的录像处理方法，其特征在于，所述根据所述图像信息，获取录像主体的位置信息，包括：

获取所述图像信息中的深度信息；

3.根据权利要求2所述的录像处理方法，其特征在于，所述根据所述方位信息以及所述图像信息中的深度信息，确定所述录像主体的位置信息，包括：

4.根据权利要求1所述的录像处理方法，其特征在于，所述根据所述录像主体的位置信息与每一所述音频子序列所对应声源的位置信息，确定所述录像主体相对应的目标声源以及与所述目标声源相对应的目标音频子序列，包括：

5.一种电子设备，其特征在于，包括：

采集模块，用于采集录像过程中的音频信号和图像信息；

6.根据权利要求5所述的电子设备，其特征在于，所述第二获取模块包括：

获取单元，用于获取所述图像信息中的深度信息；

7.根据权利要求6所述的电子设备，其特征在于，所述第二处理单元具体用于：

8.根据权利要求5所述的电子设备，其特征在于，所述第一处理模块包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的录像处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的录像处理方法的步骤。