WO2018130173A1

WO2018130173A1 - 配音方法、终端设备、服务器及存储介质

Info

Publication number: WO2018130173A1
Application number: PCT/CN2018/072201
Authority: WO
Inventors: 李钟伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-01-16
Filing date: 2018-01-11
Publication date: 2018-07-19
Anticipated expiration: 2019-07-16
Also published as: CN107071512B; CN107071512A

Abstract

本申请公开了一种配音方法、装置及系统，所述配音方法包括响应于用户指令，播放视频；获取用户在所述视频中选择的视频起始点与视频终止点；根据视频起始点和视频终止点生成待配音视频的视频信息；将所述视频信息发送至服务器，使得所述服务器根据所述视频信息生成待配音视频。

Description

配音方法、终端设备、服务器及存储介质

本申请要求于2017年1月16日提交中国专利局、申请号为201710029246.5、发明名称为“配音方法、装置及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理领域，尤其涉及一种配音方法、终端设备、服务器及存储介质。

背景

目前，一些配音软件可以提供用户配音功能，即接收用户针对用户选定的待配音视频提交的音频数据，从而生成用户配音的视频。待配音视频一般由配音软件运营方提供，供用户从中选择感兴趣的。一些配音软件也允许用户上传自行拍摄的视频文件作为待配音视频。

技术内容

本申请实施例提出了一种配音方法、装置及系统。

本申请实施例的一种配音方法可以应用于终端设备，其中，所述方法包括：

响应于用户指令，播放视频；

获取用户在所述视频中选择的视频起始点与视频终止点；

根据视频起始点和视频终止点生成待配音视频的视频信息；

将所述视频信息发送至服务器，使得所述服务器根据所述视频信息生成待配音视频。

一种配音方法，其中，应用于服务器，所述方法包括：

获取来自终端设备的待配音视频的视频信息，其中，所述视频信息为终端设备根据用户在播放的视频中选择的起始点和视频终止点生成；

根据所述视频信息生成待配音视频。

一种终端设备，其中，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述指令可以使所述处理器执行以下操作：

响应于用户指令，播放视频；

获取用户在所述视频中选择的视频起始点与视频终止点；

根据视频起始点和视频终止点生成待配音视频的视频信息；

将所述视频信息发送至服务器，使得所述服务器得到根据所述视频信息生成待配音视频。

一种服务器，包括：处理器和存储器，所述存储器中存储有计算机可读指令，所述指令可以使所述处理器执行以下操作：

根据所述视频信息生成待配音视频。

本申请实施例还提供了一种非易失性计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上所述的方法。

本申请实施例的技术方案可以根据用户指令在终端设备播放的视频中截取用户指定的视频内容，生成待配音视频，丰富了配音系统的素材来源，提高了配音系统的服务能力。

附图简要说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实例提供的实施环境的示意图；

图2是本申请实施例提供的服务器集群架构示意图；

图3是本申请实施例提供的配音方法的流程图；

图4A是本申请实施例提供的第一客户端得到待配音视频的方法的流程图；

图4B是本申请实施例提供的得到待配音视频的方法的流程图；

图5是本申请实施例提供的视频编辑方法；

图6是本申请实施例提供的对视频进行编辑的流程示意图；

图7A是本申请实施例提供的配音方法流程图；

图7B是本申请实施例提供的配音方法流程图；

图8是本申请实施例提供的目标视频生成方法流程图；

图9是本申请实施例提供的字幕获取方法的流程图；

图10是本申请实施例提供的语音识别的方法的流程图；

图11是本申请实施例提供的配音装置框图；

图12是本申请实施例提供的目标视频生成模块的框图；

图13是本申请实施例提供的标识生成模块的框图；

图14是本申请实施例提供的终端的结构框图；

图15是本申请实施例提供的服务器的结构框图。

实施方式

本文所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境包括：第一终端120、服务器140和第二终端160。

第一终端120中运行有第一客户端。第一终端120可以是手机、平板电脑、OTT设备、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。OTT设备是连接电视机与互联网的设备，可以使电视机通过OTT设备连接互联网，播放从互联网获得的内容。OTT设备可以包括智能电视机、机顶盒、网络电视盒等。网络电视盒，也叫智能电视盒，是一种连接电视机与互联网的设备。网络电视盒从互联网获取网络节目的数据，提供给电视机展示。

服务器140可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

第二终端160中运行有第二客户端。第二终端160可以是手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器140可以通过通信网络分别与第一终端120和第二终端160建立通信连接。该网络可以是无线网络，也可以是有线网络。

在本申请实施例中，第一客户端可以是任何具有用户界面(User Interface，UI) 接口并能够与服务器140通信的客户端。例如，第一客户端可以是视频服务类客户端、有线电视客户端、游戏客户端、浏览器、专用于视频配音的客户端等等。

在本申请实施例中，第二客户端可以是任何具有用户界面(User Interface，UI)接口并能够与服务器140通信的客户端。例如，第二客户端可以是视频编辑类客户端、社交类应用客户端、即时通信客户端、支付类应用客户端、专用于视频配音的客户端等等。

在实际应用中，第一客户端和第二客户端可以是两个具有不同功能的客户端，第一客户端和第二客户端也可以是两个具有相同功能的客户端。相应地，第一终端和第二终端均为终端设备。当该终端设备中运行的客户端用于实现各实施例方法示例中第一客户端侧的功能时，该终端设备即作为第一终端；当该终端设备中运行的客户端用于实现本申请方法示例中第二客户端侧的功能时，该终端设备即作为第二终端。在实际应用中，对于同一个客户端来讲，其可以作为第一客户端，也可以作为第二客户端。对于同一台终端，其可以作为第一终端，也可以作为第二终端。

在一个示例中，如图2所示，当后台服务器140为集群架构时，后台服务器140可以包括：通讯服务器142、管理服务器144和视频服务器146。

通讯服务器142用于提供与第一客户端和与第二客户端的通讯服务，还用于提供与管理服务器144和视频服务器146的通信服务。

管理服务器144用于提供对视频文件以及音频文件进行管理的功能。

视频服务器146用于提供对视频进行编辑和配音功能。

上述各个服务器之间可通过通信网络建立通信连接。该网络可以是无线网络，也可以是有线网络。

请参考图3，其示出了本申请一个实施例提供的配音方法的流程图。该方法可应用于图1所示实施环境中。该方法可以包括如下步骤。

步骤301，第一客户端响应于用户指令，得到待配音视频。

若第一客户端运行于智能电视机、机顶盒等带有遥控器的终端设备上，所述用户指令可以通过按下或长按遥控器上的指定按钮的方式触发，也可以通过遥控器单击或双击指定图标的方式触发；若第一客户端运行于电视机、台式机或便携式计算机等带有按键和屏幕的终端设备之上，所述用户指令可以通过按下或长按指定按钮的方式触发，也可以通过单击或双击指定图标的方式触发；若第一客户端运行于手机或平板电脑上，所述用户指令也可以通过单击、双击、活动、拖动等手势触发。响应于所述用户指令，第一客户端进入配音模式。请参考图4A，其示出了在所述配音模式下，第一客户端得到待配音视频的方法的流程图。

步骤3011A，获取用户选择的视频标识；

步骤3012A，获取用户选择的视频起始点与视频终止点；

步骤3013A，在与所述视频标识对应的视频文件中，拷贝所述视频起始点和视频终止点之间的视频内容，得到待配音视频。

在一些实例中，获取待配音视频还可通过如图4B所示的方法得到。该方法可以包括以下步骤。

步骤3011B，响应于用户指令，播放视频；

步骤3012B，获取用户在所述视频中选择的视频起始点与视频终止点；

步骤3013B，根据视频起始点和视频终止点生成待配音视频的视频信息；

步骤3014B，将所述视频信息发送至服务器，使得所述服务器根据所述视频信息生成待配音视频。

各实施例中，播放的视频为终端设备通过互联网获得的视频，例如OTT视频。

在一些实例中，终端设备可以在所述视频中，截取所述视频起始点和视频终止点之间的视频数据，将所述视频数据作为所述视频信息发送至所述服务器，使得所述服务器将所述视频数据存储为所述待配音视频。

在一些实例中，终端设备可以将所述视频的视频标识、所述视频起始点的信息与所述视频终止点的信息作为所述视频信息发送至所述服务器，以使所述服务器根据所述视频起始点的信息与所述视频终止点的信息从所述视频标识对应的视频中截取所述待配音视频。

在一些实例中，所述视频起始点的信息包括所述视频中对应所述视频起始点的第一视频截图，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二视频截图。终端设备可以将所述视频信息发送至服务器，使得所述服务器根据所述第一视频截图和所述第二视频截图在所述视频标识对应的视频中确定所述视频起始点与所述视频终止点，根据所述视频起始点与所述视频终止点从所述视频中截取所述待配音视频。

在一些实例中，所述视频起始点的信息包括所述视频中对应所述视频起始点的第一时间，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二时间。终端设备可以将所述视频信息发送至服务器，使得所述服务器根据所述第一时间和所述第二时间从所述视频中截取所述待配音视频。

在一些实例中，终端设备还可通过与服务器交互的方式编辑待配音视频。所述编辑操作包括但不限于画面裁剪、视频裁减、视频增加、消音、配音及图形处理。

在一些实例中，该方法还可以包括：

响应于配音指令，生成与所述待配音视频对应的音频文件；

将所述音频文件发送至服务器，使得所述服务器根据对应于所述视频标识的待配音视频和对应于所述视频标识的音频文件生成配音后的视频文件。

这里，终端设备可以通过各种带有拾音器的设备获取用户输入的音频，生成音频文件。这些带有拾音器的设备可以包括麦克风、带有麦克风的遥控器、手机，等。终端设备可以利用有线连接或无线连接(例如红外、蓝牙、Wi-Fi等)与带有拾音器的设备进行通信。

步骤302，第一客户端将所述待配音视频发送至服务器。

进一步地，所述第一客户端在将所述待配音视频发送至服务器之前，还可以在本地保存所述待配音视频。

步骤303，服务器获取所述待配音视频，服务器根据所述待配音视频生成目标视频。

具体地，若所述待配音视频符合目标视频的相关限定，则所述待配音视频可以直接作为目标视频；若所述待配音视频不符合目标视频的相关限定，则对所述待配音视频进行编辑后生成目标视频。所述目标视频的相关限定包括但不限于所述目标视频中无音频数据。

步骤304，服务器生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识。

具体地，所述管理标识可以为用于标识目标视频的ID(identification)号或key值(键值)。所有与所述目标视频相关的音频文件和视频文件均具有同样的管理标识，服务器根据所述管理标识对视频文件和/或音频文件进行管理。

所述交互标识用于使得第二客户端能够获取服务器生成的目标视频以及所述管理标识；所述交互标识可以与所述管理标识相同，也可以与所述管理标识不同。所述交互标识根据所述管理标识生成，所述交互标识包括但不限于网址、二维码、条形码以及它们的组合等形式。

本申请的一个实施例中，所述交互标识包括与管理标识对应的网址以及以二维码形式表示的所述网址。所述网址所在位置下，存储有所述目标视频以及所述管理标识。

步骤305，服务器将所述交互标识发送至第一客户端。

步骤306，第一客户端获取来自所述服务器的所述交互标识，并使得所述交互标识能够被第二客户端获取。

在一些实例中，该方法还可以包括：

所述终端设备展示服务器发送的所述待配音视频的交互标识，所述交互标识能够被一终端设备识别从而从所述服务器得到所述待配音视频。这里，所述第二客户端可以运行于所述终端设备上。

步骤307，第二客户端根据所述交互标识从所述服务器得到所述目标视频和所述管理标识。

第一客户端获取所述二维码，所述第二客户端即可通过扫码的方式得到所述二维码，通过所述二维码，所述第二客户端即可登录所述二维码表示的网址，从而获取所述目标视频以及所述管理标识。

进一步地，第二客户端还可以对于所述目标视频进行编辑操作，所述编辑操作包括但不限于画面裁剪、视频裁减、视频增加、消音、配音及图形处理，从而得到编辑后的目标视频，并将编辑后的目标视频以及所述管理标识发送至服务器以替换服务器端与所述管理标识对应的目标视频。

进一步地，第二客户端还可以通过与服务器交互，向服务器发布视频编辑指令，所述编辑指令中还包括所述管理标识。由服务器对与所述管理标识对应的目标视频进行编辑操作，所述编辑操作包括但不限于画面裁剪、视频裁减、视频增加、消音、配音及图形处理。服务器得到编辑后的目标视频，并以编辑后的目标视频替换原目标视频，并将编辑后的目标视频推送至第二客户端。

步骤308，响应于配音指令，生成与所述管理标识对应的音频文件并将所述音频文件发送至所述服务器。

具体地，响应于配音指令，第二客户端可以通过录制音频文件、选取已有音频文件等方式以获取音频文件，并将所述音频文件与所述管理标识发送至服务器使得服务器能够获取所述音频文件。

进一步地，若通过录制音频文件的形式生成音频文件，则在录制过程中，播放目标视频以便用户进行配音；若在步骤308之前，所述第二客户端通过与服务器交互的方式，或通过自身的编辑功能编辑过目标视频，则在录制过程中，播放编辑后的目标视频以便用户进行配音。

在一些实例中，该方法还可以包括：

响应于配音指令，终端设备可以生成与所述待配音视频对应的音频文件；将所述音频文件发送至服务器，使得所述服务器根据对应于所述视频标识的待配音视频和对应于所述视频标识的音频文件生成配音后的视频文件。

例如，终端设备可以通过语音输入设备，如麦克风等录制音频文件，并生成音频文件，在录制过程中，终端设备可以同时播放视频以便用户进行配音。

步骤309，服务器根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。

若在步骤308之前，所述第二客户端通过与服务器交互的方式，或通过自身的编辑功能编辑过目标视频，则服务器中的目标视频已经被替换，则服务器根据所述音频文件与被替换过的目标视频得到配音后的视频文件。

进一步地，响应于第二客户端的发送指令，服务器可以将所述视频文件发送至第二客户端。

进一步地，响应于第二客户端发送的分享指令，服务器还可以将所述视频文件分享至其它用户。

综上所述，本实施例提供的方法，通过第一客户端、第二客户端与服务器之间的三方交互，实现了对于视频的配音。配音的具体工作在服务器端完成，用户只需选取待配音视频并录制音频文件即可，从而简化用户配音流程。进一步地，待配音视频的来源不限，可以为用户在某些视频库中选取的视频资源，也可以用户在电视机上观看的视频资源，比如OTT视频。

OTT是“Over The Top”的缩写，是指通过互联网向用户提供各种应用服务。这种应用和目前运营商所提供的通信业务不同，它仅利用运营商的网络，而服务由运营商之外的第三方提供。目前，典型的OTT业务有互联网电视业务，苹果应用商店等。互联网企业利用电信运营商的宽带网络发展自己的业务，如国外的谷歌、苹果、Skype、Netflix、国内的QQ等。Netflix网络视频以及各种移动应用商店里的应用都是OTT。本申请实施例可以直接基于OTT视频进行配音，从而显著拓宽配音素材的来源。

进一步地，在步骤308之前，所述目标视频可以被服务器或第二客户端编辑，请参考图5，其示出本申请的视频编辑方法，包括以下步骤：

步骤S310，对所述目标视频按照时间轴先后顺序逐帧分解为视频帧的组合；所述时间轴指的是两个以上时间点按先后顺序排列而成的直线。

根据所述视频帧的组合生成分解后的临时文件，所述视频帧中包括图形数据。

步骤S320，接收视频编辑指令，并根据所述视频编辑指令，对所述按帧分解的视频帧进行编辑。

步骤S330，根据编辑结果得到编辑后的目标视频。

以画面裁剪为例，若视频编辑指令为画面裁剪指令，则所述画面裁剪指令包括视频画面的宽度数据和高度数据。

(1)若画面剪辑在第二客户端完成，则由第二客户端直接根据所述视频画面的宽度数据和高度数据对临时文件中的每一个视频帧进行编辑，并根据编辑结果得到画面裁剪后的目标文件。

(2)若画面剪辑在服务器端完成，则第二客户端响应于画面裁剪指令，得到画面裁剪后的视频画面的宽度数据和高度数据；将所述宽度数据和所述高度数据传输至服务器使得所述服务器按照所述宽度数据和所述高度数据对服务器中的目标视频进行画面裁剪，所述画面裁剪的方法与(1)一致。

进一步地，还可以接收用户的其它视频编辑指令，包括视频裁减、视频增加、消音、配音及图形处理等。

本申请实例通过对目标视频进行多种编辑，可以满足用户的多种编辑需求，最终取得更好的配音效果；通过进行画面裁剪，可以去掉目标视频中的原有字幕。

进一步的，对于视频裁减、视频增加、消音、配音及图形处理等视频编辑指令，参照图6，其示出根据视频裁减、视频增加、消音、配音及图形处理等视频编辑指令对视频进行编辑的流程示意图。上述步骤S320具体包括：

S3201、接收视频编辑指令，其中所述视频编辑指令包括视频编辑的起点与终点以及视频编辑的类型；

S3022、将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；

S3203、查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧；

S3204、根据所述视频编辑的类型，对所第一视频帧与第二视频帧之间的视频帧进行编辑。

下面将根据具体地视频编辑的类型对步骤S320进行描述。

(一)视频裁剪处理

若视频编辑的类型为视频裁剪处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧，对在所述临时文件中将第一视频帧与第二视频帧中的视频帧进行裁剪。

(二)视频增加处理

若视频编辑的类型为视频增加处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧。若起点与终点为相邻两帧图像数据所对应的时间点，则将待添加的视频帧，插入至第一视频帧和第二视频帧之间。若起点与终点之间包括多帧图形数据所对应的时间点，则可以按照预设规则插入至第一视频帧和第二视频帧之间的预设位置。

(三)消音处理

若视频编辑的类型为消音处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧。然后，将第一视频帧和第二视频帧间声音数据删除。

(四)配音处理

若视频编辑的类型为配音处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧。然后，将第一视频帧和第二视频帧之间加入用户所选的声音数据，若第一视频帧和第二视频帧之间的视频帧中原本带有声音数据，则将原本带有的声音数据抹除，然后加入用户所选的声音数据。

(五)图形处理

若视频编辑的类型为图形处理，则将所述起点及终点分别与所述时间轴上的时间点进行匹配，获取与起点对应的第一匹配时间点和与终点对应的第二匹配时间点；查找与所述第一匹配时间点对应的第一视频帧和与所述第二匹配时间点对应的第二视频帧。然后，对第一视频帧和第二视频帧之间的视频帧之间的图像数据的对比度，亮度，以及色饱和度进行调整。

当然，步骤S320的视频编辑处理不限定于上述几种处理。也可以包括其他的处理。而且上述处理可以灵活组合，例如可以先对视频帧进行消音处理，然后再对消音处理的视频帧进行配音处理；或者先对视频帧进行视频裁剪，然后再对裁剪处理后的视频帧的对应位置插入待添加的视频帧等等。在这里需要说明的是，若视频编辑指令中，不包括起点及终点，则该起点默认设置为整个视频帧时间轴的起始时间点，终点默认设置为整个视频信号时间轴的最后一时间点。

本申请实例通过将需处理的目标视频逐帧进行分解，从而使得目标视频进行编辑处理时可以精确到每一帧，提高了视频处理的精确度，改善了编辑效果。

请参考图7A，其示出了一种配音方法，所述方法包括如下步骤：

步骤S401A，获取来自终端设备的待配音视频的视频信息，其中，所述视频信息为终端设备根据用户在播放的视频中选择的起始点和视频终止点生成；

步骤S402A，根据所述视频信息生成待配音视频。

在一些实例中，服务器可以根据所述视频起始点的信息与所述视频终止点的信息从所述视频标识对应的视频中截取所述待配音视频。

在一些实例中，所述视频起始点的信息包括所述视频中对应所述视频起始点的第一视频截图，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二视频截图。服务器可以根据所述第一视频截图和所述第二视频截图在所述视频标识对应的视频中确定所述视频起始点与所述视频终止点，从所述视频中截取所述视频起始点与所述视频终止点之间的视频数据作为所述待配音视频。

在一些实例中，所述视频起始点的信息包括所述视频中对应所述视频起始点的第一时间，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二时间。服务器可以从所述视频中截取所述第一时间和所述第二时间之间的视频数据作为所述待配音视频。

在一些实例中，服务器还可以接收所述终端设备发送的音频文件，根据对应于所述视频标识的待配音视频和对应于所述视频标识的音频文件生成配音后的视频文件。

请参考图7B，其示出了一种配音方法，所述方法包括如下步骤：

步骤S401B，获取来自第一客户端的待配音视频。

步骤S402B，根据所述待配音视频生成目标视频。

请参考图8，其示出了目标视频生成方法：

S4021，判断所述待配音视频中是否还有音频数据；

S4022，若是，则消除所述待配音视频中的音频数据，得到目标视频；

S4023，若否，直接将所述待配音视频作为目标视频。

具体地，所述消除所述待配音视频中的音频数据可以通过下述两种方式实现：

(1)解码所述待配音视频所在的文件，得到视频数据和音频数据；根据得到的视频数据重新编码得到目标视频；

(2)采用数字过滤的方式直接消除所述待配音视频中的音频数据，得到目标视频。

步骤S403B，生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识，以使得第二客户端能够根据所述交互标识得到所述目标视频和所述管理标识。

本申请实施例中可以按照预设的标识生成方法生成与所述目标视频对应的管理标识。所述标识生成方法包括但不限于随机生成标识，根据目标视频生成时间生成标识，根据目标视频生成时间以及其它属性参数生成标识。

本申请实施例中可以根据所述管理标识与预设的网址生成算法生成网址。生成的网址即为一种交互标识，所述网址与所述管理标识一一对应。所述网址生成后被推送至第一客户端。进一步地，推送至第一客户端的网址可以为字符串形式，也可以为二维码或条形码形式。

步骤S404B，获取来自第二客户端的与所述管理标识对应的音频文件。

步骤S405B，根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。

进一步地，请参考图9，其示出了字幕获取方法的流程图。响应于字幕生成指令，所述获取来自第二客户端的与所述管理标识对应的音频文件之后，还包括：

步骤S410，对所述音频文件中的音频进行语音识别。

具体地，请参考图10，其示出了对所述音频文件中的音频进行语音识别的方法的流程图，步骤S410包括如下步骤：

步骤S4101，得到音频文件中的音频数据。

步骤S4102，根据说话的时间间隔对音频数据进行切分，得到音频数据段，并记录音频数据段的时间信息。

具体地，根据说话的时间间隔对音频数据进行切分是根据音频数据中音频的波形图通过语音识别来判断应该断句位置。由于人声的语速快慢不同，有一般语速、较快语速以及较慢语速，为了进一步的实现断句的精确性，可以根据音频数据中人声的语速分别设置停顿时间间隔、每段语音的时间间隔。其中，对音频数据进行切分以得到音频数据段保证了音视频画面中呈现出的字幕阅读量能够使得观看者感到舒适、方便消化理解字幕内容。

步骤S4103，通过语音识别得到对应的文本数据段。

具体地，将音频数据段通过语音识别得到对应的文本数据段，包括：将所述音频数据段与词库进行匹配，得到对应音频数据段的分类词库；根据所匹配的分类词库进行语音识别。该分类词库包括：两种以上的语种分类词库、及两种以上的专业学科分类词库。通过将音频数据段与词库进行匹配可以得到与音频数据中原声语种对应语种分类词库，并可以利用该语种分类词库中的词汇进一步加快语音识别得到对应的文本数据、还可以通过将音频数据段与词库进行匹配得到与音频数据中的专业学科对应专业学科分类词库，例如历史题材的音频数据可以匹配到历史专业学科分类词库，可利用该专业学科分类词库中的词汇进一步加快语音识别得到对应的文本数据。

具体地，将音频数据段通过语音识别得到对应的文本数据段可以是将音频数据段中的音频内容直接识别成原声对应语言的文本数据，当然，也可将音频数据段中的音频内容识别成其它语言的文字。将音频数据段中的音频内容识别成其它语言的文字的具体过程为：获取用户选择的语言类别，将音频数据段识别成原声对应语言的文本数据，然后将识别出的原声对应语言的文本数据翻译成用户所选择的用户选择的语言类别的文本数据。

在各实施例中，根据说话的时间间隔的长短，在对应的文本数据段中添加间隔标识符。由于通过语音识别得到文本数据段中包含了大量的标点符号，其很多标点符号不符合上下文的语境，为了方便进一步校对文本数据段，可对语音识别得到文本数据段进行过滤，将文本数据段中标点符号所占字节转换成对应字节的间隔标识符。以方便人工校对时，修改成符合语境的标点符号。

具体地，通过语音识别得到文本数据段，可以是根据每段文本数据段的开始时间和结束时间将文本数据进行分割和换行，形成对应于音频文件中的音频数据的字幕文本。具体地，将文本数据进行分割和换行的标准主要依据音视频中字幕与音频的配合。

步骤S420，根据识别的结果生成与管理标识对应的字幕文件。

以字幕文件的形式记录上述文本数据段。需要说明的是，生成音视频数据的字幕文件后，可以根据实际情况选择字幕文件的输出方式，字幕文件的输出方式包括但不限于：生成特定格式、符合字幕格式标准的字幕文件；在播放视频时，将字幕文件整合到音视频输出流中，让播放器去做字幕显示工作。

步骤S430，将所述字幕文件传输至第二客户端使得第二客户端能够对所述字幕文件进行校正并返回修正结果。

步骤S440，根据所述修正结果得到目标字幕文件。

所述修正结果包括确认指令或修正后的字幕文件。若第二客户端对字幕文件进行了修正，则返回修正后的字幕文件，并以所述修正后的字幕文件作为目标字幕文件；若第二客户端对字幕文件没有修正，则直接返回确认指令，则以原字幕文件作为目标字幕文件。目标字幕文件也与管理标识对应。

进一步地，获取目标字幕文件后，在步骤S405中，即可将对应于相同管理标识的音频文件、目标视频以及目标字幕文件合成，得到配音后的视频文件。

本实施例提供了一种配音方法，通过语音识别的方式自动生成字幕文件，并基于管理标识生成了配音文件，用户只需录入对应于目标视频的声音得到音频文件，即可自动完成配音工作，并自动生成字幕，从而避免用户过多的接触复杂的配音文件生成工作，提升用户体验。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了一种配音装置，该装置具有实现上述方法示例中服务器的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

待配音视频获取模块501，用于获取来自第一客户端的待配音视频。可以用于执行上述步骤303和步骤S401。

目标视频生成模块502，用于根据所述待配音视频生成目标视频。可以用于执行上述步骤303和步骤S402。

标识生成模块503，用于生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识，以使得第二客户端能够根据所述交互标识得到所述目标视频和所述管理标识。可以用于执行上述步骤304和步骤S403。

音频文件获取模块504，用于获取来自第二客户端的与所述管理标识对应的音频文件。可以用于执行上述步骤308和步骤S404。

合成模块505，用于根据对应于所述管理标识的音频文件和对应于所述管理标识的目标视频生成配音后的视频文件。可以用于执行上述步骤309和步骤S405。

具体地，请参考图12，其示出了目标视频生成模块的框图。所述目标视频生成模块502可以包括：

判断单元5021，用于判断所述待配音视频中是否还有音频数据。可以用于执行上述步骤S4021。

消音单元5022，用于消除所述待配音视频中的音频数据。可以用于执行上述步骤3022。

具体地，请参考图13，其使出了标识生成模块的框图。所述标识生成模块 503可以包括：

管理标识生成单元5031，用于按照预设的标识生成方法生成与所述目标视频对应的管理标识。可以用于执行上述步骤304和步骤S403。

网址生成单元5032，用于根据所述管理标识与预设的网址生成算法生成网址。可以用于执行上述步骤304和步骤S403。

二维码生成单元5033，用于根据所述网址生成二维码。可以用于执行上述步骤304和步骤S403。

相应的，本装置还可以包括：二维码推送模块506，用于将所述二维码推送至所述第一客户端。可以用于执行上述步骤304。

进一步地，本装置还可以包括：

语音识别模块507，用于对所述音频文件中的音频进行语音识别。可以用于执行上述步骤S410。

字幕文件生成模块508，用于根据识别的结果生成字幕文件。可以用于执行上述步骤S420。

进一步地，本装置还可以包括：

视频编辑模块509，用于进行视频编辑。

视频文件发送模块510，用于将配音后的视频文件发送至第二客户端。

视频文件分享模块511，用于将配音后的视频文件分享至其它用户。

本申请一示例性实施例还提供了一种配音系统，所述系统包括第一客户端601、第二客户端602和服务器603；

所述第一客户端601，用于响应于用户指令，得到待配音视频；将所述待配音视频发送至服务器；获取来自所述服务器的交互标识，并使得所述交互标识能够被第二客户端获取；

所述第二客户端602，用于根据所述交互标识从所述服务器获取目标视频；响应于配音指令，生成与管理标识对应的音频文件并将所述音频文件发送至所述服务器；

所述服务器603，用于获取所述待配音视频；根据所述待配音视频生成目标视频；生成与所述目标视频对应的管理标识，并得到与所述管理标识对应的交互标识；将所述交互标识发送至第一客户端；向第二客户端发送目标视频；根据所述音频文件与服务器中的目标视频得到配音后的视频文件。

具体地，所述服务器603可以为上述的配音装置；

所述第一客户端601可以包括：

视频标识选择模块6011，用于获取用户选择的视频标识；

时间点获取模块6012，用于获取用户选择的视频起始点与视频终止点；

待配音视频获取模块6013，用于在与所述视频标识对应的视频文件中，拷贝所述视频起始点和视频终止点之间的视频内容，得到待配音视频；

所述第二客户端602可以包括：

交互标识获取模块6021，用于获取交互标识；

交互结果获取模块6022，用于根据所述交互标识从服务器得到目标视频和管理标识；

音频文件获取模块6023，用于生成与所述管理标识对应的音频文件；

音频文件发送模块6024，用于将所述音频文件发送至所述服务器。

进一步地，所述第二客户端还可以包括：

画面裁剪模块6025，响应于画面裁剪指令，得到画面裁剪后的视频画面的宽度数据和高度数据。

需要说明的是，上述实施例提供的装置和系统，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图14，其示出了本申请一个实施例提供的终端的结构示意图。该终端用于实施上述实施例中提供的配音方法。

所述终端可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图14中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述终端的使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

处理器180是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行所述终端的各种功能和处理数据。

终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于执行上述配音方法的指令。

请参考图15，其示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的服务器的配音方法。具体来讲：

所述服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，所述大容量存储设备 1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本申请的各种实施例，所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述服务器的方法的指令。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由终端的处理器执行以完成上述方法实施例中的各个步骤，或者上述指令由服务器的处理器执行以完成上述方法实施例中后台服务器侧的各个步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的部分实施例，并不用以限制本申请，凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种配音方法，应用于终端设备，所述方法包括：

响应于用户指令，播放视频；

获取用户在所述视频中选择的视频起始点与视频终止点；

根据视频起始点和视频终止点生成待配音视频的视频信息；

将所述视频信息发送至服务器，使得所述服务器根据所述视频信息生成待配音视频。
根据权利要求1所述的方法，其中，所述根据视频起始点和视频终止点生成待配音视频的视频信息，将所述视频信息发送至服务器，使得所述服务器根据所述视频信息生成待配音视频包括：

在所述视频中，截取所述视频起始点和视频终止点之间的视频数据，将所述视频数据作为所述视频信息发送至所述服务器，使得所述服务器将所述视频数据存储为所述待配音视频。
根据权利要求1所述的方法，其中，所述根据视频起始点和视频终止点生成所述视频信息，将所述视频信息发送至服务器，使得所述服务器根据所述视频信息生成待配音视频包括：

将所述视频的视频标识、所述视频起始点的信息与所述视频终止点的信息作为所述视频信息发送至所述服务器，以使所述服务器根据所述视频起始点的信息与所述视频终止点的信息从所述视频标识对应的视频中截取所述待配音视频。
根据权利要求3所述的方法，其中，所述视频起始点的信息包括所述视频中对应所述视频起始点的第一视频截图，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二视频截图，

所述将所述视频信息发送至服务器，使得所述服务器根据所述视频信息生成待配音视频，包括：

将所述视频信息发送至服务器，使得所述服务器根据所述第一视频截图和所述第二视频截图在所述视频标识对应的视频中确定所述视频起始点与所述视频终止点，根据所述视频起始点与所述视频终止点从所述视频中截取所述待配音视频。
根据权利要求3所述的方法，其中，所述视频起始点的信息包括所述视频中对应所述视频起始点的第一时间，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二时间，

所述将所述视频信息发送至服务器，使得所述服务器根据所述视频信息生成待配音视频，包括：

将所述视频信息发送至服务器，使得所述服务器根据所述第一时间和所述第二时间从所述视频中截取所述待配音视频。
根据权利要求1所述的方法，其中，所述方法进一步包括：

响应于配音指令，生成与所述待配音视频对应的音频文件；

将所述音频文件发送至服务器，使得所述服务器根据对应于所述视频标识的待配音视频和对应于所述视频标识的音频文件生成配音后的视频文件。
根据权利要求1所述的方法，其中，进一步包括：

展示服务器发送的所述待配音视频的交互标识，所述交互标识能够被一终端设备识别从而从所述服务器得到所述待配音视频。
一种配音方法，应用于服务器，所述方法包括：

获取来自终端设备的待配音视频的视频信息，其中，所述视频信息为终端设备根据用户在播放的视频中选择的视频起始点和视频终止点生成；

根据所述视频信息生成待配音视频。
根据权利要求8所述的方法，其中，所述视频信息包括所述视频的视频标识、所述视频起始点的信息与所述视频终止点的信息，所述根据所述视频信息生成待配音视频包括：

根据所述视频起始点的信息与所述视频终止点的信息从所述视频标识对应的视频中截取所述待配音视频。
根据权利要求9所述的方法，其中，所述视频起始点的信息包括所述视频中对应所述视频起始点的第一视频截图，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二视频截图，

根据所述视频起始点的信息与所述视频终止点的信息从所述视频标识对应的视频中截取所述待配音视频包括：

根据所述第一视频截图和所述第二视频截图在所述视频标识对应的视频中确定所述视频起始点与所述视频终止点，从所述视频中截取所述视频起始点与所述视频终止点之间的视频数据作为所述待配音视频。
根据权利要求9所述的方法，其中，所述视频起始点的信息包括所述视频中对应所述视频起始点的第一时间，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二时间，

根据所述视频起始点的信息与所述视频终止点的信息从所述视频标识对应的视频中截取所述待配音视频包括：

从所述视频中截取所述第一时间和所述第二时间之间的视频数据作为所述待配音视频。
根据权利要求8所述的方法，其中，所述方法进一步包括：

接收所述终端设备发送的音频文件，

根据对应于所述视频标识的待配音视频和对应于所述视频标识的音频文件生成配音后的视频文件。
一种终端设备，其中，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述指令可以使所述处理器执行以下操作：

响应于用户指令，播放视频；

获取用户在所述视频中选择的视频起始点与视频终止点；

根据视频起始点和视频终止点生成待配音视频的视频信息；

将所述视频信息发送至服务器，使得所述服务器根据所述视频信息生成待配音视频。
根据权利要求13所述的终端设备，其中，所述指令可以使所述处理器执行以下操作：

在所述视频中，截取所述视频起始点和视频终止点之间的视频数据，

将所述视频数据作为所述视频信息发送至所述服务器，使得所述服务器将所述视频数据存储为所述待配音视频。
根据权利要求13所述的终端设备，其中，所述指令可以使所述处理器执行以下操作：

将所述视频的视频标识、所述视频起始点的信息与所述视频终止点的信息作为所述视频信息发送至所述服务器，以使所述服务器根据所述视频起始点的信息与所述视频终止点的信息从所述视频标识对应的视频中截取所述待配音视频。
根据权利要求13所述的终端设备，其中，所述指令可以使所述处理器执行以下操作：

响应于配音指令，生成与所述待配音视频对应的音频文件；

所述发送模块，进一步用于将所述音频文件发送至服务器，使得所述服务器根据对应于所述视频标识的待配音视频和对应于所述视频标识的音频文件生成配音后的视频文件。
根据权利要求13所述的终端设备，其中，所述指令可以使所述处理器执行以下操作：

展示服务器发送的所述待配音视频的交互标识，所述交互标识能够被一终端设备识别从而从所述服务器得到所述待配音视频。
一种服务器，包括：处理器和存储器，所述存储器中存储有计算机可读指令，所述指令可以使所述处理器执行以下操作：

获取来自终端设备的待配音视频的视频信息，其中，所述视频信息为终端设备根据用户在播放的视频中选择的起始点和视频终止点生成；

根据所述视频信息生成待配音视频。
根据权利要求18所述的服务器，其中，所述指令可以使所述处理器执行以下操作：

所述视频信息包括所述视频的视频标识、所述视频起始点的信息与所述视频终止点的信息，

根据所述视频起始点的信息与所述视频终止点的信息从所述视频标识对应的视频中截取所述待配音视频。
根据权利要求18所述的服务器，其中，所述指令可以使所述处理器执行以下操作：

所述视频起始点的信息包括所述视频中对应所述视频起始点的第一视频截图，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二视频截图，

根据所述第一视频截图和所述第二视频截图在所述视频标识对应的视频中确定所述视频起始点与所述视频终止点，从所述视频中截取所述视频起始点与所述视频终止点之间的视频数据作为所述待配音视频。
根据权利要求18所述的服务器，其中，所述指令可以使所述处理器执行以下操作：

所述视频起始点的信息包括所述视频中对应所述视频起始点的第一时间，所述视频终止点的信息包括所述视频中对应所述视频终止点的第二时间，

从所述视频中截取所述第一时间和所述第二时间之间的视频数据作为所述待配音视频。
根据权利要求18所述的服务器，其中，所述指令可以使所述处理器执行以下操作：

接收所述终端设备发送的音频文件，

根据对应于所述视频标识的待配音视频和对应于所述视频标识的音频文件生成配音后的视频文件。
一种非易失性计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1至7任一项所述的方法。
一种非易失性计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如权利要求8至12任一项所述的方法。