CN109903758B

CN109903758B - 音频处理方法、装置及终端设备

Info

Publication number: CN109903758B
Application number: CN201711296558.9A
Authority: CN
Inventors: 肖业鸣; 高杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2023-06-23
Anticipated expiration: 2037-12-08
Also published as: US11133009B2; CN109903758A; TW201926315A; WO2019113503A1; US20190180752A1

Abstract

本申请公开了一种音频处理方法、装置及终端设备。音频处理方法包括如下步骤：在第一音频信息的播放期间，接收外部输入的声音信息；将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；在确定所述匹配结果满足阈值的情况下，停止播放所述第一音频信息。本发明提出的音频处理方法可以针对第一音频信息设置预设接收信息，将接收到的声音信息与预设的接收信息对比，当声音信息与其中一个预设接收信息相符时，停止播放当前的第一音频信息。因为预设接收信息的存在，本发明提供的音频处理方法可以更快速准确地识别出使用者发出的声音信息。

Description

音频处理方法、装置及终端设备

技术领域

本申请涉及数据处理领域，特别是涉及一种音频处理方法、装置及终端设备。

背景技术

语音对话系统为人机交互提供了一种自然而便捷的交互方式。典型的人机对话系统能够理解使用者发出的语音并对此进行反馈。通常的语音交互过程中，系统会以语音播报的形式来与使用者交流，如提示使用者如何进行下一步操作、有哪些可选项可供选择等等。

语音播报的信息对新使用者来说很有必要，但当使用者对系统比较熟悉的情况下，使用者可能已经知道将要播报的内容或者应该进行什么样的操作，则使用者可能希望通过语音打断(Barge-In，或称为语音插入)的方式来通知系统提前结束提示音的播报，从而提高交互效率。即在语音交互过程中，强行插入语音对系统播报语音进行打断。

系统播放提示音时，如果存在语音打断事件，麦克风会同时接收系统播报的提示音和使用者语音，可能还包含有环境噪声。如果要检测使用者当前是否发出了语音，则需要结合提示音的原始数据对麦克风采集到的数据进行回声消除。在现有的语音对话系统中，语音打断模块包含如图3所示各模块：

内路信号101为送入硬件声音传感器的提示音原始数据；外路信号102为麦克风采集到的数据，包含有提示音、使用者声音以及周围环境噪声等；回声消除模块103利用AEC(automatic echo cancellation)算法对外路信号进行回声消除，送入语音打断(语音打断)判定模块；语音打断判定模块104通常采用语音活动性检测(voice activitydetection，VAD)或语音识别(active speech recognition，ASR)技术来进行语音打断事件检测。

现有的语音打断模块工作流程图如图2所示：首先，系统播报提示音；之后进行语音打断事件检测，如果检测到语音打断事件或者提示音播放完毕，则结束播报，否则继续播报。

现有的语音打断技术存在一些比较明显的缺点，例如：

1.回声消除所用的AEC算法不能完消除提示音，最终输出信号中可能存在提示音的残留；

2.语音活动性检测准确率不够高很高,尤其在周围环境噪声的干扰下，容易将其他非语音声音误判为语音而导致错误的语音打断事件检测；

3.语音识别模块可能出现错误识别导致对语音打断事件的误判；

4.使用者发出无关的声音(如咳嗽、与其他人交谈等)可能会导致语音打断事件。

发明内容

鉴于上述问题，本发明一实施例提出一种音频处理方法、装置及终端设备，以解决现有技术存在的问题。

为了解决上述问题，本申请一实施例公开一种音频处理方法，包括：

在第一音频信息的播放期间，接收外部输入的声音信息；

将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；

在确定所述匹配结果满足阈值的情况下，停止播放所述第一音频信息。

本申请一实施例还公开一种车载终端的音频处理方法，其特征在于，包括：

在第一音频信息的播放期间，接收从车内环境采集的声音信息；

在确定所述匹配结果满足阈值的情况下，停止通过车载终端播放所述第一音频信息。

本申请一实施例公开一种移动客户端的音频处理方法，包括：

在第一音频信息的播放期间，接收从移动客户端的声音采集装置采集到的声音信息；

在确定所述匹配结果满足阈值的情况下，停止通过所述移动客户端播放所述第一音频信息。

本申请一实施例公开一种智能设备的音频处理方法，其特征在于，包括：

在第一音频信息的播放期间，接收从所述智能设备的声音采集装置采集到的声音信息；

在确定所述匹配结果满足阈值的情况下，停止通过所述智能设备播放所述第一音频信息。

本申请一实施例公开一种音频处理装置，包括：

接收模块，用于在第一音频信息的播放期间，接收外部输入的声音信息；

匹配模块，用于将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；

打断模块，用于在确定所述匹配结果满足阈值的情况下，停止播放所述第一音频信息。

本申请一实施例还公开一种终端设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行上述的方法。

本申请一实施例还公开一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行上述的方法。

本申请一实施例还公开一种智能车辆，包括上述的终端设备。

本申请一实施例还公开一种音频处理方法，包括：

在第一音频信息的播放期间，接收外部输入的声音信息；

确定所述声音信息与所述第一音频信息存在内容关联性；

停止播放所述第一音频信息。

由上述可知，本申请实施例包括以下优点：

本发明提出的音频处理方法，可以预先针对第一音频信息设置预设接收信息，将接收到的声音信息与预设的接收信息对比，当声音信息与其中一个预设接收信息相符时，停止播放当前的第一音频信息。因为预设接收信息的存在，本发明提供的音频处理方法可以更快速准确地识别出使用者发出的声音信息，并根据该声音信息执行语音打断操作，提高了识别的准确度和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术的语音打断模块的示意图。

图2是现有技术的语音打断模块工作流程图。

图3是本申请第一实施例的音频处理方法的流程图。

图4是本申请第一实施例的音频处理方法的执行主体的界面示意图。

图5是本申请第二实施例的音频处理方法的流程图。

图6是本申请第三实施例的车载终端的音频处理方法的流程图。

图7是一种车载终端和车辆环境的示意图。

图8所示为一种移动客户端的音频处理方法的流程图。

图9所示为移动客户端的界面示意图。

图10所示为一种智能设备的音频处理方法的流程图。

图11所示为本申请第六实施例的音频处理方法的流程图。

图12是本申请第七实施例的音频处理装置的方框图。

图13示意性地示出了用于执行根据本发明的方法的终端设备的框图。

图14示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请的核心思想之一在于，提出一种音频处理方法和指令处理方法，在该方法中，执行主体在播放第一音频信息——例如提示信息时，如果接收到用户发出的声音信息，则将该声音信息与预设的接收信息对比，当确认能够匹配时，则确认该声音信息为语音打断指令，停止播放第一音频信息，实现语音打断。

第一实施例

本发明第一实施例提出一种音频处理方法。图3所示为本发明第一实施例的音频处理方法的步骤流程图。图4是本申请第一实施例的音频处理方法的执行主体的界面示意图。如图3和图4所示，本发明实施例的音频处理方法包括如下步骤：

S101，在第一音频信息的播放期间，接收外部输入的声音信息；

在这一步骤中，执行主体，例如车载终端、手机、服务器、智能家居用品等各种具有计算、处理功能的电子装置，可以接收外部输入的声音信息。以执行主体为车载终端为例，车载终端可以安装操作系统和应用程序。使用者在车载终端的界面上打开应用程序，通过应用程序提供的语音操作功能与车载终端进行人机交互对话。当车载终端播放第一音频信息——例如提醒使用者进行选择的提示信息的时候，使用者通过语音以给出处理指令，例如进行选项确认、选择其中某一个选项、退出、返回主界面等操作，执行主体可以通过采音装置例如麦克风等装置接收外部输入的声音信息，获得使用者的语音指令。

S103，将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；

在这一步骤中，继续以执行主体是车载终端为例，车载终端可以在存储区域或者关联的远程数据库中查找是否存在与该声音信息匹配的预设接收信息，即将声音信息与预设接收信息进行匹配。上述“相匹配的预设接收信息”可以是相匹配的音频信息，或者相匹配的文字信息等。

预设接收信息可以与第一音频信息存在内容的关联性，例如，当前所播放的第一音频信息是一个选项列表(PickList)，该列表可以为上一轮的人机交互的对话结果。如上一轮使用者说“导航去中关村”，车载终端可以如图4所示给出一个选项列表，通过语音播报的选项列表为“为您找到X个中关村的结果，选择第几个”。对应地，预设的接收信息可以为“第*个”的声音信息、对应的文字内容等。

在本实施例中，选项列表的下方会提示使用者“选择请说‘第几项’，翻页请说‘下一页’”，但是在实际使用中，使用者可能未必按照提示信息操作，因此预设接收信息可以包括使用者可能或者关联的其他内容例如确认、返回、回主菜单、退出等指令。

例如，车载终端接收到该声音信息之后，可以将该声音信息识别为文字信息，第一音频信息对应的预设接收信息可以为提示信息的选项对应的文字内容，以及各种选项以外的常规选项，例如同意、是、选1、确认、返回、不同意等。车载终端接收到该声音信息之后，可以将该声音信息识别为文字信息，与该选项对应的文字内容比对，判断声音信息是否与预设接收信息相符。

再例如，第一音频信息对应的预设接收信息可以为音频信息，例如提示信息的选项对应的文字内容，以及各种选项以外的常规选项，例如同意、是、选1、确认、返回、不同意的音频信息等。车载终端接收到该声音信息之后，可以将该声音信息与该音频信息比对，判断声音信息是否与预设接收信息匹配。

第一音频信息对应的预设接收信息可以预先存储在数据库中，也可以是针对该第一音频信息进行即时处理获得的，本发明并不限制。例如，当采用文本比对的模式，即预设接收信息为文字内容时，在操作中可以即时获取第一音频信息对应的文字内容作为预设接收信息；当采用音频比对的模式，即预设接收信息为音频信息时，在操作中可以将第一音频信息的内容利用后台的转换程序转换为音频，作为预设接收信息。

S104，在确定所述匹配结果满足阈值的情况下，停止播放所述第一音频信息。

在这一步骤中，在判断声音信息与预设接收信息的匹配度满足阈值时，确认该声音信息为语音打断指令，可以根据该指令停止播放第一音频信息。

例如，在车载终端播放选项列表的时候，接收到了使用者发出的声音信息并在车载终端的后台程序中判断出该声音信息与预设接收信息相符。则认为使用者已给出了下一步指令，不需要继续播放第一音频信息，在这一步骤中即可进行语音打断处理，停止播放正在播放的第一音频信息。

上述的“匹配结果满足阈值”的情况例如为：声音信息中的声音单元命中预设接收信息中的声音单元的比例大于阈值。例如，当预设接收信息中的某一条目为“中关村大街”时，其包含“中”、“关”、“村”、“大”、“街”的声音单元。同时，获取的声音信息包括“中”、“关”、“村”、“大”的声音单元，且预设的比例阈值为75％，则此时声音信息命中的匹配条目数量为80％，则认为满足比例阈值。

上述的声音单元是以字符为单位进行说明的。但是在实际使用中，可以以音节、音素、各种表音字符等为单位，将声音信息进行分解，均属于本发明的保护范围，在此不再赘述。

可选地，在本发明一可选实施例中，步骤S101之后，上述方法还包括：

S102，将所述声音信息转换为字符序列；

所述预设接收信息包括该第一音频信息中的至少一个选项对应的字符序列。

在这一步骤中，在接收了声音信息之后可以将声音信息转换为字符序列，例如为表音字符序列。如使用者说“第一个”，则在执行主体中，可以将该声音信息，转换为汉语拼音字符序列，该汉语拼音字符序列例如为“di yi ge”或者包含声调的“di4yi1ge4”。在这一种情况下，预设接收信息可以设置为第一音频信息的选项对应的汉语拼音字符序列。可以通过即时转换或者提前转换的方式将第一音频信息提供的选项转换为汉语拼音字符序列。

同样地，字符序列还可以为文字序列、或者汉语拼音其外的其他语言字符序列，例如英文、日文、韩文等表音字符序列。以英文为例进行说明，当使用者发出的声音信息是“one”则在执行主体中，可以将该声音信息，转换为英语字符序列，例如通过音标表示的“[wΛn]”。在这一种情况下，预设接收信息可以设置为第一音频信息的选项对应的英语字符序列。可以通过即时转换或者提前转换的方式将第一音频信息提供的选项转换为英语字符序列。

在本发明一个可选实施例中，在步骤S103之后，本申请实施例提出的方法还可以包括如下步骤：

S104a，在所述匹配结果不满足阈值的情况下，继续播放所述第一音频信息继续播放该第一音频信息。

在这一步骤中，例如声音信息中的声音单元命中预设接收信息中的声音单元的比例小于阈值，则认为不满足阈值，则执行主体不执行打断操作，继续播放第一音频信息。

由上述可知，本发明第一实施例提出的音频处理方法至少具有如下技术效果：

本发明提出的音频处理方法，可以预先针对第一音频信息设置预设接收信息，将接收到的声音信息与预设的接收信息对比，当声音信息与其中一个预设接收信息相符时，停止播放当前播放的第一音频信息。因为预设接收信息的存在，本发明提供的音频处理方法可以更快速准确地识别出使用者发出的声音信息，并根据该声音信息执行语音打断操作，提高了识别的准确度和效率。

第二实施例

本发明第二实施例提出一种音频处理方法。图5所示为本发明第二实施例的音频处理方法的步骤流程图。如图5所示，本发明实施例的音频处理方法如下步骤：

S201，在第一音频信息的播放期间，接收外部输入的声音信息；

S206，将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；

S207，在确定所述匹配结果满足阈值的情况下，停止播放所述第一音频信息。

上述步骤与第一实施例的步骤S101、S103和S104相同或相似，在此不再赘述。

在本发明一可选实施例中，步骤S201即在第一音频信息的播放期间，接收外部输入的声音信息的步骤之后，所述方法还包括：

S202，对所述声音信息进行去噪处理。

在使用状态下，车载终端播放第一音频信息，例如提示使用者对界面展示的列表做选择等等。第一音频信息的音频信号从播放通道通过扩音设备(如喇叭)输出，该信号一般称作内路信号，用于与麦克风接收的外路信号(上述声音信息)做回声消除。一般来说，麦克风阵列采集到的声音信息包含有上述播放的第一音频信息、环境噪声以及使用者语音指令，当播放的第一音频信息是通过耳机等方式播放时，麦克风阵列采集到的声音信息也可能包括环境噪声和使用者的语音指令，因此可以对麦克风接收到的声音信息利用自动噪音消除算法对回声进行消除，从而使最终输出的语音中尽可能少地受提示音的干扰。

S203，对所述声音信息进行语音有效性检测。

在这一步骤中，可以利用现有的语音活动性检测(VAD)技术检测是否为有效语音，避免将咳嗽声、小声、环境噪声等识别为语音，造成误打断事件。在这一步骤中可以基于能量来判断语音和非语音，例如设置语音阈值，检测到高于该阈值的信息即为语音；或者也可以通过模型来分类，在执行主体或者服务端设置语音判断模型，在接收到声音信息后输入模型，判断是否为有效语音。在判断该声音信息为有效语音之后，再进行后续处理。在判断该声音不是有效语音时忽略该声音信息。

在本发明一可选实施例中，预设接收信息可以是预先生成而存储在存储区域的，也可以是即时生成的。在即时生成的情况下，在步骤S206即确认是否存在与该声音信息匹配的预设接收信息之前，所述方法还包括：

S204，根据第一音频信息，生成关联的预设接收信息列表。

这一步骤可以在在第一音频信息的播放期间，接收外部输入的声音信息之前、之后或同时执行。在一种情况下，只要确定了第一音频信息，即可确认执行主体——例如车载终端——下一步所要接收的信息是与该第一音频信息关联的，因此可以生成该第一音频信息关联的预设接收信息。

举例来说，当前所播放的第一音频信息是一个选项列表(PickList)，该列表可以为上一轮的人机交互的对话结果。如上一轮使用者说“导航去中关村”，车载终端可以给出选项列表，通过语音播报的选项列表为“为您找到X个中关村的结果，选择第几个”。对应地，预设的接收信息可以为“第*个”的声音信息、对应的文字内容等，或者关联的其他内容例如确认、返回、回主菜单、退出等指令。在这一步骤中，可以根据选项列表生成关联的预设接收信息。例如，可以将选项列表中每一个选项转换为拼音序列，同时设置其他常规内容，例如确认、返回、回主菜单、退出等对应的拼音序列，供后续匹配。

在本发明一可选实施例中，步骤S203或者步骤S204之后，所述方法还可以包括：

S205，当判断所述声音信息为有效语音时，将所述有效语音转换为字符序列；

在这一步骤中，在接收了有效语音之后可以将声音信息转换为字符序列，例如为表音字符序列。如使用者说“第一个”，则在车载终端的后台，可以将该声音信息，转换为汉语拼音字符序列，该汉语拼音字符序列例如为“di yi ge”或者包含声调的“di4yi1ge4”。在这一种情况下，预设接收信息可以设置为第一音频信息的选项对应的汉语拼音字符序列。可以通过即时转换或者提前转换的方式将第一音频信息提供的选项转换为汉语拼音字符序列。

同样地，字符序列还可以为汉语拼音其外的其他语言字符序列，例如其他表音字符序列，例如日文、韩文等，在此不再赘述。

在一可选实施例中，该方法还可以包括步骤S208，即执行所述声音信息对应的指令。

在这一步骤中，执行主体执行该声音信息对应的指令。例如声音信息经过识别后为“第一项”则匹配，则执行相符的预设接收信息(例如选项列表的第一条)。或者声音信息经过识别后为“选1”或者“one”等，同样地，执行选项列表中的第一选项。另外，当声音信息中“是”，则可以执行选项列表中的当前播放的选项。

综上所述，本实施例提出的音频处理方法至少具有如下优点：

除此之外，本实施例提出的音频处理方法至少还包括如下优点：

本发明提出的音频处理方法并不完全依赖于现有的回声消除技术的处理结果，可以允许回声消除算法存在一定的提示音残留。另外，本发明实施例提出的音频处理方法不完全依赖语音活动性检测技术进行语音打断的判定，结合使用者发出的声音信息和预设接收信息，使判断更加准确，对环境噪声干扰更为稳定，鲁棒性高。再者，本发明实施例提出的音频处理方法能够对与第一声音信息不相关的语音不进行响应，只有当使用者说出的语音内容与当前对话场景相关时才被认定为是打断事件，从而能有效避免周围环境噪声干扰，避免了误打断的发生，节省了计算处理资源。

第三实施例

本发明第三实施例提出一种车载终端的音频处理方法，图6是本申请第三实施例的车载终端的音频处理方法的流程图，图7所示为包括该车载终端的车内环境的示意图。如图7所示，车辆包括设置在车内的车载终端200，车载终端200包括扬声器400和麦克风700，还可以包括屏幕、按键等(图未示)。扬声器400除了可以集成于车载终端，还可以设置在车辆内部的其他位置，供乘坐者600收听信息。车载终端200具有计算处理功能，其可以安装操作系统和应用程序，还可以通过互联网500与服务器300远程联网进行数据交互。

结合图6和图7所示，该方法包括如下步骤：

S401，在第一音频信息的播放期间，接收从车内环境采集的声音信息；

在这一步骤中，与第一实施例步骤S101相似地，车载终端200可以接收车内环境的声音信息。例如，在车载终端播放第一音频信息提醒使用者600进行选择的时候，在播放过程中使用者通过语音以给出处理指令，例如进行选项确认、选择其中某一个选项、退出、返回主界面等操作，执行主体可以通过采音装置例如麦克风700等装置接收车内环境的声音信息，获得使用者600的语音指令。

S402，将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；

在这一步骤中，与第一实施例步骤S103相似地，车载终端200可以在存储区域或者数据库中查找是否存在与该声音信息匹配的预设接收信息。上述“相匹配的预设接收信息”可以是相匹配的语音信息，或者相匹配的文字信息等。上述存储区域可以是车载终端自身带有的内存等，也可以是服务器300的存储区域，在此并不限制。

S403，在确定所述匹配结果满足阈值的情况下，停止通过车载终端播放所述第一音频信息。

在这一步骤中，与第一实施例步骤S104相似地，在车载终端200播放选项列表的时候，接收到了使用者600发出的声音信息并在车载终端200的后台程序中判断出该声音信息与预设接收信息相符。则认为使用者已给出了下一步指令，不需要继续播放第一音频信息，在这一步骤中即可进行语音打断处理，停止播放第一音频信息。

在一可选实施例中，该方法还包括步骤S404，通过所述车载终端执行所述声音信息对应的指令。

在步骤S404中，通过车载终端执行该声音信息对应的指令。例如声音信息经过识别后为“第一项”则匹配，则执行相符的预设接收信息(例如选项列表的第一条)。或者声音信息经过识别后为“选1”，同样地，执行选项列表中的第一选项。另外，当声音信息中“是”，则车载终端可以执行选项列表中的当前播放的选项。

本发明提出的车载终端的音频处理方法，可以预先针对当前车载终端内播放的第一音频信息设置预设接收信息，将接收到的声音信息与预设的接收信息对比，当声音信息与其中一个预设接收信息相符时，停止播放当前的第一音频信息。因为预设接收信息的存在，本发明提供的车载终端的音频处理方法可以更快速准确地识别出车辆内使用者发出的声音信息，并根据该声音信息执行语音打断操作，提高了识别的准确度和效率。

第四实施例

本发明第四实施例提出了一种移动客户端的音频处理方法，图8所示为一种移动客户端的音频处理方法的流程图，图9所示为移动客户端的界面示意图。如图8和图9所示，该方法可以包括如下步骤：

S501，在第一音频信息的播放期间，接收从移动客户端的声音采集装置采集到的声音信息；

在这一步骤中，与第一实施例步骤S101相似地，移动客户端300可以接收车内环境的声音信息。例如，在移动客户端通过听筒302播放第一音频信息——例如提示信息提醒使用者进行选择的时候，在播放过程中使用者通过语音以给出处理指令，例如进行选项确认、选择其中某一个选项、退出、返回主界面等操作，执行主体可以通过采音装置例如麦克风303等装置接收使用者的声音信息，获得使用者的语音指令。在播放第一音频信息的同时，移动客户端300还可以显示对应的内容，如图9所示。

S502，将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；

在这一步骤中，与第一实施例步骤S103相似地，移动客户端300可以在存储区域或者远程关联的数据库中查找是否存在与该声音信息匹配的预设接收信息。上述“相匹配的预设接收信息”可以是相匹配的语音信息，或者相匹配的文字信息等。上述存储区域可以是移动客户端自身带有的内存等，在此并不限制。

S503，在确定所述匹配结果满足阈值的情况下，停止通过所述移动客户端播放所述第一音频信息。

在这一步骤中，与第一实施例步骤S104相似地，在移动客户端300播放选项列表的时候，通过采音装置接收到了使用者发出的声音信息并在移动客户端300的后台程序中判断出该声音信息与预设接收信息相匹配。则认为使用者已给出了下一步指令，不需要继续播放第一音频信息，在这一步骤中即可进行语音打断处理，停止播放第一音频信息。

综上所述，本实施例提出的移动客户端的音频处理装置至少具有如下优点：

本发明提出的移动客户端的音频处理装置，可以预先针对第一音频信息设置预设接收信息，将接收到的声音信息与预设的接收信息对比，当声音信息与其中一个预设接收信息相符时，停止播放当前的第一音频信息。因为预设接收信息的存在，本发明提供的智能设备的音频处理方法可以使得移动客户端更快速准确地识别出使用者发出的声音信息，并根据该声音信息执行语音打断操作，提高了识别的准确度和效率。

第五实施例

本发明第五实施例提出了一种智能设备的音频处理装置。上述智能设备包括智能家居用品，例如微波炉、烤箱、洗衣机、洗碗机、空调、路由器、音箱，电视，电冰箱，吸尘器等家居设备。

图10所示为一种智能设备的音频处理方法的流程图，该方法可以包括如下步骤：

S601，在第一音频信息的播放期间，接收从所述智能设备的声音采集装置采集到的声音信息；

在这一步骤中，与第一实施例步骤S101相似地，可以接收使用环境中的声音信息。例如，在智能设备播放第一音频信息——例如提示信息提醒使用者进行选择的时候，在播放过程中使用者通过语音以给出处理指令，例如进行选项确认、选择其中某一个选项、退出、返回主界面等操作，执行主体可以通过采音装置等装置接收使用者的声音信息，获得使用者的语音指令。在播放第一音频信息的同时，智能设备的显示装置上还可以显示对应的内容。

S602，将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；

在这一步骤中，与第一实施例步骤S103相似地，智能设备可以在存储区域或者远程关联的数据库中查找是否存在与该声音信息匹配的预设接收信息。上述“相匹配的预设接收信息”可以是相匹配的语音信息，或者相匹配的文字信息等。上述存储区域可以是智能设备自身带有的内存等，在此并不限制。

S603，在确定所述匹配结果满足阈值的情况下，停止通过所述智能设备播放所述第一音频信息。

在这一步骤中，与第一实施例步骤S104相似地，在智能设备播放选项列表的时候，通过采音装置接收到了使用者发出的声音信息并在智能设备的后台程序中判断出该声音信息与预设接收信息相匹配。则认为使用者已给出了下一步指令，不需要继续播放第一音频信息，在这一步骤中即可进行语音打断处理，停止播放第一音频信息。

综上所述，本实施例提出的智能设备的音频处理装置至少具有如下优点：

本发明提出的智能设备的音频处理装置，可以预先针对第一音频信息设置预设接收信息，将接收到的声音信息与预设的接收信息对比，当声音信息与其中一个预设接收信息相符时，停止播放当前的第一音频信息。因为预设接收信息的存在，本发明提供的智能设备的音频处理方法可以使得智能设备更快速准确地识别出使用者发出的声音信息，并根据该声音信息执行语音打断操作，提高了识别的准确度和效率。

第六实施例

本发明第六实施例提出了一种音频处理方法，图11所示为本发明实施例的音频处理方法的实施例，如图11所示，该方法可以包括如下步骤：

S801，在第一音频信息的播放期间，接收外部输入的声音信息；

S802，确定所述声音信息与所述第一音频信息存在内容关联性；

在这一步骤中，继续以执行主体是车载终端为例，车载终端可以判断声音信息是否与第一音频信息存在内容的关联性，例如，使用者所说的“第一项”或者“下一页”或者“确认”、“回主菜单”、“退出”等语音指令。

车载终端可以实时地判断声音信息与第一音频信息是否存在内容的关联性，例如当第一音频信息对应的显示内容是多个选项时，车载终端可以通过相关性判断模型等程序、算法，判断使用者所说的“第一项”或者“下一页”或者“确认”、“回主菜单”、“退出”等语音指令与当前播放的第一音频信息是相关的，而“今天天气不错”、“路况很差”等语音内容与当前播放的第一音频信息是不相关的，在步骤S802中确认声音信息与所述第一音频信息存在内容关联性，进入后续处理步骤。

S803，停止播放所述第一音频信息。

在这一步骤中，当确定所述声音信息与所述第一音频信息存在内容关联性时，则确认该声音信息为语音打断指令，可以根据该指令停止播放第一音频信息。

例如，在车载终端播放选项列表的时候，接收到了使用者发出的声音信息并在车载终端的后台程序中判断出该声音信息与第一音频信息相关联，则认为使用者已给出了下一步指令，不需要继续播放第一音频信息，在这一步骤中即可进行语音打断处理，停止播放正在播放的第一音频信息。

本发明提出的音频处理方法，可以判断接收到的声音信息与当前播放的第一音频信息的相关性，当判断相关时停止播放当前的第一音频信息。本发明提供的音频处理方法可以实时判断声音信息与第一音频信息的内容关联性，使得执行主体更快速准确地识别出使用者发出的声音信息，并根据该声音信息执行语音打断操作，提高了识别的准确度和效率。

第七实施例

本发明第七实施例提出了一种音频处理装置，图12所示为一种音频处理装置的示意性模块图，如图12所示，该音频处理装置包括如下模块：

接收模块701，用于在第一音频信息的播放期间，接收外部输入的声音信息；

匹配模块702，用于将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；

打断模块703，用于在确定所述匹配结果满足阈值的情况下，停止播放所述第一音频信息。

在一实施例中，所述装置还包括：

转换模块704，用于将所述声音信息转换为字符序列；

其中，所述预设接收信息包括该第一音频信息中的至少一个选项对应的字符序列。

在一实施例中，所述装置还包括：

去噪模块705，用于对所述声音信息进行去噪处理。

在一实施例中，所述装置还包括：

有效语音判断模块706，用于对所述声音信息进行语音有效性检测。

在一实施例中，所述装置还包括：

生成模块707，用于根据第一音频信息，生成关联的预设接收信息列表。

在一实施例中，在第一音频信息的播放期间，接收外部输入的声音信息的步骤之后，所述装置还包括：

转换模块，用于当判断所述声音信息为有效语音时，将所述有效语音转换为字符序列；

在一实施例中，所述装置还包括：

文字转换模块，用于将所述声音信息转换为文字信息；

所述预设接收信息包括该第一音频信息中的至少一个选项对应的文本内容。

综上所述，本实施例提出的音频处理装置至少具有如下优点：

本发明提出的音频处理装置，可以预先针对第一音频信息设置预设接收信息，将接收到的声音信息与预设的接收信息对比，当声音信息与其中一个预设接收信息相符时，停止播放当前的第一音频信息。因为预设接收信息的存在，本发明提供的音频处理方法可以更快速准确地识别出使用者发出的声音信息，并根据该声音信息执行语音打断操作，提高了识别的准确度和效率。

除此之外，本实施例提出的音频处理装置至少还包括如下优点：

本发明提出的音频处理装置并不完全依赖于现有的回声消除技术的处理结果，可以允许回声消除算法存在一定的提示音残留。另外，本发明实施例提出的音频处理方法不完全依赖语音活动性检测技术进行语音打断的判定，结合使用者发出的声音信息和预设接收信息，使判断更加准确，对环境噪声干扰更为稳定，鲁棒性高。再者，本发明实施例提出的音频处理方法能够对与第一音频信息不相关的语音不进行响应，只有当使用者说出的语音内容与当前对话场景相关时才被认定为是打断事件，从而能有效避免周围环境噪声干扰，避免了误打断的发生，节省了计算处理资源。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

图13为本申请一实施例提供的终端设备的硬件结构示意图。如图13所示，该终端设备可以包括输入设备90、处理器91、输出设备92、存储器93和至少一个通信总线94。通信总线94用于实现元件之间的通信连接。存储器93可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，存储器93中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述处理器91例如可以为中央处理器(Central Processing Unit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器91通过有线或无线连接耦合到上述输入设备90和输出设备92。

可选的，上述输入设备90可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；可选的，上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备92可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中数据处理装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图14为本申请另一实施例提供的终端设备的硬件结构示意图。图14是对图13在实现过程中的一个具体的实施例。如图14所示，本实施例的终端设备包括处理器101以及存储器102。

处理器101执行存储器102所存放的计算机程序代码，实现上述实施例中图1至图9、图11的方法。

存储器102被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。存储器102可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，处理器101设置在处理组件100中。该终端设备还可以包括：通信组件103，电源组件104，多媒体组件105，音频组件106，输入/输出接口107和/或传感器组件108。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件100通常控制终端设备的整体操作。处理组件100可以包括一个或多个处理器101来执行指令，以完成上述图1至图9、图11方法的全部或部分步骤。此外，处理组件100可以包括一个或多个模块，便于处理组件100和其他组件之间的交互。例如，处理组件100可以包括多媒体模块，以方便多媒体组件105和处理组件100之间的交互。

电源组件104为终端设备的各种组件提供电力。电源组件104可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件105包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件106被配置为输出和/或输入音频信号。例如，音频组件106包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件103发送。在一些实施例中，音频组件106还包括一个扬声器，用于输出音频信号。

输入/输出接口107为处理组件100和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件108包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件108可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件108可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件108还可以包括摄像头等。

通信组件103被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务端建立通信。

由上可知，在图14实施例中所涉及的通信组件103、音频组件106以及输入/输出接口107、传感器组件108均可以作为图13实施例中的输入设备的实现方式。

本申请实施例提供了一种终端设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行如本申请实施例中一个或多个所述的视频摘要的生成方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种音频处理方法、装置及终端设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

在第一音频信息的播放期间，接收外部输入的声音信息；

将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；所述预设接收信息包括：提示信息的选项以及所述选项以外的常规选项对应的音频信息、文字信息；

在确定匹配结果满足阈值的情况下，停止播放所述第一音频信息；所述匹配结果满足阈值为声音信息中的声音单元命中预设接收信息中的声音单元的比例大于阈值。

2.根据权利要求1所述的方法，其特征在于，在第一音频信息的播放期间，接收外部输入的声音信息的步骤之后，所述方法还包括：

将所述声音信息转换为字符序列；

3.根据权利要求2所述的方法，其特征在于，所述字符序列是汉语拼音字符序列。

4.根据权利要求2所述的方法，其特征在于，所述字符序列是汉语拼音以外的其他语言字符序列。

5.根据权利要求1所述的方法，其特征在于，在第一音频信息的播放期间，接收外部输入的声音信息的步骤之后，所述方法还包括：

对所述声音信息进行去噪处理。

6.根据权利要求1所述的方法，其特征在于，在第一音频信息的播放期间，接收外部输入的声音信息的步骤之后，所述方法还包括：

对所述声音信息进行语音有效性检测。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据第一音频信息，生成关联的预设接收信息列表。

8.根据权利要求7所述的方法，其特征在于，所述预设接收信息列表为倒排索引列表。

9.根据权利要求1所述的方法，其特征在于，所述确定匹配结果满足阈值包括：

确定声音信息中的声音单元命中预设接收信息中的声音单元的比例大于阈值。

10.根据权利要求1所述的方法，其特征在于，所述外部输入的声音信息是声学传感器接收到的声音信息。

11.根据权利要求1所述的方法，其特征在于，在确定匹配结果满足阈值的情况下，停止播放所述第一音频信息的步骤之后，所述方法还包括：

执行所述声音信息对应的指令。

12.一种车载终端的音频处理方法，其特征在于，包括：

在确定匹配结果满足阈值的情况下，停止通过车载终端播放所述第一音频信息；所述匹配结果满足阈值为声音信息中的声音单元命中预设接收信息中的声音单元的比例大于阈值。

13.根据权利要求12所述的方法，其特征在于，在确定匹配结果满足阈值的情况下，停止通过车载终端播放所述第一音频信息的步骤之后，所述方法还包括：

通过所述车载终端执行所述声音信息对应的指令。

14.一种移动客户端的音频处理方法，其特征在于，包括：

在确定匹配结果满足阈值的情况下，停止通过所述移动客户端播放所述第一音频信息；所述匹配结果满足阈值为声音信息中的声音单元命中预设接收信息中的声音单元的比例大于阈值。

15.一种智能设备的音频处理方法，其特征在于，包括：

在确定匹配结果满足阈值的情况下，停止通过所述智能设备播放所述第一音频信息；所述匹配结果满足阈值为声音信息中的声音单元命中预设接收信息中的声音单元的比例大于阈值。

16.根据权利要求15所述的方法，其特征在于，所述智能设备包括智能家居用品。

17.一种音频处理装置，其特征在于，包括：

匹配模块，用于将所述声音信息与预设接收信息进行匹配，其中所述预设接收信息与所述第一音频信息存在内容关联性；所述预设接收信息包括：提示信息的选项以及所述选项以外的常规选项对应的音频信息、文字信息；

打断模块，用于在确定匹配结果满足阈值的情况下，停止播放所述第一音频信息；所述匹配结果满足阈值为声音信息中的声音单元命中预设接收信息中的声音单元的比例大于阈值。

18.一种终端设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述终端设备执行如权利要求1-16中一个或多个所述的方法。

19.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得终端设备执行如权利要求1-16中一个或多个所述的方法。

20.一种智能车辆，其特征在于，包括如权利要求18所述的终端设备。