CN111917726B

CN111917726B - 适配层、语音通信系统及其控制方法

Info

Publication number: CN111917726B
Application number: CN202010618280.8A
Authority: CN
Inventors: 艾巍; 邵小亮; 谢隆飞; 张�浩
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2022-03-15
Anticipated expiration: 2040-07-01
Also published as: CN111917726A

Abstract

本申请提供了一种适配层、语音通信系统及其控制方法，适配层包括路由适配器、音色适配器以及资源监控器；媒体资源服务器集群通过适配层，与智能语音服务器集群建立N：N的通信关系，N为大于1的正整数；在握手阶段和请求服务阶段，媒体资源服务器集群中的媒体资源服务器通过适配层与对应的智能语音服务器集群中的智能语音服务器进行信息交互。语音通信系统在中间构建适配层，以一种低成本的方式，在不改造媒体资源服务器和智能语音产品两个第三方公司庞大平台的前提下，灵活调整适配层，应对多租户的多个性化应用的复杂需求。适配层掌控了语音交互的底层通信，未来可以根据需求，在适配层快速迭代，可灵活构造出更多的应用。

Description

适配层、语音通信系统及其控制方法

技术领域

本申请涉及语音传输的技术领域，具体而言，本申请涉及一种适配层、语音通信系统及其控制方法。

背景技术

随着人工智能技术的发展，基于ASR、TTS的智能外呼得到广泛应用。在业界主流的架构方案中，媒体资源服务器负责接收用户的语音和播放智能语音服务合成的语音；智能语音服务负责识别用户的语音转发到自然语言处理模块、把成自然语言处理模块返回的文字合成语音。媒体资源服务器与智能语音服务通过SIP、SDP、MRCP、RTP协议通信，其中两者握手阶段，SIP协议和SDP协议用于协商服务能力、TCP和UDP通信端口、协商通信信道等；两者交互阶段，MRCP协议用于控制媒体资源(文字、语音等)交互，RTP协议用于传输媒体资源流。在媒体资源服务器端有几个关键配置：1、音色，用于指定智能语音服务的TTS合成语音使用的音色；2、智能语音服务的mrcp服务器地址和端口，媒体资源服务器向这个地址和端口发送报文和数据来交互；3、ASR和TTS线路数，指定与智能语音服务建立的信道数，一个信道支持一路TTS服务或一路ASR服务。

如前文所述，媒体资源服务器与智能语音服务直接建立一对一的通信信道，对于大型的智能外呼系统，租户较多，租户个性化需求较多时，这种构建模式存在如下缺点：

1.无法支持多家智能语音产品。不同智能语音产品有各自的长处与短处，服务价格也有差异。不同租户针对自己的应用场景及预算，需要选择不同的智能语音产品。而目前要使用多智能语音产品，一种方案是按1：1的构建关系部署多套媒体资源服务器与智能语音服务，这种方案成本高，管理复杂；另一种方案是改造媒体资源服务器，对接多个智能语音服务，此方案依赖于第三方提供媒体资源服务器的公司，成本高，没有自主产权，无法把控；同时要迁移很多业务要素到媒体资源服务器平台，风险高，牵一发而动全身，不够小巧灵活。

2.无法同时支持多种音色。不同租户喜好的音色不同，甚至有自定制音色的需求。音色参数目前由媒体资源服务器平台设置传递，无法配置多个音色，更无法针对不同租户设置不同的音色。功能局限。

3.无法有效监控ASR和TTS的资源占用情况。目前已知的中兴媒体资源服务器能监控某个时间节点的ASR和TTS使用线路数；阿里仅支持监控ASR的并发数。这些监控方式存在弊端，只能统计并发数。而智能语音服务里传输的关键数据是语音流，实时语音流达到数秒甚至几十秒，这时都是占用ASR和TTS资源的。在统计并发数的基础上，更应统计服务时长，才能精准核算资源消耗和成本。

发明内容

本申请针对现有方式的缺点，提出一种适配层、语音通信系统及其控制方法，用以解决上述问题，并为未来应用功能扩展提供基础。

第一方面，本申请实施例提供了一种多智能语音产品的适配层，包括路由适配器、音色适配器以及资源监控器；

媒体资源服务器集群通过适配层，与智能语音服务器集群建立N：N的通信关系，N为大于1的正整数；

在握手阶段和请求服务阶段，媒体资源服务器集群中的媒体资源服务器通过适配层与对应的智能语音服务器集群中的智能语音服务器进行信息交互。

在本申请的一个实施例中，在握手阶段，适配层利用SIP协议和SDP协议来转发媒体资源服务器和智能语音服务器的信息；

在请求服务阶段，适配层利用MRCP协议和RTP协议来转发媒体资源服务器和智能语音服务器的信息；

在本申请的一个实施例中，SIP协议、SDP协议和MRCP协议的报文使用TCP传输；RTP协议的报文使用UDP传输。

在本申请的一个实施例中，，音色适配器用于在在请求服务阶段根据外呼任务参数里的租户身份，选择对应的音色编号修改请求报文来转发通信。

在本申请的一个实施例中，资源监控器用于在请求服务阶段监控会话的线路数和会话起止时间。

第二方面，本申请实施例提供了一种语音通信系统，包括媒体资源服务器集群、智能语音服务器集群以及本申请实施例提供的适配层。

第三方面，本申请实施例提供了一种语音通信系统的控制方法，应用于本申请实施例提供的语音通信系统，包括：在握手阶段和请求服务阶段，媒体资源服务器通过适配层与对应的能语音服务器进行信息交互。

在本申请的一个实施例中，握手阶段的具体步骤包括：

媒体资源服务器发送INVITE消息，适配层解析报文并将INVITE消息转发至智能语音服务器中的智能语音产品；

智能语音服务器中的智能语音产品返回Trying消息和OK消息，适配层解析报文并将Trying消息和OK消息转发至媒体资源服务器；

媒体资源服务器发送ACK消息，适配层解析报文并将ACK消息转发至智能语音服务器中的智能语音产品。

在本申请的一个实施例中，请求服务阶段包括TTS服务阶段，TTS服务阶段的具体步骤包括：

媒体资源服务器发送SPEAK消息，路由适配器将SPEAK消息转发至智能语音服务器中的智能语音产品；

智能语音服务器中的智能语音产品返回IN-PROGRESS消息和SPEAK-COMPLETE消息，路由适配器将IN-PROGRESS消息和SPEAK-COMPLETE消息转发至媒体资源服务器。

在本申请的一个实施例中，请求服务阶段包括ASR服务阶段，ASR服务阶段的具体步骤包括：

媒体资源服务器发送RECOGINZE消息，适配层将RECOGINZE消息转发至智能语音服务器中的智能语音产品；

智能语音服务器中的智能语音产品返回PROGRESS消息，适配层将PROGRESS消息转发至媒体资源服务器；

智能语音服务器中的智能语音产品返回IN-PROGRESS消息和START-OF-INPUT消息，适配层将IN-PROGRESS消息和START-OF-INPUT消息转发至媒体资源服务器；

媒体资源服务器发送START-INPUT-TIMERS消息，适配层将START-INPUT-TIMERS消息转发至智能语音服务器中的智能语音产品；

智能语音服务器中的智能语音产品返回COMPLETE消息和RECOGINZE-COMPLETE消息，适配层将COMPLETE消息和RECOGINZE-COMPLETE消息转发至媒体资源服务器。

本申请实施例提供的技术方案，至少具有如下有益效果：

本申请实施例提供的适配层媒体资源服务器集群与智能语音服务器集群一对一的构建关系，在中间构建适配层。以一种低成本的方式，在不改造媒体资源服务器和智能语音产品两个第三方公司庞大平台的前提下，灵活调整适配层，应对多租户的多个性化应用的复杂需求。适配层掌控了语音交互的底层通信，未来可以根据需求，在适配层快速迭代，可灵活构造出更多的应用。本申请具体带来的有益效果如下：

在本申请实施例提供的在独立于媒体资源服务器和智能语音服务器之外，添加了灵巧的适配层，适配层可以对接多种智能语音产品，从而使业界媒体资源服务器与智能语音服务器的1：1的构建关系，拓展成N：N的对应关系(N为大于1的整数)。该适配层可以集成各种业务要素，分配通信信道，根据不同租户的不同需求与不同的智能语音产品，提升了智能外呼系统的灵活性与扩展性。该适配层还可打造自己的负载均衡策略，弥补市面上负载均衡产品对多媒体通信支持不足的问题。

其次，得益于适配层对语音交互的底层通信的掌控，适配层的语音适配器可以捕获MRCP报文，根据租户需求修改相应的音色。解决了业界媒体资源服务器只能设置单一音色，无法满足多租户不同音色需求的场景。使得系统既能选择同一智能语音产品的不同音色，又能选择不同智能语音产品的不同音色。

再次，媒体资源服务器线路数和智能语音产品许可数是系统构建成本的重要构成要素，适配层捕获了所有的通信报文，适配层的资源监控器从更底层维度，突破了目前业界普遍的资源线路数监控，添加时间维度的与租户维度的更细致精确的监控维度，这为成本核算，系统资源使用监控提供了更科学的数据。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的适配层的模块示意图；

图2为本申请实施例提供的一种语音通信系统的架构示意图；

图3为本申请提供的一种语音通信系统的控制方法的时序图。

具体实施方式

下面详细描述本申请，本申请的实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的部件或具有相同或类似功能的部件。此外，如果已知技术的详细描述对于示出的本申请的特征是不必要的，则将其省略。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

首先对本申请实施例以及说明书附图中的名次做简单的解释说明：

MRCP：媒体资源控制协议(Media Resource Control Protocol)是一种计算机网络应用层的通讯协议，用于语音服务器向客户端提供各种语音服务(如语音识别、语音合成、声纹识别等)。

媒体资源服务器：该设备在控制设备(软交换设备、应用服务器)的控制下，提供在IP网络上实现各种业务所需的媒体资源功能，包括业务音提供、会议、交互式应答(IVR)、通知、高级语言业务等。

ASR：自动语音识别技术(Automatic Speech Recognition)，是一种将人的语音转换为文本的技术。

TTS：语音合成技术(Text To Speech),是一种将文本转换为语音的技术。

IVR：互动式语音应答(Interactive Voice Response)。

租户：租用语音通信系统的公司或个人。

外呼任务参数：建立外呼任务的时候，需要设定一系列参数。如外呼时间段，电话号码，姓名，性别等外呼任务参数。其中有一个参数为租户id的参数，可以通过MRCP报文的Vendor-Specific-Parameters传递，适配层更加此参数设置对应租户的智能语音产品类型，音色等。正文的外呼任务参数特指租户id。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。

本申请实施例提供了一种多智能语音产品的适配层100，如图1所示，适配层100包括路由适配器、音色适配器以及资源监控器。

如图2所示，媒体资源服务器集群通过适配层100，与智能语音服务器集群建立N：N的通信关系，N为大于1的正整数。媒体资源服务器集群包括多个媒体资源服务器200，智能语音服务器集群包括多个智能语音服务器300，每个智能语音服务器300均运行有智能语音产品。语音通信系统中的媒体资源服务器200和智能语音服务器300的数量可以根据实际情况增加或减少，媒体资源服务器200和智能语音服务器300是N:N的对应关系(N大于1)。媒体资源服务器集群中的每个媒体资源服务器200均与适配层100双向通信，智能语音服务器集群中的每个智能语音服务器300中均与适配层100双向通信。

在握手阶段和请求服务阶段，媒体资源服务器集群中的媒体资源服务器通过适配层100与对应的智能语音服务器集群中的智能语音服务器300进行信息交互。

在本申请的一个实施例中，在握手阶段，适配层100利用SIP协议和SDP协议来转发媒体资源服务器200和智能语音服务器300的信息。在请求服务阶段，适配层100利用MRCP协议和RTP协议来转发媒体资源服务器200和智能语音服务器300的信息。

在本申请的一个实施例中，SIP协议、SDP协议和MRCP协议的报文使用TCP传输，RTP协议的报文使用UDP传输。

在本申请的一个实施例中，适配层100包括路由适配器。路由适配器用于根据外呼任务参数里的租户身份，选择对应的智能语音产品空闲的MRCP会话频道(channel)转发通信。

在本申请的一个实施例中，音色适配器用于在在请求服务阶段根据外呼任务参数里的租户身份(ID)，选择对应的音色编号(Voice-Name)修改请求报文来转发通信。

在本申请的一个实施例中，资源监控器用于在请求服务阶段监控会话的线路数和会话起止时间。可选地，资源监控器会监控ASR服务阶段和TTS服务阶段的会话的监控线路数以及会话起止时间，从而方便后续精准统计各租户的ASR资源和TTS资源使用情况。

本申请实施例提供的适配层媒体资源服务器集群与智能语音服务器集群一对一的构建关系，在中间构建适配层100。以一种低成本的方式，在不改造媒体资源服务器200和智能语音产品两个第三方公司庞大平台的前提下，灵活调整适配层100，应对多租户的多个性化应用的复杂需求。适配层100掌控了语音交互的底层通信，未来可以根据需求，在适配层100快速迭代，可灵活构造出更多的应用。本申请具体带来的有益效果如下：

在独立于媒体资源服务器200和智能语音服务器300之外，添加了灵巧的适配层100，适配层100可以对接多种智能语音产品，从而使业界媒体资源服务器200与智能语音服务器3001：1的构建关系，拓展成N：N的对应关系(N为大于1的整数)。该适配层100可以集成各种业务要素，分配通信信道，根据不同租户的不同需求与不同的智能语音产品，提升了智能外呼系统的灵活性与扩展性。该适配层100还可打造自己的负载均衡策略，弥补市面上负载均衡产品对多媒体通信支持不足的问题。

其次，得益于适配层100对语音交互的底层通信的掌控，适配层100的语音适配器可以捕获MRCP报文，根据租户需求修改相应的音色。解决了业界媒体资源服务器200只能设置单一音色，无法满足多租户不同音色需求的场景。使得系统既能选择同一智能语音产品的不同音色，又能选择不同智能语音产品的不同音色。

再次，媒体资源服务器200线路数和智能语音产品许可数是系统构建成本的重要构成要素，适配层100捕获了所有的通信报文，适配层100的资源监控器从更底层维度，突破了目前业界普遍的资源线路数监控，添加时间维度的与租户维度的更细致精确的监控维度，这为成本核算，系统资源使用监控提供了更科学的数据。

基于同一发明构思，本申请实施例还提供了一种语音通信系统，如图2所示，语音通信系统包括媒体资源服务器集群、智能语音服务器集群以及本申请实施例提供的适配层100。

基于同一发明构思，本申请实施例还提供了一种语音通信系统的控制方法，包括：在握手阶段和请求服务阶段，媒体资源服务器200通过适配层100与对应的智能语音服务器300进行信息交互。

在本申请实施例中，请求服务阶段可以包括TTS服务阶段和ASR服务阶段。

在本申请的一个实施例中，如图3所示，握手阶段的具体步骤包括：媒体资源服务器200发送INVITE消息，适配层100解析报文并将INVITE消息转发至智能语音服务器300中的智能语音产品；智能语音服务器300中的智能语音产品返回Trying消息和OK消息，适配层100解析报文并将Trying消息和OK消息转发至媒体资源服务器200；媒体资源服务器200发送ACK消息，适配层100解析报文并将ACK消息转发至智能语音服务器300中的智能语音产品。

媒体资源服务器200发送INVITE消息，适配层100解析报文，获取以下字段：Call-ID、媒体资源服务器200IP地址ivrIP、业务类型resource(语音识别speechrecog或语音合成speechsynth)、媒体资源服务器200UDP通信端口ztePort。适配层100要根据媒体资源服务器200线路数、智能语音产品的许可数，规划与各个智能语音产品建立的会话数。若智能语音产品x的会话数规划的为Nx，则按序转发Nx个INVITE消息到智能语音产品x。构建参数type(智能语音产品类型+resource)。此时，已经按智能语音产品类型，把这些报文解析字段分成不同的集合。同时建立映射<Call-ID,type>，<Call-ID,route(表示智能语音产品类型)>，<Call-ID,ivrIP>，<Call-ID,ztePort>。

智能语音产品返回Trying消息时，适配层100解析报文，获取Call-ID，根据映射<Call-ID,ivrIP>获取应该返回的媒体资源服务器200IP地址，并返回消息；智能语音产品返回OK消息时，适配层100解析报文，获取以下字段：Call-ID、MRCP会话通道channel，智能语音产品UDP通信端口mrcpPort。建立映射<ztePort,mrcpPort>，<channel,route>，<ztePort,channel>，<mrcpPort,channel>，<mrcpPort,ivrIP>，<callID,channel>，<type,channelMap(channel集合)>。适配层100要创建接收端socket，监听UDP端口mrcpPort的来自媒体资源服务器200的请求，本文中称此类UDP通道为outerRtpCtx；同时要创建发送端socket，绑定UDP端口ztePort的转发媒体资源服务器200的请求，本文中称此类UDP通道为innerRtpCtx；

媒体资源服务器200发送ACK消息，适配层100解析报文，获取Call-ID字段，根据映射<Call-ID,route>，获得对应的智能语音产品类型，修改报文源IP地址和目标IP地址，然后转发报文。智能语音产品收到ACK消息后，握手阶段结束。

在本申请的一个实施例中，如图3所示，请求服务阶段包括TTS服务阶段，TTS服务阶段的具体步骤包括：媒体资源服务器200发送SPEAK消息，路由适配器将SPEAK消息转发至智能语音服务器300中的智能语音产品；智能语音服务器300中的智能语音产品返回IN-PROGRESS消息和SPEAK-COMPLETE消息，路由适配器将IN-PROGRESS消息和SPEAK-COMPLETE消息转发至媒体资源服务器200。

媒体资源服务器200发送SPEAK消息，适配层100的路由适配器解析Vendor-Specific-Parameters中的租户id字段。根据配置，确定该租户id对应的智能语音产品类型type，从<type,channelMap(channel集合)>映射里选择一个空闲channel’作为会话通道，替换原会话channel。此时要把channel’的状态标志更新为“使用中”，防止其他并行的TTS请求使用channel’导致冲突。同时建立映射<channel’,channel>，以便返回报文时，替换为原始channel返回消息到媒体资源服务器200。语音适配器根据配置确定该租户id对应的音色，替换SPEAK消息中的Voice-Name值。资源监控器在该租户对应的资源计数器上加1，同时记录起始时间点。最后转发消息。

智能语音产品返回IN-PROGRESS消息，适配层100的路由适配器解析Channel-Identifier字段获取channel’，根据映射<channel’,channel>得到源channel并替换，转发消息。此时适配层100的ztePort监听到智能语音产品返回的TTS合成语音流，原样转发到对应的媒体资源服务器200。

智能语音产品返回SPEAK-COMPLETE消息，适配层100的路由适配器解析Channel-Identifier字段获取channel’，根据映射<channel’,channel>得到源channel并替换，转发消息。此时资源监控器记录服务终止时间点，该租户对应的资源计数器上减1。便于后续统计各租户的资源使用情况。

在本申请的一个实施例中，如图3所示，请求服务阶段包括ASR服务阶段，ASR服务阶段的具体步骤包括：媒体资源服务器200发送RECOGINZE消息，适配层100将RECOGINZE消息转发至智能语音服务器300中的智能语音产品；智能语音服务器300中的智能语音产品返回PROGRESS消息，适配层100将PROGRESS消息转发至媒体资源服务器200；媒体资源服务器200发送RECOGINZE消息，适配层100将RECOGINZE消息转发至智能语音服务器300中的智能语音产品；智能语音服务器300中的智能语音产品返回IN-PROGRESS消息和START-OF-INPUT消息，适配层100将IN-PROGRESS消息和START-OF-INPUT消息转发至媒体资源服务器200；媒体资源服务器200发送START-INPUT-TIMERS消息，适配层100将START-INPUT-TIMERS消息转发至智能语音服务器300中的智能语音产品；智能语音服务器300中的智能语音产品返回COMPLETE消息和RECOGINZE-COMPLETE消息，适配层100将COMPLETE消息和RECOGINZE-COMPLETE消息转发至媒体资源服务器200。

ASR服务阶段的具体同理与TTS服务阶段的具体原理类似，另外，图3指示出的时序图只列了服务的典型流程，对于TTS有打断的情况，时序图稍有不同，但本发明的适配层100同样能处理，此处不再赘述

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

应该理解的是，虽然附图的流程图中的各个步骤基于箭头的指示依次显示，但是这些步骤并不是必然基于箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种多智能语音产品的适配层，其特征在于，包括路由适配器、音色适配器以及资源监控器；

媒体资源服务器集群通过所述适配层，与智能语音服务器集群建立N：N的通信关系，N为大于1的正整数；

在握手阶段和请求服务阶段，所述媒体资源服务器集群中的媒体资源服务器通过所述适配层与对应的所述智能语音服务器集群中的智能语音服务器进行信息交互；

在所述握手阶段，所述适配层利用SIP协议和SDP协议来转发所述媒体资源服务器和所述智能语音服务器的信息；

在所述请求服务阶段，所述适配层利用MRCP协议和RTP协议来转发所述媒体资源服务器和所述智能语音服务器的信息。

2.根据权利要求1所述的适配层，其特征在于，

SIP协议、SDP协议和MRCP协议的报文使用TCP传输；

RTP协议的报文使用UDP传输。

3.根据权利要求1至2中任一项所述的适配层，其特征在于，所述音色适配器用于在请求服务阶段根据外呼任务参数里的租户身份，选择对应的音色编号修改请求报文来转发通信。

4.根据权利要求1至2中任一项所述的适配层，其特征在于，所述资源监控器用于在请求服务阶段监控会话的线路数和会话起止时间。

5.一种语音通信系统，其特征在于，包括媒体资源服务器集群、智能语音服务器集群以及如权利要求1-4中任一项所述的适配层。

6.一种语音通信系统的控制方法，应用于如权利要求5所述的语音通信系统，其特征在于，包括：

在握手阶段和请求服务阶段，媒体资源服务器通过适配层与对应的能语音服务器进行信息交互；

所述握手阶段的具体步骤包括：

所述媒体资源服务器发送INVITE消息，所述适配层解析报文并将所述INVITE消息转发至所述智能语音服务器中的智能语音产品；

所述智能语音服务器中的智能语音产品返回Trying消息和OK消息，所述适配层解析报文并将所述Trying消息和所述OK消息转发至所述媒体资源服务器；

所述媒体资源服务器发送ACK消息，所述适配层解析报文并将所述ACK消息转发至所述智能语音服务器中的智能语音产品。

7.根据权利要求6所述的语音通信系统的控制方法，其特征在于，所述请求服务阶段包括TTS服务阶段，所述TTS服务阶段的具体步骤包括：

所述媒体资源服务器发送SPEAK消息，所述路由适配器将所述SPEAK消息转发至所述智能语音服务器中的智能语音产品；

所述智能语音服务器中的智能语音产品返回IN-PROGRESS消息和SPEAK-COMPLETE消息，所述路由适配器将所述IN-PROGRESS消息和所述SPEAK-COMPLETE消息转发至所述媒体资源服务器。

8.根据权利要求7所述的语音通信系统的控制方法，其特征在于，所述请求服务阶段包括ASR服务阶段，所述ASR服务阶段的具体步骤包括：

所述媒体资源服务器发送RECOGINZE消息，所述适配层将所述RECOGINZE消息转发至所述智能语音服务器中的智能语音产品；

所述智能语音服务器中的智能语音产品返回PROGRESS消息，所述适配层将所述PROGRESS消息转发至所述媒体资源服务器；

所述智能语音服务器中的智能语音产品返回IN-PROGRESS消息和START-OF-INPUT消息，所述适配层将所述IN-PROGRESS消息和所述START-OF-INPUT消息转发至所述媒体资源服务器；

所述媒体资源服务器发送START-INPUT-TIMERS消息，所述适配层将所述START-INPUT-TIMERS消息转发至所述智能语音服务器中的智能语音产品；

所述智能语音服务器中的智能语音产品返回COMPLETE消息和RECOGINZE-COMPLETE消息，所述适配层将所述COMPLETE消息和所述RECOGINZE-COMPLETE消息转发至所述媒体资源服务器。