KR20060091695A

KR20060091695A - 클라이언트와 서버 간의 통신 방법

Info

Publication number: KR20060091695A
Application number: KR1020050081703A
Authority: KR
Inventors: 콴산 왕
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-10-22
Filing date: 2005-09-02
Publication date: 2006-08-21
Anticipated expiration: 2025-09-02
Also published as: AU2005211611B2; RU2005129428A; RU2455783C2; MY151285A; JP4993656B2; US20060101146A1; AU2005211611A1; BRPI0504081A; JP2006121673A; US8396973B2; EP1650925A3; CA2518978A1; TWI368425B; CA2518978C; TW200614762A; KR101265808B1; MXPA05010163A; EP1650925A2

Abstract

본 발명은 클라이언트와 서버 간에 미디어 채널 및 신호 채널을 확립하는 것에 관한 것이다. 미디어 채널은 통신을 위해 선택된 코덱 및 프로토콜을 사용한다. 미디어 채널 및 신호 채널을 통해, 클라이언트상의 애플리케이션은 서버상의 스피치 서비스를 활용할 수 있다.

미디어 채널, 신호 채널, CSTA

Description

클라이언트와 서버 간의 통신 방법{DISTRIBUTED SPEECH SERVICE}

도 1 내지 도 4는 본 발명에 사용될 수 있는 예시적인 컴퓨팅 장치를 도시하는 도면.

도 5는 분산 스피치 서비스의 예시적인 아키텍처를 도시.

도 6은 분산 스피치 서비스를 구현하는 예시적인 시스템을 도시.

도 7은 SIP 환경에서 채널을 확립하는 예시적인 방법을 도시하는 도면.

도 8은 웹 서비스 환경에서 채널을 확립하는 예시적인 방법을 도시하는 도면.

<도면의 주요부분에 대한 부호의 설명>

140 : 처리 장치

150 : 시스템 메모리

185 : 비디오 인터페이스

180 : 사용자 입력 인터페이스

190 : 네트워크 인터페이스

194 : 원격 컴퓨터

<참조문헌>

U.S. 가출원 특허 번호 제 60/621,303호 (2004년 10월 22일자 출원)

본 발명은 컴퓨터 상호작용을 정의하고 처리하는 방법 및 시스템에 관한 것이다. 특히, 본 발명은 원격통신 시스템에서와 같은 시스템 내에서의 장치 간에 통신 프로토콜을 확립하는(establishing) 방법 및 시스템에 관한 것이다.

컴퓨터 지원 원격통신 애플리케이션(Computer Supported Telecommunication Applications:CSTA)는 글로벌 및 기업 통신용으로 널리 적응되는 표준 스윗(standard suite)이다. 특히, CSTA는 원격통신 인프라스트럭처의 프로그램 액세스 및 제어를 지정하는 표준이다. 간단한 전화 통화를 개시하고 이를 수신하는 것에서부터 음성 및 비디오를 통한 대규모 멀티-사이트 협동(collaboration)을 관리하는 것에 이르기까지, 각종 태스크를 위한 소프트웨어가 개발될 수 있다.

CSTA는 많은 ECMA/ISO(ECMA International Rue du Phone 114 CH-1204, Geneva, www.ecma-international.org) 표준으로 표준화되어 있다. CSTA 객체, 서비스 및 이벤트의 핵심 동작 모델 및 시맨틱스가 ECMA-269에 정의되어 있다. 이 CSTA 특징은 이것이 각종 프로그래밍 플랫폼에 적응될 수 있도록 추상적이고 플랫폼에 독립적인 방식으로 정의된다. 또한, CSTA에는 여러 개의 표준화된 프로그래밍 또는 프로토콜 문법에 있는데, 이 중에는 CSTA-XML로 일반적으로 알려져 있는 CSTA에 바인딩하는 XML(extensible markup language)을 정의하는 ECMA-323 및 WSDL(Web Service Description Language) 바인딩인 ECMA-348이 있다. 이들 언어 바인딩은 CSTA 표준 스윗의 일부로 간주되고, 최대 정보 처리 상호 운용(maximum interoperability)을 보장하여, TCP(Transmission Control Protocol), SIP(Session Initiation Protocol) 또는 SOAP(Simple Object Access Protocol)를 포함하는 임의의 표준 전송 프로토콜을 통해 서로 다른 운영 체제를 수행하는 컴퓨터들에 대해 CSTA 특징이 사용가능하도록 만든다.

최근에, CSTA가 대화식 음성 서비스(interactive voice service) 영역에서 많이 적응되는 것이 목격되어오고 있다. 이러한 적응은 SALT(Speech Application Language Tags)에 기초하는 향상된 음성 서비스에 의해 발전하여 왔고, 이것은 www.saltforum.org에서 볼 수 있는 SALT 1.0 규격(specification)에 추가로 설명되어 있다. SALT를 사용함으로써, 콜센터는 더욱 자동화되어 각종 스피치 관련 특징을 포함할 수 있다. 그러나, 콜 제어 및 스피치 제어 애플리케이션 간의 차이로 인해 분산 스피치 서비스를 용이하게 하는데에 어려움이 있다. 따라서, 스피치 서비스를 용이하게 하는 프로토콜을 확립할 필요가 있다.

본 발명은 클라이언트와 서버 간에 미디어 채널 및 신호 채널(signaling channel)을 확립하는 것에 관한 것이다. 미디어 채널은 통신을 위해 선택된 코덱 및 프로토콜을 사용한다. 미디어 채널 및 신호 채널을 통해, 클라이언트상의 애플리케이션은 서버상의 스피치 서비스를 활용할 수 있다.

분산 스피치 서비스 및 방법을 구현하는 아키텍처를 설명하기 전에, 이 아키 텍처에서 기능할 수 있는 컴퓨팅 장치를 일반적으로 설명하는 것이 유용할 수 있다. 도 1과 관련하여, 데이터 관리 시스템의 예시적인 형태(PIM, PDA 등)가 참조번호(30)로 도시되어 있다. 그러나, 본 발명이 이하에 설명된 기타 컴퓨팅 장치, 특히, 입력 버튼 등에 대해 제한된 표면 영역을 지니는 컴퓨팅 장치를 사용하여 또한 실행될 수 있다는 것을 고려할 수 있다. 예를 들어, 전화 및/또는 데이터 관리 장치는 또한 본 발명의 덕을 볼 것이다. 이러한 장치는 기존의 휴대용(portable) 퍼스널 정보 관리 장치 및 기타 휴대용 전자 장치에 비해 더욱 유용할 것이고, 이러한 장치의 기능 및 작은 크기로 인해 사용자들은 이 장치를 항상 휴대할 것이다. 따라서, 본 명세서에 설명된 아키텍처의 범위는 예시적인 데이터 관리 또는 PIM 장치, 전화 또는 본 명세서에 설명된 컴퓨터에 의해서만 제한되도록 의도한 것은 아니다.

데이터 관리 이동 장치(data management mobile device)(30)의 예시적인 형태가 도 1에 도시되어 있다. 이동 장치(30)는 하우징(32), 및 디스플레이(34)를 포함하는 사용자 인터페이스를 포함하고, 이 디스플레이(34)는 스타일러스(33)와 함께 접촉 감응 디스플레이 스크린(touch sensitive display screen)을 사용한다. 스타일러스(33)는 지정된 좌표에서 디스플레이(34)를 누르거나 접촉하여, 필드를 선택하고, 커서의 시작 위치를 선택적으로 이동시키고 또는 그렇지 않을 경우 제스처 또는 수기(handwriting) 등을 통해 명령 정보를 제공하기 위해 사용된다. 또는, 하나 이상의 버튼(35)이 네비게이션을 위해 장치(30)에 포함될 수 있다. 또한, 회전할 수 있는 휠, 롤러 등과 같은 기타 입력 메커니즘이 또한 제공될 수 있 다. 그러나, 본 발명이 이러한 형태의 입력 메커니즘에 제한되지 않는다는 것을 유의한다. 예를 들어, 입력의 또 다른 형태로는 컴퓨터 비전을 통해서와 같이 시각적 입력(visual input)이 있다.

도 2의 블록도는 이동 장치(30)를 포함하는 기능 컴포넌트를 도시하고 있다. 중앙 처리 장치(50)는 소프트웨어 제어 기능을 구현한다. CPU(50)는 디스플레이(34)에 결합하여 제어 소프트웨어에 따라 생성된 텍스트 및 그래픽 아이콘이 디스플레이(34)상에 나타난다. 스피커(43)는 통상적으로 디지털-대-아날로그 변환기(59)를 통해 CPU(50)에 결합되어 들을 수 있는 출력을 제공할 수 있다. 사용자에 의해 이동 장치(30)로 다운로드되거나 입력된 데이터는, CPU(50)에 양방향으로 결합하는 비휘발성 판독/기입 RAM 저장 장치(54)에 저장된다. RAM(54)은 CPU(50)에 의해 실행되는 명령어를 위한 휘발성 저장 능력 및 레지스터 값과 같이 일시적인 데이터를 위한 저장 능력을 제공한다. 구성 옵션 및 기타 변수에 대한 디폴트 값은 ROM(58)에 저장된다. ROM(58) 또한 이동 장치(30)의 기본 기능 및 기타 운영 체제 커널 함수(예를 들어 소프트웨어 컴포넌트를 RAM(54)으로 로딩함)를 제어하는 장치용 운영 체제 소프트웨어를 저장하는 데에 사용된다.

RAM(54)은 또한 애플리케이션 프로그램을 저장하는 데에 사용되는 PC상의 하드 드라이브의 기능과 유사하게 코드에 대한 저장 장치로서 기능한다. 코드를 저장하기 위해 비록 비휘발성 메모리가 사용되지만, 코드는 그것의 실행을 위해 사용되지 않는 휘발성 메모리에 또한 저장될 수 있다는 것을 유의해야 한다.

무선 송수신기(52)를 통해 무선 장치는 무선 신호를 송신/수신할 수 있고, 이 무선 송수신기는 CPU(50)에 결합되어 있다. 선택가능한 통신 인터페이스(60) 또한 컴퓨터(데스크탑 컴퓨터)로부터, 원하는 경우 유선 네트워크로부터 직접 데이터를 다운로딩하기 위해 제공될 수 있다. 따라서, 인터페이스(60)는 적외선 링크, 모뎀, 네트워크 카드 등과 같은 각종 형태의 통신 장치를 포함할 수 있다.

이동 장치(30)는 마이크(29), 아날로그-대-디지털(A/D) 변환기(37) 및 저장 장치(54)에 저장된 선택가능한 인식 프로그램(스피치, DTMF, 수기, 제스처 또는 컴퓨터 비전)을 포함한다. 예제로서, 장치(30) 사용자로부터의 들을 수 있는 정보, 명령어 또는 명령에 응하여, 마이크(29)는 A/D 변환기(37)에 의해 디지털화된 스피치 신호를 제공한다. 스피치 인식 프로그램은 디지털화된 스피치 신호에 대해 정규화(normalization) 및/또는 특징 추출 함수를 수행하여 중간 스피치 인식 결과를 획득할 수 있다.

무선 송수신기(52) 또는 통신 인터페이스(60)를 이용하여, 스피치 데이터는 원격 스피치 서버(204)로 전송되고, 이 원격 스피치 서버는 이하의 도 5의 아키텍처에서 설명되고 도시된다. 이후 인식 결과는 이동 장치(30)로 리턴되어 그 위에 (시각 및/또는 청각적으로) 렌더링되고, 최종적으로 웹 서버(202)(도 5)로 전송되고, 여기서 웹 서버(202)와 이동 장치(30)는 클라이언트/서버 관계로 동작한다.

다른 형태의 입력에 대해 유사한 처리가 사용될 수 있다. 예를 들어, 수기 입력은 장치(30)의 전처리로 또는 전처리를 하지 않고 디지털화될 수 있다. 스피치 데이터와 마찬가지로, 이러한 형태의 입력은 인식을 위해 스피치 서버(204)로 전송될 수 있고, 여기서 인식 결과는 장치(30) 및/또는 웹 서버(202) 중 적어도 하 나로 리턴된다. 마찬가지로, DTMF 데이터, 제스처 데이터 및 시각 데이터가 유사하게 처리될 수 있다. 입력의 형태에 따라, 장치(30)(및 이하에 설명되는 다른 형태의 클라이언트)는 시각 입력을 위한 카메라와 같이 필요한 하드웨어를 포함할 것이다.

도 3은 휴대용 전화(portable phone)(80)의 예시적인 실시예의 평면도이다. 전화(80)는 디스플레이(82)와 키패드(84)를 포함한다. 일반적으로, 기타 기능을 수행하기 위해 추가의 회로가 필요하지만, 도 2의 블록도는 도 3의 전화에 적용된다. 예를 들어, 전화로서 동작하기 위해 필수적인 송수신기는 도 2의 실시예에서 필요할 것이다; 그러나, 이러한 회로는 본 발명에 관련되지 않는다.

상술된 휴대용 또는 이동 컴퓨팅 장치 외에도, 본 발명은 일반적인 데스크톱 컴퓨터와 같이 각종 기타 컴퓨팅 장치로 사용될 수 있다는 것을 또한 이해할 것이다. 예를 들어, 본 발명은 물리적으로 제한된 능력을 지닌 사용자가, 완전한 알파벳-숫자 키보드와 같은 기타 종래의 입력 장치를 동작하기에 너무 어려운 경우, 텍스트를 컴퓨터 또는 기타 컴퓨터 장치에 입력할 수 있도록 해 준다.

본 발명은 또한 각종 기타 범용 또는 특수 목적의 컴퓨팅 시스템, 환경 또는 구성과 동작가능하다. 본 발명과 함께 사용하기에 적합하고 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 (어떠한 스크린도 없는) 일반 전화, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 소비자 가전제품, 무선 인식(radio frequency identification:RFID) 장치, 네트워크 PC, 미니컴퓨터, 메인프레 임 컴퓨터, 상기 시스템이나 장치 등의 임의의 것을 포함하는 분산 컴퓨팅 환경이 있지만 이에 제한되는 것은 아니다.

이하에서, 도 4에 도시된 범용 컴퓨터(120)에 대해 간단히 설명한다. 그러나, 다시, 컴퓨터(120)는 적합한 컴퓨팅 환경의 단지 한가지 일례이며, 본 발명의 사용 범위 또는 기능에 관해 어떠한 제한을 제안하고자 하는 것이 아니다. 컴퓨터(120)가 이에 도시된 임의의 하나의 컴포넌트 또는 컴포넌트들의 조합에 관해 임의의 종속성 또는 요구사항을 가지는 것으로 해석되어서는 안 된다.

본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어의 일반적인 문맥으로 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하고 또는 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 링크된 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서도 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 둘 다에 위치할 수 있다. 프로그램 및 모듈에 의해 수행되는 태스크는 이하에 도면의 도움을 받아 설명된다. 당업자들은 설명 및 도면을 프로세서 실행가능 명령어로 구현할 수 있고, 이것은 임의의 형태의 컴퓨터 판독가능 매체에 기입될 수 있다.

도 4와 관련하여, 컴퓨터(120)의 컴포넌트는 처리 장치(140), 시스템 메모리(150) 및 시스템 메모리를 포함하는 각종 시스템 컴포넌트를 처리 장치(140)에 결합시키는 시스템 버스(141)를 포함하지만 이에 제한되지 않는다. 시스템 버스 (141)는 메모리 버스 또는 메모리 컨트롤러, 주변 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 포함하는 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예제로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, USB(Universal Serial Bus), MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다. 컴퓨터(120)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(120)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 이동불가식 매체를 포함한다. 예제로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위해 모든 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 이동불가식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(120)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다.

통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘 (transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에서 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호내의 정보가 암호화되도록 그 신호의 하나 이상의 특성을 설정 또는 변경시킨 신호를 의미한다. 예제로서, 통신 매체는 유선 네트워크 또는 다이렉트 유선 접속과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함하지만 이에 제한되는 것은 아니다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되어야 한다.

시스템 메모리(150)는 판독 전용 메모리(ROM)(151) 및 랜덤 액세스 메모리(RAM)(152)와 같은 휘발성 및/또는 비휘발성 메모리의 형태로 컴퓨터 저장 매체를 포함한다. 시동 시 컴퓨터(120) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(153)은 통상적으로 ROM(151)에 저장되어 있다. RAM(152)은 통상적으로 처리 장치(140)에 즉시 액세스 가능하고 및/또는 현재 처리 장치(140)에 의해 동작되고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예제로서, 도 4는 운영 체제(154), 애플리케이션 프로그램(155), 기타 프로그램 모듈(156) 및 프로그램 데이터(157)를 도시하고 있지만 이에 제한되는 것은 아니다.

컴퓨터(120)는 또한 기타 이동식/이동불가식, 휘발성/비휘발성 컴퓨터 저장매체를 포함한다. 단지 예제로서, 도 4는 이동불가식, 비휘발성 자기 매체로의 기록 또는 그로부터의 판독을 위한 하드 디스크 드라이브(161), 이동식, 비휘발성 자 기 디스크(172)로의 기록 또는 그로부터의 판독을 위한 자기 디스크 드라이브(171), CD-ROM 또는 기타 광 매체 등의 이동식, 비휘발성 광 디스크(176)로의 기록 또는 그로부터의 판독을 위한 광 디스크 드라이브(171)를 포함한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/이동불가식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고체(solid state) RAM, 고체 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(161)는 통상적으로 인터페이스(160)와 같은 이동불가식 메모리 인터페이스를 통해 시스템 버스(141)에 접속되고, 자기 디스크 드라이브(171) 및 광 디스크 드라이브(175)는 통상적으로 인터페이스(170)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(141)에 접속된다.

위에서 설명되고 도 4에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 컴퓨터(120)의 다른 데이터를 저장한다. 도 4에서, 예를 들어, 하드 디스크 드라이브(161)는 운영 체제(164), 애플리케이션 프로그램(165), 기타 프로그램 모듈(166) 및 프로그램 데이터(167)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이 컴포넌트들이 운영 체제(154), 애플리케이션 프로그램(155), 기타 프로그램 모듈(156) 및 프로그램 데이터(157)와 동일할 수도 있고 다를 수도 있다는 것이다. 이에 관해, 운영 체제(164), 애플리케이션 프로그램(165), 기타 프로그램 모듈(166) 및 프로그램 데이터(167)에 다른 번호가 주어졌다는 것은 적어도 이들이 서로 다른 사본(copy)이라는 것을 도시한다.

사용자는 키보드(182), 마이크(183) 및 일반적으로 마우스, 트랙볼(trackball) 또는 터치 패드라고 알려진 포인팅 장치(181) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(120)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등이 있을 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(180)를 통해 처리 장치(140)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(184) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(185) 등의 인터페이스를 통해 시스템 버스(141)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(187) 및 프린터(186) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(188) 등을 통해 접속될 수 있다.

컴퓨터(120)는 원격 컴퓨터(194)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(194)는 또 하나의 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 다른 공통 네트워크 노드일 수 있고, 통상적으로 컴퓨터(120)와 관련하여 상술된 구성요소의 대부분 또는 그 전부를 포함한다. 도 4에 도시된 논리적 연결로는 LAN(191) 및 WAN(193)이 있지만, 다른 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 회사 전체에 걸친 컴퓨터 네트워크, 인트라넷 및 인터넷에서 일반적인 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(120)는 네트워크 인터페이스 또는 어댑터(190)를 통해 LAN(191)에 연결된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(120)는 통상적으로 인터넷과 같은 WAN(193) 상에서의 통신을 확립하기 위한 모뎀(192) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(192)은 사용자 입력 인터페이스(180) 또는 기타 적절한 메커니즘을 통해 시스템 버스(141)에 접속된다. 네트워크화된 환경에서, 컴퓨터(120) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 그 예제로서, 도 4는 원격 컴퓨터(194)에 위치하고 있는 원격 애플리케이션 프로그램(195)을 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이의 통신 링크를 설정하는 다른 수단이 사용될 수 있다는 것을 이해할 것이다.

도 5는 본 발명이 구현될 수 있는 분산 스피치 서비스의 예시적인 아키텍처(200)를 도시한다. 일반적으로, 웹 서버(202)에 저장된 정보는 이동 장치(30)(본 명세서에서는 또한 입력의 형태에 기초하여 요구되는 대로 디스플레이 스크린, 마이크, 카메라, 접촉 감응 패널 등을 지니는 컴퓨팅 장치의 다른 형태를 나타냄)를 통해, 또는 정보가 눌려진 키에 응하여 전화기(80)에 의해 생성된 톤을 통해 또는 들을 수 있게 정보가 요청되고, 웹 서버(202)로부터의 정보는 사용자에게만 들을 수 있게 다시 제공되는 전화기(80)를 통해 액세스될 수 있다.

더욱 중요한 것은, 정보가 장치(30)를 통해 또는 스피치 인식을 사용하는 전화기(80)을 통해서 정보가 획득되든지 간에 아키텍처(200)가 통합되고, 하나의 스피치 서버(204)는 두 가지 동작 모드 중 하나를 지원할 수 있다는 것이다. 또한, 아키텍처(200)는 공지의 마크 업 언어(예를 들어, HTML, XHTML, cHTML, XML, WML 등)의 확장을 이용하여 동작한다. 따라서, 웹 서버(202)에 저장된 정보는 이들 마크 업 언어에 있는 공지의 GUI 메소드를 이용하여 또한 액세스될 수 있다. 공지의 마크 업 언어를 확장하여, 웹 서버(202)상의 저작(authoring)은 더 쉬워지고, 현재 존재하고 있는 기존의 애플리케이션 또한 음성 인식을 포함하도록 쉽게 수정될 수 있다.

일반적으로, 장치(30)는 웹 서버(202)에 의해 제공되는 HTML+ 스크립트 등을 실행한다. 음성 인식이 요구될 때, 예제로서, 스피치 데이터(이것은 디지털화된 오디오 신호 또는 스피치 특징일 수 있고, 오디오 신호는 상술된 대로 장치(30)에 의해 미리 처리된 것임)가 문법 또는 언어 모델을 표시하면서 스피치 서버(204)에 제공되어 스피치 인식 동안 사용된다. 스피치 서버(204)의 구현은 많은 형태를 취할 수 있고, 이중 하나가 도시되어 있고, 일반적으로 인식(211)을 포함한다. 인식의 결과는 원하거나 또는 적절한 경우 로컬 렌더링을 위해 장치(30)에 다시 제공된다. 인식 및 (사용되는 경우) 임의의 GUI를 통해 정보를 컴파일하자마자, 장치(30)는 추가 처리 및 필요한 경우 추가 HTML 스크립트의 수신을 위해 그 정보를 웹 서버(202)로 전송한다.

도 5에 도시된 대로, 장치(30), 웹 서버(202) 및 스피치 서버(204)는 공통으로 접속되어 있고, 네트워크(205)(인터넷과 같은 본 명세서의 WAN)를 통해, 개별 어드레스 가능하다. 따라서, 이들 장치 중 임의의 것들이 서로 물리적으로 인접하여 위치할 필요는 없다. 특히, 웹 서버(202)가 스피치 서버(204)를 포함할 필요는 없다. 이러한 방식으로, 웹 서버(202)에서의 저작(authoring)은, 저작자가 스피치 서버(204)의 복잡함을 알 필요 없이, 그것이 의도되는 애플리케이션에 포커스될 수 있다. 오히려, 스피치 서버(204)는 독립적으로 설계되고 네트워크(205)에 접속되어 웹 서버(202)에서 요구되는 추가의 변경 없이 업데이트되고 개선될 수 있다. 추가의 실시예에서, 클라이언트(30)는 웹 서버(202) 없이 스피치 서버(204)와 직접 통신할 수 있다. 웹 서버(202), 스피치 서버(204) 및 클라이언트(30)가 구현 기계의 능력에 따라 결합될 수 있다는 것을 이해할 것이다. 예를 들어, 클라이언트가 퍼스널 컴퓨터와 같은 범용 컴퓨터를 포함하는 경우, 클라이언트는 스피치 서버(204)를 포함할 수 있다. 마찬가지로, 원하는 경우 웹 서버(202) 및 스피치 서버(204)는 하나의 기계에 포함될 수 있다.

전화(80)를 통해 웹 서버(202)로 액세스하기 위해, 전화(80)는 유선 또는 무선 전화 네트워크(208)로 접속해야 하고, 이어서 전화(80)는 제3자 게이트웨이(210)로 접속해야 한다. 게이트웨이(210)는 전화(80)를 전화 음성 브라우저(212)로 접속시킨다. 전화 음성 브라우저(212)는 전화 인터페이스를 제공하는 미디어 서버(214) 및 음성 브라우저(216)를 포함한다. 장치(30)처럼 전화 음성 브라우저(212)는 웹 서버(202)로부터 HTML 스크립트 등을 수신한다. 특히, HTML 스크립트는 장치(30)에 제공된 HTML 스크립트와 유사한 형태이다. 이러한 방식으로, 웹 서버(202)는 장치(30) 및 전화(80)를 별도로 지원할 필요가 없고, 또는 표준 GUI 클라이언트를 별도로 지원할 필요조차 없다. 오히려, 일반적인 마크업 언어가 사용될 수 있다. 또한, 장치(30)처럼, 전화(80)에 의해 전송된 들을 수 있는 신호로부 터의 음성 인식이 음성 브라우저(216)에서부터 스피치 서버(204)로, 네트워트(205) 또는 TCP/IP를 사용하는 전용선(207) 둘 중 하나를 통해 제공된다. 웹 서버(202), 스피치 서버(204) 및 전화 음성 브라우저(212)는 도 4에 도시된 범용 데스크탑 컴퓨터와 같은 임의의 적합한 컴퓨팅 환경에서 구현될 수 있다.

그러나, DTMF 인식이 채용되는 경우, 이러한 형태의 인식은 스피치 서버(204)에서가 아니라 미디어 서버(214)에서 일반적으로 수행된다는 것을 유의해야 한다. 다시 말해, DTMF 문법(grammar)은 미디어 서버에 의해 사용될 것이다.

상술된 장치 및 아키텍처가 주어지는 경우 본 발명은 단순 클라이언트/서버 환경에 기초하여 또한 설명될 것이다. 도 6에 도시된 대로, 본 발명은 미디어 서비스(예를 들어 스피치 합성에 대한 텍스트 또는 스피치 인식)를 제공하는 서버(302) 및 애플리케이션 고유의 코드를 실행하는 클라이언트(304)를 포함하는 시스템(300)에 관한 것이다. 서버(302)와 클라이언트(304) 간의 통신은, 정보가 교환되거나 태그되거나 또는 그것이 아닌 경우 XML 문서(이에 제한되지 않음)와 같이 식별부를 포함할 수 있는 서비스 모델에 기초한다. 서버(302) 및/또는 클라이언트(304)는 기타 정보 외에 오디오를 수집하고 전송할 수 있다. 하나의 실시예에서, 서버(302)는 워싱턴 레드몬드의 마이크로소프트사에 의해 개발된 마이크로소프트 스피치 서버를 포함할 수 있고, 클라이언트(304)는 데스크톱 PC, 이동 장치 등을 포함하되 이에 제한되지 않는 상술된 임의의 개수의 형태를 취할 수 있다.

이 시점에서 서버(302) 및 클라이언트(304)가 서비스 모델에 기초하여 서로 통신함에도 불구하고, 본 발명의 양상을 환기시키는 애플리케이션은, 서버(302)와 클라이언트(304) 간의 통신이 서비스 모델 요청에 따라 수행되는 한 선언적 및/또는 순차적 기반 애플리케이션이 사용될 수 있다는 점에서, 서비스 모델에 기초하여 배타적으로 기입될 필요가 없다는 것을 유의해야 한다. 하나의 실시예에서, 클라이언트 애플리케이션은 C++, 자바, C# 또는 도 5에 기술된 HTML 기반 애플리케이션의 경우와 마찬가지로 브라우저를 필요로 하지 않는 기타 명령형 프로그래밍 언어로 구성될 수 있다.

CSTA(ECMA-269) 에디션 6의 중요한 양상은 SALT(Speech Application Language Tags)에 기초하는 향상된 음성 서비스이다. 새로이 추가된 특징으로는, 시스템(300)에서 구현될 수 있는 자동 스피치 인식, 스피치 검증, 스피커 아이덴티티, 스피커 검증 및 텍스트-대-스피치 합성이 있다. 이들 특징 중 전체 또는 일부는 자동화된 콜센터에서 제공된다. 본 발명의 양상은 네트워크 기반 스피치 서비스를 용이하게 하는 CSTA 서비스의 서브세트를 제공한다. 특히, 본 발명의 일부 양상은, ECMA-348 및 uaCSTA(ECMA-TR/87)이 웹 서비스 및 SIP(Session Initiated Protocol) 기반 VoIP(Voice-over Internet Protocol) 환경에서 분산 스피치 서비스를 용이하게 하기 위해 각각 어떻게 적용될 수 있는가를 도시한다.

CSTA ECMA 269에 대한 서비스 및 그 XML 및 웹 서비스 프로토콜이 ECMA-323 및 ECMA-348에 의해 각각 정의된다. 최근, ECMA TR/87(uaCSTA)은 VoIP 환경에서 ECMA-323을 이용하기 위해 SIP 협약 세트를 또한 설명한다. 이들 모든 프로토콜은 대체로 CSTA의 전체 세트를 다루고, 따라서 특별히 음성 서비스에 적용될 수 있다. ECMA-269의 6번째 에디션에서, CSTA의 음성 서비스부는 SALT로부터 도출된 기술에 기초하여 증가되어 왔다. 기존의 음성 서비스 외에 콜센터 자동화 및 이동 애플리케이션에 필수적인, 자동 스피치 인식, 스피치 검증, 스피커 식별, 스피커 검증 및 텍스트-대-스피치 합성 등과 같은 주요 특징이 새로이 추가되었다.

콜 제어 및 음성 시나리오를 단단하게 통합하는 CSTA 구현이 애플리케이션 개발자에게 바람직할지라도, 콜 제어와 스피치 벤더 간의 핵심 능력이 동일할 필요는 없다. 현재의 배치 및 예상할 수 있는 미래에 대해, CSTA 애플리케이션 개발자는 다수의 벤더들을 관련시켜(involve), 이 영역에서의 그들 각각의 요구를 충족시킬 필요가 있다. 다행히, ECMA-269에 도시된 대로, CSTA 모델링 개념은 단일 애플리케이션이 다수의 CSTA 서비스 제공자로부터 서비스를 이끌어낼 수 있도록 한다. 그러므로, 이것은 CSTA 애플리케이션이 CSTA의 두 개의 구현, 즉 콜 제어를 위한 하나 및 음성 서비스를 위한 또 다른 하나를 동시에 활용하는 유효한 시나리오이다.

스피치 서비스의 CSTA 프로필은 콜 제어 영역에서만큼 상세히 논술되지 못했다. 본 발명의 양상은 XML을 사용하는 플랫폼 독립 수단에서 스피치 서비스를 제공하는 CSTA 프로필을 설명한다. CSTA 프로필이 사실상 불가지론적인(agnostic) 전송(a transport)이지만, 엔드-투-엔드 상호작용을 좀 더 증진시키기 위해 스피치 서비스 프로필의 두 개의 일반적인 애플리케이션, 소 사용 CSTA에 기초한 SIP 환경 및 ECMA-348에 기초하는 웹 서비스 기반 환경이 본 명세서에서 예시된다.

본 명세서에 제공된 설명은, 클라이언트-서버 기반 스피치 처리를 용이하게 하기 위해 CSTA 음성 서비스의 서브세트가 어떻게 포함될 수 있는지에 대한 예제를 제공한다. 이하의 ECMA 표준은 그 전체를 참조함으로써 본 명세서에 포함된다:CSTA 단계 III에 대한 ECMA-269 서비스; CSTA 단계 III에 대한 ECMA-323, SMLP 프로토콜; 및 CSTA에 대한 ECMA-348 WSDL(Web Service Description Language). 또한, 본 발명은 CSTA 스피치 서비스가 usCSTA 제안을 사용하는 SIP 기반 VoIP 환경에 어떻게 구현될 수 있는가를 설명한다. ECMA TR/87은 usCSTA에 대한 참조로서 사용되어야 하고, 그것의 복사는 참조로서 본 명세서에 포함된다.

본 명세서에 설명된 클라이언트-서버 기반 스피치 처리는 응답/요청 주기(cycle)의 비대칭 미디어 유형을 처리할 수 있다. 예를 들어, 스피치 인식 서비스를 제공하는 데에 있어, 클라이언트는 오디오 데이터를 서버로 전송한다. 서버는 그 오디오 데이터를 텍스트 데이터로 변환하고, 그 변환된 데이터를 다시 클라이언트로 전송한다. 스피치 합성의 경우, 클라이언트는 텍스트 데이터를 전송하고, 서버는 변환된 오디오 데이터로 응답한다. 전송된 데이터는 CSTA에 기반한 것과 같은 지정된 프로토콜에 따라 전송될 수 있다. 그 결과, SIP 및 웹 서비스 환경은 확장되어 텍스트-오디오 또는 오디오-텍스트 오디오-인-오디오 상호작용을 포함할 수 있다.

ECMA TR/87은 도 6에 도시된 대로 "신호 채널"(308) 전송을 확립한다. 신호 채널(308)은 콜 제어와 관련될 때 서버(302)와 클라이언트(304)가 해야만 하는 것에 대한 정보를 교환하기 위해 이들에 의해 사용된다. 서버(302)가 전화 교환기를 포함하는 경우, 신호 채널(308)의 사용은 충분하다. 그러나, 서버(304)가 스피치 서버이고 클라이언트(304)가 스피치 서비스를 요청하는 경우, 서버(302)는 또한 스 피치 정보를 어디서 수신하고 어디로 전송해야 하는지를 알아야만 한다. 예를 들어, 서버(302)는 스피치 인식 정보를 어디에서 획득하는지, 합성된 스피치를 어디로 전송해야 하는지를 알아야만 한다.

그러므로, 신호 채널(308)을 확립하는 것 외에, "미디어 채널"(310) 프로토콜이 또한 반드시 확립되어야 한다. 예를 들어, 미디어 채널(310)은 클라이언트(304)에 의해 수집된 스피치 데이터(오디오 데이터)를 서버(302)로 전송하는 데에 이용된다. 마찬가지로, 텍스트-대-스피치 동작에서, 클라이언트(304)는 신호 채널(308)을 통해 텍스트 데이터를 전송할 수 있고, 합성된 스피치 데이터는 미디어 채널(310)을 통해 서버(302)로부터 클라이언트(304)로 다시 제공된다.

도 5의 아키텍처에 관해, 신호 채널(308) 및 미디어 채널(310)은 스피치 서버(204)로의 임의의 통신을 위해 확립된다. 그러나, 웹 애플리케이션 서버(202)를 사용하는 것은 선택가능하고, 애플리케이션은 도 5에 도시된 대로 클라이언트(30)에 상주할 수 있다는 것을 유의한다.

본 발명의 한가지 양상은 미디어 채널(310)을 구현하기 위해 어떤 단계가 취해져야 하는가이다. 한 예시적인 실시예에서, SIP 환경의 CSTA에 대한 미디어 채널(310)을 확립하는 것이 설명된다. 추가의 예시적인 실시예에서, 웹 서비스 기반 환경의 CSTA에 대해 미디어 채널(310)을 구현하기 위해 어떤 단계가 취해져야 하는가가 설명된다.

예를 들어, 리스너 자원에 의해 리턴되는 결과 즉 스피치 인식으로 서버(302)에 의해 리턴되는 결과에 대해 XML 스키마를 지정할 수 있는 시맨틱 정보가 SADL를 사용함으로써 서버(302)와 클라이언트(304) 간에 전송될 수 있다는 것을 유의할 가치가 있다.

SIP 환경에서의 채널 확립

SIP은 격의없게(chatty) 설계된 프로토콜로서, 서버(302)와 클라이언트(304)는 작은 단위의 정보를 자주 교환한다. SIP 환경에서, 미디어 채널(310)의 확립은 SDP(Session Description Protocol)을 통해 달성된다. 이 태스크를 달성하는 예시적인 방법(400)이 도 7에 도시되어 있다.

단계(402)에서, 클라이언트(304)는 SIP-초청(Invite)을 이용하여 서버(302)와의 세션을 개시한다. 사용될 IP 주소 및 오디오를 위해 사용될 IP 주소상의 포트를 선언하는 SDP 설명 또한 전송된다. 또한, 단계(404)에서, SDP 설명은 미디어 스트림 및 TCP 또는 RTP(Real-time Transport Protocol)와 같은 통신 프로토콜에 대해 어느 코덱 유형의 인코딩이 사용되는가를 알릴 것이다.

서버에 의해 수신되자마자, 서버는 단계(406)에서 클라이언트(304)에 의해 진술된 SDP 설명을 수락할 것인지 여부를 결정할 수 있다. 프로토콜 및 코덱이 수락될 경우, 서버(302)는 SIP 오케이 및 그 IP 주소 및 오디오 포트를 나열하는 자기 고유의 SDP 설명으로 응답한다. 이후, 방법(400)은 단계(408)로 진행하고, 여기서 신호 채널이 확립된다.

대안에서, 서버(302)가 제안된 코덱 또는 프로토콜을 지원하지 않는 경우, 서버(302)는 어느 코덱 및/또는 프로토콜이 사용될 것인가에 관해 클라이언트(304)와 협상을 시작할 수 있다. 다시 말해, 서버(302)는 서로 다른 코덱 및/또는 프로 토콜을 제안하는 대응 제안(a counter-offer)으로 클라이언트(304)의 초기 SDP 설명에 응할 것이다. 제안하기 전에, 방법(400)은 단계(410)로 진행하고, 여기서 인식이 계속되어야 하는지에 관해 판정한다. 예를 들어, 단계(412)에서, 지정된 갯수의 대응 제안이 제안된 후, 통신은 중지될 것이다. 단계(414)에서, 합의에 도달할 때까지 또는 더 이상 합의에 도달하지 않을 것이 명백해질 때까지 클라이언트(304)와 서버(302) 간에 추가의 대응 제안이 있을 수 있다.

SIP/SDP는 VoIP에서 오디오 채널을 확립하는 데에 사용되고 IETF(Internet Engineering Task Force)에 의해 승인된 표준이다. 그러나, SIP/SDP는 CSTA를 구현하는 신호 채널을 확립하는 방법을 설명하지 않는다. 단계(408)에서, 신호 채널(308)은 ECMA-TR/87 별로 확립된다. 신호 채널의 확립 이후, 애플리케이션 연합은 완료된 것으로 간주된다. 그 결과, 분산 스피치 서비스는 시스템(300)에서 구현된다.

웹 서비스 환경에서의 채널 확립

상술된 SIP의 "격의 없는" 속성과 대조적으로, 웹 서비스는 서버(302)와 클라이언트(304) 간에 대화상자 교환이 거의 필요 없도록 "짧은(chunky)" 통신용으로 설계되고 종종 최적화된다. 그 결과, SIP의 다수의 대화상자 표현(turns)에서 협상된 특징은, 웹 서비스에 대한 공용 디렉토리에 발행되거나 또는 웹 서비스 메타데이터 교환에서 동적으로 획득되는 서비스 설명을 통해 일반적으로 설명되고 탐색될(discovered) 수 있다. 웹 서비스 환경은 UDDI(Uniform Description Discovery Integration) 표준 프로토콜을 포함한다. 웹 서비스 제공자는 애플리케이션 개발 자가 탐색하고, 획득하여 적절한 서비스 제공자(이것은 애플리케이션 개발자로 하여금 애플리케이션의 웹 서비스를 동적으로 통합할 수 있도록 함)를 선택할 수 있게 하는 관련 정보를 발행한다. 예를 들어, ECMA-348은 표준 웹 서비스 프로토콜을 사용하여 CSTA 기능을 제공하는 웹 서비스가 균일하게 설명되고, 탐색되고 통합될 수 있도록 CSTA에 대한 WSDL을 지정한다. 미디어 채널의 확립은 ECMA-348에 대한 확장이다.

도 8은 웹 서비스 환경에서 채널을 확립하는 예시적인 방법(420)을 도시한다. 본 발명에서, 단계(422)에서 웹 서비스 제공자는 웹 서비스에 의해 지원되는 모든 코덱 및 프로토콜을 서비스 메타데이터로서 나열한다. 단계(424)에서 애플리케이션 개발자는 웹 서비스 디렉토리 제공자를 활용하여 어느 웹 서비스가 자신이 사용할 수 있는 코덱 및 프로토콜을 지니는가를 획득하거나 또는 탐색한다. 이 단계는 웹 서비스가 필요로 하는 원하는 코덱 및 프로토콜을 찾기 위해 제공되는 웹 서비스 각각의 메타데이터 전체를 검색함으로써 수행될 수 있다. 디렉토리는 각각의 웹 서비스에 대해 URL(Universal Resource Locator) 주소를 제공한다. 이후 클라이언트(304)는 웹 서비스로 접속하고 서버(302)와의 통신을 위해 원하는 코덱 및 프로토콜로 애플리케이션을 사용한다. 접속된 후, 미디어 채널(310) 및 그 신호 채널(308)은 한꺼번에 확립된다.

웹 서비스 환경 하의 본 발명에서는, WSDL로의 미디어 설명 확장을 통해 하나의 교환에서 모든 레벨(애플리케이션 및 전송)을 통한 접속 확립 방법을 해결하고자 한다. 하나의 실시예에서, 본 발명은 ECMA-348과 함께 적용될 수 있는데, ECMA-348은 CSTA 및 그것의 기초가 되는 신호 통신 프로토콜을 확립하기 위한 메커니즘을 이미 지니고 있다. 미디어 코딩 및 전송 프로토콜 확장을 ECMA-348에 추가함으로써, CSTA는 향상되어 단일 단계에서 신호 및 미디어 채널을 확립한다.

또 다른 실시예에서, 미디어 설명은 CSTA 애플리케이션 연합에 선행하는 단계로서 웹 서비스 어드레싱, 즉 WS-어드레싱, 프로토콜의 확장성을 이용하여 전달된다. WA-어드레싱(WAS)은 웹 서비스 종점(endpoint) 및 메시지를 어드레스하기 위한 전송 중립 메커니즘을 제공하는 사양이다. CSTA 전환 함수 및 CSTA 애플리케이션 둘 다 웹 서비스 종점이다. WS-어드레싱은 종점 참조라 불리는 새로운 사양을 도입하고, 이것은 WSDL의 <wsdl:service> 및 <wsdl:port> 구성요소로 적절하게 커버되지 않는 서비스의 동적 사용을 지원한다.

WS-어드레싱은 종점 참조를 나타내기 위해 XML 문서 유형(wsa:EndpointReferenceType)을 정의한다. XML 구성요소, wsa:EndpointReference는 또한 그 유형을 갖도록 지정된다. 둘 다 XML 이름공간 http://schemas.xmlsoap.org/ws/2004/03/addressing에 상주한다.

WSA 종점 참조 유형은 이하를 포함할 수 있다:

[주소] : URI는 종점을 나타낸다.

[참조 속성]:<xs:any/>(0..무한), 고유의 속성, 각각의 엔티티 또는 자원에 대해 하나가 전달된다.

[선택된 포트 유형]:QName(0..1), 종점에 대해 WSDL에 정의된 대로 주요 포트 유형의 이름.

[서비스 및 포트]:(QName, NCName(0..1))(0..1), WSDL에 정의된 대로, 종점에 대응하는 서비스 및 포트.

[정책]:종점의 행동, 요구사항 및 기능을 설명하는 선택가능한 WS-정책 구성요소.

SIP의 경우에서 그러하듯이, CSTA 스피치 서비스에 대해 오디오 채널을 확립하는 것이 필요하다. 오디오 채널이 SDP를 통해 SIP에서 협상될 수 있기 때문에, WSA 종점 참조는 미디어 종점을 선언하기 위해 스피치 서비스 제공자에 대해 사용될 수 있다. 필수 항목 중에 미디어 전송 프로토콜 및 코딩 메커니즘은 스피치 서비스를 용이하게 하기 위해 지정될 필요가 있다. 이러한 항목은 참조 속성으로 선언된다.

견고함을 개선시키기 위해, 웹 서비스 환경의 미디어 채널은 서버(CSTA 음성 자원 제공자)로부터 클라이언트(CSTA 애플리케이션)로 리스(lease)로서 모델링되고, 리스는 시간이 흐름에 따라 만료된다. 서버는 또한 클라이언트가 리스를 취소하거나 갱신할 수 있는 리스 관리자를 지정할 수 있다.

XML 스키마로, CSTA 미디어 종점 참조 유형은 하나 또는 다수의 WSA 종점 참조를 포함한다. 예를 들어, 포트(6060)에서 RTP상에 G.711 프로토콜을 활용하는 CSTA 스피치 서비스 제공자는 다음와 같이 미디어 전송을 설명할 수 있다:

CSTA 미디어 종점 참조 속성은 코덱 선언, 가입 식별자 및 선택가능한 리스 만료 선언을 포함한다. 미디어 채널이 신호 채널과 함께 확립되는 uaCSTA의 경우, 위의 미디어 종점 참조는, 웹 서비스 환경하의 CSTA 애플리케이션 연합 프로세스가 완료되었다고 간주되기 전에 반드시 포함되어야 한다.

WS 프로토콜의 확장성을 이용하여, 스피치 세션은 <wsa:Action>을 이용하여 확립될 수 있다. 미디어 종점 참조는 그 자체가 CSTA 웹 서비스 제공자의 종점 참조에서 참조 속성이 될 수 있다. SOAP(Simple Object Access Protocol) 메시지는 이하와 같이 <wsa:To> 바로 뒤에 미디어 종점 참조를 첨부함으로써 구성된다.

웹 서비스는 WS-정책 및 WSDL과 같은 메타데이터에 의해 설명된다. WS-정책은 서비스의 일반적인 기능, 요구사항 및 특징을 설명하고, WSDL은 웹 서비스에 도달하기 위한 추상 메시지 동작, 구체적인 네트워크 프로토콜 및 주소를 설명한다. 웹 서비스 메타데이터 교환, WS-MEX 또는 WSX는 메타데이터의 검색을 초기 적재(bootstrap)하는 사양이다. 클라이언트는 자신의 메타데이터를 획득하기 위해 종점으로 WS-MEX 요청을 전송할 수 있다. SOAP를 이용하는 요청에 대한 규범적 개요는 이하와 같다:

SOAP 헤더에 도시된 대로, WS-MEX는 메타데이터 검색용 요청을 지정하기 위해 WS-어드레싱을 사용한다. 목표가 되는 서비스는 <wsa:To>에 URI로서 지정되고, 응답 종점은 <wsa:ReplyTo>의 내용에서 WS-어드레싱 종점 참조를 사용하여 지정된다. 검색될 메타데이터 유형은 SOAP 바디(body)의 <wsx:GetMetadata>의 내용에 지정된다.

종점이 GetMetadata 요청을 수락하는 경우, 그것은 GetMetadata 응답 메시지로 응답해야 한다. SOAP의 응답에 대한 규범적 개요는 이하와 같다:

SOAP 바디에서 전달된 후, 메타데이터는 <wsa:Metadata> 구성요소의 내용으로서, 또는 WS-어드레싱 종점 참조 또는 단순하게 URI를 이용하는 참조에 의해 인라인으로 리턴될 수 있다.

상기 SOAP 메시지는 이하와 같은 WSDL 바인딩을 지닐 수 있다:

CSTA 미디어 설명은 CSTA 애플리케이션이 음성 서비스 제공자로부터 반드시 획득해야 하는 메타데이터 유형이다. WS-MEX는 여기에 특히 적합하다. 이하는 미디어 종점 참조를 검색하는 견본 SOAP 메시지이다:

예제는 client.example.com에 위치하고, server.acme.org의 CSTA 스피치 서비스 제공자로부터 미디어 종점 참조를 요청하는 클라이언트 애플리케이션을 설명한다(demonstrate). 고유의 표현법이 지정되기 때문에, 서버는 반드시 원하는 유형의 메타데이터만을 응답해야 한다. SOAP 응답 메시지는 다음과 같을 것이다:

스피치 애플리케이션 설명은 스피치 서비스가 제공할 수 있는 또 다른 유형의 메타데이터이다. 다수의 메타데이터 유형은 <wsx:GetMetadata>를 <wsx:Dialect>를 통해 그들 각각의 URI로 파퓰레이트함으로써 동시에 획득될 수 있다. 이하는 미디어 종점과 스피치 애플리케이션 참조 둘 다를 획득하는 SOAP 바디 의 예제이다:

비록 웹 서비스가 단방향, 요청 및 응답 모델로 시작하지만, 웹 서비스는 종 종 이벤트가 다른 서비스 또는 애플리케이션에서 발생할 때에 메시지를 수신하기를 원한다. 웹 서비스 이벤팅, 또는 WS-이벤팅(WS-eventing:WSE)은 이벤트 통보를 용이하게 하기 위한 사양이다. WS-이벤팅은 하나의 웹 서비스가 다른 서비스 또는 애플리케이션을 대신하여 어떻게 이벤트에 가입할 수 있는지를 정의하고, 애플리케이션으로 하여금 이벤트 메시지가 전달되는 방법을 지정하도록 한다. 이것은 각종 이벤팅 토폴로지를 지원하고, 이벤트 소스 및 최종 이벤트 싱크가 분리되도록 한다. 이 속성은 콜센터에서 이동 컴퓨팅에 이르기까지 각종 범위의 CSTA 애플리케이션에 적합하다. CSTA 음성 서비스가 기능하기 위해 이벤트 통보를 필요로 하기 때문에 WS-이벤트가 사용된다.

본 발명이 특정 실시예에 관해 설명되었지만, 당업자들은 본 발명의 취지 및 범위를 벗어나지 않고 형태 및 상세사항에 변경이 있을 수 있다는 것을 이해할 것이다.

본 발명은 클라이언트와 서버 간에 미디어 채널 및 신호 채널(signaling channel)을 확립하는 것에 관한 것으로서, 미디어 채널은 통신을 위해 선택된 코덱 및 프로토콜을 사용한다. 미디어 채널 및 신호 채널을 통해, 클라이언트상의 애플리케이션은 서버상의 스피치 서비스를 활용할 수 있다.

Claims

클라이언트와 서버 간의 통신 방법에 있어,

미디어 채널을 확립하는 단계;

신호 채널을 확립하는 단계; 및

상기 미디어 채널 및 상기 신호 채널 중 적어도 하나를 통해 상기 클라이언트와 상기 서버 간에 정보를 교환하는 단계

를 포함하는 방법.
제1항에 있어서, 상기 미디어 채널을 확립하는 단계는 코덱 및 프로토콜을 확립하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 정보를 교환하는 단계는 SIP(Session Initiation Protocol) 환경에서 수행되는 방법.
제1항에 있어서, 상기 정보를 교환하는 단계는 웹 서비스 환경에서 수행되는 방법.
제1항에 있어서, 상기 미디어 채널을 확립하는 단계는 상기 미디어 채널에 사용될 코덱 및 프로토콜을 제안하는 단계를 포함하는 방법.
제1항에 있어서, 상기 미디어 채널을 확립하는 단계는 인터넷 프로토콜 주소 및 이와 관련된 포트를 선언하는 단계를 포함하는 방법.
제1항에 있어서, 상기 미디어 채널을 확립하는 데에 사용될 적어도 하나의 코덱 및 적어도 하나의 프로토콜의 목록을 제공하는 단계를 더 포함하는 방법.
제7항에 있어서, 상기 미디어 채널을 확립하기 위해 상기 목록을 참조하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 정보를 교환하는 단계는 상기 미디어 채널을 통해 스피치 데이터를 전송하는 단계를 포함하는 방법.
스피치 서비스를 제공하는 명령어를 포함하는 컴퓨터 판독가능 매체에 있어서, 상기 명령어는,

확립된 신호 프로토콜에 따라 신호 채널을 통해 신호 정보를 수신하는 것;

확립된 코덱 및 프로토콜에 따라 미디어 채널을 통해 스피치 정보를 수신하는 것; 및

상기 신호 정보 및 상기 스피치 정보를 처리하는 것

을 포함하는 컴퓨터 판독가능 매체.
제10항에 있어서, 상기 명령어는 상기 스피치 정보에 대해 스피치 인식을 수행하는 것을 더 포함하는 컴퓨터 판독가능 매체.
제10항에 있어서, 상기 명령어는 SIP 환경에서 세션을 확립하는 것을 더 포함하는 컴퓨터 판독가능 매체.
제10항에 있어서, 상기 신호 정보 및 상기 스피치 정보를 처리하는 것은 웹 서비스 환경에서 수행되는 컴퓨터 판독가능 매체.
제10항에 있어서, 상기 명령어는 CSTA(Computer Supported Telecommunication Application) 인터페이스를 제공하는 것을 더 포함하는 컴퓨터 판독가능 매체.
제10항에 있어서, 상기 명령어는 SOAP(Simple Object Access Protocol) 메시지를 해석하는 것을 더 포함하는 컴퓨터 판독가능 매체.
제10항에 있어서, 상기 명령어는 상기 스피치 정보를 상기 스피치 정보에 포함된 시맨틱 정보를 식별하도록 처리하는 것을 더 포함하는 컴퓨터 판독가능 매체.
제10항에 있어서, 상기 명령어는 IP(Internet Protocol) 주소와 관련된 지정 포트로 정보를 전송하는 것을 더 포함하는 컴퓨터 판독가능 매체.
제10항에 있어서, 상기 명령어는 SOAP 메시지를 전송하는 것을 더 포함하는 컴퓨터 판독가능 매체.
컴퓨터 네트워크의 정보를 처리하는 방법에 있어서,

SIP 환경 및 웹 서비스 환경 중 하나에서 클라이언트와 서버 간의 관계를 확립하는 단계;

지정된 프로토콜에 따라 상기 클라이언트로부터 상기 서버로 오디오 데이터 또는 텍스트 데이터를 포함하는 데이터를 전송하는 단계;

상기 데이터가 오디오 데이터인 경우 오디오 데이터로부터 텍스트 데이터로 상기 데이터를 변환하고, 상기 데이터가 텍스트 데이터인 경우 텍스트 데이터로부터 오디오 데이터로 상기 데이터를 변환하는 단계; 및

상기 지정된 프로토콜에 따라 상기 서버로부터 상기 클라이언트로 변환된 데이터를 전송하는 단계

를 포함하는 방법.
제19항에 있어서, 상기 지정된 프로토콜은 CSTA에 기초하는 방법.