[go: up one dir, main page]

KR20060091695A - 클라이언트와 서버 간의 통신 방법 - Google Patents

클라이언트와 서버 간의 통신 방법 Download PDF

Info

Publication number
KR20060091695A
KR20060091695A KR1020050081703A KR20050081703A KR20060091695A KR 20060091695 A KR20060091695 A KR 20060091695A KR 1020050081703 A KR1020050081703 A KR 1020050081703A KR 20050081703 A KR20050081703 A KR 20050081703A KR 20060091695 A KR20060091695 A KR 20060091695A
Authority
KR
South Korea
Prior art keywords
speech
server
protocol
information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020050081703A
Other languages
English (en)
Other versions
KR101265808B1 (ko
Inventor
콴산 왕
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060091695A publication Critical patent/KR20060091695A/ko
Application granted granted Critical
Publication of KR101265808B1 publication Critical patent/KR101265808B1/ko
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/10Architectures or entities
    • H04L65/102Gateways
    • H04L65/1043Gateway controllers, e.g. media gateway control protocol [MGCP] controllers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • H04L65/1104Session initiation protocol [SIP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/401Support for services or applications wherein the services involve a main real-time session and one or more additional parallel real-time or time sensitive sessions, e.g. white board sharing or spawning of a subconference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Communication Control (AREA)
  • Computer And Data Communications (AREA)
  • Multi Processors (AREA)

Abstract

본 발명은 클라이언트와 서버 간에 미디어 채널 및 신호 채널을 확립하는 것에 관한 것이다. 미디어 채널은 통신을 위해 선택된 코덱 및 프로토콜을 사용한다. 미디어 채널 및 신호 채널을 통해, 클라이언트상의 애플리케이션은 서버상의 스피치 서비스를 활용할 수 있다.
미디어 채널, 신호 채널, CSTA

Description

클라이언트와 서버 간의 통신 방법{DISTRIBUTED SPEECH SERVICE}
도 1 내지 도 4는 본 발명에 사용될 수 있는 예시적인 컴퓨팅 장치를 도시하는 도면.
도 5는 분산 스피치 서비스의 예시적인 아키텍처를 도시.
도 6은 분산 스피치 서비스를 구현하는 예시적인 시스템을 도시.
도 7은 SIP 환경에서 채널을 확립하는 예시적인 방법을 도시하는 도면.
도 8은 웹 서비스 환경에서 채널을 확립하는 예시적인 방법을 도시하는 도면.
<도면의 주요부분에 대한 부호의 설명>
140 : 처리 장치
150 : 시스템 메모리
185 : 비디오 인터페이스
180 : 사용자 입력 인터페이스
190 : 네트워크 인터페이스
194 : 원격 컴퓨터
<참조문헌>
U.S. 가출원 특허 번호 제 60/621,303호 (2004년 10월 22일자 출원)
본 발명은 컴퓨터 상호작용을 정의하고 처리하는 방법 및 시스템에 관한 것이다. 특히, 본 발명은 원격통신 시스템에서와 같은 시스템 내에서의 장치 간에 통신 프로토콜을 확립하는(establishing) 방법 및 시스템에 관한 것이다.
컴퓨터 지원 원격통신 애플리케이션(Computer Supported Telecommunication Applications:CSTA)는 글로벌 및 기업 통신용으로 널리 적응되는 표준 스윗(standard suite)이다. 특히, CSTA는 원격통신 인프라스트럭처의 프로그램 액세스 및 제어를 지정하는 표준이다. 간단한 전화 통화를 개시하고 이를 수신하는 것에서부터 음성 및 비디오를 통한 대규모 멀티-사이트 협동(collaboration)을 관리하는 것에 이르기까지, 각종 태스크를 위한 소프트웨어가 개발될 수 있다.
CSTA는 많은 ECMA/ISO(ECMA International Rue du Phone 114 CH-1204, Geneva, www.ecma-international.org) 표준으로 표준화되어 있다. CSTA 객체, 서비스 및 이벤트의 핵심 동작 모델 및 시맨틱스가 ECMA-269에 정의되어 있다. 이 CSTA 특징은 이것이 각종 프로그래밍 플랫폼에 적응될 수 있도록 추상적이고 플랫폼에 독립적인 방식으로 정의된다. 또한, CSTA에는 여러 개의 표준화된 프로그래밍 또는 프로토콜 문법에 있는데, 이 중에는 CSTA-XML로 일반적으로 알려져 있는 CSTA에 바인딩하는 XML(extensible markup language)을 정의하는 ECMA-323 및 WSDL(Web Service Description Language) 바인딩인 ECMA-348이 있다. 이들 언어 바인딩은 CSTA 표준 스윗의 일부로 간주되고, 최대 정보 처리 상호 운용(maximum interoperability)을 보장하여, TCP(Transmission Control Protocol), SIP(Session Initiation Protocol) 또는 SOAP(Simple Object Access Protocol)를 포함하는 임의의 표준 전송 프로토콜을 통해 서로 다른 운영 체제를 수행하는 컴퓨터들에 대해 CSTA 특징이 사용가능하도록 만든다.
최근에, CSTA가 대화식 음성 서비스(interactive voice service) 영역에서 많이 적응되는 것이 목격되어오고 있다. 이러한 적응은 SALT(Speech Application Language Tags)에 기초하는 향상된 음성 서비스에 의해 발전하여 왔고, 이것은 www.saltforum.org에서 볼 수 있는 SALT 1.0 규격(specification)에 추가로 설명되어 있다. SALT를 사용함으로써, 콜센터는 더욱 자동화되어 각종 스피치 관련 특징을 포함할 수 있다. 그러나, 콜 제어 및 스피치 제어 애플리케이션 간의 차이로 인해 분산 스피치 서비스를 용이하게 하는데에 어려움이 있다. 따라서, 스피치 서비스를 용이하게 하는 프로토콜을 확립할 필요가 있다.
본 발명은 클라이언트와 서버 간에 미디어 채널 및 신호 채널(signaling channel)을 확립하는 것에 관한 것이다. 미디어 채널은 통신을 위해 선택된 코덱 및 프로토콜을 사용한다. 미디어 채널 및 신호 채널을 통해, 클라이언트상의 애플리케이션은 서버상의 스피치 서비스를 활용할 수 있다.
분산 스피치 서비스 및 방법을 구현하는 아키텍처를 설명하기 전에, 이 아키 텍처에서 기능할 수 있는 컴퓨팅 장치를 일반적으로 설명하는 것이 유용할 수 있다. 도 1과 관련하여, 데이터 관리 시스템의 예시적인 형태(PIM, PDA 등)가 참조번호(30)로 도시되어 있다. 그러나, 본 발명이 이하에 설명된 기타 컴퓨팅 장치, 특히, 입력 버튼 등에 대해 제한된 표면 영역을 지니는 컴퓨팅 장치를 사용하여 또한 실행될 수 있다는 것을 고려할 수 있다. 예를 들어, 전화 및/또는 데이터 관리 장치는 또한 본 발명의 덕을 볼 것이다. 이러한 장치는 기존의 휴대용(portable) 퍼스널 정보 관리 장치 및 기타 휴대용 전자 장치에 비해 더욱 유용할 것이고, 이러한 장치의 기능 및 작은 크기로 인해 사용자들은 이 장치를 항상 휴대할 것이다. 따라서, 본 명세서에 설명된 아키텍처의 범위는 예시적인 데이터 관리 또는 PIM 장치, 전화 또는 본 명세서에 설명된 컴퓨터에 의해서만 제한되도록 의도한 것은 아니다.
데이터 관리 이동 장치(data management mobile device)(30)의 예시적인 형태가 도 1에 도시되어 있다. 이동 장치(30)는 하우징(32), 및 디스플레이(34)를 포함하는 사용자 인터페이스를 포함하고, 이 디스플레이(34)는 스타일러스(33)와 함께 접촉 감응 디스플레이 스크린(touch sensitive display screen)을 사용한다. 스타일러스(33)는 지정된 좌표에서 디스플레이(34)를 누르거나 접촉하여, 필드를 선택하고, 커서의 시작 위치를 선택적으로 이동시키고 또는 그렇지 않을 경우 제스처 또는 수기(handwriting) 등을 통해 명령 정보를 제공하기 위해 사용된다. 또는, 하나 이상의 버튼(35)이 네비게이션을 위해 장치(30)에 포함될 수 있다. 또한, 회전할 수 있는 휠, 롤러 등과 같은 기타 입력 메커니즘이 또한 제공될 수 있 다. 그러나, 본 발명이 이러한 형태의 입력 메커니즘에 제한되지 않는다는 것을 유의한다. 예를 들어, 입력의 또 다른 형태로는 컴퓨터 비전을 통해서와 같이 시각적 입력(visual input)이 있다.
도 2의 블록도는 이동 장치(30)를 포함하는 기능 컴포넌트를 도시하고 있다. 중앙 처리 장치(50)는 소프트웨어 제어 기능을 구현한다. CPU(50)는 디스플레이(34)에 결합하여 제어 소프트웨어에 따라 생성된 텍스트 및 그래픽 아이콘이 디스플레이(34)상에 나타난다. 스피커(43)는 통상적으로 디지털-대-아날로그 변환기(59)를 통해 CPU(50)에 결합되어 들을 수 있는 출력을 제공할 수 있다. 사용자에 의해 이동 장치(30)로 다운로드되거나 입력된 데이터는, CPU(50)에 양방향으로 결합하는 비휘발성 판독/기입 RAM 저장 장치(54)에 저장된다. RAM(54)은 CPU(50)에 의해 실행되는 명령어를 위한 휘발성 저장 능력 및 레지스터 값과 같이 일시적인 데이터를 위한 저장 능력을 제공한다. 구성 옵션 및 기타 변수에 대한 디폴트 값은 ROM(58)에 저장된다. ROM(58) 또한 이동 장치(30)의 기본 기능 및 기타 운영 체제 커널 함수(예를 들어 소프트웨어 컴포넌트를 RAM(54)으로 로딩함)를 제어하는 장치용 운영 체제 소프트웨어를 저장하는 데에 사용된다.
RAM(54)은 또한 애플리케이션 프로그램을 저장하는 데에 사용되는 PC상의 하드 드라이브의 기능과 유사하게 코드에 대한 저장 장치로서 기능한다. 코드를 저장하기 위해 비록 비휘발성 메모리가 사용되지만, 코드는 그것의 실행을 위해 사용되지 않는 휘발성 메모리에 또한 저장될 수 있다는 것을 유의해야 한다.
무선 송수신기(52)를 통해 무선 장치는 무선 신호를 송신/수신할 수 있고, 이 무선 송수신기는 CPU(50)에 결합되어 있다. 선택가능한 통신 인터페이스(60) 또한 컴퓨터(데스크탑 컴퓨터)로부터, 원하는 경우 유선 네트워크로부터 직접 데이터를 다운로딩하기 위해 제공될 수 있다. 따라서, 인터페이스(60)는 적외선 링크, 모뎀, 네트워크 카드 등과 같은 각종 형태의 통신 장치를 포함할 수 있다.
이동 장치(30)는 마이크(29), 아날로그-대-디지털(A/D) 변환기(37) 및 저장 장치(54)에 저장된 선택가능한 인식 프로그램(스피치, DTMF, 수기, 제스처 또는 컴퓨터 비전)을 포함한다. 예제로서, 장치(30) 사용자로부터의 들을 수 있는 정보, 명령어 또는 명령에 응하여, 마이크(29)는 A/D 변환기(37)에 의해 디지털화된 스피치 신호를 제공한다. 스피치 인식 프로그램은 디지털화된 스피치 신호에 대해 정규화(normalization) 및/또는 특징 추출 함수를 수행하여 중간 스피치 인식 결과를 획득할 수 있다.
무선 송수신기(52) 또는 통신 인터페이스(60)를 이용하여, 스피치 데이터는 원격 스피치 서버(204)로 전송되고, 이 원격 스피치 서버는 이하의 도 5의 아키텍처에서 설명되고 도시된다. 이후 인식 결과는 이동 장치(30)로 리턴되어 그 위에 (시각 및/또는 청각적으로) 렌더링되고, 최종적으로 웹 서버(202)(도 5)로 전송되고, 여기서 웹 서버(202)와 이동 장치(30)는 클라이언트/서버 관계로 동작한다.
다른 형태의 입력에 대해 유사한 처리가 사용될 수 있다. 예를 들어, 수기 입력은 장치(30)의 전처리로 또는 전처리를 하지 않고 디지털화될 수 있다. 스피치 데이터와 마찬가지로, 이러한 형태의 입력은 인식을 위해 스피치 서버(204)로 전송될 수 있고, 여기서 인식 결과는 장치(30) 및/또는 웹 서버(202) 중 적어도 하 나로 리턴된다. 마찬가지로, DTMF 데이터, 제스처 데이터 및 시각 데이터가 유사하게 처리될 수 있다. 입력의 형태에 따라, 장치(30)(및 이하에 설명되는 다른 형태의 클라이언트)는 시각 입력을 위한 카메라와 같이 필요한 하드웨어를 포함할 것이다.
도 3은 휴대용 전화(portable phone)(80)의 예시적인 실시예의 평면도이다. 전화(80)는 디스플레이(82)와 키패드(84)를 포함한다. 일반적으로, 기타 기능을 수행하기 위해 추가의 회로가 필요하지만, 도 2의 블록도는 도 3의 전화에 적용된다. 예를 들어, 전화로서 동작하기 위해 필수적인 송수신기는 도 2의 실시예에서 필요할 것이다; 그러나, 이러한 회로는 본 발명에 관련되지 않는다.
상술된 휴대용 또는 이동 컴퓨팅 장치 외에도, 본 발명은 일반적인 데스크톱 컴퓨터와 같이 각종 기타 컴퓨팅 장치로 사용될 수 있다는 것을 또한 이해할 것이다. 예를 들어, 본 발명은 물리적으로 제한된 능력을 지닌 사용자가, 완전한 알파벳-숫자 키보드와 같은 기타 종래의 입력 장치를 동작하기에 너무 어려운 경우, 텍스트를 컴퓨터 또는 기타 컴퓨터 장치에 입력할 수 있도록 해 준다.
본 발명은 또한 각종 기타 범용 또는 특수 목적의 컴퓨팅 시스템, 환경 또는 구성과 동작가능하다. 본 발명과 함께 사용하기에 적합하고 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 (어떠한 스크린도 없는) 일반 전화, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 소비자 가전제품, 무선 인식(radio frequency identification:RFID) 장치, 네트워크 PC, 미니컴퓨터, 메인프레 임 컴퓨터, 상기 시스템이나 장치 등의 임의의 것을 포함하는 분산 컴퓨팅 환경이 있지만 이에 제한되는 것은 아니다.
이하에서, 도 4에 도시된 범용 컴퓨터(120)에 대해 간단히 설명한다. 그러나, 다시, 컴퓨터(120)는 적합한 컴퓨팅 환경의 단지 한가지 일례이며, 본 발명의 사용 범위 또는 기능에 관해 어떠한 제한을 제안하고자 하는 것이 아니다. 컴퓨터(120)가 이에 도시된 임의의 하나의 컴포넌트 또는 컴포넌트들의 조합에 관해 임의의 종속성 또는 요구사항을 가지는 것으로 해석되어서는 안 된다.
본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어의 일반적인 문맥으로 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하고 또는 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 링크된 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서도 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 둘 다에 위치할 수 있다. 프로그램 및 모듈에 의해 수행되는 태스크는 이하에 도면의 도움을 받아 설명된다. 당업자들은 설명 및 도면을 프로세서 실행가능 명령어로 구현할 수 있고, 이것은 임의의 형태의 컴퓨터 판독가능 매체에 기입될 수 있다.
도 4와 관련하여, 컴퓨터(120)의 컴포넌트는 처리 장치(140), 시스템 메모리(150) 및 시스템 메모리를 포함하는 각종 시스템 컴포넌트를 처리 장치(140)에 결합시키는 시스템 버스(141)를 포함하지만 이에 제한되지 않는다. 시스템 버스 (141)는 메모리 버스 또는 메모리 컨트롤러, 주변 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 포함하는 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예제로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, USB(Universal Serial Bus), MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다. 컴퓨터(120)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(120)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 이동불가식 매체를 포함한다. 예제로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위해 모든 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 이동불가식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(120)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다.
통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘 (transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에서 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호내의 정보가 암호화되도록 그 신호의 하나 이상의 특성을 설정 또는 변경시킨 신호를 의미한다. 예제로서, 통신 매체는 유선 네트워크 또는 다이렉트 유선 접속과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함하지만 이에 제한되는 것은 아니다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되어야 한다.
시스템 메모리(150)는 판독 전용 메모리(ROM)(151) 및 랜덤 액세스 메모리(RAM)(152)와 같은 휘발성 및/또는 비휘발성 메모리의 형태로 컴퓨터 저장 매체를 포함한다. 시동 시 컴퓨터(120) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(153)은 통상적으로 ROM(151)에 저장되어 있다. RAM(152)은 통상적으로 처리 장치(140)에 즉시 액세스 가능하고 및/또는 현재 처리 장치(140)에 의해 동작되고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예제로서, 도 4는 운영 체제(154), 애플리케이션 프로그램(155), 기타 프로그램 모듈(156) 및 프로그램 데이터(157)를 도시하고 있지만 이에 제한되는 것은 아니다.
컴퓨터(120)는 또한 기타 이동식/이동불가식, 휘발성/비휘발성 컴퓨터 저장매체를 포함한다. 단지 예제로서, 도 4는 이동불가식, 비휘발성 자기 매체로의 기록 또는 그로부터의 판독을 위한 하드 디스크 드라이브(161), 이동식, 비휘발성 자 기 디스크(172)로의 기록 또는 그로부터의 판독을 위한 자기 디스크 드라이브(171), CD-ROM 또는 기타 광 매체 등의 이동식, 비휘발성 광 디스크(176)로의 기록 또는 그로부터의 판독을 위한 광 디스크 드라이브(171)를 포함한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/이동불가식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고체(solid state) RAM, 고체 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(161)는 통상적으로 인터페이스(160)와 같은 이동불가식 메모리 인터페이스를 통해 시스템 버스(141)에 접속되고, 자기 디스크 드라이브(171) 및 광 디스크 드라이브(175)는 통상적으로 인터페이스(170)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(141)에 접속된다.
위에서 설명되고 도 4에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 컴퓨터(120)의 다른 데이터를 저장한다. 도 4에서, 예를 들어, 하드 디스크 드라이브(161)는 운영 체제(164), 애플리케이션 프로그램(165), 기타 프로그램 모듈(166) 및 프로그램 데이터(167)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이 컴포넌트들이 운영 체제(154), 애플리케이션 프로그램(155), 기타 프로그램 모듈(156) 및 프로그램 데이터(157)와 동일할 수도 있고 다를 수도 있다는 것이다. 이에 관해, 운영 체제(164), 애플리케이션 프로그램(165), 기타 프로그램 모듈(166) 및 프로그램 데이터(167)에 다른 번호가 주어졌다는 것은 적어도 이들이 서로 다른 사본(copy)이라는 것을 도시한다.
사용자는 키보드(182), 마이크(183) 및 일반적으로 마우스, 트랙볼(trackball) 또는 터치 패드라고 알려진 포인팅 장치(181) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(120)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등이 있을 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(180)를 통해 처리 장치(140)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(184) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(185) 등의 인터페이스를 통해 시스템 버스(141)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(187) 및 프린터(186) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(188) 등을 통해 접속될 수 있다.
컴퓨터(120)는 원격 컴퓨터(194)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(194)는 또 하나의 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 다른 공통 네트워크 노드일 수 있고, 통상적으로 컴퓨터(120)와 관련하여 상술된 구성요소의 대부분 또는 그 전부를 포함한다. 도 4에 도시된 논리적 연결로는 LAN(191) 및 WAN(193)이 있지만, 다른 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 회사 전체에 걸친 컴퓨터 네트워크, 인트라넷 및 인터넷에서 일반적인 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(120)는 네트워크 인터페이스 또는 어댑터(190)를 통해 LAN(191)에 연결된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(120)는 통상적으로 인터넷과 같은 WAN(193) 상에서의 통신을 확립하기 위한 모뎀(192) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(192)은 사용자 입력 인터페이스(180) 또는 기타 적절한 메커니즘을 통해 시스템 버스(141)에 접속된다. 네트워크화된 환경에서, 컴퓨터(120) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 그 예제로서, 도 4는 원격 컴퓨터(194)에 위치하고 있는 원격 애플리케이션 프로그램(195)을 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이의 통신 링크를 설정하는 다른 수단이 사용될 수 있다는 것을 이해할 것이다.
도 5는 본 발명이 구현될 수 있는 분산 스피치 서비스의 예시적인 아키텍처(200)를 도시한다. 일반적으로, 웹 서버(202)에 저장된 정보는 이동 장치(30)(본 명세서에서는 또한 입력의 형태에 기초하여 요구되는 대로 디스플레이 스크린, 마이크, 카메라, 접촉 감응 패널 등을 지니는 컴퓨팅 장치의 다른 형태를 나타냄)를 통해, 또는 정보가 눌려진 키에 응하여 전화기(80)에 의해 생성된 톤을 통해 또는 들을 수 있게 정보가 요청되고, 웹 서버(202)로부터의 정보는 사용자에게만 들을 수 있게 다시 제공되는 전화기(80)를 통해 액세스될 수 있다.
더욱 중요한 것은, 정보가 장치(30)를 통해 또는 스피치 인식을 사용하는 전화기(80)을 통해서 정보가 획득되든지 간에 아키텍처(200)가 통합되고, 하나의 스피치 서버(204)는 두 가지 동작 모드 중 하나를 지원할 수 있다는 것이다. 또한, 아키텍처(200)는 공지의 마크 업 언어(예를 들어, HTML, XHTML, cHTML, XML, WML 등)의 확장을 이용하여 동작한다. 따라서, 웹 서버(202)에 저장된 정보는 이들 마크 업 언어에 있는 공지의 GUI 메소드를 이용하여 또한 액세스될 수 있다. 공지의 마크 업 언어를 확장하여, 웹 서버(202)상의 저작(authoring)은 더 쉬워지고, 현재 존재하고 있는 기존의 애플리케이션 또한 음성 인식을 포함하도록 쉽게 수정될 수 있다.
일반적으로, 장치(30)는 웹 서버(202)에 의해 제공되는 HTML+ 스크립트 등을 실행한다. 음성 인식이 요구될 때, 예제로서, 스피치 데이터(이것은 디지털화된 오디오 신호 또는 스피치 특징일 수 있고, 오디오 신호는 상술된 대로 장치(30)에 의해 미리 처리된 것임)가 문법 또는 언어 모델을 표시하면서 스피치 서버(204)에 제공되어 스피치 인식 동안 사용된다. 스피치 서버(204)의 구현은 많은 형태를 취할 수 있고, 이중 하나가 도시되어 있고, 일반적으로 인식(211)을 포함한다. 인식의 결과는 원하거나 또는 적절한 경우 로컬 렌더링을 위해 장치(30)에 다시 제공된다. 인식 및 (사용되는 경우) 임의의 GUI를 통해 정보를 컴파일하자마자, 장치(30)는 추가 처리 및 필요한 경우 추가 HTML 스크립트의 수신을 위해 그 정보를 웹 서버(202)로 전송한다.
도 5에 도시된 대로, 장치(30), 웹 서버(202) 및 스피치 서버(204)는 공통으로 접속되어 있고, 네트워크(205)(인터넷과 같은 본 명세서의 WAN)를 통해, 개별 어드레스 가능하다. 따라서, 이들 장치 중 임의의 것들이 서로 물리적으로 인접하여 위치할 필요는 없다. 특히, 웹 서버(202)가 스피치 서버(204)를 포함할 필요는 없다. 이러한 방식으로, 웹 서버(202)에서의 저작(authoring)은, 저작자가 스피치 서버(204)의 복잡함을 알 필요 없이, 그것이 의도되는 애플리케이션에 포커스될 수 있다. 오히려, 스피치 서버(204)는 독립적으로 설계되고 네트워크(205)에 접속되어 웹 서버(202)에서 요구되는 추가의 변경 없이 업데이트되고 개선될 수 있다. 추가의 실시예에서, 클라이언트(30)는 웹 서버(202) 없이 스피치 서버(204)와 직접 통신할 수 있다. 웹 서버(202), 스피치 서버(204) 및 클라이언트(30)가 구현 기계의 능력에 따라 결합될 수 있다는 것을 이해할 것이다. 예를 들어, 클라이언트가 퍼스널 컴퓨터와 같은 범용 컴퓨터를 포함하는 경우, 클라이언트는 스피치 서버(204)를 포함할 수 있다. 마찬가지로, 원하는 경우 웹 서버(202) 및 스피치 서버(204)는 하나의 기계에 포함될 수 있다.
전화(80)를 통해 웹 서버(202)로 액세스하기 위해, 전화(80)는 유선 또는 무선 전화 네트워크(208)로 접속해야 하고, 이어서 전화(80)는 제3자 게이트웨이(210)로 접속해야 한다. 게이트웨이(210)는 전화(80)를 전화 음성 브라우저(212)로 접속시킨다. 전화 음성 브라우저(212)는 전화 인터페이스를 제공하는 미디어 서버(214) 및 음성 브라우저(216)를 포함한다. 장치(30)처럼 전화 음성 브라우저(212)는 웹 서버(202)로부터 HTML 스크립트 등을 수신한다. 특히, HTML 스크립트는 장치(30)에 제공된 HTML 스크립트와 유사한 형태이다. 이러한 방식으로, 웹 서버(202)는 장치(30) 및 전화(80)를 별도로 지원할 필요가 없고, 또는 표준 GUI 클라이언트를 별도로 지원할 필요조차 없다. 오히려, 일반적인 마크업 언어가 사용될 수 있다. 또한, 장치(30)처럼, 전화(80)에 의해 전송된 들을 수 있는 신호로부 터의 음성 인식이 음성 브라우저(216)에서부터 스피치 서버(204)로, 네트워트(205) 또는 TCP/IP를 사용하는 전용선(207) 둘 중 하나를 통해 제공된다. 웹 서버(202), 스피치 서버(204) 및 전화 음성 브라우저(212)는 도 4에 도시된 범용 데스크탑 컴퓨터와 같은 임의의 적합한 컴퓨팅 환경에서 구현될 수 있다.
그러나, DTMF 인식이 채용되는 경우, 이러한 형태의 인식은 스피치 서버(204)에서가 아니라 미디어 서버(214)에서 일반적으로 수행된다는 것을 유의해야 한다. 다시 말해, DTMF 문법(grammar)은 미디어 서버에 의해 사용될 것이다.
상술된 장치 및 아키텍처가 주어지는 경우 본 발명은 단순 클라이언트/서버 환경에 기초하여 또한 설명될 것이다. 도 6에 도시된 대로, 본 발명은 미디어 서비스(예를 들어 스피치 합성에 대한 텍스트 또는 스피치 인식)를 제공하는 서버(302) 및 애플리케이션 고유의 코드를 실행하는 클라이언트(304)를 포함하는 시스템(300)에 관한 것이다. 서버(302)와 클라이언트(304) 간의 통신은, 정보가 교환되거나 태그되거나 또는 그것이 아닌 경우 XML 문서(이에 제한되지 않음)와 같이 식별부를 포함할 수 있는 서비스 모델에 기초한다. 서버(302) 및/또는 클라이언트(304)는 기타 정보 외에 오디오를 수집하고 전송할 수 있다. 하나의 실시예에서, 서버(302)는 워싱턴 레드몬드의 마이크로소프트사에 의해 개발된 마이크로소프트 스피치 서버를 포함할 수 있고, 클라이언트(304)는 데스크톱 PC, 이동 장치 등을 포함하되 이에 제한되지 않는 상술된 임의의 개수의 형태를 취할 수 있다.
이 시점에서 서버(302) 및 클라이언트(304)가 서비스 모델에 기초하여 서로 통신함에도 불구하고, 본 발명의 양상을 환기시키는 애플리케이션은, 서버(302)와 클라이언트(304) 간의 통신이 서비스 모델 요청에 따라 수행되는 한 선언적 및/또는 순차적 기반 애플리케이션이 사용될 수 있다는 점에서, 서비스 모델에 기초하여 배타적으로 기입될 필요가 없다는 것을 유의해야 한다. 하나의 실시예에서, 클라이언트 애플리케이션은 C++, 자바, C# 또는 도 5에 기술된 HTML 기반 애플리케이션의 경우와 마찬가지로 브라우저를 필요로 하지 않는 기타 명령형 프로그래밍 언어로 구성될 수 있다.
CSTA(ECMA-269) 에디션 6의 중요한 양상은 SALT(Speech Application Language Tags)에 기초하는 향상된 음성 서비스이다. 새로이 추가된 특징으로는, 시스템(300)에서 구현될 수 있는 자동 스피치 인식, 스피치 검증, 스피커 아이덴티티, 스피커 검증 및 텍스트-대-스피치 합성이 있다. 이들 특징 중 전체 또는 일부는 자동화된 콜센터에서 제공된다. 본 발명의 양상은 네트워크 기반 스피치 서비스를 용이하게 하는 CSTA 서비스의 서브세트를 제공한다. 특히, 본 발명의 일부 양상은, ECMA-348 및 uaCSTA(ECMA-TR/87)이 웹 서비스 및 SIP(Session Initiated Protocol) 기반 VoIP(Voice-over Internet Protocol) 환경에서 분산 스피치 서비스를 용이하게 하기 위해 각각 어떻게 적용될 수 있는가를 도시한다.
CSTA ECMA 269에 대한 서비스 및 그 XML 및 웹 서비스 프로토콜이 ECMA-323 및 ECMA-348에 의해 각각 정의된다. 최근, ECMA TR/87(uaCSTA)은 VoIP 환경에서 ECMA-323을 이용하기 위해 SIP 협약 세트를 또한 설명한다. 이들 모든 프로토콜은 대체로 CSTA의 전체 세트를 다루고, 따라서 특별히 음성 서비스에 적용될 수 있다. ECMA-269의 6번째 에디션에서, CSTA의 음성 서비스부는 SALT로부터 도출된 기술에 기초하여 증가되어 왔다. 기존의 음성 서비스 외에 콜센터 자동화 및 이동 애플리케이션에 필수적인, 자동 스피치 인식, 스피치 검증, 스피커 식별, 스피커 검증 및 텍스트-대-스피치 합성 등과 같은 주요 특징이 새로이 추가되었다.
콜 제어 및 음성 시나리오를 단단하게 통합하는 CSTA 구현이 애플리케이션 개발자에게 바람직할지라도, 콜 제어와 스피치 벤더 간의 핵심 능력이 동일할 필요는 없다. 현재의 배치 및 예상할 수 있는 미래에 대해, CSTA 애플리케이션 개발자는 다수의 벤더들을 관련시켜(involve), 이 영역에서의 그들 각각의 요구를 충족시킬 필요가 있다. 다행히, ECMA-269에 도시된 대로, CSTA 모델링 개념은 단일 애플리케이션이 다수의 CSTA 서비스 제공자로부터 서비스를 이끌어낼 수 있도록 한다. 그러므로, 이것은 CSTA 애플리케이션이 CSTA의 두 개의 구현, 즉 콜 제어를 위한 하나 및 음성 서비스를 위한 또 다른 하나를 동시에 활용하는 유효한 시나리오이다.
스피치 서비스의 CSTA 프로필은 콜 제어 영역에서만큼 상세히 논술되지 못했다. 본 발명의 양상은 XML을 사용하는 플랫폼 독립 수단에서 스피치 서비스를 제공하는 CSTA 프로필을 설명한다. CSTA 프로필이 사실상 불가지론적인(agnostic) 전송(a transport)이지만, 엔드-투-엔드 상호작용을 좀 더 증진시키기 위해 스피치 서비스 프로필의 두 개의 일반적인 애플리케이션, 소 사용 CSTA에 기초한 SIP 환경 및 ECMA-348에 기초하는 웹 서비스 기반 환경이 본 명세서에서 예시된다.
본 명세서에 제공된 설명은, 클라이언트-서버 기반 스피치 처리를 용이하게 하기 위해 CSTA 음성 서비스의 서브세트가 어떻게 포함될 수 있는지에 대한 예제를 제공한다. 이하의 ECMA 표준은 그 전체를 참조함으로써 본 명세서에 포함된다:CSTA 단계 III에 대한 ECMA-269 서비스; CSTA 단계 III에 대한 ECMA-323, SMLP 프로토콜; 및 CSTA에 대한 ECMA-348 WSDL(Web Service Description Language). 또한, 본 발명은 CSTA 스피치 서비스가 usCSTA 제안을 사용하는 SIP 기반 VoIP 환경에 어떻게 구현될 수 있는가를 설명한다. ECMA TR/87은 usCSTA에 대한 참조로서 사용되어야 하고, 그것의 복사는 참조로서 본 명세서에 포함된다.
본 명세서에 설명된 클라이언트-서버 기반 스피치 처리는 응답/요청 주기(cycle)의 비대칭 미디어 유형을 처리할 수 있다. 예를 들어, 스피치 인식 서비스를 제공하는 데에 있어, 클라이언트는 오디오 데이터를 서버로 전송한다. 서버는 그 오디오 데이터를 텍스트 데이터로 변환하고, 그 변환된 데이터를 다시 클라이언트로 전송한다. 스피치 합성의 경우, 클라이언트는 텍스트 데이터를 전송하고, 서버는 변환된 오디오 데이터로 응답한다. 전송된 데이터는 CSTA에 기반한 것과 같은 지정된 프로토콜에 따라 전송될 수 있다. 그 결과, SIP 및 웹 서비스 환경은 확장되어 텍스트-오디오 또는 오디오-텍스트 오디오-인-오디오 상호작용을 포함할 수 있다.
ECMA TR/87은 도 6에 도시된 대로 "신호 채널"(308) 전송을 확립한다. 신호 채널(308)은 콜 제어와 관련될 때 서버(302)와 클라이언트(304)가 해야만 하는 것에 대한 정보를 교환하기 위해 이들에 의해 사용된다. 서버(302)가 전화 교환기를 포함하는 경우, 신호 채널(308)의 사용은 충분하다. 그러나, 서버(304)가 스피치 서버이고 클라이언트(304)가 스피치 서비스를 요청하는 경우, 서버(302)는 또한 스 피치 정보를 어디서 수신하고 어디로 전송해야 하는지를 알아야만 한다. 예를 들어, 서버(302)는 스피치 인식 정보를 어디에서 획득하는지, 합성된 스피치를 어디로 전송해야 하는지를 알아야만 한다.
그러므로, 신호 채널(308)을 확립하는 것 외에, "미디어 채널"(310) 프로토콜이 또한 반드시 확립되어야 한다. 예를 들어, 미디어 채널(310)은 클라이언트(304)에 의해 수집된 스피치 데이터(오디오 데이터)를 서버(302)로 전송하는 데에 이용된다. 마찬가지로, 텍스트-대-스피치 동작에서, 클라이언트(304)는 신호 채널(308)을 통해 텍스트 데이터를 전송할 수 있고, 합성된 스피치 데이터는 미디어 채널(310)을 통해 서버(302)로부터 클라이언트(304)로 다시 제공된다.
도 5의 아키텍처에 관해, 신호 채널(308) 및 미디어 채널(310)은 스피치 서버(204)로의 임의의 통신을 위해 확립된다. 그러나, 웹 애플리케이션 서버(202)를 사용하는 것은 선택가능하고, 애플리케이션은 도 5에 도시된 대로 클라이언트(30)에 상주할 수 있다는 것을 유의한다.
본 발명의 한가지 양상은 미디어 채널(310)을 구현하기 위해 어떤 단계가 취해져야 하는가이다. 한 예시적인 실시예에서, SIP 환경의 CSTA에 대한 미디어 채널(310)을 확립하는 것이 설명된다. 추가의 예시적인 실시예에서, 웹 서비스 기반 환경의 CSTA에 대해 미디어 채널(310)을 구현하기 위해 어떤 단계가 취해져야 하는가가 설명된다.
예를 들어, 리스너 자원에 의해 리턴되는 결과 즉 스피치 인식으로 서버(302)에 의해 리턴되는 결과에 대해 XML 스키마를 지정할 수 있는 시맨틱 정보가 SADL를 사용함으로써 서버(302)와 클라이언트(304) 간에 전송될 수 있다는 것을 유의할 가치가 있다.
SIP 환경에서의 채널 확립
SIP은 격의없게(chatty) 설계된 프로토콜로서, 서버(302)와 클라이언트(304)는 작은 단위의 정보를 자주 교환한다. SIP 환경에서, 미디어 채널(310)의 확립은 SDP(Session Description Protocol)을 통해 달성된다. 이 태스크를 달성하는 예시적인 방법(400)이 도 7에 도시되어 있다.
단계(402)에서, 클라이언트(304)는 SIP-초청(Invite)을 이용하여 서버(302)와의 세션을 개시한다. 사용될 IP 주소 및 오디오를 위해 사용될 IP 주소상의 포트를 선언하는 SDP 설명 또한 전송된다. 또한, 단계(404)에서, SDP 설명은 미디어 스트림 및 TCP 또는 RTP(Real-time Transport Protocol)와 같은 통신 프로토콜에 대해 어느 코덱 유형의 인코딩이 사용되는가를 알릴 것이다.
서버에 의해 수신되자마자, 서버는 단계(406)에서 클라이언트(304)에 의해 진술된 SDP 설명을 수락할 것인지 여부를 결정할 수 있다. 프로토콜 및 코덱이 수락될 경우, 서버(302)는 SIP 오케이 및 그 IP 주소 및 오디오 포트를 나열하는 자기 고유의 SDP 설명으로 응답한다. 이후, 방법(400)은 단계(408)로 진행하고, 여기서 신호 채널이 확립된다.
대안에서, 서버(302)가 제안된 코덱 또는 프로토콜을 지원하지 않는 경우, 서버(302)는 어느 코덱 및/또는 프로토콜이 사용될 것인가에 관해 클라이언트(304)와 협상을 시작할 수 있다. 다시 말해, 서버(302)는 서로 다른 코덱 및/또는 프로 토콜을 제안하는 대응 제안(a counter-offer)으로 클라이언트(304)의 초기 SDP 설명에 응할 것이다. 제안하기 전에, 방법(400)은 단계(410)로 진행하고, 여기서 인식이 계속되어야 하는지에 관해 판정한다. 예를 들어, 단계(412)에서, 지정된 갯수의 대응 제안이 제안된 후, 통신은 중지될 것이다. 단계(414)에서, 합의에 도달할 때까지 또는 더 이상 합의에 도달하지 않을 것이 명백해질 때까지 클라이언트(304)와 서버(302) 간에 추가의 대응 제안이 있을 수 있다.
SIP/SDP는 VoIP에서 오디오 채널을 확립하는 데에 사용되고 IETF(Internet Engineering Task Force)에 의해 승인된 표준이다. 그러나, SIP/SDP는 CSTA를 구현하는 신호 채널을 확립하는 방법을 설명하지 않는다. 단계(408)에서, 신호 채널(308)은 ECMA-TR/87 별로 확립된다. 신호 채널의 확립 이후, 애플리케이션 연합은 완료된 것으로 간주된다. 그 결과, 분산 스피치 서비스는 시스템(300)에서 구현된다.
웹 서비스 환경에서의 채널 확립
상술된 SIP의 "격의 없는" 속성과 대조적으로, 웹 서비스는 서버(302)와 클라이언트(304) 간에 대화상자 교환이 거의 필요 없도록 "짧은(chunky)" 통신용으로 설계되고 종종 최적화된다. 그 결과, SIP의 다수의 대화상자 표현(turns)에서 협상된 특징은, 웹 서비스에 대한 공용 디렉토리에 발행되거나 또는 웹 서비스 메타데이터 교환에서 동적으로 획득되는 서비스 설명을 통해 일반적으로 설명되고 탐색될(discovered) 수 있다. 웹 서비스 환경은 UDDI(Uniform Description Discovery Integration) 표준 프로토콜을 포함한다. 웹 서비스 제공자는 애플리케이션 개발 자가 탐색하고, 획득하여 적절한 서비스 제공자(이것은 애플리케이션 개발자로 하여금 애플리케이션의 웹 서비스를 동적으로 통합할 수 있도록 함)를 선택할 수 있게 하는 관련 정보를 발행한다. 예를 들어, ECMA-348은 표준 웹 서비스 프로토콜을 사용하여 CSTA 기능을 제공하는 웹 서비스가 균일하게 설명되고, 탐색되고 통합될 수 있도록 CSTA에 대한 WSDL을 지정한다. 미디어 채널의 확립은 ECMA-348에 대한 확장이다.
도 8은 웹 서비스 환경에서 채널을 확립하는 예시적인 방법(420)을 도시한다. 본 발명에서, 단계(422)에서 웹 서비스 제공자는 웹 서비스에 의해 지원되는 모든 코덱 및 프로토콜을 서비스 메타데이터로서 나열한다. 단계(424)에서 애플리케이션 개발자는 웹 서비스 디렉토리 제공자를 활용하여 어느 웹 서비스가 자신이 사용할 수 있는 코덱 및 프로토콜을 지니는가를 획득하거나 또는 탐색한다. 이 단계는 웹 서비스가 필요로 하는 원하는 코덱 및 프로토콜을 찾기 위해 제공되는 웹 서비스 각각의 메타데이터 전체를 검색함으로써 수행될 수 있다. 디렉토리는 각각의 웹 서비스에 대해 URL(Universal Resource Locator) 주소를 제공한다. 이후 클라이언트(304)는 웹 서비스로 접속하고 서버(302)와의 통신을 위해 원하는 코덱 및 프로토콜로 애플리케이션을 사용한다. 접속된 후, 미디어 채널(310) 및 그 신호 채널(308)은 한꺼번에 확립된다.
웹 서비스 환경 하의 본 발명에서는, WSDL로의 미디어 설명 확장을 통해 하나의 교환에서 모든 레벨(애플리케이션 및 전송)을 통한 접속 확립 방법을 해결하고자 한다. 하나의 실시예에서, 본 발명은 ECMA-348과 함께 적용될 수 있는데, ECMA-348은 CSTA 및 그것의 기초가 되는 신호 통신 프로토콜을 확립하기 위한 메커니즘을 이미 지니고 있다. 미디어 코딩 및 전송 프로토콜 확장을 ECMA-348에 추가함으로써, CSTA는 향상되어 단일 단계에서 신호 및 미디어 채널을 확립한다.
또 다른 실시예에서, 미디어 설명은 CSTA 애플리케이션 연합에 선행하는 단계로서 웹 서비스 어드레싱, 즉 WS-어드레싱, 프로토콜의 확장성을 이용하여 전달된다. WA-어드레싱(WAS)은 웹 서비스 종점(endpoint) 및 메시지를 어드레스하기 위한 전송 중립 메커니즘을 제공하는 사양이다. CSTA 전환 함수 및 CSTA 애플리케이션 둘 다 웹 서비스 종점이다. WS-어드레싱은 종점 참조라 불리는 새로운 사양을 도입하고, 이것은 WSDL의 <wsdl:service> 및 <wsdl:port> 구성요소로 적절하게 커버되지 않는 서비스의 동적 사용을 지원한다.
WS-어드레싱은 종점 참조를 나타내기 위해 XML 문서 유형(wsa:EndpointReferenceType)을 정의한다. XML 구성요소, wsa:EndpointReference는 또한 그 유형을 갖도록 지정된다. 둘 다 XML 이름공간 http://schemas.xmlsoap.org/ws/2004/03/addressing에 상주한다.
WSA 종점 참조 유형은 이하를 포함할 수 있다:
[주소] : URI는 종점을 나타낸다.
[참조 속성]:<xs:any/>(0..무한), 고유의 속성, 각각의 엔티티 또는 자원에 대해 하나가 전달된다.
[선택된 포트 유형]:QName(0..1), 종점에 대해 WSDL에 정의된 대로 주요 포트 유형의 이름.
[서비스 및 포트]:(QName, NCName(0..1))(0..1), WSDL에 정의된 대로, 종점에 대응하는 서비스 및 포트.
[정책]:종점의 행동, 요구사항 및 기능을 설명하는 선택가능한 WS-정책 구성요소.
SIP의 경우에서 그러하듯이, CSTA 스피치 서비스에 대해 오디오 채널을 확립하는 것이 필요하다. 오디오 채널이 SDP를 통해 SIP에서 협상될 수 있기 때문에, WSA 종점 참조는 미디어 종점을 선언하기 위해 스피치 서비스 제공자에 대해 사용될 수 있다. 필수 항목 중에 미디어 전송 프로토콜 및 코딩 메커니즘은 스피치 서비스를 용이하게 하기 위해 지정될 필요가 있다. 이러한 항목은 참조 속성으로 선언된다.
견고함을 개선시키기 위해, 웹 서비스 환경의 미디어 채널은 서버(CSTA 음성 자원 제공자)로부터 클라이언트(CSTA 애플리케이션)로 리스(lease)로서 모델링되고, 리스는 시간이 흐름에 따라 만료된다. 서버는 또한 클라이언트가 리스를 취소하거나 갱신할 수 있는 리스 관리자를 지정할 수 있다.
XML 스키마로, CSTA 미디어 종점 참조 유형은 하나 또는 다수의 WSA 종점 참조를 포함한다. 예를 들어, 포트(6060)에서 RTP상에 G.711 프로토콜을 활용하는 CSTA 스피치 서비스 제공자는 다음와 같이 미디어 전송을 설명할 수 있다:
Figure 112005049267715-PAT00001
CSTA 미디어 종점 참조 속성은 코덱 선언, 가입 식별자 및 선택가능한 리스 만료 선언을 포함한다. 미디어 채널이 신호 채널과 함께 확립되는 uaCSTA의 경우, 위의 미디어 종점 참조는, 웹 서비스 환경하의 CSTA 애플리케이션 연합 프로세스가 완료되었다고 간주되기 전에 반드시 포함되어야 한다.
WS 프로토콜의 확장성을 이용하여, 스피치 세션은 <wsa:Action>을 이용하여 확립될 수 있다. 미디어 종점 참조는 그 자체가 CSTA 웹 서비스 제공자의 종점 참조에서 참조 속성이 될 수 있다. SOAP(Simple Object Access Protocol) 메시지는 이하와 같이 <wsa:To> 바로 뒤에 미디어 종점 참조를 첨부함으로써 구성된다.
Figure 112005049267715-PAT00002
웹 서비스는 WS-정책 및 WSDL과 같은 메타데이터에 의해 설명된다. WS-정책은 서비스의 일반적인 기능, 요구사항 및 특징을 설명하고, WSDL은 웹 서비스에 도달하기 위한 추상 메시지 동작, 구체적인 네트워크 프로토콜 및 주소를 설명한다. 웹 서비스 메타데이터 교환, WS-MEX 또는 WSX는 메타데이터의 검색을 초기 적재(bootstrap)하는 사양이다. 클라이언트는 자신의 메타데이터를 획득하기 위해 종점으로 WS-MEX 요청을 전송할 수 있다. SOAP를 이용하는 요청에 대한 규범적 개요는 이하와 같다:
Figure 112005049267715-PAT00003
SOAP 헤더에 도시된 대로, WS-MEX는 메타데이터 검색용 요청을 지정하기 위해 WS-어드레싱을 사용한다. 목표가 되는 서비스는 <wsa:To>에 URI로서 지정되고, 응답 종점은 <wsa:ReplyTo>의 내용에서 WS-어드레싱 종점 참조를 사용하여 지정된다. 검색될 메타데이터 유형은 SOAP 바디(body)의 <wsx:GetMetadata>의 내용에 지정된다.
종점이 GetMetadata 요청을 수락하는 경우, 그것은 GetMetadata 응답 메시지로 응답해야 한다. SOAP의 응답에 대한 규범적 개요는 이하와 같다:
Figure 112005049267715-PAT00004
SOAP 바디에서 전달된 후, 메타데이터는 <wsa:Metadata> 구성요소의 내용으로서, 또는 WS-어드레싱 종점 참조 또는 단순하게 URI를 이용하는 참조에 의해 인라인으로 리턴될 수 있다.
상기 SOAP 메시지는 이하와 같은 WSDL 바인딩을 지닐 수 있다:
Figure 112005049267715-PAT00005
CSTA 미디어 설명은 CSTA 애플리케이션이 음성 서비스 제공자로부터 반드시 획득해야 하는 메타데이터 유형이다. WS-MEX는 여기에 특히 적합하다. 이하는 미디어 종점 참조를 검색하는 견본 SOAP 메시지이다:
Figure 112005049267715-PAT00006
예제는 client.example.com에 위치하고, server.acme.org의 CSTA 스피치 서비스 제공자로부터 미디어 종점 참조를 요청하는 클라이언트 애플리케이션을 설명한다(demonstrate). 고유의 표현법이 지정되기 때문에, 서버는 반드시 원하는 유형의 메타데이터만을 응답해야 한다. SOAP 응답 메시지는 다음과 같을 것이다:
Figure 112005049267715-PAT00007
스피치 애플리케이션 설명은 스피치 서비스가 제공할 수 있는 또 다른 유형의 메타데이터이다. 다수의 메타데이터 유형은 <wsx:GetMetadata>를 <wsx:Dialect>를 통해 그들 각각의 URI로 파퓰레이트함으로써 동시에 획득될 수 있다. 이하는 미디어 종점과 스피치 애플리케이션 참조 둘 다를 획득하는 SOAP 바디 의 예제이다:
Figure 112005049267715-PAT00008
비록 웹 서비스가 단방향, 요청 및 응답 모델로 시작하지만, 웹 서비스는 종 종 이벤트가 다른 서비스 또는 애플리케이션에서 발생할 때에 메시지를 수신하기를 원한다. 웹 서비스 이벤팅, 또는 WS-이벤팅(WS-eventing:WSE)은 이벤트 통보를 용이하게 하기 위한 사양이다. WS-이벤팅은 하나의 웹 서비스가 다른 서비스 또는 애플리케이션을 대신하여 어떻게 이벤트에 가입할 수 있는지를 정의하고, 애플리케이션으로 하여금 이벤트 메시지가 전달되는 방법을 지정하도록 한다. 이것은 각종 이벤팅 토폴로지를 지원하고, 이벤트 소스 및 최종 이벤트 싱크가 분리되도록 한다. 이 속성은 콜센터에서 이동 컴퓨팅에 이르기까지 각종 범위의 CSTA 애플리케이션에 적합하다. CSTA 음성 서비스가 기능하기 위해 이벤트 통보를 필요로 하기 때문에 WS-이벤트가 사용된다.
본 발명이 특정 실시예에 관해 설명되었지만, 당업자들은 본 발명의 취지 및 범위를 벗어나지 않고 형태 및 상세사항에 변경이 있을 수 있다는 것을 이해할 것이다.
본 발명은 클라이언트와 서버 간에 미디어 채널 및 신호 채널(signaling channel)을 확립하는 것에 관한 것으로서, 미디어 채널은 통신을 위해 선택된 코덱 및 프로토콜을 사용한다. 미디어 채널 및 신호 채널을 통해, 클라이언트상의 애플리케이션은 서버상의 스피치 서비스를 활용할 수 있다.

Claims (20)

  1. 클라이언트와 서버 간의 통신 방법에 있어,
    미디어 채널을 확립하는 단계;
    신호 채널을 확립하는 단계; 및
    상기 미디어 채널 및 상기 신호 채널 중 적어도 하나를 통해 상기 클라이언트와 상기 서버 간에 정보를 교환하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 미디어 채널을 확립하는 단계는 코덱 및 프로토콜을 확립하는 단계를 더 포함하는 방법.
  3. 제1항에 있어서, 상기 정보를 교환하는 단계는 SIP(Session Initiation Protocol) 환경에서 수행되는 방법.
  4. 제1항에 있어서, 상기 정보를 교환하는 단계는 웹 서비스 환경에서 수행되는 방법.
  5. 제1항에 있어서, 상기 미디어 채널을 확립하는 단계는 상기 미디어 채널에 사용될 코덱 및 프로토콜을 제안하는 단계를 포함하는 방법.
  6. 제1항에 있어서, 상기 미디어 채널을 확립하는 단계는 인터넷 프로토콜 주소 및 이와 관련된 포트를 선언하는 단계를 포함하는 방법.
  7. 제1항에 있어서, 상기 미디어 채널을 확립하는 데에 사용될 적어도 하나의 코덱 및 적어도 하나의 프로토콜의 목록을 제공하는 단계를 더 포함하는 방법.
  8. 제7항에 있어서, 상기 미디어 채널을 확립하기 위해 상기 목록을 참조하는 단계를 더 포함하는 방법.
  9. 제1항에 있어서, 상기 정보를 교환하는 단계는 상기 미디어 채널을 통해 스피치 데이터를 전송하는 단계를 포함하는 방법.
  10. 스피치 서비스를 제공하는 명령어를 포함하는 컴퓨터 판독가능 매체에 있어서, 상기 명령어는,
    확립된 신호 프로토콜에 따라 신호 채널을 통해 신호 정보를 수신하는 것;
    확립된 코덱 및 프로토콜에 따라 미디어 채널을 통해 스피치 정보를 수신하는 것; 및
    상기 신호 정보 및 상기 스피치 정보를 처리하는 것
    을 포함하는 컴퓨터 판독가능 매체.
  11. 제10항에 있어서, 상기 명령어는 상기 스피치 정보에 대해 스피치 인식을 수행하는 것을 더 포함하는 컴퓨터 판독가능 매체.
  12. 제10항에 있어서, 상기 명령어는 SIP 환경에서 세션을 확립하는 것을 더 포함하는 컴퓨터 판독가능 매체.
  13. 제10항에 있어서, 상기 신호 정보 및 상기 스피치 정보를 처리하는 것은 웹 서비스 환경에서 수행되는 컴퓨터 판독가능 매체.
  14. 제10항에 있어서, 상기 명령어는 CSTA(Computer Supported Telecommunication Application) 인터페이스를 제공하는 것을 더 포함하는 컴퓨터 판독가능 매체.
  15. 제10항에 있어서, 상기 명령어는 SOAP(Simple Object Access Protocol) 메시지를 해석하는 것을 더 포함하는 컴퓨터 판독가능 매체.
  16. 제10항에 있어서, 상기 명령어는 상기 스피치 정보를 상기 스피치 정보에 포함된 시맨틱 정보를 식별하도록 처리하는 것을 더 포함하는 컴퓨터 판독가능 매체.
  17. 제10항에 있어서, 상기 명령어는 IP(Internet Protocol) 주소와 관련된 지정 포트로 정보를 전송하는 것을 더 포함하는 컴퓨터 판독가능 매체.
  18. 제10항에 있어서, 상기 명령어는 SOAP 메시지를 전송하는 것을 더 포함하는 컴퓨터 판독가능 매체.
  19. 컴퓨터 네트워크의 정보를 처리하는 방법에 있어서,
    SIP 환경 및 웹 서비스 환경 중 하나에서 클라이언트와 서버 간의 관계를 확립하는 단계;
    지정된 프로토콜에 따라 상기 클라이언트로부터 상기 서버로 오디오 데이터 또는 텍스트 데이터를 포함하는 데이터를 전송하는 단계;
    상기 데이터가 오디오 데이터인 경우 오디오 데이터로부터 텍스트 데이터로 상기 데이터를 변환하고, 상기 데이터가 텍스트 데이터인 경우 텍스트 데이터로부터 오디오 데이터로 상기 데이터를 변환하는 단계; 및
    상기 지정된 프로토콜에 따라 상기 서버로부터 상기 클라이언트로 변환된 데이터를 전송하는 단계
    를 포함하는 방법.
  20. 제19항에 있어서, 상기 지정된 프로토콜은 CSTA에 기초하는 방법.
KR1020050081703A 2004-10-22 2005-09-02 분산 스피치 서비스 Expired - Fee Related KR101265808B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US62130304P 2004-10-22 2004-10-22
US60/621,303 2004-10-22
US11/058,892 US8396973B2 (en) 2004-10-22 2005-02-16 Distributed speech service
US11/058,892 2005-02-16

Publications (2)

Publication Number Publication Date
KR20060091695A true KR20060091695A (ko) 2006-08-21
KR101265808B1 KR101265808B1 (ko) 2013-05-20

Family

ID=35695963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050081703A Expired - Fee Related KR101265808B1 (ko) 2004-10-22 2005-09-02 분산 스피치 서비스

Country Status (11)

Country Link
US (1) US8396973B2 (ko)
EP (1) EP1650925A3 (ko)
JP (1) JP4993656B2 (ko)
KR (1) KR101265808B1 (ko)
AU (1) AU2005211611B2 (ko)
BR (1) BRPI0504081A (ko)
CA (1) CA2518978C (ko)
MX (1) MXPA05010163A (ko)
MY (1) MY151285A (ko)
RU (1) RU2455783C2 (ko)
TW (1) TWI368425B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002779A3 (en) * 2010-07-01 2012-04-12 Samsung Electronics Co., Ltd. Method and apparatus for selecting video codec to be used between stations

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396973B2 (en) * 2004-10-22 2013-03-12 Microsoft Corporation Distributed speech service
US8725514B2 (en) * 2005-02-22 2014-05-13 Nuance Communications, Inc. Verifying a user using speaker verification and a multimodal web-based interface
US8224975B1 (en) * 2006-05-24 2012-07-17 Avaya Inc. Web service initiation protocol for multimedia and voice communication over internet protocol
US9198084B2 (en) * 2006-05-26 2015-11-24 Qualcomm Incorporated Wireless architecture for a traditional wire-based protocol
DE102006031080B4 (de) * 2006-07-05 2008-04-30 Siemens Ag Verfahren und Kommunikationsendgerät zum Bereitstellen von VoIP
FR2909822B1 (fr) * 2006-12-06 2010-04-30 Radiotelephone Sfr Procede et systeme de controle de l'etablissement de canaux de communication pour permettre une transmission d'informations multimedia.
US8528058B2 (en) * 2007-05-31 2013-09-03 Microsoft Corporation Native use of web service protocols and claims in server authentication
US8667144B2 (en) * 2007-07-25 2014-03-04 Qualcomm Incorporated Wireless architecture for traditional wire based protocol
EP2058988B1 (en) * 2007-09-13 2012-04-04 Huawei Technologies Co., Ltd. A method and system for route selecting in the ip multimedia subsystem
US20090193392A1 (en) * 2008-01-29 2009-07-30 Michael David Downen Dynamic intermediate language modification and replacement
US8811294B2 (en) * 2008-04-04 2014-08-19 Qualcomm Incorporated Apparatus and methods for establishing client-host associations within a wireless network
US8467306B2 (en) 2008-12-04 2013-06-18 At&T Intellectual Property I, L. P. Blending telephony services in an internet protocol multimedia subsystem
US9398089B2 (en) * 2008-12-11 2016-07-19 Qualcomm Incorporated Dynamic resource sharing among multiple wireless devices
FR2940732B1 (fr) * 2008-12-31 2011-06-03 Cy Play Procede d'echange de donnees entre une application s'executant sur un serveur distant et un terminal mobile
US8909803B2 (en) 2009-03-16 2014-12-09 Apple Inc. Accessory identification for mobile computing devices
US8452903B2 (en) * 2009-03-16 2013-05-28 Apple Inc. Mobile computing device capabilities for accessories
US9264248B2 (en) 2009-07-02 2016-02-16 Qualcomm Incorporated System and method for avoiding and resolving conflicts in a wireless mobile display digital interface multicast environment
US9582238B2 (en) * 2009-12-14 2017-02-28 Qualcomm Incorporated Decomposed multi-stream (DMS) techniques for video display systems
BR112013001884B1 (pt) 2010-08-10 2021-06-29 Telefonaktiebolaget Lm Ericsson (Publ) Método em um cliente de mídia, método para controlar uma transmissão de um fluxo de mídia, cliente de mídia, entidade de controle, e, método em uma entidade de controle
US9785482B2 (en) * 2010-09-17 2017-10-10 Oracle International Corporation System and method for extending a web service environment to support scalable asynchronous clients
US9065876B2 (en) 2011-01-21 2015-06-23 Qualcomm Incorporated User input back channel from a wireless sink device to a wireless source device for multi-touch gesture wireless displays
US9787725B2 (en) 2011-01-21 2017-10-10 Qualcomm Incorporated User input back channel for wireless displays
US9413803B2 (en) 2011-01-21 2016-08-09 Qualcomm Incorporated User input back channel for wireless displays
US20130013318A1 (en) 2011-01-21 2013-01-10 Qualcomm Incorporated User input back channel for wireless displays
US10135900B2 (en) 2011-01-21 2018-11-20 Qualcomm Incorporated User input back channel for wireless displays
US8964783B2 (en) 2011-01-21 2015-02-24 Qualcomm Incorporated User input back channel for wireless displays
US10108386B2 (en) 2011-02-04 2018-10-23 Qualcomm Incorporated Content provisioning for wireless back channel
US9503771B2 (en) 2011-02-04 2016-11-22 Qualcomm Incorporated Low latency wireless display for graphics
US8674957B2 (en) 2011-02-04 2014-03-18 Qualcomm Incorporated User input device for wireless back channel
US9525998B2 (en) 2012-01-06 2016-12-20 Qualcomm Incorporated Wireless display with multiscreen service
US9306879B2 (en) 2012-06-08 2016-04-05 Apple Inc. Message-based identification of an electronic device
US9787749B2 (en) 2013-03-15 2017-10-10 Avaya Inc. Method, apparatus, and system for providing and using multi-protocol eventing
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9749422B2 (en) * 2014-12-05 2017-08-29 Unify Gmbh & Co. Kg Method and system for telecommunication device monitoring
DE102014019240A1 (de) * 2014-12-19 2016-07-07 Unify Gmbh & Co. Kg Telekommunikationssystem sowie Verfahren zum flexiblen Steuern des Telekommunikationssystems durch einen durch eine Applikation an eine Plattform erteilten Schaltauftrag
US9672831B2 (en) * 2015-02-25 2017-06-06 International Business Machines Corporation Quality of experience for communication sessions
CN113037751B (zh) * 2021-03-09 2023-10-31 北京字节跳动网络技术有限公司 创建音视频接收流的方法及系统
CN114710471B (zh) * 2022-03-21 2024-07-16 京东科技信息技术有限公司 基于网络的客服语音通信方法、装置、电子设备及介质

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0529864B1 (en) 1991-08-22 2001-10-31 Sun Microsystems, Inc. Network video server apparatus and method
JP2000515692A (ja) * 1995-12-12 2000-11-21 ザ ボード オブ トラスティーズ オブ ザ ユニバーシティー オブ イリノイ 性質限定システム上でリアルタイムの動画及び音声情報を伝送し読み出すための方法及び装置
GB9621524D0 (en) * 1996-10-16 1996-12-04 British Telecomm Multimedia call centre
US5960399A (en) 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6934277B1 (en) 1998-02-26 2005-08-23 Rockwell Electronic Commerce Technologies, Llc Internet web site with audio interconnect and automatic call distributor
US6385586B1 (en) 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6597702B1 (en) * 1999-05-06 2003-07-22 Cisco Technology, Inc. Fast connect option for enforcing symmetric codec capabilities
US6885658B1 (en) * 1999-06-07 2005-04-26 Nortel Networks Limited Method and apparatus for interworking between internet protocol (IP) telephony protocols
US6404746B1 (en) * 1999-07-13 2002-06-11 Intervoice Limited Partnership System and method for packet network media redirection
US6832088B1 (en) * 1999-07-19 2004-12-14 Telefonaktiebolaget Lm Ericsson Implementation of basic call setup transporting layer address and logical point in backward direction in cellular networks with separation of call control and bearer control
US6757732B1 (en) * 2000-03-16 2004-06-29 Nortel Networks Limited Text-based communications over a data network
US6977911B1 (en) * 2000-07-31 2005-12-20 Cisco Technology, Inc. Scalable voice over IP system configured for dynamically switching codecs during a call
US7035248B2 (en) * 2000-08-10 2006-04-25 Alcatel Switch with emulation client
US6970935B1 (en) * 2000-11-01 2005-11-29 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
ATE434903T1 (de) * 2000-12-22 2009-07-15 Nokia Corp Verfahren und system für den aufbau einer multimedia verbindung durch austausch der übertragungskapazitäten in einem ausserband- signalisierungskanal
NO20010069L (no) * 2001-01-05 2002-07-08 Ericsson Telefon Ab L M Flerbrukerapplikasjoner i multimedianett
JP2002215670A (ja) 2001-01-15 2002-08-02 Omron Corp 音声応答装置、音声応答方法、音声応答プログラム、音声応答プログラムを記録した記録媒体および予約システム
US7319979B2 (en) * 2001-03-29 2008-01-15 Intel Corporation Dynamically interacting with an internet service using a client-specified communication proxy and protocol
JP2003006106A (ja) 2001-06-18 2003-01-10 Hitachi Software Eng Co Ltd コールセンタにおける携帯端末向けコンテンツの作成方法及び装置並びにシステム
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US20030023730A1 (en) * 2001-07-27 2003-01-30 Michael Wengrovitz Multiple host arrangement for multimedia sessions using session initiation protocol (SIP) communication
US20030121002A1 (en) 2001-12-20 2003-06-26 Stuart Goose Method and system for exchanging information through speech via a packet-oriented network
EP2571230A1 (en) * 2002-01-15 2013-03-20 Avaya Inc. Communication application server for converged communication services
US6704396B2 (en) * 2002-02-27 2004-03-09 Sbc Technology Resources, Inc. Multi-modal communications method
US7136480B2 (en) 2002-06-26 2006-11-14 Siemens Communications, Inc. Methods and apparatus for processing a call
JP2004032579A (ja) 2002-06-28 2004-01-29 Fujitsu Ltd 電話網を介する予約サービスシステム及び予約サービス受付け処理方法
ES2229073T3 (es) * 2002-08-08 2005-04-16 Alcatel Interceptacion legal de llamadas voip en redes basadas en ip.
JP3999078B2 (ja) 2002-09-03 2007-10-31 沖電気工業株式会社 音声データ配信装置及び依頼者端末
US7340508B1 (en) * 2002-09-18 2008-03-04 Open Invention Network, Llc Exposing process flows and choreography controllers as web services
GB2395631B (en) 2002-11-22 2006-05-31 Hutchison Whampoa Three G Ip Reproducing speech files in mobile telecommunications devices
US7103156B2 (en) 2002-12-04 2006-09-05 International Business Machines Corporation Telephony voice server
US7644433B2 (en) 2002-12-23 2010-01-05 Authernative, Inc. Authentication system and method based upon random partial pattern recognition
US7474741B2 (en) * 2003-01-20 2009-01-06 Avaya Inc. Messaging advise in presence-aware networks
JP2004289803A (ja) 2003-03-04 2004-10-14 Omron Corp 対話システム、対話制御方法および対話制御プログラム
JP2004304612A (ja) 2003-03-31 2004-10-28 Omron Corp 情報交換システム
RU32655U1 (ru) * 2003-06-03 2003-09-20 Кучерявый Андрей Евгеньевич Коммутационная система
US7042871B2 (en) * 2003-07-23 2006-05-09 Mci, Llc Method and system for suppressing early media in a communications network
US8799478B2 (en) * 2004-03-01 2014-08-05 Avaya Inc. Web services and session initiation protocol endpoint for converged communication over internet protocol networks
US7561673B2 (en) * 2004-09-30 2009-07-14 Microsoft Corporation Integration of speech services with telecommunications
US8396973B2 (en) * 2004-10-22 2013-03-12 Microsoft Corporation Distributed speech service

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002779A3 (en) * 2010-07-01 2012-04-12 Samsung Electronics Co., Ltd. Method and apparatus for selecting video codec to be used between stations

Also Published As

Publication number Publication date
AU2005211611B2 (en) 2010-06-24
RU2005129428A (ru) 2007-04-10
RU2455783C2 (ru) 2012-07-10
MY151285A (en) 2014-04-30
JP4993656B2 (ja) 2012-08-08
US20060101146A1 (en) 2006-05-11
AU2005211611A1 (en) 2006-05-11
BRPI0504081A (pt) 2006-07-18
JP2006121673A (ja) 2006-05-11
US8396973B2 (en) 2013-03-12
EP1650925A3 (en) 2006-06-07
CA2518978A1 (en) 2006-04-22
TWI368425B (en) 2012-07-11
CA2518978C (en) 2014-04-08
TW200614762A (en) 2006-05-01
KR101265808B1 (ko) 2013-05-20
MXPA05010163A (es) 2006-04-26
EP1650925A2 (en) 2006-04-26

Similar Documents

Publication Publication Date Title
KR101265808B1 (ko) 분산 스피치 서비스
US7751535B2 (en) Voice browser implemented as a distributable component
JP4750139B2 (ja) パーベイシブ装置用のウェブ・サービスへの動的拡張可能な軽量アクセス
US7480286B2 (en) Method and apparatus for providing web service access to telephony functionality
US6801604B2 (en) Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7631104B2 (en) Providing user customization of web 2.0 applications
US20050097087A1 (en) System and method for providing a unified framework for service discovery
US20050066335A1 (en) System and method for exposing local clipboard functionality towards external applications
US20070226262A1 (en) Searching for services in a uddi registry
Colgrave et al. External matching in UDDI
CN1585335A (zh) 服务提供系统及其方法和装置、服务提供程序和记录媒体
US7319979B2 (en) Dynamically interacting with an internet service using a client-specified communication proxy and protocol
US7739389B2 (en) Providing web services from a service environment with a gateway
US20080275937A1 (en) Control Device, Method and Program for Providing Information
Chen et al. Service discovery in the future electronic market
CN1764190B (zh) 分布式语音服务
HK1090481A (en) Distributed speech service
Boari et al. Middleware for automatic dynamic reconfiguration of context-driven services
US20060168102A1 (en) Cooperation between web applications
JP2008134914A (ja) 複合サービス提供システムおよび方法
US20090063539A1 (en) XCAP and SIP Filter Chain State Transforms Via Dynamic Helper Functions for Internet Multimedia Subsystems
Albreshne et al. Web services technologies: State of the art
Eslami A Presence server for Context-aware applications
Liscano et al. Projecting Web services using presence communication protocols for pervasive computing
KR20110131623A (ko) 태그를 이용하여 통화 서비스를 제공하는 방법 및 시스템

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

A201 Request for examination
P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

R17-X000 Change to representative recorded

St.27 status event code: A-3-3-R10-R17-oth-X000

PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R13-asn-PN2301

St.27 status event code: A-5-5-R10-R11-asn-PN2301

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R11-asn-PN2301

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R14-asn-PN2301

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

St.27 status event code: A-4-4-U10-U13-oth-PC1903

Not in force date: 20160514

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

PC1903 Unpaid annual fee

St.27 status event code: N-4-6-H10-H13-oth-PC1903

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20160514

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000