KR20070028764A

KR20070028764A - 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템

Info

Publication number: KR20070028764A
Application number: KR1020050083086A
Authority: KR
Inventors: 정명기; 박영희; 이종창; 심현식
Original assignee: 삼성전자주식회사
Priority date: 2005-09-07
Filing date: 2005-09-07
Publication date: 2007-03-13
Anticipated expiration: 2025-09-07
Also published as: US20070055527A1; KR100724868B1

Abstract

본 발명은 다양한 음성 합성 기능을 구현한다. 이를 위해 본 발명은 클라이언트로부터 텍스트가 입력되면 입력된 텍스트를 분석하여 해당 합성기를 통해 음성 합성이 이루어지도록 제어하는 정합부와, 그 정합부의 제어하에 음성 합성을 수행하는 적어도 하나 이상의 합성기를 포함하여 구성되는 음성 합성 시스템을 구현한다. 그리고 본 발명은 음성 합성을 수행한 합성기로부터 합성 결과가 전달되면, 그 합성 결과에 배경음 또는 효과음을 적용할 수 있도록 하는 배경음 믹서와, 그 합성 결과에 음성 변조 효과를 줄 수 있도록 하는 변조 효과부를 더 구비한다. 이렇게 함으로써, 다양한 효과가 부여된 합성음을 출력하여 사용자에게 보다 유연하고 다양한 서비스를 제공할 수 있게 된다.

합성기, 음성 합성 시스템, 태그

Description

다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템{VOICE SYNTHETIC METHOD OF PROVIDING VARIOUS VOICE SYNTHETIC FUNCTION CONTROLLING MANY SYNTHESIZER AND THE SYSTEM THEREOF}

도 1은 본 발명의 실시 예에 따른 음성 합성 시스템의 구성도,

도 2는 본 발명의 실시 예에 따라 다양한 합성 기능을 수행하기 위한 음성 합성 시스템에서의 동작 흐름도,

도 3은 본 발명의 일 실시 예에 따른 음성 합성 요청 메시지의 한 예를 도시한 도면,

도 4는 본 발명의 실시 예에 따른 태그 테이블을 도시한 도면,

도 5는 본 발명의 실시 예에 따라 음성 합성 수행 과정을 도시한 도면.

본 발명은 음성 합성 방법 및 그 시스템에 관한 것으로, 특히 사용자의 기호에 따라 다양한 합성음을 출력시킬 수 있도록 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템에 관한 것이다.

일반적으로 음성 합성기는 사용자에게 다양한 형태의 정보를 음성으로 제공하는 역할을 수행하는데, 사용자는 이러한 음성 합성기를 이용하여 종래의 텍스트나 대화 상대로부터 제공되는 텍스트를 음성으로 출력하게 된다. 이와 같이 음성 합성기에 적용되는 음성 합성 기술은 입력된 텍스트를 언어 해석하고 이를 음성으로 합성하는 처리 과정을 통해 텍스트를 자연스러운 합성음으로 변환시켜 출력하는 것으로, TTS(Text-To Speech)를 통해 이루어진다.

TTS란 기호화된 문자 정보를 사람이 알아들을 수 있는 음성 정보로 변환하는 기술로서, 하나의 목소리와 언어를 이용하여 합성음을 출력한다. 즉, 기존의 음성 합성기는 문장 단위로 입력된 데이터를 합성음으로 출력하는 단순한 기능을 가지고 있다. 이러한 음성 합성기는 다국어, 또는 화자의 성별, 음색 변조 등 사용자가 원하는 방식으로 합성음을 출력할 수 있는 방법이 없어서 사용자 취향에 따라 유연하게 대처하지 못하고 있는 실정이다.

예를 들어, "한국어 + 남자 + 어른"이라는 특징을 가지는 음성 합성기를 이용할 경우에는 필요에 따라 문장 중간에 다양한 변화를 주고 싶어도 하나의 합성음만을 출력할 수 밖에 없는 실정이다. 따라서, 이러한 음성 합성기는 하나의 목소리만을 제공하기 때문에 사용자의 욕구 및 사용자 계층이 다양해지는 추세 및 서비스되는 내용 예컨대, 기사, 이메일, 동화 등에 따른 적합한 음성 합성을 고려할 수 없는 문제점이 있다. 따라서, 문장의 처음부터 끝까지 하나의 합성음으로 출력하는 방법은 사용자로 하여금 단조로움을 느끼게 한다.

게다가 사용자의 편의성을 고려하기 위해 음색 변조 등의 기술을 이용하여 보다 다양하게 음성 합성을 구현하고자 하더라도 이 또한 응용계층에 따라 한계를 나타낸다. 예를 들어, 사용자가 텍스트 편집기의 기능을 이용하여 합성하고자 하는 부분을 선택하여 해당 부분에 대해 합성음을 출력하는 방법을 사용하더라도 그 편의성은 낮은 편이며, 현재까지는 서로 다른 합성음을 출력하는 각각의 합성기를 하나의 문장 내에서 임의의 위치마다 사용자가 선택적으로 적용할 수 있는 기능이 구현된 것이 없는 실정이다.

상기한 바와 같이 종래의 서비스되고 있는 음성 합성 방법은 하나의 합성기와 그 합성기에서 제공 가능한 변조만이 적용된 것에 불과하였다. 이러한 구조를 가지는 음성 합성 시스템의 경우에는 그 응용에 있어 한계를 나타낸다. 예를 들어, 사용자가 한국어 이외에 외국어 및 성별, 연령층을 고려한 화자의 특성을 반영하여 합성하고자 할 경우 각각의 음성 합성기들을 효율적으로 제어하여 사용자가 원하는 합성음을 출력할 수 있는 방법이 없었다.

따라서, 본 발명은 사용자의 기호에 따라 다양한 합성음을 출력시킬 수 있도록 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템을 제공한다.

상술한 바를 달성하기 위한 본 발명에 따르면 다수의 합성기를 제어하여 다 양한 음성 합성 기능을 제공하는 음성 합성 시스템은, 음성 합성하고자 하는 텍스트에 텍스트 속성을 설정하여 태그 형식으로 음성 합성 요청 메시지를 전달하는 클라이언트와, 상기 클라이언트로부터 전달된 음성 합성 요청 메시지 내의 태그를 분석하고, 분석 결과를 근거로 해당 합성기를 선택한 후 선택된 합성기에 합성할 텍스트를 태그 변환하여 전달하고, 합성 결과를 전달받아 상기 클라이언트에 합성음을 제공하는 TTS(Text-To Speech) 정합부와, 상기 TTS 정합부로부터 전달된 합성 요청에 대응하는 음성 합성을 수행하여 합성 결과를 출력하는 적어도 하나 이상의 개별 합성기로 이루어지는 통합 합성부를 포함하여 구성됨을 특징으로 한다.

또한, 본 발명은 클라이언트, TTS(Text-To Speech) 정합부, 다수의 합성기를 포함하는 음성 합성 시스템에서 상기 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법에 있어서, 클라이언트로부터 합성할 텍스트 및 텍스트 속성이 설정된 음성 합성 요청 메시지는 수신하는 과정과, 상기 TTS 정합부가 상기 수신된 메시지 내의 태그를 분석하여 해당 합성기를 선택하는 과정과, 해당 합성기가 선택되면 상기 다수의 합성기에 대해 미리 저장된 태그 집합을 가지는 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기에서 해석 가능한 포맷으로 태그 변환하는 과정과, 상기 태그 변환된 텍스트를 해당 합성기에 전달한 후 음성 합성에 따른 합성 결과를 전달받는 과정과, 상기 전달된 합성 결과를 상기 클라이언트로 전송하는 과정을 포함함을 특징으로 한다.

이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

이러한 기능이 구현된 음성 합성 시스템의 구성 요소 및 그 동작을 살펴보기 위해 도 1을 참조한다. 도 1은 본 발명의 실시 예에 따른 음성 합성 시스템의 구성도이다.

도 1을 참조하면, 본 발명의 실시 예에 따른 음성 합성 시스템은 음성 합성하고자 하는 텍스트에 그 텍스트에 합성 효과를 부여하기 위한 텍스트 속성(예컨대, 속도, 효과, 변조 등)을 설정하여 태그 형식으로 전달하는 클라이언트(100)와, 클라이언트(100)로부터 태그 형식이 포함된 텍스트를 전달받아 이를 해석하여 해당 합성기를 통해 음성 합성이 이루어질 수 있도록 제어하는 TTS 정합부(110)와, 그 TTS 정합부(110)로부터 전달된 텍스트에 대해 음성 합성을 수행하여 합성 결과를 출력하는 통합 합성부(140)를 포함하여 구성된다.

이하, 클라이언트(100), TTS 정합부(110) 및 통합 합성부(140)에 대해 구체적으로 설명하면, 후술하는 바와 같다. 먼저, 클라이언트(100)는 로봇과 같은 기기를 말하며, 사용자에 의해 작성된 텍스트를 TTS 정합부(110)에 전달하는 역할을 수행한다. 즉, 클라이언트(100)는 사용자에 의해 작성된 텍스트를 TTS 정합부(110)에 전달함으로써 음성 합성 요청 메시지를 전달하는 것이며, 이러한 요청에 대응하여 합성된 음성 데이터를 수신하는 모든 연결 노드를 의미한다. 이 때, 클라이언트(100)는 다양한 방식으로 음성 합성을 수행한 후 그 합성음에 다양한 합성 효과를 주기 위해 해당 합성기에서 해석할 수 있는 태그가 삽입된 텍스트를 TTS 정합부(110)에 제공한다. 이러한 태그가 삽입된 텍스트 즉, 태그 텍스트(Tagged Text)는 합성될 텍스트 중에서 어떠한 부분을 어떻게 합성할 것인지를 결정하는데 이용되며, 이를 기초로 해당 합성기에서는 운율을 생성하며 실제 합성음을 생성해낸다.

한편, 태그 텍스트는 사용자가 웹 또는 PC와 같은 태그 입력 수단에 구비된 GUI(Graphical User Interface) 저작툴을 통해 입력한 텍스트 및 그 텍스트에 대한 속성이 포함된 것이다. 이 저작툴은 서비스 제작자 또는 일반 사용자가 다양한 합성기를 적절하게 선택할 수 있도록 하며, 이와 더불어 합성 효과를 쉽게 사용할 수 있도록 태그를 포함한 텍스트 문서 작성 수단이다. 즉, 입력된 텍스트에서 사용자가 원하는 위치마다 원하는 합성음이 출력될 수 있도록 구간 설정 및 합성기 선택 기능을 구비한다. 이러한 저작툴은 사용자가 텍스트 속성을 설정할 경우 컴퓨터에서 제공하는 미리보기 방식과 같이 직접 합성기의 효과에 대해 미리듣기 기능을 제공할 수도 있다.

TTS 정합부(110)는 클라이언트(100)로부터 음성 합성 요청 메시지에 포함된 부가적인 정보 즉, 텍스트 속성을 함께 수신하여 합성기에서 출력되는 합성 결과에 여러 가지 효과를 부가하는 기능을 수행한다. 구체적으로, TTS 정합부(110)는 클라이언트(100)로부터 전달된 태그 텍스트를 해석하는 역할을 수행하는 제어부(120)로 이루어지며, 해당 합성기를 통해 전달되는 합성 결과에 다양한 효과를 부여하기 위해 배경음 또는 효과음을 부여하는 배경음 믹서(125) 및 그 합성 결과 자체를 음성 변조하는 변조 효과부(130)를 더 구비한다. 즉, TTS 정합부(110)는 단순한 음성의 합성 뿐만 아니라 기타 다양한 효과를 지원하기 위한 구성 요소들을 더 포함하는 것이다.

그 중에서도 배경음 믹서(125)는 클라이언트(100)가 음성 합성 요청 시 함께 배경 음악 추가나 음향 효과의 삽입과 같은 속성을 설정하였을 경우 합성기에서 출력되는 합성 결과에 배경음이나 효과음을 믹싱(mixing)하는 기능을 수행한다. 이어, 변조 효과부(130)는 음성 변조 요청이 포함된 음성 합성 요청 메시지가 수신되었을 경우 해당 변조 기능을 수행한다.

이와 같이 구성되는 TTS 정합부(110)의 기능을 구체적으로 살펴보면, 제어부(120)는 클라이언트(100)로부터 전달된 태그 텍스트를 분석한 후 분석 결과를 바탕으로 사용자에 의해 설정된 텍스트 속성을 반영한 합성음을 얻기 위해 태그 텍스트에 포함된 합성하고자 하는 텍스트를 통합 합성부(140) 내의 해당 합성기에 전달한다. 이 때, 제어부(120)는 통합 합성부(140) 내의 다수의 합성기를 효율적으로 제어하기 위해 공통된 표준 태그를 사용하며, 이를 이용하여 해당 합성기에 맞는 적 합한 포맷으로 변환한 텍스트를 전달한다. 여기서, 제어부(120)는 해당 합성기에 표준 태그 방식으로 변환된 텍스트를 전달할 수도 있지만, 포맷 변환 없이도 텍스트 자체를 직접 해당 합성기에 전달할 수도 있다.

한편, 통합 합성부(140)는 개별의 합성기들의 구성으로 이루어지며, 각각의 개별 합성기들마다 서로 다른 합성 기능이 구현된다. 즉, 통합 합성부(140)는 다양한 언어 및 다양한 화자의 음성을 출력할 수 있는 합성기들의 집합으로, 제어부(120)로부터의 합성 요청에 대응하여 해당 합성기를 통해 합성을 수행한다. 예를 들어, 도 1에 도시된 바와 같이 통합 합성부(140)는 한국어(KOR)로 성인 남자의 합성음을 출력하는 제 1합성기(145), 한국어로 성인 여자의 합성음을 출력하는 제 2합성기(150), 한국어로 어린이 남자의 합성음을 출력하는 제 3합성기(155), 영어로 성인 남자의 합성음을 출력하는 제 4합성기(160), 영어로 성인 여자의 합성음을 출력하는 제 5합성기(165) 등 다수의 개별 합성기로 이루어질 수 있다.

이러한 개별 합성기들은 TTS 방식을 이용하여 제어부(120)로부터 전달되는 텍스트에 자신이 가지고 있는 합성 기능을 적용한 합성 결과를 출력한다. 이 때, 제어부(120)로부터 각각의 합성기들에 전달되는 텍스트는 전체 문장 중 사용자가 해당 합성기로 합성하고자 하는 일부분일 수 있다. 만일, 사용자가 하나의 문장을 여러 개의 합성기를 통해 어절마다 다른 합성음을 출력하고자 텍스트 속성을 설정하였을 경우, 제어부(120)는 입력된 문장을 해당 합성기들에 맞게 잘라서 해당 부분만을 각각의 합성기들에게 전달하게 된다. 이러한 방식으로 제어부(120)는 해당 합성기들한테 합성을 요청하게 된다. 이러한 합성 요청에 대응하여 각각의 합성기 에서 합성 기능이 수행되어 합성 결과들이 전달되면, 제어부(120)는 이를 순차적으로 취합하여 하나의 합성음으로 만들어 클라이언트(100)에게 제공하는 것이다. 이렇게 함으로써, 클라이언트(100)에서는 사용자에 의해 설정된 텍스트 속성이 반영된 합성음을 출력할 수 있게 된다.

이하, 상기한 바와 같은 기능이 구현된 음성 합성 시스템의 동작을 도 2를 참조하여 살펴보기로 한다. 도 2는 본 발명의 실시 예에 따라 다양한 합성 기능을 수행하기 위한 음성 합성 시스템에서의 동작 흐름도이다.

먼저, 음성 합성 시스템의 동작은 클라이언트(100)로부터의 음성 합성 요청으로부터 시작된다. 그 전에 사용자는 GUI 저작툴을 이용하여 텍스트 및 텍스트 속성을 입력하는 등 200단계에서와 같이 음성 합성 조건을 설정한다. 그러면 클라이언트(100)는 205단계로 진행하여 음성 합성 조건이 설정된 음성 합성 요청 메시지를 TTS 정합부(110)에 전송한다. 다시 말하면, 음성 합성 요청 메시지는 사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지이다. 이 때, 실제적으로 음성 합성 요청 메시지는 TTS 정합부(110) 내의 제어부(120)에 전달되게 된다. 그러면, TTS 정합부(110) 내의 제어부(120)는 210단계로 진행하여 수신된 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인한다. 구체적으로, 제어부(120)는 전달된 메시지의 헤더를 확인하여 수신된 메시지가 음성 합성 요청 메시지인지를 확인하고, 동시에 미리 규정된 메시지 룰(rule)에 의하여 작성되었는지 유효성을 확인한다. 즉, 수신된 메시지는 제어부(120)가 읽어들일(Readable) 수 있는 형식을 갖추고 있어야 한다. 이러한 형식의 한 예로서, 본 발명의 실시 예에서는 xml 형식을 따르는 규칙을 적용할 수 있다. 다르게는 W3C에서 권고하는 SSML(Speech Synthesis Markup Language)의 규칙을 차용할 수도 있는데, 헤더를 표현한 xml 메시지 필드의 예를 도시하면 표 1과 같다.

상기 표 1에서, version은 사용되는 메시지 룰의 버전을 나타내며, proprietor은 사용되는 메시지 룰의 적용 범위를 나타낸다.

만일, 메시지 헤더를 확인한 결과 유효한 메시지가 아닌 경우 제어부(120)는 215단계로 진행하여 정해진 포맷이 아니라고 인지하여 오류 보고를 수행한다. 즉, 더이상 메시지 분석을 수행하지 않는다. 이와 달리 유효한 메시지인 경우 제어부(120)는 220단계로 진행하여 메시지의 태그를 분석한다. 이러한 분석을 통해 제어부(120)는 어떤 합성기를 이용하여 합성을 수행해야하는지를 판단한다.

이를 상세히 설명하기 위해 도 3에 도시된 바와 같이 합성하고자 하는 문장이 "본 문장은 합성기를 테스트하기 위한 문장입니다"라는 문장이며, 남자 어린이의 목소리로 합성하면서 동화 구연을 목적으로 하는 경우를 예로 들어 설명한다. 이 때, 변조되지 않는 기본 속도 2를 가지는 합성음이 출력되도록 합성음이 출력되는 속도를 2로 하고 변조 없음을 설정한다. 도 3은 본 발명의 일 실시 예에 따른 음성 합성 요청 메시지의 한 예를 도시한 도면이다.

도 3에 도시된 바와 같이 음성 합성 요청 메시지가 전달되면, 제어부(120)는 300에 의해 지시되는 부분을 확인하여 즉, 합성될 문장의 속성 정보를 해석하여 어떠한 합성기에 합성을 요청할 것인지를 판단하게 된다. 도 3에서는 xml 형식을 차용한 경우를 예로 들어 나타내었지만, SSML의 형식을 사용할 수도 있으며 새로운 형식으로 정의된 표준 태그를 사용할 수도 있음은 물론이다. 만일 합성기가 속도 및 변조 필터 등의 적용이 가능하다면 제어부(120)는 이러한 합성 효과에 대한 정보까지 전달하여 합성이 이루어질 수 있도록 한다.

상기한 바와 같은 과정을 통해 합성기가 선택되면, 제어부(120)는 230단계로 진행하여 도 4에 도시된 바와 같은 태그 테이블을 참조하여 235단계에서 태그 변환을 수행한다. 여기서, 태그 테이블은 각 합성기에 대해 미리 저장된 태그 집합을 나타낸다. 이러한 태그 테이블을 참조하여 태그 변환을 하는 이유는 다수의 합성기를 제어부(120)가 적절하게 제어할 수 있도록 하기 위함이다.

한편, 도 3의 310에 의해 지시되는 부분이 실제로 합성할 텍스트가 삽입되는 부분이다. 따라서, 제어부(120)는 310에 의해 지시되는 부분을 해당 합성기에서 해석 가능한 형태로 태그 변환을 하는 것이다. 예를 들어, 도면부호 320에 의해 지시되는 부분은 도면부호 330에 의해 지시되는 바와 같이 변환될 수 있다.

이어, 제어부(120)는 310에 지시되는 부분의 태그를 해석하여 문장 중간에 "합성기를 테스트하기 위한"이라는 부분의 속도를 3으로 하여 합성해야 하며, "테스트"라는 단어에는 실루엣 변조 효과를 적용해야 한다고 인지한다. 이에 따라 제어부(120)는 240단계로 진행하여 합성 요청을 하는데, 구체적으로 남자 어린이 합성음을 출력하는 합성기에 변환된 태그를 전달하여 합성이 이루어질 수 있도록 한다.

이에 대응하여 통합 합성부(140) 내의 해당 합성기 예컨대, 남자 어린이 합성음을 출력하는 합성기에서는 245단계에서와 같이 음성 합성을 수행하여 250단계에서 합성 결과를 제어부(120)에 전달한다. 그리고나서 제어부(120)는 255단계에서 변조 수행 또는 배경음을 적용해야하는지를 판단한다. 만일 변조 수행 또는 배경음을 적용해야 하는 경우 제어부(120)는 260단계로 진행하여 합성 결과를 음성 변조하여 변조 효과를 주거나 그 합성 결과에 배경음을 또는 효과음을 적용하여 음향 효과를 줄 수 있다. 여기서, 배경음 또는 효과음 등의 음향 효과의 적용은 합성 결과의 레졸루션(resolution)과 같은 레졸루션을 가지는 음향 데이터를 합성 결과에 믹싱함으로써 이루어진다.

도 3에서는 변조 시 "실루엣"을 적용하고자 하는 요청이 있었으므로 제어부(120)는 TTS 정합부(110) 내의 변조 효과부(130)로부터 "실루엣"에 해당하는 데이터를 제공받아 합성 결과를 변조한다. 이러한 과정을 통해 최종 합성음이 생성되면, 제어부(120)는 265단계로 진행하여 클라이언트(100)로 합성음을 전송한다. 이에 따라 남자 어린이 목소리에 해당하는 합성음이 출력되면서 "테스트"라는 단어부분만 실루엣 변조된 합성음이 출력되게 된다.

한편, TTS 정합부(110)에서 사용 가능한 태그의 기능은 도 4에 도시된 바와 같은 것들이 존재할 수 있다. 그 중에서도 도면부호 400에 의해 지시되는 부분은 각각의 합성기 내부에서도 지원 가능한 태그 형식을 나타내며, 도면부호 410에 의해 지시되는 부분은 TTS 정합부(110) 자체 내에서 지원 가능한 태그 형식이다. 따라서, 제어부(120)는 발화 속도, 음량, 음색, 묵음 등의 기능을 제어하고자 하는 텍스트 속성이 설정되어 있는 음성 합성 요청 메시지가 전달되면, 도 4에 도시된 바와 같은 태그 테이블을 참조하여 태그 변환을 하는 것이다.

구체적으로, 본 발명의 일 실시 예에 따라 Speed는 합성되는 데이터의 발화 속도를 조절하기 위한 태그 명령어로써 예를 들어, <speed + 1> TEXT </speed>는 태그 내부 구간의 합성 속도를 기본 속도보다 1단계 빠르게 출력한다는 의미를 가진다. Volume은 합성되는 데이터의 발화 음량을 조절하기 위한 태그 명령어로써 예를 들어, <volume = -1> TEXT </volume>는 태그 내부 구간의 합성음의 음량을 기본 음량보다 1단계 작게 출력하라는 것을 의미한다. Pitch는 합성되는 데이터의 음색을 조정하기 위한 태그 명령어로써 예를 들어, <pitch = +2> TEXT </pitch>는 태그 내부 구간의 합성음의 피치를 기본단계보다 2단계 높게 출력하라는 것을 의미한다. 이어, Pause는 삽입되는 묵음 구간을 결정하기 위한 태그 명령어로써, <pause=1000> TEXT는 합성되는 텍스트 앞에서 묵음을 1초간 삽입하라는 것을 의미한다. 이와 같이 각각의 합성기들은 제어부(120)로부터 상기한 바와 같은 태그가 전달되면, 전달된 태그에 따라 단순한 음성 합성 뿐만 아니라 발화 속도, 음량, 음색 및 묵음을 조절할 수 있는 기능을 가지고 있다.

한편, Language는 합성을 요청하는 합성기의 언어를 변경하기 위한 태그 명령어로써 예를 들어, <language = "eng"> TEXT </language>는 태그 내부 구간의 합성음은 영어 목소리를 출력하는 합성기를 이용하라는 것을 의미한다. 이에 따라 클라이언트로부터 전달된 합성 요청 메시지에 이러한 태그 명령어가 포함되어 있으면, 제어부(120)는 영어 목소리를 출력하는 합성기를 선택하게 된다. 이어, Speaker는 합성되는 화자를 변경하기 위한 태그 명령어로써 예를 들어, <speaker="tom"> TEXT </speaker>는 태그 내부 구간의 합성음은 'tom'으로 정의된 합성기를 사용하라는 것을 의미한다. 그리고 Modulation은 합성음을 변조하는 변조 필터를 선택하기 위한 태그 명령어로써 예를 들어, <modulation="silhouette"> TEXT</modulation>은 태그 내부 구간의 합성음을 '실루엣' 변조하라는 것을 의미한다. 이에 따라 제어부(120)는 합성기로부터 합성 결과가 출력되면 해당 변조 효과를 합성 결과에 적용한다.

이와 같이 TTS 정합부(110)는 클라이언트(100)로부터 상기한 바와 같은 태그가 포함된 음성 합성 요청 메시지가 전달되면, 그 메시지에 포함된 태그에 따라 화자 및 언어를 전환할 수 있을 뿐만 아니라 합성 결과에 변조 및 배경음 효과를 적용하여 다양한 효과를 줄 수도 있다.

한편, 상기한 바와 같은 태그를 W3C의 권고안인 SSML의 규칙을 차용하여 표현하면 다음과 같다. 예를 들어, 합성기를 선택할 때 전술한 바에서는 Speaker라는 태그 명령어를 사용하였으나, 본 발명의 다른 실시 예에서는 'voice'라는 태그 명령어를 사용한다. 합성기 선택을 위한 xml 메시지 필드의 예는 표 2에 도시된 바와 같다.

상기 표 2에서, 'voice'는 합성기를 선택하는 필드 이름을 나타내며, 이 필드의 속성으로 'name'을 가지며 속성값에 따라 TTS 정합부(110) 내의 제어부(120)는 사전에 정의된 합성기를 선택할 수 있게 된다. 만일, 속성이 생략된 경우에는 디폴트 합성기를 선택하게 된다.

이어, 강조 태그 명령어로서 'emphasis'가 있는데, 이 'emphasis'에 대한 메시지 필드의 예는 표 3에 도시된 바와 같다.

상기 표 3에서, 'emphasis'는 선택된 구간을 합성할 때 강조의 운율을 적용하는 필드로서, 이 필드의 속성으로 'level'을 가지며 그 속성값에 따라 사전에 정의된 강조의 정도를 적용한다. 만일 속성이 생략되면 디폴트 레벨을 적용하게 된다.

그리고, 휴지 태그 명령어로서 'break'가 있는데, 이 'break'에 대한 메시지 필드의 예는 표 4에 도시된 바와 같다.

상기 표 4에서, 'break'는 필드에 선언된 내용만큼 합성음 사이에 휴지 구간을 포함하게 하는 필드로서, 이 필드의 속성으로 'time' 또는 'strength'를 가질 수 있으며 속성값에 따라 사전에 정의된 시간만큼 휴지 구간을 적용하게 된다.

그리고, 운율 태그 명령어로서 'prosody'가 있는데, 'prosody'에 대한 메시지 필드의 예를 도시하면 표 5와 같다.

상기 표 5에서, 'prosody'는 선택된 구간의 합성 운율을 표현하는 필드로서, 이 필드의 속성으로 'rate', 'volume', 'pitch', 'range' 등을 가질 수 있으며, 속성값에 따라 사전에 정의된 운율을 합성 구간에 적용할 수 있게 된다.

그리고, 음향 효과 태그 명령어로서 'audio'가 있는데, 'audio'에 대한 메시지 필드의 예를 도시하면 표 6과 같다.

상기 표 6에서, 'audio'는 합성음에 음향 효과를 부가하는 필드로서, 이 필드의 속성으로 'src'를 가질 수 있으며 이 속성값에 따라 음향 내용을 합성음에 포함시킬 수 있게 된다.

그리고, 변조 효과 태그 명령어로서 'modulation'이 있는데, 'modulation'에 대한 메시지 필드의 예를 도시하면 표 7과 같다.

상기 표 7에서, 'modulation'은 합성음에 변조 효과를 부가하는 필드로서, 이 필드의 속성으로 'name'를 가질 수 있으며, 이 속성값에 따라 사전에 정의된 변조 필터를 합성음에 적용할 수 있게 된다.

전술한 바와 같은 태그 명령어를 사용하는 경우를 도 5를 참조하여 설명하면 다음과 같다. 먼저 도 5의 500에 의해 지시되는 바와 같은 태그 명령어들이 포함된 음성 합성 요청 메시지는 음성 합성 시스템(510)에서 처리된다. 그 중에서도 상기 음성 합성 요청 메시지가 TTS 정합부(110)에 전달되면, 유효성이 검증된 메시지에 한하여 상기한 바와 같은 태그 명령어들을 분석하여 어떤 합성기를 통해 합성할 것인지를 선택하게 된다. 예컨대, 본 발명의 다른 실시 예에 따른 태그 명령어를 이용할 경우 제어부(120)는 'voice' 태그 명령어 요소(element) 중 'name' 속성을 확인하여 해당하는 합성기를 선택한다. 이러한 과정을 통해 합성기가 결정되면 해당 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 입력된 메시지의 태그 정보를 해당 합성기가 인지할 수 있는 태그로 변환하게 된다. 이 때, 제어부(110)는 변조나 음향 효과에 대한 태그는 변환하지 않으며 합성기로부터 출력되는 합성 결과에 적용할 수 있도록 변조 여부나 음향 효과 부가 여부에 대한 정보를 임시로 가지고 있는 것이 바람직하다. 따라서, 변환된 태그로 표현된 합성 요청을 실제 합성기에 전달하면, 제어부(120)는 이에 대한 응답이 있을 때까지 대기한다.

한편, 합성 요청을 수신한 합성기는 입력에 대응하는 데이터에 대한 합성을 수행하여 그 합성 결과를 제어부(120)에 전달한다. 그러면 합성 결과를 전달받은 제어부(120)는 임시로 저장해놓은 정보를 통해 클라이언트(100)로부터 전달된 메시지에 변조 요청이 있었는지를 확인한다. 만일 변조 요청이 있었다면 제어부(120)는 변조 효과부(130)로부터 해당 변조를 수행하기 위한 데이터를 제공받아 해당 변조 효과를 합성 결과에 적용한다. 이와 마찬가지로 임시로 저장해놓은 정보를 통해 클라이언트(100)로부터 전달된 메시지에 음향 효과 부가 요청이 있었던 경우에는 제어부(120)는 배경음 믹서(125)로부터 해당 음향 효과 데이터를 제공받아 해당 음향 효과를 합성 결과에 적용한다. 이러한 과정을 통해 최종 합성된 합성음이 클라이언트(100) 예컨대, 도면부호 520에 의해 지시되는 로봇과 같은 기기에 전달됨으로써 다양한 음성 합성 효과가 출력되게 된다.

상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 예를 들어, 본 발명에서는 표준 태그를 구체적으로 예를 들어 설명하였으나, 태그 명령어는 전술한 바 이외에도 보다 다양하게 구현될 수 있음은 물론이다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다.

상기한 바와 같이 본 발명에 따르면, 다양한 합성기를 효과적으로 제어 및 관리함으로써 다양한 품질 및 성격을 가지는 합성음을 출력할 수 있을 뿐만 아니라, 보다 다양하고 복합적인 음성 합성 어플리케이션을 지원하게 할 경우 서비스 질을 향상시킬 수 있는 이점이 있다. 또한, 본 발명을 이용한다면 사용자와 대화하는 시스템의 경우 사용자에 따른 합성음을 구분하여 제공할 수 있으며, 동화 구연, 이메일 읽기 등 음성 합성 시스템이 적용되는 다양한 시스템에 사용자의 다양한 요구를 수용할 수 있게 된다.

Claims

다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템은,

음성 합성하고자 하는 텍스트에 텍스트 속성을 설정하여 태그 형식으로 음성 합성 요청 메시지를 전달하는 클라이언트와,

상기 클라이언트로부터 전달된 음성 합성 요청 메시지 내의 태그를 분석하고, 분석 결과를 근거로 해당 합성기를 선택한 후 선택된 합성기에 합성할 텍스트를 태그 변환하여 전달하고, 합성 결과를 전달받아 상기 클라이언트에 합성음을 제공하는 TTS(Text-To Speech) 정합부와,

상기 TTS 정합부로부터 전달된 합성 요청에 대응하는 음성 합성을 수행하여 합성 결과를 출력하는 적어도 하나 이상의 개별 합성기로 이루어지는 통합 합성부를 포함하여 구성됨을 특징으로 하는 시스템.
제 1항에 있어서, 상기 TTS 정합부는

상기 메시지에 변조 효과 속성이 설정된 경우 해당 변조 효과를 상기 합성 결과를 적용할 수 있도록 상기 제어부에 변조 데이터를 제공하는 변조 효과부와,

상기 메시지에 음향 효과 속성이 설정된 경우 상기 합성 결과에 음향 데이터를 적용할 수 있도록 음향 데이터를 제공하는 배경음 믹서와,

상기 메시지 내의 태그 분석을 통해 변조 효과 및 음향 효과 속성의 설정 여부를 확인하고, 확인 결과를 근거로 상기 전달된 합성 결과에 해당 효과를 적용한 합성음을 생성하는 제어부로 이루어짐을 특징으로 하는 시스템.
제 2항에 있어서, 상기 제어부는

상기 수신된 음성 합성 요청 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인하고, 유효한 메시지에 한해 상기 메시지 내의 태그를 분석함을 특징으로 하는 시스템.
제 1항에 있어서, 상기 TTS 정합부는

상기 태그 변환 시 상기 선택된 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기가 인지할 수 있는 태그로 변환함을 특징으로 하는 시스템.
제 1항에 있어서, 상기 통합 합성부는

각각 서로 다른 언어, 연령층에 따른 합성음을 출력하며, 발화 속도, 음량, 음색 및 묵음을 조절할 수 있는 기능을 가지는 다수의 개별 합성기로 이루어짐을 특징으로 하는 시스템.
제 1항에 있어서, 상기 음성 합성 요청 메시지는

사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지임을 특징으로 하는 시스템.
클라이언트, TTS(Text-To Speech) 정합부, 다수의 합성기를 포함하는 음성 합성 시스템에서 상기 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법에 있어서,

클라이언트로부터 합성할 텍스트 및 텍스트 속성이 설정된 음성 합성 요청 메시지는 수신하는 과정과,

상기 TTS 정합부가 상기 수신된 메시지 내의 태그를 분석하여 해당 합성기를 선택하는 과정과,

해당 합성기가 선택되면 상기 다수의 합성기에 대해 미리 저장된 태그 집합을 가지는 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기에서 해석 가능한 포맷으로 태그 변환하는 과정과,

상기 태그 변환된 텍스트를 해당 합성기에 전달한 후 음성 합성에 따른 합성 결과를 전달받는 과정과,

상기 전달된 합성 결과를 상기 클라이언트로 전송하는 과정을 포함함을 특징으로 하는 방법.
제 7항에 있어서,

상기 수신된 음성 합성 요청 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인하는 과정과,

상기 유효한 메시지에 한해 상기 메시지 내의 태그를 분석하는 과정을 더 포함함을 특징으로 하는 방법.
제 7항에 있어서,

상기 음성 합성 요청 메시지 내에 변조 효과 속성이 설정된 경우 해당 변조 효과를 위한 변조 데이터를 제공받는 과정과,

상기 합성 결과에 상기 변조 데이터를 적용하여 합성음을 생성하는 과정을 더 포함함을 특징으로 하는 방법.
제 7항에 있어서,

상기 음성 합성 요청 메시지 내에 음향 효과 속성이 설정된 경우 상기 합성 결과에 해당 음향 데이터를 적용하여 합성음을 생성하는 과정과,

상기 생성된 합성음을 상기 클라이언트로 전달하는 과정을 더 포함함을 특징으로 하는 방법.
제 7항에 있어서, 상기 다수의 합성기는

각각 서로 다른 언어 및 연령층에 따른 합성음을 출력하는 기능을 가지는 합성기임을 특징으로 하는 방법.
제 7항에 있어서, 상기 음성 합성 요청 메시지는

사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지임을 특징으로 하는 방법.
제 12항에 있어서, 상기 저작툴은

상기 입력된 텍스트에서 사용자가 원하는 위치마다 원하는 합성음이 출력될 수 있도록 구간 설정 및 합성기 선택 기능을 구비함을 특징으로 하는 방법.