KR20070028764A - 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템 - Google Patents
다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템 Download PDFInfo
- Publication number
- KR20070028764A KR20070028764A KR1020050083086A KR20050083086A KR20070028764A KR 20070028764 A KR20070028764 A KR 20070028764A KR 1020050083086 A KR1020050083086 A KR 1020050083086A KR 20050083086 A KR20050083086 A KR 20050083086A KR 20070028764 A KR20070028764 A KR 20070028764A
- Authority
- KR
- South Korea
- Prior art keywords
- text
- synthesis
- tag
- synthesizer
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
Claims (13)
- 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템은,음성 합성하고자 하는 텍스트에 텍스트 속성을 설정하여 태그 형식으로 음성 합성 요청 메시지를 전달하는 클라이언트와,상기 클라이언트로부터 전달된 음성 합성 요청 메시지 내의 태그를 분석하고, 분석 결과를 근거로 해당 합성기를 선택한 후 선택된 합성기에 합성할 텍스트를 태그 변환하여 전달하고, 합성 결과를 전달받아 상기 클라이언트에 합성음을 제공하는 TTS(Text-To Speech) 정합부와,상기 TTS 정합부로부터 전달된 합성 요청에 대응하는 음성 합성을 수행하여 합성 결과를 출력하는 적어도 하나 이상의 개별 합성기로 이루어지는 통합 합성부를 포함하여 구성됨을 특징으로 하는 시스템.
- 제 1항에 있어서, 상기 TTS 정합부는상기 메시지에 변조 효과 속성이 설정된 경우 해당 변조 효과를 상기 합성 결과를 적용할 수 있도록 상기 제어부에 변조 데이터를 제공하는 변조 효과부와,상기 메시지에 음향 효과 속성이 설정된 경우 상기 합성 결과에 음향 데이터를 적용할 수 있도록 음향 데이터를 제공하는 배경음 믹서와,상기 메시지 내의 태그 분석을 통해 변조 효과 및 음향 효과 속성의 설정 여부를 확인하고, 확인 결과를 근거로 상기 전달된 합성 결과에 해당 효과를 적용한 합성음을 생성하는 제어부로 이루어짐을 특징으로 하는 시스템.
- 제 2항에 있어서, 상기 제어부는상기 수신된 음성 합성 요청 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인하고, 유효한 메시지에 한해 상기 메시지 내의 태그를 분석함을 특징으로 하는 시스템.
- 제 1항에 있어서, 상기 TTS 정합부는상기 태그 변환 시 상기 선택된 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기가 인지할 수 있는 태그로 변환함을 특징으로 하는 시스템.
- 제 1항에 있어서, 상기 통합 합성부는각각 서로 다른 언어, 연령층에 따른 합성음을 출력하며, 발화 속도, 음량, 음색 및 묵음을 조절할 수 있는 기능을 가지는 다수의 개별 합성기로 이루어짐을 특징으로 하는 시스템.
- 제 1항에 있어서, 상기 음성 합성 요청 메시지는사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지임을 특징으로 하는 시스템.
- 클라이언트, TTS(Text-To Speech) 정합부, 다수의 합성기를 포함하는 음성 합성 시스템에서 상기 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법에 있어서,클라이언트로부터 합성할 텍스트 및 텍스트 속성이 설정된 음성 합성 요청 메시지는 수신하는 과정과,상기 TTS 정합부가 상기 수신된 메시지 내의 태그를 분석하여 해당 합성기를 선택하는 과정과,해당 합성기가 선택되면 상기 다수의 합성기에 대해 미리 저장된 태그 집합을 가지는 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기에서 해석 가능한 포맷으로 태그 변환하는 과정과,상기 태그 변환된 텍스트를 해당 합성기에 전달한 후 음성 합성에 따른 합성 결과를 전달받는 과정과,상기 전달된 합성 결과를 상기 클라이언트로 전송하는 과정을 포함함을 특징으로 하는 방법.
- 제 7항에 있어서,상기 수신된 음성 합성 요청 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인하는 과정과,상기 유효한 메시지에 한해 상기 메시지 내의 태그를 분석하는 과정을 더 포함함을 특징으로 하는 방법.
- 제 7항에 있어서,상기 음성 합성 요청 메시지 내에 변조 효과 속성이 설정된 경우 해당 변조 효과를 위한 변조 데이터를 제공받는 과정과,상기 합성 결과에 상기 변조 데이터를 적용하여 합성음을 생성하는 과정을 더 포함함을 특징으로 하는 방법.
- 제 7항에 있어서,상기 음성 합성 요청 메시지 내에 음향 효과 속성이 설정된 경우 상기 합성 결과에 해당 음향 데이터를 적용하여 합성음을 생성하는 과정과,상기 생성된 합성음을 상기 클라이언트로 전달하는 과정을 더 포함함을 특징으로 하는 방법.
- 제 7항에 있어서, 상기 다수의 합성기는각각 서로 다른 언어 및 연령층에 따른 합성음을 출력하는 기능을 가지는 합성기임을 특징으로 하는 방법.
- 제 7항에 있어서, 상기 음성 합성 요청 메시지는사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지임을 특징으로 하는 방법.
- 제 12항에 있어서, 상기 저작툴은상기 입력된 텍스트에서 사용자가 원하는 위치마다 원하는 합성음이 출력될 수 있도록 구간 설정 및 합성기 선택 기능을 구비함을 특징으로 하는 방법.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020050083086A KR100724868B1 (ko) | 2005-09-07 | 2005-09-07 | 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템 |
| US11/516,865 US20070055527A1 (en) | 2005-09-07 | 2006-09-07 | Method for synthesizing various voices by controlling a plurality of voice synthesizers and a system therefor |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020050083086A KR100724868B1 (ko) | 2005-09-07 | 2005-09-07 | 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20070028764A true KR20070028764A (ko) | 2007-03-13 |
| KR100724868B1 KR100724868B1 (ko) | 2007-06-04 |
Family
ID=37831068
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020050083086A Expired - Fee Related KR100724868B1 (ko) | 2005-09-07 | 2005-09-07 | 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20070055527A1 (ko) |
| KR (1) | KR100724868B1 (ko) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8244534B2 (en) | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
| US8694320B2 (en) | 2007-04-28 | 2014-04-08 | Nokia Corporation | Audio with sound effect generation for text-only applications |
| KR20190111278A (ko) * | 2018-03-22 | 2019-10-02 | 삼성전자주식회사 | 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법 |
Families Citing this family (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8438032B2 (en) * | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
| CN103200309A (zh) * | 2007-04-28 | 2013-07-10 | 诺基亚公司 | 用于仅文本的应用的娱乐音频 |
| US20090157407A1 (en) * | 2007-12-12 | 2009-06-18 | Nokia Corporation | Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files |
| US8352270B2 (en) * | 2009-06-09 | 2013-01-08 | Microsoft Corporation | Interactive TTS optimization tool |
| US10467348B2 (en) * | 2010-10-31 | 2019-11-05 | Speech Morphing Systems, Inc. | Speech morphing communication system |
| US10360716B1 (en) * | 2015-09-18 | 2019-07-23 | Amazon Technologies, Inc. | Enhanced avatar animation |
| US10079021B1 (en) * | 2015-12-18 | 2018-09-18 | Amazon Technologies, Inc. | Low latency audio interface |
| CN107437413B (zh) * | 2017-07-05 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 语音播报方法及装置 |
| US11232645B1 (en) | 2017-11-21 | 2022-01-25 | Amazon Technologies, Inc. | Virtual spaces as a platform |
| US10521946B1 (en) | 2017-11-21 | 2019-12-31 | Amazon Technologies, Inc. | Processing speech to drive animations on avatars |
| US10732708B1 (en) * | 2017-11-21 | 2020-08-04 | Amazon Technologies, Inc. | Disambiguation of virtual reality information using multi-modal data including speech |
| GB201810621D0 (en) * | 2018-06-28 | 2018-08-15 | Univ London Queen Mary | Generation of audio data |
| US10741169B1 (en) * | 2018-09-25 | 2020-08-11 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing |
| CN109410913B (zh) * | 2018-12-13 | 2022-08-05 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
| US11114085B2 (en) | 2018-12-28 | 2021-09-07 | Spotify Ab | Text-to-speech from media content item snippets |
| CN110600000B (zh) * | 2019-09-29 | 2022-04-15 | 阿波罗智联(北京)科技有限公司 | 语音播报方法、装置、电子设备及存储介质 |
| WO2021071221A1 (en) * | 2019-10-11 | 2021-04-15 | Samsung Electronics Co., Ltd. | Automatically generating speech markup language tags for text |
| US11380300B2 (en) | 2019-10-11 | 2022-07-05 | Samsung Electronics Company, Ltd. | Automatically generating speech markup language tags for text |
| DE112020005337T5 (de) * | 2020-06-22 | 2022-08-11 | Sri International | Steuerbare, natürliche paralinguistik für text-zu-sprache-synthese |
Family Cites Families (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4635211A (en) * | 1981-10-21 | 1987-01-06 | Sharp Kabushiki Kaisha | Speech synthesizer integrated circuit |
| DE69232112T2 (de) * | 1991-11-12 | 2002-03-14 | Fujitsu Ltd., Kawasaki | Vorrichtung zur Sprachsynthese |
| US5559927A (en) * | 1992-08-19 | 1996-09-24 | Clynes; Manfred | Computer system producing emotionally-expressive speech messages |
| US5960447A (en) * | 1995-11-13 | 1999-09-28 | Holt; Douglas | Word tagging and editing system for speech recognition |
| US5850629A (en) | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
| US6188983B1 (en) * | 1998-09-02 | 2001-02-13 | International Business Machines Corp. | Method for dynamically altering text-to-speech (TTS) attributes of a TTS engine not inherently capable of dynamic attribute alteration |
| US6324511B1 (en) | 1998-10-01 | 2001-11-27 | Mindmaker, Inc. | Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment |
| US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
| US7139709B2 (en) * | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
| GB2376394B (en) * | 2001-06-04 | 2005-10-26 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
| US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
| US7299182B2 (en) * | 2002-05-09 | 2007-11-20 | Thomson Licensing | Text-to-speech (TTS) for hand-held devices |
| US7003464B2 (en) | 2003-01-09 | 2006-02-21 | Motorola, Inc. | Dialog recognition and control in a voice browser |
| KR20040105138A (ko) * | 2003-06-05 | 2004-12-14 | 엘지전자 주식회사 | 이동통신 단말기의 텍스트정보 음성정보 멀티변환 장치 및그 방법 |
| KR20050052106A (ko) * | 2003-11-29 | 2005-06-02 | 에스케이텔레텍주식회사 | 이동통신단말기에서 자동응답방법 및 그 방법을 채택한이동통신단말기 |
| US20050144002A1 (en) * | 2003-12-09 | 2005-06-30 | Hewlett-Packard Development Company, L.P. | Text-to-speech conversion with associated mood tag |
| US7596499B2 (en) * | 2004-02-02 | 2009-09-29 | Panasonic Corporation | Multilingual text-to-speech system with limited resources |
| KR100710600B1 (ko) * | 2005-01-25 | 2007-04-24 | 우종식 | 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치 |
-
2005
- 2005-09-07 KR KR1020050083086A patent/KR100724868B1/ko not_active Expired - Fee Related
-
2006
- 2006-09-07 US US11/516,865 patent/US20070055527A1/en not_active Abandoned
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8694320B2 (en) | 2007-04-28 | 2014-04-08 | Nokia Corporation | Audio with sound effect generation for text-only applications |
| US8244534B2 (en) | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
| KR20190111278A (ko) * | 2018-03-22 | 2019-10-02 | 삼성전자주식회사 | 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법 |
| US11398223B2 (en) | 2018-03-22 | 2022-07-26 | Samsung Electronics Co., Ltd. | Electronic device for modulating user voice using artificial intelligence model and control method thereof |
Also Published As
| Publication number | Publication date |
|---|---|
| US20070055527A1 (en) | 2007-03-08 |
| KR100724868B1 (ko) | 2007-06-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100724868B1 (ko) | 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템 | |
| US8594995B2 (en) | Multilingual asynchronous communications of speech messages recorded in digital media files | |
| US5943648A (en) | Speech signal distribution system providing supplemental parameter associated data | |
| Schröder | The SEMAINE API: Towards a Standards‐Based Framework for Building Emotion‐Oriented Systems | |
| KR101274961B1 (ko) | 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템 | |
| US7966185B2 (en) | Application of emotion-based intonation and prosody to speech in text-to-speech systems | |
| US7062437B2 (en) | Audio renderings for expressing non-audio nuances | |
| US20090326948A1 (en) | Automated Generation of Audiobook with Multiple Voices and Sounds from Text | |
| JPH05216618A (ja) | 音声対話システム | |
| CN107851436A (zh) | 语音交互方法和语音交互设备 | |
| CN112035699A (zh) | 音乐合成方法、装置、设备和计算机可读介质 | |
| JP7200533B2 (ja) | 情報処理装置およびプログラム | |
| WO2005093713A1 (ja) | 音声合成装置 | |
| Ifeanyi et al. | Text–To–Speech Synthesis (TTS) | |
| US20060224385A1 (en) | Text-to-speech conversion in electronic device field | |
| AU769036B2 (en) | Device and method for digital voice processing | |
| CN114664283A (zh) | 语音合成中的文本处理方法及电子设备 | |
| JPH10149361A (ja) | 情報処理方法及び装置及び記憶媒体 | |
| JP4409279B2 (ja) | 音声合成装置及び音声合成プログラム | |
| KR102020341B1 (ko) | 악보 구현 및 음원 재생 시스템 및 그 방법 | |
| CN116956826A (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
| JP2004185055A (ja) | 電子メールシステム及び通信端末 | |
| JP3578961B2 (ja) | 音声合成方法及び装置 | |
| López Gambino et al. | Testing strategies for bridging time-to-content in spoken dialogue systems | |
| JP2020204683A (ja) | 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| D13-X000 | Search requested |
St.27 status event code: A-1-2-D10-D13-srh-X000 |
|
| D14-X000 | Search report completed |
St.27 status event code: A-1-2-D10-D14-srh-X000 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 5 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 6 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| FPAY | Annual fee payment |
Payment date: 20130429 Year of fee payment: 7 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 7 |
|
| FPAY | Annual fee payment |
Payment date: 20140429 Year of fee payment: 8 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 8 |
|
| FPAY | Annual fee payment |
Payment date: 20150429 Year of fee payment: 9 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 9 |
|
| LAPS | Lapse due to unpaid annual fee | ||
| PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20160529 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20160529 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |