[go: up one dir, main page]

JPS63100499A - speech synthesizer - Google Patents

speech synthesizer

Info

Publication number
JPS63100499A
JPS63100499A JP24680386A JP24680386A JPS63100499A JP S63100499 A JPS63100499 A JP S63100499A JP 24680386 A JP24680386 A JP 24680386A JP 24680386 A JP24680386 A JP 24680386A JP S63100499 A JPS63100499 A JP S63100499A
Authority
JP
Japan
Prior art keywords
individuality
rule
speech
parameters
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP24680386A
Other languages
Japanese (ja)
Inventor
延佳 海木
賢一 谷口
鬼頭 淳悟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP24680386A priority Critical patent/JPS63100499A/en
Publication of JPS63100499A publication Critical patent/JPS63100499A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Abstract] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声合成装置に関する。[Detailed description of the invention] [Industrial application field] The present invention relates to a speech synthesis device.

[従来の技術] 第2図は従来例の音声規則合成装置のブロック図である
。第2図において、任意の文字列が文字列解析部1に入
力され、文字列解析部lは入力された文字列の構文解釈
を行ない、文字列全体のイントネーションパターンを決
定するとともに、単語辞書2を参照して上記文字列に含
まれる単語を検索し、文字列内の各単語のアクセント及
び音韻記号系列を決定し、上記文字列の音韻記号系列及
びアクセントパターンを決定する。次に、文字列解析部
1において決定された上記文字列の音韻記号系列、アク
セントパターン及びイントネーションパターンは音韻性
規則制御部3に出力され、音韻規則制御部3は、規則フ
ァイル4に格納された各音韻を結合させるための音韻制
御規則と各韻律を制御するための韻律制御規則を参照し
て、上記文字列の音韻特徴パラメータ、各音韻間のピッ
チ値、各音韻のパワー及び継続時間長等の音声合成に必
要なパラメータを生成し、生成された上記パラメータを
音声合成器5に出力する。さらに、音声合成器5は、入
力されたパラメータに基づいて、公知の通り音声合成を
行ない入力された文字列に対応する規則合成音声を出力
する。
[Prior Art] FIG. 2 is a block diagram of a conventional speech rule synthesis device. In FIG. 2, an arbitrary character string is input to the character string analysis unit 1, and the character string analysis unit l performs syntactical interpretation of the input character string, determines the intonation pattern of the entire character string, and also determines the intonation pattern of the entire character string. The words included in the character string are searched by referring to the character string, the accent and phonetic symbol sequence of each word in the character string are determined, and the phonetic symbol sequence and accent pattern of the character string are determined. Next, the phonetic symbol sequence, accent pattern, and intonation pattern of the character string determined by the character string analysis unit 1 are output to the phonological rule control unit 3, and the phonological rule control unit 3 stores them in the rule file 4. With reference to the phoneme control rules for combining each phoneme and the prosody control rules for controlling each prosody, the phoneme feature parameters of the character string, the pitch value between each phoneme, the power and duration length of each phoneme, etc. The parameters necessary for speech synthesis are generated, and the generated parameters are output to the speech synthesizer 5. Further, the speech synthesizer 5 performs speech synthesis as is known in the art based on the input parameters and outputs rule-synthesized speech corresponding to the input character string.

また、個人性を持つ音声を生成できる英語の音声規則合
成装置としてデックトーク(DECTa1k)が知られ
ており、このデックトークにおいては、音声の周波数を
変化することにより、男性、女性及び子供等の6種類の
異なった音韻を合成をすることができる。
In addition, DecTalk (DECTa1k) is known as an English speech rule synthesis device that can generate voices with individuality. It is possible to synthesize six different phonemes.

[発明が解決しようとする問題点] しかしながら、上述の2種類の従来例の音声規al1合
成装置においては、入力された文字列に対して画一的に
規則合成音声が生成され、従って、個人性の特徴を有す
る規則合成音声を自動的に再現することはできないとい
う問題点があった。
[Problems to be Solved by the Invention] However, in the above-mentioned two types of conventional speech standard al1 synthesis devices, rule synthesized speech is uniformly generated for input character strings, and therefore, it is difficult for individuals to There is a problem in that it is not possible to automatically reproduce rule-based synthesized speech that has gender characteristics.

本発明の目的は、以上の問題点を解決し、任への音声信
号を入力し、入力された音声信号を解析することによっ
て、個人性の特徴を有する任意の文字又は文字列の合成
音声を生成することができる音声合成装置を提供するこ
とにある。
The purpose of the present invention is to solve the above-mentioned problems and generate synthesized speech of arbitrary characters or character strings having individual characteristics by inputting a voice signal to a person and analyzing the input voice signal. An object of the present invention is to provide a speech synthesis device that can generate speech.

E問題点を解決するための手段] 本発明は、文字又は文字列から所定の音韻制御規則及び
韻律制御規則に基づいて音声合成パラメータを生成する
手段と、音声信号から個人性を表わす特徴パラメータを
抽出する手段と、上記特徴パラメータに基づいて上記音
声合成パラメータから合成音声を生成する手段とを備え
たことを特徴とする。
Means for Solving Problem E] The present invention provides means for generating speech synthesis parameters from characters or character strings based on predetermined phoneme control rules and prosody control rules, and a means for generating feature parameters representing individuality from speech signals. The present invention is characterized in that it includes means for extracting, and means for generating synthesized speech from the speech synthesis parameters based on the feature parameters.

[作用] 以上のように構成することにより、文字又は文字列から
所定の音韻制御規則及び韻律制御規則に基づいて音声合
成パラメータを生成し、一方、音声信号から個人性を表
わす特徴パラメータを抽出した後、上記特徴パラメータ
に基づいて、上記音声合成パラメータから合成音声を生
成する。これによって、入力された音声信号の個人性の
特徴を有する上記文字又は文字列の合成音声を生成する
ことができる。
[Operation] With the above configuration, speech synthesis parameters are generated from characters or character strings based on predetermined phonological control rules and prosody control rules, and feature parameters representing individuality are extracted from speech signals. Thereafter, synthesized speech is generated from the speech synthesis parameters based on the feature parameters. Thereby, it is possible to generate synthesized speech of the above-mentioned characters or character strings having the characteristics of the individuality of the input speech signal.

[実施例] 第1図は本発明の一実施例である音声規則合成装置のブ
ロック図である。第1図において、第2図と同一のもの
については、同一の符号を付している。この音声規則合
成装置が第2図の従来例の装置と異なるのは、自然音声
を入力として個人性の解析を行ない、解析された個人性
特徴パラメータの情報を付加して個人性の特徴を有する
規則合成音声を得るようにしたことてあり、従来例の装
置に比較し、個人性解析部6、個人性規則制御部7及び
個人性制御規則を有する規則ファイル8を付加しrここ
とを特徴としている。
[Embodiment] FIG. 1 is a block diagram of a speech rule synthesis device that is an embodiment of the present invention. In FIG. 1, the same parts as in FIG. 2 are given the same reference numerals. The difference between this speech rule synthesis device and the conventional device shown in Fig. 2 is that it uses natural speech as input and analyzes its individuality, and adds information on the analyzed personality characteristic parameters to create individuality characteristics. It is designed to obtain rule-based synthesized speech, and compared to the conventional device, a personality analysis section 6, a personality rule control section 7, and a rule file 8 having personality control rules are added. It is said that

以下、第1図を参照して本発明に係る音声規則合成装置
の構成及び動作について説明する。第1図において、任
意の文字列がマイクロホン又はキーボード(図示せず)
を介して文字列解析部1に入力され、文字列解析部lは
入力された文字列の構文解釈を行ない、文字列全体のイ
ントネーションパターンを決定するとともに、単語辞書
2を参照して上記文字列に含まれる単語を検索し、文字
列内の各単語のアクセント及び音韻記号系列を決定し、
上記文字列の音韻記号系列及びアクセントパターンを決
定する。上記文字列は該文字列情報を識別できる信号で
あればよく、例えばコード化され1こ電気信号であって
もよいし、音声信号であってもよい。
The configuration and operation of the speech rule synthesis device according to the present invention will be explained below with reference to FIG. In Figure 1, any character string is connected to a microphone or keyboard (not shown).
is input to the character string analysis unit 1 via searches for words contained in the string, determines the accent and phonetic symbol sequence of each word in the string,
The phonetic symbol sequence and accent pattern of the character string are determined. The character string may be any signal that can identify the character string information, and may be, for example, a coded electrical signal or an audio signal.

文字列解析部1において決定された上記文字列の音韻記
号系列、アクセントパターン及びイントネーションパタ
ーンは音韻性規則制御部3に出力され、音韻規則制御部
3は、規則ファイル4に格納された各音韻を結合させる
ための音韻制御規則と、各韻律を制御するための韻律制
御規則を参照して、上記文字列の音韻特徴パラメータ、
各音韻間のピッチ値、各音韻のパワー及び継続時間長等
の音声合成に必要なパラメータを生成し、生成した上記
パラメータを個人性規則制御部7に出力する。
The phonetic symbol sequence, accent pattern, and intonation pattern of the character string determined in the character string analysis section 1 are output to the phonological rule control section 3, and the phonological rule control section 3 analyzes each phoneme stored in the rule file 4. With reference to the phonological control rule for combining and the phonological control rule for controlling each prosody, the phonological feature parameter of the character string,
Parameters required for speech synthesis, such as the pitch value between each phoneme, the power and duration of each phoneme, are generated, and the generated parameters are output to the individuality rule control section 7.

一方、個人性の解析の対象となる自然音声がマイクロホ
ン(図示せず)を介して個人性解析部6に入力され、個
人性解析部6は入力された自然音声について個人性の解
析を行ない、詳細後述される個人性特徴パラメータを生
成して個人性規則制御部7に出力する。さらに、個人性
規則制御部7は、個人性解析部6から入力された個人性
特徴パラメータに基づいて、規則ファイル8から対応す
る個人性制御規則を取り出した後、先に音韻規則制御部
3から入力された音韻特徴パラメータ、ピッチ値、パワ
ー値及び継続時間長を上記取り出された個人性制御規則
に基づいて修正し、修正された音韻特徴パラメータ、ピ
ッチ値、パワー値及び継続時間長を音声合成器5に出力
する。さらに、音声合成器5は、入力されたパラメータ
に基づいて公知の通り音声合成を行ない、入力された文
字列に対応し、個人性特徴パラメータの情報により修正
された規則合成音声を出力する。
On the other hand, natural voices to be analyzed for individuality are input to the individuality analysis unit 6 via a microphone (not shown), and the individuality analysis unit 6 analyzes the individuality of the input natural voices, Personal characteristic parameters, which will be described in detail later, are generated and output to the personal rule control section 7. Further, the individuality rule control unit 7 retrieves the corresponding individuality control rule from the rule file 8 based on the individuality feature parameters input from the individuality analysis unit 6, and then first extracts the individuality control rule from the phonological rule control unit 3. The input phonological feature parameters, pitch values, power values, and duration lengths are corrected based on the personality control rules extracted above, and the modified phonological feature parameters, pitch values, power values, and duration lengths are used for speech synthesis. Output to device 5. Furthermore, the speech synthesizer 5 performs speech synthesis as is known in the art based on the input parameters, and outputs a rule-synthesized speech that corresponds to the input character string and has been modified based on the information on the personal characteristic parameters.

以上のように構成することにより、文字列解析部lに入
力された入力文字列が個人性解析部6に入力された自然
音声の有する個人性特徴パラメータの情報により修正さ
れ、より上記自然音声の個人性を有する規則合成音声が
音声合成器5から出力される。
With the above configuration, the input character string input to the character string analysis unit 1 is corrected by the information on the personality characteristic parameters of the natural voice input to the personality analysis unit 6, and the character string is modified to improve the quality of the natural voice. The speech synthesizer 5 outputs a rule-synthesized speech having individuality.

次に、第1図の個人性解析部6、個人性規則制御部7及
び規則ファイル8における個人性特徴パラメータの具体
的解析方法について、(1)個人性を音質面から実現す
る場合、(2)時間的な変動による個人性を実現する場
合に分類して説明する。
Next, regarding the specific analysis method of the individuality characteristic parameters in the individuality analysis unit 6, individuality rule control unit 7, and rule file 8 shown in FIG. ) Classify and explain the cases in which individuality is achieved through temporal variation.

(1)個人性を音質面から実現する場合一般に、声道長
の個人差によって声道の共振周波数が異なり個人性が表
われると考えられ、個人性の解析において、予め標準的
な声道の共振周波数を設定し、設定された声道の標準共
振周波数と入力された自然音声の共振周波数との違いを
求め、この共振周波数の差異の情報に基づいて個人性を
表わすことができる。すなわち、まず個人性解析部6に
入力された自然音声から声道長によって規則的に有意に
変化する有声音のみを対象にして、例えば偏相関係数(
PARCOR係数)又は線形予測係数(LPG)、線ス
ペクトル対(LSP)という音韻を表現する個人性特徴
パラメータを、例えばホルマント周波数及び声道断面積
比という物理的な対応づけを行なうことができるパラメ
ータに変換する。ここで、個人性解析部6において、入
力された自然音声から直接ホルマント周波数及び声道断
面積比を抽出できる場合は、上記変換を行なう必要がな
い。
(1) When realizing individuality from the aspect of sound quality In general, it is thought that the resonant frequency of the vocal tract differs depending on individual differences in vocal tract length, and individuality is expressed. By setting a resonant frequency and determining the difference between the set standard resonant frequency of the vocal tract and the resonant frequency of the input natural voice, individuality can be expressed based on information on the difference in resonant frequency. That is, first, from the natural speech input to the individuality analysis unit 6, only voiced sounds that regularly and significantly change depending on the vocal tract length are targeted, and for example, the partial correlation coefficient (
PARCOR coefficient), linear prediction coefficient (LPG), and line spectrum pair (LSP), which are individual characteristic parameters that express phonology, are converted into parameters that can be physically correlated, such as formant frequency and vocal tract cross-sectional area ratio. Convert. Here, if the individuality analysis unit 6 can directly extract the formant frequency and vocal tract cross-sectional area ratio from the input natural speech, there is no need to perform the above conversion.

次に、予め生成された基準となるホルマント周波数及び
声道断面積比の音韻特徴パラメータ又は規則ファイル4
に格納されている音韻制御規則と比較して、差の情報を
個人性制御規則として規則ファイル8に格納し、上述の
手順によって個人性規則制御部7において個人性を付加
し、音声合成に必要な上記所定のパラメータを得る。
Next, the phonological feature parameters or rule file 4 of the formant frequency and vocal tract cross-sectional area ratio that are generated in advance as a reference.
The information on the difference is stored as a personalization control rule in the rule file 8, and the personalization rule control section 7 adds personalization using the above-mentioned procedure, and adds the personalization to the phoneme control rules necessary for speech synthesis. obtain the above-mentioned predetermined parameters.

上述の操作の簡便な方法として下記の方法を用いてもよ
い。すなわち、まず、付加したい個人性を持った“あい
うえお”の5母音と“ん”のはつ音の6種類の音声信号
を個人性解析部6に入力し、個人性解析部6において入
力された自然音声のホルマント周波数及び声道断面積比
が算出された後、予め生成された基準となるホルマント
周波数及び声道断面積比と上記算出された値との比率を
算出し、この比率を個人性制御規則として規則ファイル
8に格納する。次に、個人性規則制御部7において、音
韻性規則制御部3から入力された音韻特徴パラメータで
あるホルマント周波数及び声道断面積比に、規則ファイ
)、L/8に格納された個人性制御規則内の上記比率を
掛けることによって個人性の情報を付加した音韻特徴パ
ラメータを得ることができ、これを音声合成器5に出力
することによって個人性を有する規則合成音声を得るこ
とができる。
The following method may be used as a simple method for the above operation. That is, first, six types of audio signals, including the five vowels of "Aiueo" and the broken sound of "N", which have individuality to be added, are inputted to the individuality analysis section 6, and the input signals are input to the individuality analysis section 6. After the formant frequency and vocal tract cross-sectional area ratio of natural speech are calculated, the ratio of the formant frequency and vocal tract cross-sectional area ratio generated in advance as a reference and the above calculated value is calculated, and this ratio is calculated based on individuality. It is stored in the rule file 8 as a control rule. Next, in the individuality rule control unit 7, the formant frequency and the vocal tract cross-sectional area ratio, which are the phonetic feature parameters input from the phonology rule control unit 3, are combined with the individuality control stored in the rule phi) and L/8. By multiplying the ratios in the rules, it is possible to obtain phoneme feature parameters to which individuality information is added, and by outputting this to the speech synthesizer 5, it is possible to obtain rule-based synthesized speech having individuality.

また、個人性解析部6において入力された自然音声より
励振源を抽出した後、この励振源から個人性を抽出し、
個人性規則制御部7において、この励振源の個人性を付
加するようにしてもよい。
Further, after extracting an excitation source from the input natural voice in the individuality analysis unit 6, individuality is extracted from this excitation source,
The individuality rule control unit 7 may add the individuality of this excitation source.

すなわち、簡便な方法として、線形予測によって得られ
る線形予測残差に含まれる個人性の情報において、励@
源に含まれる個人性の情報がかなり含まれるとき、個人
性解析部6において線形予測分析を行ない、その結果得
られる線形予測残差と予め生成された基準の線形予測残
差とを比較することにより、個人性の情報を抽出し、抽
出された個人性の線形予測残差を個人性制御規則として
規則ファイル8に格納して、個人性規則制御部7にお(
・て個人性の情報を付加する。ここで、さらに簡便な方
法として、個人性解析部6で得られた自然音声の線形予
測残差そのままを個人性制御規則として規則ファイル8
に格納し用いろことも可能である。
In other words, as a simple method, excitation@
When the source contains a considerable amount of personality information, the personality analysis unit 6 performs linear prediction analysis, and compares the linear prediction residual obtained as a result with the linear prediction residual of the standard generated in advance. The individuality information is extracted, the extracted individuality linear prediction residual is stored in the rule file 8 as the individuality control rule, and the individuality rule control section 7 (
・Add personal information. Here, as an even simpler method, the linear prediction residual of the natural speech obtained by the individuality analysis unit 6 is used as the individuality control rule in the rule file 8.
It is also possible to store and use it.

上記の励@源に含まれる個人性の情報としてピッチ周波
数があり、以下、このピンチ周波数をパラメータとして
個人性の晴報の付加を行なう具体的な場合について説明
する。
There is a pitch frequency as the personal information included in the above-mentioned excitation source, and a specific case in which personal information is added using this pinch frequency as a parameter will be described below.

まず、個人性解析部6において、ピッチ周波数を入力さ
れた自然音声から抽出してその平均ピッチ周波数を算出
する。一方、予め基準となるピッチ周波数を音韻制御規
則の規則ファイル4に格納しておき、この基準ピッチ周
波数と上記算出された平均ピッチ周波数から比率を算出
し、このピッチ周波数の比率を個人性制御規則として規
則ファイル8に格納する。さらに、個人性規則制御部7
において、音韻性規則制御部3から入力された音韻特徴
パラメータであるピッチ周波数に規則ファイル8に格納
されたピッチ周波数の比率を掛けろことによって個人性
の情報を付加することができる。
First, the individuality analysis unit 6 extracts the pitch frequency from the input natural speech and calculates the average pitch frequency. On the other hand, a reference pitch frequency is stored in advance in the rule file 4 of the phonological control rules, a ratio is calculated from this reference pitch frequency and the average pitch frequency calculated above, and this pitch frequency ratio is set as the individuality control rule. It is stored in the rule file 8 as . Furthermore, the individuality rule control unit 7
Personality information can be added by multiplying the pitch frequency, which is the phonetic feature parameter input from the phonetic rule control unit 3, by the pitch frequency ratio stored in the rule file 8.

(2)時間的な変動による個人性を実現する場合予め個
人によって固有な単語のアクセントパターンとパワーパ
ターンの韻律制御規則を個人性制御規則として規則ファ
イル8に格納することによって個人性の情報を付加する
ことができる。すなわち、まず、個人性解析部6におい
て入力された自然音声からピッチ周波数とパワーを算出
し、規則ファイル4内に格納されている韻律制御規則の
ピッチ周波数及びパワーと、上記算出されたピッチ周波
数及びパワーとを比較し、その差を個人性制御規則とし
て規則ファイル8に加える。これによって、上述と同様
な方法で個人性の情報を付加することができる。
(2) When realizing individuality through temporal variation, individuality information is added by storing prosodic control rules for word accent patterns and power patterns unique to each individual in advance as individuality control rules in the rule file 8. can do. That is, first, the pitch frequency and power are calculated from the input natural speech in the individuality analysis unit 6, and the pitch frequency and power of the prosody control rule stored in the rule file 4 are combined with the pitch frequency and power calculated above. The difference is added to the rule file 8 as a personality control rule. This allows personalization information to be added in the same manner as described above.

また、無声化・鼻音化の個人に依存する特徴を抽出でき
る場合には、単語アクセントの個人性抽出の場合と同様
に、下記の通り個人性の情報を規則合成音声に付加する
ことができる。
Furthermore, if individual-dependent features such as devoicing and nasalization can be extracted, personality information can be added to the rule-based synthesized speech as described below, similar to the case of extracting the personality of word accents.

まず、無声化の個人性抽出の場合、個人性解析部6にお
いて入力された自然音声からピッチ周波数を算出し、有
声音または無声音の判定を行なう。
First, in the case of unvoiced individuality extraction, the individuality analysis unit 6 calculates the pitch frequency from the input natural speech and determines whether it is a voiced sound or an unvoiced sound.

次に、予め生成された基準の音韻制御規fi11から上
記算出されたピッチ周波数が、有声音であるか又は無声
音であるかを調べる。その差異の情報を個人性制御規則
として規則ファイル8に格納して、上述と同様に個人性
規則制御部7において個人性の情報を付加することがで
きる。
Next, it is checked whether the pitch frequency calculated above is a voiced sound or an unvoiced sound from the reference phoneme control rule fi11 generated in advance. The information on the difference can be stored in the rule file 8 as a personalization control rule, and the personalization information can be added in the personalization rule control section 7 in the same manner as described above.

次に、鼻音化の個人性抽出の場合、まず、個人性解析部
6において入力された自然音声から鼻音性の抽出を行な
う。鼻音性の抽出には、自然音声の高周波成分と低周波
成分との比率、あるいはARMA9折による鋭いピーク
を持った零点の存在によって抽出することができる。次
に、予め生成された基準の音韻制御規則の鼻音性と上記
抽出された鼻音性とを比較し、その音声が鼻音化するか
否かの情報、並びに鼻音化する場合鼻音化の程度差異の
情報を、個人性制御規則として規則ファイル8に格納し
て、上述と同様に、個人性規則制御部7において個人性
の情報を付加することができる。
Next, in the case of extracting the individuality of nasalization, first, the individuality analysis section 6 extracts the nasality from the input natural speech. Nasality can be extracted based on the ratio of high frequency components and low frequency components of natural speech, or the presence of a zero point with a sharp peak due to ARMA 9 fold. Next, the nasality of the standard phonetic control rule generated in advance is compared with the nasality extracted above, and information on whether the speech is nasalized or not, and if it is nasalized, the difference in the degree of nasalization is obtained. The information can be stored in the rule file 8 as a personalization control rule, and the personalization information can be added in the personalization rule control section 7 in the same manner as described above.

以上、第1図の音声規則合成装置を用いて自動的に個人
性の特徴が付加された規則合成音声を得ろ方法について
説明したが、自動的に個人性特徴パラメータを抽出しに
くい場合、あるいはその個人性特徴パラメータを自動的
に規則化しにくい場合、更には自動的に生成された規則
に基づいて合成した音声よりも、もっと良い個人性を持
った音質を要求する場合には、予め手動によって個人性
を表わす特徴パラメータを算出して個人性制御規則を作
成し、その規則に基づいて合成音声を生成し、合成音声
の聴取実験に基づいて個人性制御規則を作り直す作業の
繰り返しによって、合成音声の高品質化及び規則の最適
化を行なうようにしてもよい。
The method described above uses the speech rule synthesis device shown in Figure 1 to automatically obtain rule-based synthesized speech to which personal characteristics are added. If it is difficult to automatically regularize individuality feature parameters, or if you require sound quality with better individuality than speech synthesized based on automatically generated rules, you can manually By repeating the process of calculating feature parameters representing gender, creating individuality control rules, generating synthesized speech based on the rules, and recreating individuality control rules based on synthetic speech listening experiments, it is possible to create synthetic speech. It is also possible to improve the quality and optimize the rules.

また、予め不特定多数の話者の音声を解析し、抽出され
た多くの個人性制御規則を記憶媒体である規則ファイル
8に蓄積し、この個人性制御規則を用いることにより高
品質の個人性が付加された規則合成音声を得ることがで
きる。この場合には、第1図の個人性解析部6が不要で
ある。
In addition, the voices of an unspecified number of speakers are analyzed in advance, and many extracted individuality control rules are stored in the rule file 8, which is a storage medium, and by using these individuality control rules, high-quality individuality can be achieved. It is possible to obtain rule-synthesized speech with added . In this case, the individuality analysis section 6 shown in FIG. 1 is unnecessary.

以上の実施例において、文字列解析部lに文字列を入力
しているが、文字単位で文字列解析部lに入力して処理
するようにしてもよい。
In the above embodiment, a character string is input to the character string analysis section l, but it may be input to the character string analysis section l character by character and processed.

以上の実施例において、規則ファイル4に格納される音
韻制御規則及び韻律制御規則の情報量が少ない場合であ
っても、個人性解析部6が生成する個人性特徴パラメー
タに基づいて個人性規則制御部7において音声合成に必
要なパラメータを修正し修正されたパラメータを音声合
成器5に出力するようにしたので、個人性解析部6に入
力された自然音声に忠実な合成音を生成することができ
る。また、使用者の好みにあっfこ音質の音声を簡単に
生成することができるという利点がある。
In the above embodiment, even if the amount of information of the phonological control rules and prosody control rules stored in the rule file 4 is small, the individuality rule control is performed based on the individuality characteristic parameters generated by the individuality analysis section 6. Since the parameters necessary for speech synthesis are modified in the section 7 and the modified parameters are output to the speech synthesizer 5, it is possible to generate synthesized speech that is faithful to the natural speech input to the personality analysis section 6. can. Another advantage is that it is possible to easily generate audio with a quality that suits the user's preference.

[発明の効果] 以上詳述したように本発明によれば、文字又は文字列か
ら所定の音韻制御規1’l及び韻律制御規1111に基
づいて音声合成パラメータを生成し、一方、音声信号か
ら個人性を表わす特徴パラメータを抽出した後、上記特
徴パラメータに基づいて上記音声合成パラメータから合
成音声を生成するようにしたので、入力された音声信号
の個人性の特徴を有する上記文字又は文字列の合成音声
を生成することができる。従って、上記音声合成パラメ
ータを生成する手段において必要な上記規則の情報量が
少ない場合であっても、入力された音声信号に忠実な合
成音声を生成することができるという利点がある。
[Effects of the Invention] As detailed above, according to the present invention, speech synthesis parameters are generated from characters or character strings based on the predetermined phoneme control rule 1'l and prosody control rule 1111, and on the other hand, speech synthesis parameters are generated from the speech signal. After extracting the characteristic parameters representing individuality, synthesized speech is generated from the voice synthesis parameters based on the characteristic parameters, so that the character or character string having the characteristics of the individuality of the input voice signal It is possible to generate synthetic speech. Therefore, even if the amount of information on the rules required in the means for generating the voice synthesis parameters is small, there is an advantage that synthesized voice faithful to the input voice signal can be generated.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例である音声規則合成装置のブ
ロック図、 第2図は従来例の音声規則合成装置のブロック図である
。 1・・・文字列解V′r部、  2・・・単語辞書、3
・・・音韻性規則制御部、4.8・・・規則ファイル、
5・・・音声合成器、    6・・個人性解析部、7
・・・個人性規則制御部。
FIG. 1 is a block diagram of a speech rule synthesis device that is an embodiment of the present invention, and FIG. 2 is a block diagram of a conventional speech rule synthesis device. 1... String solution V'r part, 2... Word dictionary, 3
... Phonological rule control unit, 4.8... Rule file,
5...Speech synthesizer, 6...Personality analysis section, 7
...Individuality rule control department.

Claims (1)

【特許請求の範囲】[Claims] (1)文字又は文字列から所定の音韻制御規則及び韻律
制御規則に基づいて音声合成パラメータを生成する手段
と、 音声信号から個人性を表わす特徴パラメータを抽出する
手段と、 上記特徴パラメータに基づいて上記音声合成パラメータ
から合成音声を生成する手段とを備えたことを特徴とす
る音声合成装置。
(1) means for generating speech synthesis parameters from characters or character strings based on predetermined phonological control rules and prosody control rules; means for extracting feature parameters representing individuality from speech signals; A speech synthesis device comprising means for generating synthesized speech from the speech synthesis parameters.
JP24680386A 1986-10-16 1986-10-16 speech synthesizer Pending JPS63100499A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24680386A JPS63100499A (en) 1986-10-16 1986-10-16 speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24680386A JPS63100499A (en) 1986-10-16 1986-10-16 speech synthesizer

Publications (1)

Publication Number Publication Date
JPS63100499A true JPS63100499A (en) 1988-05-02

Family

ID=17153915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24680386A Pending JPS63100499A (en) 1986-10-16 1986-10-16 speech synthesizer

Country Status (1)

Country Link
JP (1) JPS63100499A (en)

Similar Documents

Publication Publication Date Title
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US20090094035A1 (en) Method and system for preselection of suitable units for concatenative speech
JP2008545995A (en) Hybrid speech synthesizer, method and application
MXPA06003431A (en) Method for synthesizing speech.
US6212501B1 (en) Speech synthesis apparatus and method
JP2006030609A (en) Voice synthesis data generating device, voice synthesizing device, voice synthesis data generating program, and voice synthesizing program
JPH0887297A (en) Speech synthesis system
JP2017167526A (en) Multiple stream spectrum expression for synthesis of statistical parametric voice
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
JPH08335096A (en) Text voice synthesizer
JPH05100692A (en) Voice synthesizer
JP3626398B2 (en) Text-to-speech synthesizer, text-to-speech synthesis method, and recording medium recording the method
JPH09179576A (en) Voice synthesis method
JPS63100499A (en) speech synthesizer
JP2703253B2 (en) Speech synthesizer
JP3081300B2 (en) Residual driven speech synthesizer
JPH037995A (en) Generating device for singing voice synthetic data
JP3883780B2 (en) Speech synthesizer
JP2642617B2 (en) Speech synthesizer
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JPH11109992A (en) Phoneme database creating method, voice synthesis method, phoneme database, voice element piece database preparing device and voice synthesizer
Kaufman et al. Using Deepfake Technologies for Word Emphasis Detection
JPH0258640B2 (en)
JP2956936B2 (en) Speech rate control circuit of speech synthesizer
JP2839492B2 (en) Speech synthesis apparatus and method