[go: up one dir, main page]

WO2011151956A1 - 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム - Google Patents

声質変換装置及びその方法、母音情報作成装置並びに声質変換システム Download PDF

Info

Publication number
WO2011151956A1
WO2011151956A1 PCT/JP2011/001541 JP2011001541W WO2011151956A1 WO 2011151956 A1 WO2011151956 A1 WO 2011151956A1 JP 2011001541 W JP2011001541 W JP 2011001541W WO 2011151956 A1 WO2011151956 A1 WO 2011151956A1
Authority
WO
WIPO (PCT)
Prior art keywords
vowel
information
vocal tract
opening degree
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2011/001541
Other languages
English (en)
French (fr)
Inventor
良文 廣瀬
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2012502798A priority Critical patent/JP5039865B2/ja
Priority to CN2011800026487A priority patent/CN102473416A/zh
Publication of WO2011151956A1 publication Critical patent/WO2011151956A1/ja
Priority to US13/334,119 priority patent/US20120095767A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Definitions

  • the present invention relates to a voice quality conversion device for converting voice quality.
  • the present invention relates to a voice quality conversion device that converts voice quality of voice by converting vocal tract information.
  • characteristic audio is distributed as content.
  • the characteristic voice includes a synthetic sound with high individual reproducibility, a synthetic sound having characteristic prosody and voice quality such as a child's age or a region-specific round.
  • human speech is narrowed by an articulator such as a tongue when a sound source waveform generated by vibration of the vocal cord 1601 passes through a vocal tract 1604 composed of glottis 1602 to lips 1603. It is generated by being affected by.
  • the analysis-synthesizing speech synthesis method analyzes speech based on such speech generation principle, thereby separating speech into vocal tract information and sound source information, and transforming the separated vocal tract information and sound source information.
  • the voice quality of the synthesized sound can be converted.
  • a model called a vocal tract sound source model is used as a speech analysis method. In the analysis using the vocal tract sound source model, the speech is separated into sound source information and vocal tract information based on the generation process. Voice quality can be converted by transforming the separated sound source information and vocal tract information.
  • FIG. 18 shows a functional configuration of a conventional voice quality conversion device described in Patent Document 1.
  • the conventional voice quality conversion apparatus shown in FIG. 18 includes a spectrum envelope extraction unit 11, a spectrum envelope conversion unit 12, a voice synthesis unit 13, a voice label assignment unit 14, a voice label information storage unit 15, and a conversion label creation unit. 16, an interphoneme conversion table estimation unit 17, a conversion table selection unit 18, and a spectrum envelope conversion table storage unit 19.
  • the spectrum envelope extraction unit 11 extracts the spectrum envelope from the input voice of the conversion source speaker.
  • the spectrum envelope conversion unit 12 converts the spectrum envelope extracted by the spectrum envelope extraction unit 11.
  • the speech synthesizer 13 synthesizes the speech of the conversion destination speaker from the spectrum envelope converted by the spectrum envelope converter 12.
  • the voice label giving unit 14 gives voice label information.
  • the voice label information storage unit 15 stores the voice label information given by the voice label giving unit 14.
  • the conversion label creating unit 16 creates a conversion label representing control information for converting the spectrum envelope based on the sound label information stored in the sound label information storage unit 15.
  • the inter-phoneme conversion table estimation unit 17 estimates a spectrum envelope conversion table between phonemes constituting the input speech of the conversion source speaker.
  • the conversion table selection unit 18 selects a spectrum envelope conversion table from a spectrum envelope conversion table storage unit 19 described later based on the conversion label created by the conversion label creation unit 16.
  • the spectrum envelope conversion table storage unit 19 stores a vowel spectrum envelope conversion table 19a as a spectrum envelope conversion rule for learned vowels and a consonant spectrum envelope conversion table 19b as a spectrum envelope conversion rule for consonants.
  • the conversion table selection unit 18 selects, from the vowel spectrum envelope conversion table 19a and the consonant spectrum envelope conversion table 19b, spectrum envelope conversion tables corresponding to the vowels and consonants of the phonemes constituting the input speech of the conversion source speaker, respectively.
  • the phoneme conversion table estimation unit 17 estimates a spectrum envelope conversion table between phonemes constituting the input speech of the conversion source speaker based on the selected spectrum envelope conversion table.
  • the spectrum envelope conversion unit 12 extracts the spectrum extracted by the spectrum envelope extraction unit 11 from the input speech of the conversion source speaker based on the selected spectrum envelope conversion table and the estimated spectrum envelope conversion table between phonemes. Convert the envelope.
  • the voice synthesizer 13 synthesizes voice of the voice of the conversion destination speaker from the converted spectrum envelope.
  • a conversion rule for converting a spectrum envelope is selected based on a phoneme environment that is information of phonemes before and after the voice uttered by the conversion source speaker.
  • the voice quality of the input voice is converted by applying the selected conversion rule to the spectrum envelope of the input voice.
  • Voice quality in natural utterance is affected by various factors such as speech utterance speed, position in utterance, or position in accent phrase. For example, in a natural utterance, the beginning of a sentence is clearly uttered with high clarity, but at the end of the sentence, there is a tendency for pronunciation to be negligible and the intelligibility tends to decrease. Alternatively, when a certain word is emphasized in the utterance of the conversion source speaker, the voice quality of the word tends to be higher in clarity than when not coordinated.
  • FIG. 19 is a graph showing vocal tract transmission characteristics of the same vowel with the same preceding phoneme by the same speaker.
  • the horizontal axis represents frequency
  • the vertical axis represents spectral intensity.
  • Curve 201 shows the vocal tract transmission characteristic of / ma / of / ma / of “vertigo” when uttering “/ memaigashimasuku /”.
  • a curve 202 shows a vocal tract transmission characteristic of / ma / of / a / when “no hot water comes out (/ oyugadaseN /)”. According to this graph, it is understood that the vocal tract transfer characteristics are greatly different even when comparing vowels having preceding phonemes having the same position and intensity of formants (upward peaks) indicating the resonance frequency.
  • the vowel / a / having the vocal tract transmission characteristic indicated by the curve 201 is a phoneme that is close to the beginning of the sentence and included in the content word (content word), whereas the voice indicated by the curve 202 is the voice.
  • the vowel / a / having a road transfer characteristic is a phoneme that is close to the end of a sentence and is included in a function word.
  • the vowel / a / having the vocal tract transmission characteristic indicated by the curve 201 can be heard more clearly.
  • the function word is a word having a grammatical role, and in English includes a preposition, a conjunction, an article, an auxiliary verb (adverb), and the like.
  • the content word is a word having a general meaning other than that, and in English, includes a noun, an adjective, a verb, an adverb, and the like.
  • the utterance method differs depending on the position in the sentence. That is, there is a difference in conscious or unconscious utterance methods such as “speech and clear voice” or “speak and lazy voice”. Such a difference in utterance method is hereinafter referred to as “speech mode”.
  • the utterance style fluctuates not only in the phonological environment but also in various other linguistic and physiological influences.
  • the voice quality conversion apparatus of Patent Document 1 selects a mapping function using a phonological environment and performs voice quality conversion without considering such fluctuations in the voice style, the voice voice style after voice quality conversion is This is different from the utterance mode of the utterance of the conversion source speaker. As a result, the time change pattern of the utterance mode in the voice after voice quality conversion is different from the time change pattern of the utterance of the conversion source speaker, resulting in a very unnatural voice.
  • FIG. 20A shows a change in the utterance state (intelligibility) of each vowel included in the voice with respect to the voice “vertigo / memaigasimasxu /” uttered as the input voice.
  • the region of X is a clear utterance and shows a phoneme with high intelligibility.
  • the area Y indicates a phonation that is lazy and has a low intelligibility. For example, in this way, the first half is an utterance mode with high clarity, and the second half is an utterance mode with low clarity.
  • FIG. 20B is an image diagram of the temporal change of the utterance state of the converted speech when the conversion rule is selected and the voice quality conversion is performed only by the phonological environment. Since the conversion rule is selected based only on the phonological environment, the utterance mode changes regardless of the characteristics of the input speech. For example, when the utterance state changes as shown in FIG. 20 (b), the vowel (/ a /) uttered with high clarity and the vowel (/ e /, / i / uttered with low clarity). ) Can be obtained in such a manner that the utterance is repeated alternately.
  • FIG. 21 shows the movement of the formant 401 when voice quality conversion is performed using / a / when clearly speaking with high clarity to the voice uttered "No hot water (/ oyugadaseN /)". An example is shown.
  • the horizontal axis represents time
  • the vertical axis represents formant frequency
  • the first, second, and third formants are represented from the lowest frequency.
  • the formant 402 after conversion to another voicing mode (sounding clearly and with high clarity) to the vowel / a / is found to be significantly different in frequency from the formant 401 of the original utterance.
  • the temporal movement of each formant 402 increases as shown by the broken lines in the figure, so that not only the voice quality is different, but also the sound quality after the voice quality conversion. to degrade.
  • the present invention solves the above-described conventional problems, and converts the voice quality while maintaining temporal variation of the utterance mode possessed by the utterance of the conversion source speaker.
  • An object of the present invention is to provide a voice quality conversion device that does not deteriorate the sound.
  • a voice quality conversion device is a voice quality conversion device for converting the voice quality of input speech, and includes a vocal tract sound source separation unit that separates input speech into vocal tract information and sound source information, and the vocal tract sound source.
  • An opening degree calculation unit that calculates an opening degree corresponding to the volume in the oral cavity from vocal tract information of a vowel included in the input speech separated by the separation unit, and a target speaker that is a target for converting the voice quality of the input speech
  • a target vowel database storage unit that stores a plurality of vowel information including vowel type and aperture information and vocal tract information, and an aperture calculated by the aperture calculation unit that has the same vowel type, and Based on the degree of coincidence calculation unit that calculates the degree of coincidence with the degree of opening included in each vowel information stored in the target vowel database storage unit, and the degree of coincidence calculated by the degree of opening degree coincidence calculation unit
  • the target vowel A target vowel selection unit that selects vowel information from a plurality of vowel information
  • vowel information having an aperture that matches the aperture of the input speech is selected. For this reason, it is possible to select vowels having the same input voice and utterance mode (speech and high clarity or utterance with low clarity). Therefore, when converting the voice quality of the input voice to the target voice quality, it is possible to convert the voice quality of the input voice to the target voice quality while preserving the temporal change pattern of the utterance mode. As a result, the voice quality-converted speech stores the time pattern of the change in the utterance mode, so that it is possible to perform voice quality conversion without deteriorating the naturalness (fluency) at the time of voice quality conversion.
  • the vowel information further includes a vowel phoneme environment
  • the voice quality conversion device is further stored in the input phoneme environment in which the vowel types match each other and the target vowel database storage unit.
  • a phonological environment distance calculating unit that calculates a distance between the phoneme environment included in each of the vowel information, and the target vowel selection unit includes a degree of coincidence calculated by the opening degree coincidence degree calculating unit, and the phonological environment Using the distance calculated by the distance calculation unit, vowel information for converting the vocal tract information of the vowel included in the input speech is selected from a plurality of vowel information stored in the target vowel database storage unit. select.
  • the opening degree can be further considered in consideration of the phonological environment. For this reason, compared with the case where vowel information is selected only in the phonological environment, it is possible to reproduce a time change pattern of a natural utterance mode, and thus it is possible to obtain a highly natural voice quality conversion voice.
  • the target vowel selection unit is stored in the target vowel database storage unit using the coincidence calculated by the opening degree coincidence calculation unit and the distance calculated by the phonological environment distance calculation unit.
  • the vowel information to be selected is selected from a plurality of vowel information stored in the target vowel database storage unit.
  • the vowel information of the target vowel is selected by considering both the distance of the phoneme environment and the degree of coincidence of the aperture. In consideration of the environment, the opening degree can be further considered. For this reason, compared with the case where vowel information is selected only in the conventional phonological environment, it is possible to reproduce a temporal change pattern of a natural utterance mode, and thus it is possible to obtain a highly natural voice quality conversion voice.
  • the opening degree coincidence calculating unit has an opening degree calculated by the opening degree calculating unit, the vowel types of which coincide with each other, and an opening included in each vowel information stored in the target vowel database storage unit.
  • the degree is normalized for each speaker, and the degree of coincidence between the normalized opening degrees is calculated as the degree of coincidence.
  • the degree of coincidence of the opening degree is calculated using the opening degree normalized for each speaker. For this reason, the degree of coincidence can be calculated after distinguishing speakers having different utterance modes (for example, a speaker who speaks clearly and clearly and a speaker who speaks with a muffled voice). Therefore, since it is possible to select appropriate vowel information that matches the utterance mode of the speaker, it is possible to reproduce the time change pattern of the natural utterance mode for each speaker, and to obtain a highly natural voice quality conversion voice be able to.
  • the opening degree coincidence calculating unit is configured such that the opening degree calculated by the opening degree calculating unit and the opening degree included in each vowel information stored in the target vowel database storage unit, the vowel types of which coincide with each other. May be normalized for each type of vowel, and the degree of coincidence between the normalized opening degrees may be calculated as the degree of coincidence.
  • the degree of openness coincidence is calculated using the openness normalized for each type of vowel. For this reason, the degree of coincidence can be calculated after distinguishing the types of vowels. Therefore, since it is possible to select appropriate vowel information for each vowel, it is possible to reproduce a time change pattern of a natural utterance manner and obtain a highly natural voice quality conversion voice.
  • the opening degree coincidence calculating unit is stored in the target vowel database storage unit as the degree of coincidence, and the difference in the time direction of the opening degree calculated by the opening degree calculating unit, the vowel types matching each other.
  • the degree of coincidence with the difference in the time direction of the opening degree included in each vowel information that is present may be calculated.
  • the degree of coincidence of the aperture can be calculated based on the change in the aperture. For this reason, since the vowel information can be selected in consideration of the opening degree of the preceding vowel, it is possible to reproduce a time change pattern of a natural utterance manner and obtain a highly natural voice quality conversion voice. it can.
  • a voice quality conversion device is a voice quality conversion device that converts the voice quality of an input voice, the vocal tract sound source separation unit that separates the input voice into vocal tract information and sound source information, and the vocal tract An opening degree calculation unit that calculates an opening degree corresponding to the volume in the oral cavity from the vocal tract information of the vowel included in the input speech separated by the sound source separation unit, and each stored in the target vowel database storage unit, ,
  • the numerical aperture calculation that refers to a plurality of vowel information including a vowel type, a degree of aperture information, and vocal tract information regarding a target speaker that is a target to convert the voice quality of the input speech, and the vowel types match each other Based on the degree of coincidence calculated by the degree of opening calculated by the opening degree coincidence calculating unit and the degree of coincidence calculated by the opening degree coincidence calculating unit.
  • vocal tract information of the vowel included in the input speech is obtained.
  • the vowel deformation unit to be deformed the vocal tract information of the input speech after the vowel vocal tract information is deformed in the vowel deformation unit, and the sound source information separated by the vocal tract sound source separation unit, And a synthesis unit that synthesizes speech.
  • vowel information having an aperture that matches the aperture of the input speech is selected. For this reason, it is possible to select vowels having the same input voice and utterance mode (speech and high clarity or utterance with low clarity). Therefore, when converting the voice quality of the input voice to the target voice quality, it is possible to convert the voice quality of the input voice to the target voice quality while preserving the temporal change pattern of the utterance mode. As a result, the voice quality-converted speech stores the time pattern of the change in the utterance mode, so that it is possible to perform voice quality conversion without deteriorating the naturalness (fluency) at the time of voice quality conversion.
  • a vowel information creating apparatus is a vowel information creating apparatus for creating vowel information of a target speaker used for voice quality conversion of input speech, wherein the target speaker's voice is used as vocal tract information.
  • a vocal tract sound source separation unit that separates into sound source information, and an opening degree calculation unit that calculates an opening degree corresponding to the volume in the oral cavity from the vocal tract information of the target speaker's voice separated by the vocal tract sound source separation unit
  • target vowel information creation that creates vowel information about the target speaker, including vowel type, information on the degree of opening calculated by the opening degree calculating unit, and the vocal tract information separated by the vocal tract sound source separating unit A part.
  • This configuration makes it possible to create vowel information used for voice quality conversion. For this reason, it becomes possible to update the target voice quality as needed.
  • a voice quality conversion system includes the above voice quality conversion device and the above-described target vowel information creation device.
  • vowel information having an aperture that matches the aperture of the input speech is selected. For this reason, it is possible to select vowels having the same input voice and utterance mode (speech and high clarity or utterance with low clarity). Therefore, when converting the voice quality of the input voice to the target voice quality, it is possible to convert the voice quality of the input voice to the target voice quality while preserving the temporal change pattern of the utterance mode. As a result, the voice quality-converted speech stores the time pattern of the change in the utterance mode, so that it is possible to perform voice quality conversion without deteriorating the naturalness (fluency) at the time of voice quality conversion.
  • the present invention can be realized not only as a voice quality conversion device including such a characteristic processing unit, but also as a voice quality conversion method including steps executed by the characteristic processing unit included in the voice quality conversion device. Can be realized. It can also be realized as a program that causes a computer to execute characteristic steps included in the voice quality conversion method. Needless to say, such a program can be distributed through a computer-readable non-volatile recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • a computer-readable non-volatile recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • the voice quality conversion apparatus it is possible to maintain the temporal change pattern of the utterance mode in the input voice when converting the voice quality of the input voice to the target voice quality.
  • the voice quality-converted voice stores the time pattern of the change in utterance mode, so that voice quality conversion that does not deteriorate naturalness (fluency) is possible.
  • FIG. 1 is a diagram illustrating the difference in vocal tract cross-sectional area function depending on the utterance mode.
  • FIG. 2 is a block diagram showing a functional configuration of the voice quality conversion apparatus according to the embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an example of the vocal tract cross-sectional area function.
  • FIG. 4 is a diagram showing a temporal change pattern of the opening degree in the utterance.
  • FIG. 5 is a flowchart showing a method of constructing a target vowel stored in the target vowel DB storage unit.
  • FIG. 6 is a diagram illustrating an example of vowel information stored in the target vowel DB storage unit.
  • FIG. 1 is a diagram illustrating the difference in vocal tract cross-sectional area function depending on the utterance mode.
  • FIG. 2 is a block diagram showing a functional configuration of the voice quality conversion apparatus according to the embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an example of the vocal tract cross-section
  • FIG. 7 is a diagram showing PARCOR coefficients of the vowel section converted by the vowel deformation unit.
  • FIG. 8 is a diagram illustrating a vocal tract cross-sectional area function of a vowel converted by a vowel deformation unit.
  • FIG. 9 is a flowchart of processing executed by the voice quality conversion apparatus according to the embodiment of the present invention.
  • FIG. 10 is a block diagram showing a functional configuration of the voice quality conversion device according to the first modification of the embodiment of the present invention.
  • FIG. 11 is a flowchart of processing executed by the voice quality conversion device according to the first modification of the embodiment of the present invention.
  • FIG. 12 is a block diagram showing a functional configuration of a voice quality conversion system according to the second modification of the embodiment of the present invention.
  • FIG. 13 is a block diagram showing a minimum configuration of a voice quality conversion apparatus for carrying out the present invention.
  • FIG. 14 is a diagram illustrating a minimum configuration of vowel information stored in the target vowel DB storage unit.
  • FIG. 15 is an external view of the voice quality conversion device.
  • FIG. 16 is a block diagram illustrating a hardware configuration of the voice quality conversion apparatus.
  • FIG. 17 is a cross-sectional view of a human face.
  • FIG. 18 is a block diagram showing a functional configuration of a conventional voice quality conversion apparatus.
  • FIG. 19 is a diagram showing the difference in vocal tract transmission characteristics depending on the utterance mode.
  • FIG. 20 is a conceptual diagram showing temporal variation of the utterance mode.
  • FIG. 21 is a diagram illustrating an example of a difference in formant frequency due to a difference in utterance mode.
  • the vowel information of the vowel having the characteristics of the target voice is selected, and the voice quality conversion is performed by performing a predetermined calculation on the characteristics of the vowel section of the source voice (input voice).
  • the method will be described as an example.
  • the utterance mode is affected by, for example, the speech rate, the position in the utterance, or the position in the accent phrase. For example, in a natural utterance, the beginning of a sentence is clearly and clearly uttered, but at the end of the sentence, lazyness occurs and the intelligibility tends to decrease. In addition, in the utterance of the conversion source speaker, the utterance mode when a certain word is emphasized is different from the utterance mode when no word is emphasized.
  • the advantage of the voice quality conversion technique is that a synthesized voice having a target voice quality is obtained using a small amount of target voice as compared with the unit connection type speech synthesis system.
  • the voice quality conversion apparatus shown in the present embodiment it is possible to overcome the conflicting problem of using a small amount of target speech and considering the utterance mode described above.
  • FIG. 1A shows the logarithmic vocal tract cross-sectional area function of / ma / of / ma / of “vertigo” when uttering “the dizziness (/ memaigashimasuxu /)” described above, and FIG. ) Shows a logarithmic vocal tract cross-sectional area function of / ma / of / a / when “no hot water comes out (/ oyugamaseN /)”.
  • FIG. 1 (a) is close to the beginning of a sentence and is a content word (independent word), so the utterance mode is clearly and clearly spoken.
  • / a / in FIG. 1 (b) is close to the end of the sentence, and the utterance mode is lazy and has low clarity.
  • the utterance manner is related to the volume in the oral cavity by carefully observing the relationship between the utterance manner and the logarithmic vocal tract cross-sectional area function.
  • the utterance state tends to be clearer, and conversely, as the volume in the oral cavity is smaller, the utterance state tends to be lazy and have a lower clarity.
  • the intraoral volume that can be calculated from speech as an index of the degree of opening, it is possible to search for vowels having a desired utterance form from target speech data.
  • the utterance mode as a single value called intraoral volume, it is not necessary to consider various combinations of information such as the position in the utterance, the position in the accent phrase, or the presence or absence of emphasis.
  • the required amount of target speech data can be reduced by reducing phoneme environment types by using phonemes having similar characteristics as one category instead of distinguishing phoneme environments by all phonemes.
  • the temporal variation of the vocalization mode is preserved by using the volume in the oral cavity, and voice quality conversion with little deterioration in naturalness is realized.
  • FIG. 2 is a block diagram showing a functional configuration of the voice quality conversion apparatus according to the embodiment of the present invention.
  • the voice quality conversion apparatus includes a vocal tract sound source separation unit 101, an aperture degree calculation unit 102, a target vowel DB (database) storage unit 103, an aperture degree coincidence calculation unit 104, a target vowel selection unit 105, and a vowel deformation unit. 106, a sound source generation unit 107, and a synthesis unit 108.
  • the vocal tract sound source separation unit 101 separates input speech into vocal tract information and sound source information.
  • the opening degree calculation unit 102 uses the vocal tract information of the vowels separated by the vocal tract sound source separation unit 101 to calculate the opening degree from the vocal tract cross-sectional area at each time of the input speech. That is, the opening degree calculation unit 102 calculates the opening degree corresponding to the volume in the oral cavity from the vocal tract information of the input voice separated by the vocal tract sound source separation unit 101.
  • the target vowel DB storage unit 103 is a storage device that stores a plurality of vowel information of a target voice quality. That is, the target vowel DB storage unit 103 stores a plurality of vowel information including vowel type, opening degree information, and vocal tract information regarding a target speaker that is a target for converting the voice quality of the input speech. Details of the vowel information will be described later.
  • the opening degree coincidence calculation unit 104 matches the opening degree calculated by the opening degree calculation unit 102 and the opening degree included in each vowel information stored in the target vowel database storage unit 103, the vowel types of which coincide with each other. Calculate the degree.
  • the target vowel selection unit 105 based on the degree of coincidence calculated by the opening degree coincidence degree calculation unit 104, from the vowel information stored in the target vowel DB storage unit 103, the vocal tract of the vowel included in the input speech Select vowel information for converting information.
  • the vowel transformation unit 106 transforms the voice quality by transforming the vocal tract information of each vowel of the input speech using the vocal tract information included in the vowel information selected by the target vowel selection unit 105.
  • the sound source generating unit 107 generates a sound source waveform using the sound source information separated by the vocal tract sound source separating unit 101.
  • the synthesizing unit 108 generates a synthesized sound using the vocal tract information converted by the vowel transformation unit 106 and the sound source waveform generated by the sound source generating unit 107.
  • the voice quality conversion apparatus configured as described above enables conversion to the voice quality held by the target vowel DB storage unit 103 while maintaining temporal variation of the utterance mode of the input voice.
  • the vocal tract sound source separation unit 101 separates the vocal tract information and the sound source information from the input speech by using a vocal tract sound source model (a speech generation model that models a speech utterance mechanism).
  • a vocal tract sound source model a speech generation model that models a speech utterance mechanism.
  • a sample value s (n) having a speech waveform is predicted from p sample values before the sample value s ( n) can be expressed as in Equation 1.
  • the input audio signal can be generated by Equation 2.
  • S (z) is a value after the z conversion of the sound signal s (n)
  • U (z) is a value after the z conversion of the sound source signal u (n)
  • the input sound S (z) ) Is inversely filtered with the vocal tract information 1 / A (z).
  • the vocal tract sound source separation unit 101 may further calculate a PARCOR coefficient (partial autocorrelation coefficient) using a linear prediction coefficient analyzed by LPC analysis. It is known that the PARCOR coefficient has better interpolation characteristics than the linear prediction coefficient.
  • the PARCOR coefficient can be calculated by using the Levinson-Durbin-Itakura algorithm.
  • the PARCOR coefficient has the following two characteristics.
  • PARCOR coefficients are used as vocal tract information.
  • the vocal tract information to be used is not limited to the PARCOR coefficient, and a linear prediction coefficient may be used. Further, a line spectrum pair (LSP) may be used.
  • LSP line spectrum pair
  • the vocal tract sound source separation unit 101 separates the vocal tract and the sound source using ARX (Autoregressive with exogenous input) analysis.
  • ARX analysis is significantly different from LPC analysis in that a mathematical sound source model is used as a sound source.
  • the vocal tract and sound source information can be more accurately separated even when the analysis section includes a plurality of fundamental periods (Non-patent Document 1: Otsuka, Sugaya, “Sound source”. Robust ARX speech analysis method considering pulse trains, ”Acoustical Society of Japan, Vol. 58, No. 7, 2002, pp. 386-397).
  • Equation 3 speech is generated by the generation process shown in Equation 3.
  • S (z) represents a value after the z conversion of the audio signal s (n).
  • U (z) represents a value after the z conversion of the voiced sound source signal u (n).
  • E (z) represents the value after the z conversion of the silent noise source e (n). That is, in ARX analysis, voiced sound is generated by the first term on the right side of Equation 3, and unvoiced sound is generated by the second term on the right side.
  • Ts indicates a sampling period.
  • AV represents the voiced sound source amplitude
  • T0 represents the basic period
  • OQ represents the glottal opening rate.
  • the glottal opening rate OQ indicates the rate at which the glottis are opened in one basic period. It is known that the greater the value of the glottal opening rate OQ, the softer the voice.
  • ARX analysis has the following advantages compared to LPC analysis.
  • U (z) can be obtained by inverse filtering the input speech S (z) with the vocal tract information 1 / A (z), as in the case of LPC analysis.
  • vocal tract information 1 / A (z) has the same format as the system function in LPC analysis. Therefore, the vocal tract sound source separation unit 101 may convert the vocal tract information into a PARCOR coefficient by the same method as the LPC analysis.
  • the opening degree calculation unit 102 uses the vocal tract information separated by the vocal tract sound source separation unit 101 to calculate the opening degree corresponding to the volume in the oral cavity for each vowel with respect to the vowel sequence included in the input speech. .
  • the aperture is calculated for each vowel.
  • the opening degree calculation unit 102 calculates the vocal tract cross-sectional area function using Equation 5 from the PARCOR coefficient extracted as the vocal tract information.
  • k i represents the i-th order PARCOR coefficient
  • a i represents the i-th vocal tract cross-sectional area
  • a N + 1 1.
  • FIG. 3 is a diagram showing a logarithmic vocal tract cross-sectional area function of a vowel / a / of a certain utterance.
  • Section 11 represents the glottis and section 1 represents the lips.
  • the specific order is not limited.
  • the opening degree calculation unit 102 calculates the opening degree C defined by Expression 6 for each vowel included in the input speech. Alternatively, it may be calculated by the logarithmic cross-sectional area sum as shown in Equation 7.
  • FIG. 4 shows a temporal change in the opening degree calculated according to Equation 6 in the utterance “/ memaigashimasuxu /”.
  • the opening degree fluctuates with time, and if this time change pattern is broken, the naturalness deteriorates.
  • the opening degree (volume in the oral cavity) calculated using the vocal tract cross-sectional area function in this way, not only the opening of the lips but also the shape of the oral cavity that cannot be observed directly from the outside (for example, the tongue) Position) can also be considered.
  • the target vowel DB storage unit 103 is a storage device that stores vowel information of a target voice quality when voice quality conversion is performed. It is assumed that the vowel information is prepared in advance and stored in the target vowel DB storage unit 103. A construction example of vowel information stored in the target vowel DB storage unit 103 will be described with reference to the flowchart of FIG.
  • a sentence set is recorded by having a speaker having the target voice quality utter a sentence.
  • the number of sentences is not limited, but sounds of several to several tens of sentences are recorded. Sound is recorded so that at least two utterances can be obtained for one kind of vowel.
  • step S102 vocal tract sound source separation is performed on the voice of the recorded sentence set. Specifically, vocal tract information of a sentence set spoken using the vocal tract sound source separation unit 101 is separated.
  • step S103 a section corresponding to a vowel is extracted from the vocal tract information separated in step S102.
  • the extraction method is not particularly limited. Vowel sections may be extracted by a person, or vowel sections may be automatically extracted using an automatic labeling technique.
  • step S104 the opening degree is calculated for each vowel segment extracted in step S103. Specifically, the opening degree is calculated using the opening degree calculating unit 102.
  • the opening degree calculation unit 102 calculates the opening degree at the center of the extracted vowel section. Of course, not only the central portion but also all the characteristics of the vowel section may be calculated, or the average value of the opening degree of the vowel section may be calculated. Or you may calculate the median of the opening degree of a vowel section.
  • step S105 the opening degree of the vowel calculated in step S104 and information used when performing voice quality conversion are registered in the target vowel DB storage unit 103 as vowel information for each vowel.
  • the vowel information includes vowel numbers that identify vowel information, vowel types, PARCOR coefficients that are vocal tract information of vowel sections, aperture, and phonological environment of vowels (for example, front and rear phoneme information). And syllable information, or articulation points of front and rear phonemes), sound source information in a vowel section (such as spectrum inclination or glottal openness), and prosodic information (such as fundamental frequency and power).
  • the opening degree coincidence calculation unit 104 includes the opening degree (C) of each vowel included in the input sound calculated by the opening degree calculation unit 102 and the vowel included in the input sound stored in the target vowel DB storage unit 103. Are compared with the vowel information of the same vowel type, and the degree of coincidence of the aperture is calculated.
  • the opening degree matching degree S ij can be calculated by any of the following calculation methods.
  • the opening degree coincidence S ij indicates a smaller value as the two opening degrees coincide with each other, and indicates a larger value as the two opening degrees do not coincide.
  • the degree of opening degree coincidence can be set so that the degree of opening degree coincides as the value of the degree of opening degree coincidence increases.
  • the opening degree coincidence calculation unit 104 has the opening degree C i calculated by the opening degree calculation unit 102 as shown in Expression 8 and the same vowel type as the vowel included in the input speech stored in the target vowel DB storage unit 103.
  • the degree of openness coincidence S ij is calculated from the difference from the open degree C j of the vowel information.
  • the opening degree coincidence calculation unit 104 calculates the opening degree coincidence S ij based on the difference between the speaker normalized opening degree C i S and the speaker normalized opening degree C j S.
  • speaker normalization opening degree C i S is the opening degree C i calculated by the opening degree calculation unit 102, normalized degree of opening by mean and standard deviation of the opening degree of the input speech for each speaker It is.
  • the speaker normalized opening degree C j S is the average value of the opening degree of the target speaker by using the opening degree C j of the data of the same vowel type as the vowel included in the input speech stored in the target vowel DB storage unit 103.
  • the opening degree normalized by the standard deviation is the opening degree normalized by the standard deviation.
  • the opening degree coincidence is calculated using the opening degree normalized for each speaker. Therefore, the degree of openness coincidence can be calculated after distinguishing speakers having different utterance modes (for example, a speaker who speaks clearly and clearly and a speaker who speaks with a muffled voice). Therefore, since it is possible to select appropriate vowel information that matches the utterance mode of the speaker, it is possible to reproduce the time change pattern of the natural utterance mode for each speaker, and to obtain a highly natural voice quality conversion voice be able to.
  • the normalized opening degree (C i S ) can be calculated by Equation 10, for example.
  • ⁇ S represents the average value of the opening degree of the target speaker
  • ⁇ S represents the standard deviation
  • the opening degree coincidence calculation unit 104 calculates the opening degree coincidence S ij from the difference between the phoneme normalized opening degree C i P and the phoneme normalized opening degree C j P as shown in Expression 11.
  • phoneme normalization opening degree C i P is the normalized degree of opening by mean and standard deviation of the opening degree of the vowel of the input speech opening degree C i calculated by the opening degree calculation unit 102.
  • the phoneme normalized opening degree C j P is the opening degree C j of data of the same vowel type as the vowel included in the input speech stored in the target vowel DB storage unit 103, and is the opening degree C j of the target speaker's vowel. Opening degree normalized by the average value and standard deviation.
  • the phoneme normalized opening degree C i P can be calculated by, for example, Expression 12.
  • ⁇ P is the average value of the opening degree of the target vowel of the target speaker
  • ⁇ P is the standard deviation
  • the degree of openness coincidence is calculated using the openness normalized for each type of vowel. For this reason, it is possible to calculate the opening degree coincidence after distinguishing the types of vowels. Therefore, since it is possible to select appropriate vowel information for each vowel, it is possible to reproduce a time change pattern of a natural utterance manner and obtain a highly natural voice quality conversion voice.
  • the opening degree coincidence calculation unit 104 calculates the opening degree coincidence S ij from the difference between the opening degree difference value C i D and the opening degree difference value C j D as shown in Expression 13.
  • the opening degree difference value C i D the opening indicating the difference between the opening degree of the vowel preceding the vowel corresponding to the opening degree C i of the calculated by the opening degree calculation unit 102 and the opening degree C i input speech Degree.
  • the opening degree difference value C j D is obtained by calculating the opening degree C j of data of the same vowel type as the vowel included in the input speech stored in the target vowel DB storage unit 103 and the opening degree of the preceding vowel of the vowel.
  • the openness difference value C j D or the open degree of the preceding vowel is included in each vowel information in the target vowel DB storage unit 103 shown in FIG. It shall be included.
  • the opening degree difference value C i D can be calculated by, for example, Expression 14.
  • C i-1 indicates the aperture of the vowel just before C i .
  • the degree of openness coincidence can be calculated based on the change in openness. For this reason, since the vowel information can be selected in consideration of the opening degree of the preceding vowel, it is possible to reproduce a time change pattern of a natural utterance manner and obtain a highly natural voice quality conversion voice. it can.
  • the target vowel selection unit 105 selects vowel information from the target vowel DB storage unit 103 for each vowel included in the input speech based on the degree of coincidence calculated by the opening degree coincidence degree calculation unit 104.
  • the target vowel selection unit 105 selects, for the vowel sequence included in the input speech, vowel information that minimizes the degree of opening degree matching calculated by the degree of opening degree matching part 104, and the target vowel DB storage unit 103. Select from. In other words, the target vowel selection unit 105 selects the vowel information that has the highest opening degree for each vowel with respect to the vowel sequence included in the input speech, among the vowel information stored in the target vowel DB storage unit 103. Select from.
  • the vowel transformation unit 106 transforms (converts) the vocal tract information of each vowel in the vowel sequence included in the input speech into the vocal tract information of the vowel information selected by the target vowel selection unit 105.
  • the vowel deformation unit 106 approximates each dimension of the vocal tract information expressed by the PARCOR coefficient of the vowel section with a polynomial shown in Equation 15 for each vowel in the vowel sequence included in the input speech. For example, a 10th order PARCOR coefficient is approximated by a polynomial shown in Equation 15 in each order. Thereby, ten types of polynomials can be obtained.
  • the order of the polynomial is not particularly limited, and an appropriate order can be set.
  • a i is a coefficient of the polynomial
  • x is time.
  • one phoneme interval can be used as an approximation unit.
  • the time width from the phoneme center to the next phoneme center may be used as an approximate unit.
  • a phoneme section is used as a unit.
  • the degree of the polynomial for example, the fifth order is assumed, but the degree of the polynomial need not be the fifth order.
  • approximation may be performed by a regression line for each phoneme unit time.
  • the vowel transformation unit 106 approximates the vocal tract information expressed by the PARCOR coefficient in the vowel information selected by the target vowel selection unit 105 by the polynomial shown in Expression 16, and obtains the coefficient b i of the polynomial.
  • b i denotes a coefficient of the polynomial
  • x denotes time
  • the vowel transformation unit 106 uses the PARCOR coefficient polynomial coefficient (a i ) of the vowel included in the input speech and the PARCOR coefficient polynomial coefficient (b i ) of the vowel information selected by the target vowel selection unit 105. Then, the coefficient c i of the polynomial of the PARCOR coefficient after deformation is obtained by Expression 17 using the conversion ratio (r).
  • the conversion ratio r is specified in the range of ⁇ 1 ⁇ r ⁇ 1.
  • the coefficient can be converted by Expression 17.
  • the conversion further enhances the difference between the converted vocal tract information (a i ) and the target vowel vocal tract information (b i ).
  • the conversion ratio r is a negative value, the conversion is such that the difference between the converted vocal tract information (a i ) and the target vowel vocal tract information (b i ) is further emphasized in the reverse direction.
  • the vowel modification unit 106 obtains the vocal tract information after the transformation using Equation 18 by using the calculated coefficient c i of the converted polynomial.
  • FIG. 7 shows an example in which the above conversion is actually performed on the vowel / a /.
  • the horizontal axis represents normalized time
  • the vertical axis represents the first-dimensional PARCOR coefficient.
  • the normalized time is the time length of a vowel interval and takes a value from 0 to 1 by normalizing the time. This is to align the time axis when the vowel duration of the converted speech is different from the duration of the vowel information selected by the target vowel selection unit 105 (hereinafter referred to as “target vowel information”). It is processing.
  • FIG. 7A shows the transition of the coefficient of the utterance of male speaker / a /.
  • (b) shows the transition of the female speaker's / a / utterance coefficient.
  • (C) has shown the transition of the coefficient at the time of converting the coefficient of a male speaker into the coefficient of a female speaker by the conversion ratio 0.5 using the said conversion method.
  • the PARCOR coefficient between the speakers can be interpolated by the above-described modification method.
  • the vowel deformation unit 106 performs an interpolation process by providing an appropriate transient section at the phoneme boundary.
  • the interpolation method is not particularly limited.
  • the PARCOR coefficient discontinuity may be eliminated by linear interpolation.
  • FIG. 8 shows the vocal tract cross-sectional area at the temporal center of the converted vowel section.
  • FIG. 8 is a graph of the vocal tract cross-sectional area after converting the PARCOR coefficient at the temporal center point of the PARCOR coefficient shown in FIG.
  • FIG. 8A is a graph showing the vocal tract cross-sectional area of the conversion source male speaker
  • FIG. 8B is a graph showing the female vocal tract cross-sectional area of the target speaker
  • FIG. These are graphs showing the vocal tract cross-sectional area when converted at a conversion ratio of 0.5. Also from this figure, it can be seen that FIG. 8C represents an intermediate vocal tract shape between the conversion source and the conversion destination.
  • the sound source generation unit 107 generates sound source information of the synthesized sound after voice quality conversion using the sound source information separated by the vocal tract sound source separation unit 101.
  • the sound source generation unit 107 generates sound source information of a target voice quality by changing the fundamental frequency or power of the input sound.
  • the method for changing the fundamental frequency or power is not particularly limited, the sound source generation unit 107, for example, the fundamental frequency and the fundamental frequency of the input sound source information so that the average fundamental frequency and the average power included in the target vowel information match. Change power.
  • the PSOLA method pitch synchronous overlap add
  • the PSOLA method pitch synchronous overlap add
  • the power of the input voice can be converted by adjusting the power for each pitch waveform.
  • the synthesizing unit 108 synthesizes speech using the vocal tract information converted by the vowel deformation unit 106 and the sound source information generated by the sound source generating unit 107.
  • the combining method is not particularly limited, but when a PARCOR coefficient is used as the vocal tract information, PARCOR combining may be used. Alternatively, synthesis may be performed after conversion from PARCOR coefficients to LPC coefficients, or formants may be extracted and synthesized by formant synthesis. Furthermore, the LSP coefficient may be calculated from the PARCOR coefficient and synthesized by LSP synthesis.
  • the vocal tract sound source separation unit 101 separates the input voice into vocal tract information and sound source information (step S101).
  • the opening degree calculation unit 102 uses the vocal tract information separated in step S101 to calculate the opening degree of the vowel sequence included in the input speech (step S002).
  • the openness coincidence calculation unit 104 calculates the openness of each vowel in the vowel sequence included in the input speech calculated in step S002 and the target vowel candidate stored in the target vowel DB storage unit 103 (the vowel type is the input speech).
  • the degree of opening degree coincidence with the degree of opening of the vowel information matching the vowels included in step S003).
  • the target vowel selection unit 105 selects vowel information of the target vowel for each vowel in the vowel sequence included in the input speech based on the degree of openness coincidence calculated in step S003 (step S004). In other words, the target vowel selection unit 105 selects the vowel information that has the highest opening degree for each vowel with respect to the vowel sequence included in the input speech, among the vowel information stored in the target vowel DB storage unit 103. Select from.
  • the vowel transformation unit 106 transforms the vocal tract information for each vowel in the vowel sequence included in the input speech, using the vowel information of the target vowel selected in step S004 (step S005).
  • the sound source generation unit 107 generates a sound source waveform using the sound source information of the input sound separated in step S001 (step S006).
  • the synthesizer 108 synthesizes speech using the vocal tract information transformed in step S005 and the sound source waveform generated in step S006 (step S007).
  • a change pattern (clear or lazy time pattern) of the utterance mode (clarity) of each vowel included in the input speech, and a change pattern of the utterance mode of the voice after voice quality conversion Is the same. For this reason, the deterioration of the sound quality due to the unnaturalness of the speech production mode does not occur.
  • the volume (aperture) in the oral cavity in the vowel sequence included in the input speech is used as the target vowel selection criterion, compared with the case where the linguistic and physiological conditions of the input speech are directly taken into consideration. There is also an effect that the size of the vowel information stored in the target vowel DB storage unit 103 can be reduced.
  • Japanese speech has been described.
  • the scope of the present invention is not limited to Japanese, and voice quality conversion can be similarly performed in other languages including English. .
  • the voice quality-converted voice stores the time pattern of the change in utterance mode, so that voice quality conversion can be performed without deteriorating the naturalness (fluency) at the time of voice quality conversion.
  • FIG. 10 is a block diagram showing a functional configuration of a modification of the voice quality conversion device according to the embodiment of the present invention. 10, the same components as those in FIG. 2 are denoted by the same reference numerals and description thereof is omitted.
  • the target vowel selection unit 105 selects vowel information of the target vowel from the target vowel DB storage unit 103, not only the opening degree matching degree calculated by the opening degree matching degree calculation unit 104 but also the input speech
  • the vowel information of the target vowel is selected based on the distance between the phonological environment of the vowel included in the vowel and the distance between the phonological environment of each vowel included in the target vowel DB storage unit 103.
  • the voice quality conversion apparatus further includes a phonological environment distance calculation unit 109 in addition to the configuration of the voice quality conversion apparatus shown in FIG.
  • the phonological environment distance calculation unit 109 calculates the distance between the phonological environment of the vowel included in the input speech and the phonological environment of the vowel information included in the target vowel DB storage unit 103 that have the same vowel type.
  • the distance is calculated by checking the coincidence of the front and rear phoneme types.
  • the phonological environment distance calculation unit 109 adds the penalty d to the distance when the preceding phoneme types do not match. Similarly, if the subsequent phoneme type does not match, the penalty d is added to the distance.
  • the penalty d need not be the same value. For example, the matching degree of the preceding phoneme may be given priority.
  • the penalty may be changed depending on the phoneme similarity. For example, if the phoneme category (plosive sound, friction sound, etc.) is the same, the penalty may be reduced. Further, when the articulation position (gum sound, palate sound, etc.) is the same, the penalty may be reduced.
  • the target vowel selection unit 105 uses the degree of coincidence calculated by the aperture degree coincidence calculation unit 104 and the distance of the phonological environment calculated by the phonological environment distance calculation unit 109 for each vowel included in the input speech. Thus, vowel information is selected from the target vowel DB storage unit 103.
  • the target vowel selection unit 105 performs the opening degree matching degree S ij calculated by the opening degree matching degree calculation unit 104 and the phonological environment distance for the vowel sequence included in the input speech as shown in Equation 19.
  • the vowel information of the vowel (j) that minimizes the weighted sum with the distance D ij of the phoneme environment calculated by the calculation unit 109 is selected from the target vowel DB storage unit 103.
  • the setting method of the weight w is not particularly limited, and is determined appropriately in advance.
  • the weight may be changed according to the data size of the target vowel DB storage unit 103. Specifically, as the number of vowel information stored in the target vowel DB storage unit 103 is larger, the weight of the phoneme environment distance calculated by the phoneme environment distance calculation unit 109 may be increased. Such weighting is performed when the number of vowel information is large, and it is more natural to convert the voice quality by selecting the vowel information with the same phonological environment and the one with the same opening degree. Because you can. On the other hand, when the number of vowel information is small, vowel information in a phonological environment that matches the phonological environment of the input speech may not be obtained. In such a case, even if vowel information with a similar phonological environment is selected forcibly, vowel information that can perform more natural voice quality conversion may not be obtained. The voice quality conversion can be performed more naturally when the priority is selected.
  • the vocal tract sound source separation unit 101 separates the input sound into vocal tract information and sound source information (step S101).
  • the opening degree calculation unit 102 calculates the opening degree of a vowel sequence included in the input speech using the vocal tract information separated in step S101 (step S102).
  • the opening degree coincidence calculation unit 104 calculates an opening between the opening degree of each vowel in the vowel sequence included in the input speech calculated in step S002 and the opening degree of the target vowel candidate stored in the target vowel DB storage unit 103. The degree of coincidence is calculated (step S103).
  • the phoneme environment distance calculation unit 109 calculates the distance between the phoneme environment of each vowel in the vowel sequence included in the input speech and the target vowel candidate stored in the target vowel DB storage unit 103 (step S104). .
  • the target vowel selection unit 105 determines the target vowel for each vowel in the vowel sequence included in the input speech based on the degree of openness coincidence calculated in step S103 and the phonological environment distance calculated in step S104. Vowel information is selected (step S105).
  • the vowel deformation unit 106 deforms the vocal tract information using the vowel information of the target vowel selected in step S105 for each vowel in the vowel sequence included in the input speech (step S106).
  • the sound source generation unit 107 generates a sound source waveform using the sound source information of the input sound separated in step S101 (step S107).
  • the synthesizing unit 108 synthesizes speech using the vocal tract information deformed in step S106 and the sound source waveform generated in step S107 (step S108).
  • voice quality conversion can be performed without impairing the temporal change pattern of the utterance mode, so that it is highly useful in all usage forms. For example, it becomes possible to convert the output of the information device in which a plurality of voice messages are stored into one's own voice quality when the user utters a small amount.
  • the weight is adjusted according to the data size of the target vowel DB storage unit 103 (vowels stored in the target vowel DB storage unit 103) The greater the number of information, the greater the distance weight of the phoneme environment calculated by the phoneme environment distance calculation unit 109).
  • the data size of the target vowel DB storage unit 103 is small, priority is given to the opening degree matching degree, so that even if there is no vowel having a high similarity in phonological environment, a vowel having a high opening degree matching degree can be obtained.
  • the vowel information the vowel information having the same utterance mode is selected. Thereby, since the time change pattern of a natural utterance mode can be reproduced as a whole, a highly natural voice quality converted voice can be obtained.
  • the vowel environment is taken into consideration by selecting the vowel information of the target vowel while considering both the phoneme environment distance and the degree of opening coincidence. Furthermore, the opening degree can be taken into consideration. For this reason, compared with the case where vowel information is selected only in the conventional phonological environment, it is possible to reproduce a temporal change pattern of a natural utterance mode, and thus it is possible to obtain a highly natural voice quality conversion voice.
  • FIG. 12 is a block diagram showing a functional configuration of a voice quality conversion system according to a modification of the embodiment of the present invention.
  • the same components as those in FIG. 12 are identical to FIG. 12 in FIG. 12, the same components as those in FIG. 12
  • the voice quality conversion system includes a voice quality conversion device 1701 and a vowel information creation device 1702.
  • the voice quality conversion device 1701 and the vowel information creation device 1702 may be directly connected by wire or wireless, or may be connected via a network such as the Internet or a LAN (Local Area Network).
  • Voice quality conversion apparatus 1701 has the same configuration as the voice quality conversion apparatus according to Embodiment 1 shown in FIG.
  • the vowel information creation device 1702 includes a target speaker voice recording unit 110, a vocal tract sound source separation unit 101b, a vowel segment extraction unit 111, an opening degree calculation unit 102b, and a target vowel DB creation unit 112.
  • essential components are the vocal tract sound source separation unit 101b, the opening degree calculation unit 102b, and the target vowel DB creation unit 112.
  • the target speaker voice recording unit 110 records the voice of the target speaker on the scale of several sentences to several tens of sentences.
  • the vowel section extraction unit 111 extracts a vowel section from the recorded voice.
  • the target vowel DB creation unit 112 generates vowel information using the target speaker's voice recorded by the target speaker voice recording unit 110 and writes it into the target vowel DB storage unit 103.
  • the vocal tract sound source separation unit 101b and the opening degree calculation unit 102b have the same configurations as the vocal tract sound source separation unit 101 and the opening degree calculation unit 102 shown in FIG. Therefore, detailed description thereof will not be repeated here.
  • a method for creating vowel information stored in the target vowel DB storage unit 103 will be described with reference to the flowchart of FIG.
  • the speaker having the target voice quality utters a sentence, and the target speaker voice recording unit 110 records a sentence set consisting of the spoken voice (step S101).
  • the number of sentences is not limited, but sounds of several to tens of sentences are recorded.
  • the target speaker voice recording unit 110 records voice so that at least two utterances can be obtained for one type of vowel.
  • the vocal tract sound source separation unit 101b performs vocal tract sound source separation on the voice of the recorded sentence set (step S102).
  • the vowel section extraction unit 111 extracts a section corresponding to a vowel from the vocal tract information separated in step S102 (step S103).
  • the extraction method is not particularly limited.
  • vowel intervals may be automatically extracted using an automatic labeling technique.
  • the opening degree calculation unit 102b calculates the opening degree for each vowel section extracted in step S103 (step S104). As the opening degree, the opening degree at the center of the extracted vowel section is calculated. Of course, not only the central portion but also all the characteristics of the vowel section may be calculated, or the average value of the opening degree of the vowel section may be calculated. Or you may calculate the median of the opening degree of a vowel section.
  • the target vowel DB creation unit 112 registers the opening degree of each vowel calculated in step S104 and each information used when performing voice quality conversion in the target vowel DB storage unit 103 as vowel information for each vowel (step S105).
  • the vowel information includes vowel numbers that identify vowel information, vowel types, PARCOR coefficients that are vocal tract information of vowel sections, aperture, and phonological environment of vowels (for example, front and rear phoneme information). And syllable information, or articulation points of front and rear phonemes), sound source information in a vowel section (such as spectrum inclination or glottal openness), and prosodic information (such as fundamental frequency and power).
  • the vowel information creation device can record the voice of the target speaker and create vowel information stored in the target vowel DB storage unit 103. For this reason, it becomes possible to update the target voice quality as needed.
  • the target vowel DB storage unit 103 created as described above, when converting the voice quality of the input voice to the voice quality of the target voice, the temporal change pattern of the utterance mode is preserved while maintaining the phoneme. It becomes possible. As a result, it is possible to preserve the time change pattern of the phonology and voicing mode of each vowel, so that it is possible to convert voice quality with high sound quality without deteriorating naturalness (fluency).
  • the voice quality conversion device 1701 and the vowel information creation device 1702 may be in the same device.
  • the vocal tract sound source separation unit 101b may be designed to use the vocal tract sound source separation unit 101.
  • the opening degree calculation unit 102b may be designed to use the opening degree calculation unit 102.
  • FIG. 13 is a block diagram showing a minimum configuration of a voice quality conversion apparatus for carrying out the present invention.
  • the voice quality conversion apparatus includes a vocal tract sound source separation unit 101, an opening degree calculation unit 102, a target vowel DB storage unit 103, an opening degree coincidence calculation unit 104, a target vowel selection unit 105, and vowel deformation. Part 106 and composition part 108. That is, the configuration of the voice quality conversion apparatus shown in FIG.
  • the synthesizing unit 108 of the voice quality conversion apparatus shown in FIG. 13 does not synthesize the sound using the sound source information generated by the sound source generating unit 107 but uses the sound source information separated by the vocal tract sound source separating unit 101 to perform the sound. Is synthesized. That is, the sound source information used for speech synthesis is not particularly limited in the present invention.
  • FIG. 14 is a diagram showing a minimum configuration of vowel information stored in the target vowel DB storage unit 103. That is, the vowel information includes a vowel type, vocal tract information (PARCOR coefficient), and an opening degree. With this vowel information, the vocal tract information can be selected based on the degree of opening, and the vocal tract information can be transformed.
  • the vowel information includes a vowel type, vocal tract information (PARCOR coefficient), and an opening degree.
  • the vocal tract information of the vowel is properly selected based on the degree of opening, when the voice quality of the input voice is converted to the target voice quality, the temporal change pattern of the utterance mode in the input voice is preserved and the target voice quality is achieved. It becomes possible to convert. As a result, the voice quality-converted speech stores the time pattern of the change in the utterance mode, so that it is possible to perform voice quality conversion without deteriorating the naturalness (fluency) at the time of voice quality conversion.
  • target vowel DB storage unit 103 may be provided outside the voice quality conversion device, and in that case, the target vowel DB storage unit 103 is not an essential component of the voice quality conversion device.
  • each device described in the above embodiments and modifications can be realized by a computer.
  • FIG. 15 is an external view of the voice quality conversion device 20.
  • the voice quality conversion apparatus 20 includes a computer 34, a keyboard 36 and a mouse 38 for giving instructions to the computer 34, a display 32 for presenting information such as calculation results of the computer 34, and a program executed by the computer 34.
  • a CD-ROM (Compact Disc-Read Only Memory) device 40 for reading and a communication modem (not shown) are included.
  • a program for voice quality conversion is stored in a CD-ROM 42, which is a computer-readable medium, and is read by the CD-ROM device 40. Alternatively, it is read by a communication modem through the computer network 26.
  • FIG. 16 is a block diagram showing a hardware configuration of the voice quality conversion device 20.
  • the computer 34 includes a CPU (Central Processing Unit) 44, a ROM (Read Only Memory) 46, a RAM (Random Access Memory) 48, a hard disk 50, a communication modem 52, and a bus 54.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 44 executes the program read via the CD-ROM device 40 or the communication modem 52.
  • the ROM 46 stores programs or data necessary for the operation of the computer 34.
  • the RAM 48 stores data such as parameters at the time of program execution.
  • the hard disk 50 stores programs or data.
  • the communication modem 52 communicates with other computers via the computer network 26.
  • the bus 54 connects the CPU 44, the ROM 46, the RAM 48, the hard disk 50, the communication modem 52, the display 32, the keyboard 36, the mouse 38, and the CD-ROM device 40 to each other.
  • vowel information creation device can be realized by a computer as well.
  • the system LSI is a super multifunctional LSI manufactured by integrating a plurality of components on one chip, and specifically, a computer system including a microprocessor, a ROM, a RAM, and the like. .
  • a computer program is stored in the RAM.
  • the system LSI achieves its functions by the microprocessor operating according to the computer program.
  • each of the above-described devices may be configured from an IC card or a single module that can be attached to and detached from each device.
  • the IC card or module is a computer system that includes a microprocessor, ROM, RAM, and the like.
  • the IC card or the module may include the super multifunctional LSI described above.
  • the IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
  • the present invention may be the method described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.
  • the present invention relates to a non-volatile recording medium that can read the computer program or the digital signal, such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray). -ray Disc (registered trademark)), recorded on a semiconductor memory, or the like.
  • the digital signal may be recorded on these non-volatile recording media.
  • the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, data broadcasting, or the like.
  • the present invention may also be a computer system including a microprocessor and a memory.
  • the memory may store the computer program, and the microprocessor may operate according to the computer program.
  • the voice quality conversion apparatus has a function of converting to a target voice quality while preserving the temporal change pattern of the utterance mode in the input voice, and is a user interface of information equipment or home appliances that requires various voice qualities. Or, it is useful in applications such as entertainment such as ringtones converted into voice quality for one's own use. It can also be applied to voice changers in voice communications using mobile phones.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 声質変換装置は、入力音声を声道情報と音源情報とに分離する声道音源分離部(101)と、母音の声道情報から開口度を算出する開口度算出部(102)と、目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部(103)と、算出した開口度と、目標母音データベース記憶部(103)に記憶されている各母音情報に含まれる開口度との一致度を算出する開口度一致度算出部(104)と、一致度に基づいて、目標母音データベース記憶部(103)に記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部(105)と、選択した母音情報に含まれる声道情報を用いて、入力音声に含まれる母音の声道情報を変形する母音変形部(106)と、母音の声道情報が変形された後の入力音声の声道情報と、音源情報とを用いて、音声を合成する合成部(108)とを備える。

Description

声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
 本発明は、音声の声質を変換する声質変換装置に関する。特に、声道情報を変換することにより音声の声質を変換する声質変換装置に関する。
 近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となっている。しかし、従来の合成音の用途は、ニュース文をアナウンサー調で読み上げる等の画一的な用途が中心である。
 一方、携帯電話のサービスなどでは、携帯電話の着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されている。このように、特徴のある音声がコンテンツとして流通している。例えば、特徴のある音声とは、個人再現性の高い合成音、子供などの年代による、又は、地域特有のなまりなどの特徴的な韻律及び声質をもつ合成音などがある。このように個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作ることに対する要求が高まっている。
 人間の音声は、図17に示すように声帯1601の振動により生成される音源波形が、声門1602から口唇1603までにより構成される声道1604を通過する際に、舌などの調音器官による狭めなどの影響を受けることにより生成される。分析合成型音声合成法は、このような音声の生成原理に基づいて音声を分析することにより、音声を声道情報と音源情報に分離し、分離された声道情報と音源情報を変形することにより、合成音の声質を変換することが可能である。例えば、音声の分析方法として、声道音源モデルと呼ばれるモデルが使用される。声道音源モデルによる分析では、音声はその生成過程に基づいて音源情報と声道情報に分離される。分離された音源情報と声道情報をそれぞれ変形することにより声質を変換することができる。
 従来、少量の音声を用いて話者特徴を変換する方法として、母音スペクトル包絡を変換するための写像関数を母音毎に複数用意しておき、前後音素の種類(音韻環境)に基づいて選択した写像関数を用いてスペクトル包絡を変換することにより声質変換する声質変換装置が知られている(例えば、特許文献1参照)。図18に、特許文献1に記載された従来の声質変換装置の機能的な構成を示す。
 図18に示す従来の声質変換装置は、スペクトル包絡抽出部11と、スペクトル包絡変換部12と、音声合成部13と、音声ラベル付与部14と、音声ラベル情報記憶部15と、変換ラベル作成部16と、音素間変換テーブル推定部17と、変換テーブル選択部18、スペクトル包絡変換テーブル記憶部19とを備える。
 スペクトル包絡抽出部11は、変換元話者の入力音声からスペクトル包絡を抽出する。スペクトル包絡変換部12は、スペクトル包絡抽出部11により抽出されたスペクトル包絡を変換する。音声合成部13は、スペクトル包絡変換部12により変換されたスペクトル包絡から変換先話者の音声を合成する。
 音声ラベル付与部14は、音声ラベル情報を与える。音声ラベル情報記憶部15は、音声ラベル付与部14により与えられる上記音声ラベル情報を記憶する。変換ラベル作成部16は、音声ラベル情報記憶部15に記憶された上記音声ラベル情報に基づいて、スペクトル包絡を変換するための制御情報を表す変換ラベルを作成する。音素間変換テーブル推定部17は、変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルを推定する。変換テーブル選択部18は、変換ラベル作成部16により作成された変換ラベルに基づいて、後述するスペクトル包絡変換テーブル記憶部19からスペクトル包絡変換テーブルを選択する。スペクトル包絡変換テーブル記憶部19は、学習済みの母音のスペクトル包絡変換規則としての母音スペクトル包絡変換テーブル19aおよび子音のスペクトル包絡変換規則としての子音スペクトル包絡変換テーブル19bを記憶している。
 変換テーブル選択部18は、母音スペクトル包絡変換テーブル19aおよび子音スペクトル包絡変換テーブル19bから、変換元話者の入力音声を構成する音素の母音及び子音に対応するスペクトル包絡変換テーブルを、それぞれ選択する。音素間変換テーブル推定部17は、選択されたスペクトル包絡変換テーブルに基づいて、変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルを推定する。スペクトル包絡変換部12は、上記選択されたスペクトル包絡変換テーブルと、推定された音素間のスペクトル包絡変換テーブルとに基づいて、変換元話者の入力音声からスペクトル包絡抽出部11により抽出されたスペクトル包絡を変換する。音声合成部13は、変換されたスペクトル包絡から、変換先話者の声質の音声を合成する。
特開2002-215198号公報
 前記特許文献1の声質変換装置では、声質変換を行なうために、スペクトル包絡を変換するための変換規則を変換元話者の発声した音声の前後の音素の情報である音韻環境に基づいて選択し、選択された変換規則を入力音声のスペクトル包絡に適用することにより入力音声の声質を変換している。
 しかしながら、目標となる音声が保有すべき声質は、音韻環境だけから決定することは困難である。
 自然な発声における声質は、音声の発話速度、発話内の位置、あるいはアクセント句内における位置など、さまざまな要因に影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭度高く発声するが、文末では発音の怠けが発生し、明瞭度が低下する傾向がある。あるいは、変換元話者の発話において、ある単語が強調されている場合は、その単語の声質は、協調されない場合と比較すると明瞭度が高くなる傾向がある。
 図19は、同一話者による先行音素が同一である同じ母音の声道伝達特性を示すグラフである。図19において、横軸は周波数を表し、縦軸はスペクトル強度を表す。
 曲線201は「めまいがします(/memaigashimasxu/)」と発声した際の「めまい」の/ma/の/a/が持つ声道伝達特性を示す。曲線202は、「お湯が出ません(/oyugademaseN/)」と発声した際の/ma/の/a/が持つ声道伝達特性を示す。このグラフによると、共振周波数を示すフォルマント(上方向のピーク)の位置及び強さが同じ先行音素を持つ母音同士で比較しても、声道伝達特性が大きく異なることがわかる。
 この要因としては、曲線201で示される声道伝達特性を有する母音/a/は、文頭に近く、かつ内容語(content word)に含まれる音素であるのに対して、曲線202で示される声道伝達特性を有する母音/a/は、文末に近く、かつ機能語(function word)に含まれる音素であると言うことが挙げられる。また、聴感上においても、曲線201で示される声道伝達特性を有する母音/a/の方がより明瞭に聞こえる。ここで、機能語とは、文法的な役割を有する語であり、英語においては、前置詞(preposition)、接続詞(conjunction)、冠詞(article)、助動詞(adverb)などが含まれる。また、内容語とは、それ以外の一般的な意味を有する語であり、英語においては、名詞(noun)、形容詞(adjective)、動詞(verb)、副詞(adverb)などが含まれる。
 このように、自然な発話においては、文章内の位置により発声方法が異なる。つまり、「ハキハキと発声し、明瞭な音声」又は「怠けて発声し、不明瞭な音声」といった意識的あるいは無意識の発声方法の違いがある。このような発声方法の違いを以後「発声様態」と呼ぶ。
 発声様態は音韻環境だけではなく、その他の様々な言語的及び生理的な影響を受けて変動している。
 特許文献1の声質変換装置は、そのような発声様態の変動を考慮することなく、音韻環境を用いて写像関数を選択し、声質変換を行っているため、声質変換後の音声の発声様態は、変換元話者の発声が持つ発声様態とは異なるものとなる。その結果、声質変換後の音声における発声様態の時間変化パターンは、変換元話者の発声の時間変化パターンとは異なったものとなり、非常に不自然な音声となる。
 この発声様態の時間変化について、図20の概念図を用いて説明する。図20(a)は、入力音声として発声された音声「めまいがします/memaigashimasxu/」に対して、音声に含まれる各母音の発声様態(明瞭度)の変化を示している。Xの領域は、はっきりした発声であり、明瞭度が高い音韻を示す。Yの領域は、怠けた発声であり明瞭度が低い音韻を示している。例えば、このように前半は、明瞭度が高い発声様態であり、後半は明瞭度が低い発声様態を示す。
 一方、図20(b)は、音韻環境のみによって変換規則を選択し声質変換を行なった場合の変換音声が持つ発声様態の時間変化のイメージ図である。音韻環境のみを基準に変換規則を選択しているため、発声様態は入力音声の特徴と関係なく変動する。例えば、図20(b)のように発声様態が変動した場合、はっきりと明瞭度を高く発声する母音(/a/)と、怠けて明瞭度を低く発声する母音(/e/、/i/)が交互に繰り返すような発声様態の変換音声が得られることになる。
 また、図21は、「お湯が出ません(/oyugademaseN/)」と発声した音声に対して、ハッキリと明瞭度高く発声した場合の/a/を用いて声質変換した場合のフォルマント401の動きの一例を示している。
 図21において、横軸は時刻、縦軸はフォルマント周波数を示し、周波数の低い方から第1、第2及び第3フォルマントを表している。/ma/において、別の発声様態(ハッキリと明瞭度高く発声)の母音/a/への変換を行った後のフォルマント402は、元の発声のフォルマント401と周波数が大きく異なることがわかる。このようにフォルマント周波数が大きく異なる変換を実施する場合には、図中の破線に示すように各フォルマント402の時間的な動きが大きくなることから、声質が異なるだけでなく声質変換後の音質も劣化する。
 このように発声様態の時間変化パターンが入力音声の時間変化パターンと異なると、声質変換後の音声における発声様態の変化の自然性を保持することができなくなり、結果として声質変換音声の自然性が大きく劣化するという課題を有している。
 本発明は、前記従来の課題を解決するもので、変換元話者の発声が保有する発声様態の時間的変動を保持しながら声質を変換することで、声質変換時の自然性、言い換えれば流暢さが低下しない声質変換装置を提供することを目的とする。
 本発明のある局面に係る声質変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部と、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、前記開口度一致度算出部が算出した一致度に基づいて、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部と、前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部とを備える。
 この構成によると、入力音声の開口度と一致する開口度を有する母音情報が選択される。このため、入力音声と、発声様態(ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声)が同一の母音を選択することができる。したがって、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 好ましくは、前記母音情報は、さらに、母音の音韻環境を含み、前記声質変換装置は、さらに、互いに母音種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部を備え、前記目標母音選択部は、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する。
 この構成によると、音韻環境の距離と開口度の一致度の双方を考慮しながら目標母音の母音情報を選択することにより、音韻環境を考慮した上で、さらに開口度を考慮することができる。このため、音韻環境のみで母音情報を選択する場合と比較して、自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 さらに好ましくは、前記目標母音選択部は、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離とに基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する。
 この構成によると、母音情報を選択する際に、目標母音データベース記憶部に記憶されている母音情報の数が大きいほど、音韻環境の距離の重みを大きくしている。これにより、目標母音データベース記憶部に記憶されている母音情報の数が少ない場合には、開口度の一致度を優先することにより、音韻環境の類似性が高い母音がない場合においても、開口度一致度の高い母音の母音情報を選択することにより、発声様態が一致した母音情報が選択される。これにより、全体として自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 一方、目標母音データベース記憶部に記憶されている母音情報の数が多い場合には、音韻環境の距離と開口度の一致度の双方を考慮しながら目標母音の母音情報を選択することにより、音韻環境を考慮した上で、さらに開口度を考慮することができる。このため、従来の音韻環境のみで母音情報を選択する場合と比較して、自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 好ましくは、前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、話者毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する。
 この構成によると、話者毎に正規化した開口度を用いて開口度の一致度を算出している。このため、発声様態の異なる話者(例えば、はっきりと明瞭にしゃべる話者と、こもった声でぼそぼそとしゃべる話者)を区別した上で一致度を算出することができる。よって、話者の発声様態に合致した適切な母音情報を選択することができるため、話者毎に自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 また、前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、母音の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出してもよい。
 この構成によると、母音の種類毎に正規化した開口度を用いて開口度の一致度を算出している。このため、母音の種類を区別した上で一致度を算出することができる。よって、母音毎に適切な母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 さらに、前記開口度一致度算出部は、前記一致度として、互いに母音種類が一致する、前記開口度算出部が算出した開口度の時間方向の差分と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度の時間方向の差分との一致度を算出してもよい。
 この構成によると、開口度の変化に基づいて開口度の一致度を算出することができる。このため、先行する母音の開口度を加味した上で母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 本発明の他の局面に係る声質変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、目標母音データベース記憶部に記憶されている、各々が、前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む複数の母音情報を参照し、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、前記開口度一致度算出部が算出した一致度に基づいて、前記目標母音データベースに記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部と、前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部とを備える。
 この構成によると、入力音声の開口度と一致する開口度を有する母音情報が選択される。このため、入力音声と、発声様態(ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声)が同一の母音を選択することができる。したがって、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 本発明のさらに他の局面に係る母音情報作成装置は、入力音声の声質変換に用いられる目標話者の母音情報を作成する母音情報作成装置であって、目標話者の音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記目標話者の音声の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、前記目標話者に関する、母音種類と前記開口度算出部が算出した前記開口度の情報と前記声道音源分離部が分離した前記声道情報とを含む母音情報を作成する目標母音情報作成部とを備える。
 この構成によると、声質変換に用いられる母音情報を作成することが可能になる。このため、目標声質を随時更新することが可能となる。
 本発明のさらに他の局面に係る声質変換システムは、上述の声質変換装置と、上述の目標母音情報作成装置とを備える。
 この構成によると、入力音声の開口度と一致する開口度を有する母音情報が選択される。このため、入力音声と、発声様態(ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声)が同一の母音を選択することができる。したがって、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 また、声質変換に用いられる母音情報を作成することが可能になる。このため、目標声質を随時更新することが可能となる。
 なお、本発明は、このような特徴的な処理部を備える声質変換装置として実現することができるだけでなく、声質変換装置に含まれる特徴的な処理部が実行する処理をステップとする声質変換方法として実現することができる。また、声質変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、CD-ROM(Compact Disc-Read Only Memory)等のコンピュータ読取可能な不揮発性の記録媒体又はインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
 本発明に係る声質変換装置によれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを維持することが可能となる。つまり、声質変換された音声には、発声様態の変化の時間パターンが保存されているため、自然性(流暢さ)を劣化させない声質変換が可能となる。
図1は、発声様態による声道断面積関数の違いを示す図である。 図2は、本発明の実施の形態に係る声質変換装置の機能的な構成を示すブロック図である。 図3は、声道断面積関数の例を示す図である。 図4は、発声内における開口度の時間変化パターンを示す図である。 図5は、目標母音DB記憶部に記憶される目標母音の構築方法を示すフローチャートである。 図6は、目標母音DB記憶部に記憶されている母音情報の例を示す図である。 図7は、母音変形部により変換された母音区間のPARCOR係数を示す図である。 図8は、母音変形部により変換された母音の声道断面積関数を示す図である。 図9は、本発明の実施の形態に係る声質変換装置が実行する処理のフローチャートである。 図10は、本発明の実施の形態の変形例1に係る声質変換装置の機能的な構成を示すブロック図である。 図11は、本発明の実施の形態の変形例1に係る声質変換装置が実行する処理のフローチャートである。 図12は、本発明の実施の形態の変形例2に係る声質変換システムの機能的な構成を示すブロック図である。 図13は、本発明を実施するための声質変換装置の最小構成を示すブロック図である。 図14は、目標母音DB記憶部に記憶されている母音情報の最小構成を示す図である。 図15は、声質変換装置の外観図である。 図16は、声質変換装置のハードウェア構成を示すブロック図である。 図17は、人間の顔の断面図である。 図18は、従来の声質変換装置の機能的な構成を示すブロック図である。 図19は、発声様態による声道伝達特性の違いを示す図である。 図20は、発声様態の時間的変動を示す概念図である。 図21は、発声様態の違いによるフォルマント周波数の違いの一例を示す図である。
 以下、本発明の実施の形態について、図面を参照しながら説明する。
 ここでは目標となる音声(目標音声)の特性を有する母音の母音情報を選択し、変換元の音声(入力音声)の母音区間の特性に対して、所定の演算を行うことにより声質変換を行う方法を例に取り説明を行う。
 既に述べたように、声質変換を行なう際には、入力音声における発声様態(ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声)の時間的な変動を保持することが重要である。
 発声様態は、例えば音声の発話速度、発話内の位置、あるいは、アクセント句内における位置に影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭に発声するが、文末では怠けが発生し、明瞭度が低下する傾向がある。また、変換元話者の発話において、ある単語が強調されている場合の発声様態は、強調されていない場合の発声様態と異なる。
 しかしながら、従来技術のように入力音声における音韻環境を考慮した上で、それに加えて発話内位置、アクセント句内位置、単語の強調などの情報を全て考慮した母音選択法を実現することは困難である。なぜならば、それら全てのパターンを網羅すると、目標音声の情報を大量に用意する必要があるからである。
 例えば、素片接続型の音声規則合成システムでは、素片データベースを構築する際に数時間から数十時間の音声を用意することも珍しくない。声質変換においてもそのような大量の目標音声を収集することは考えられる。しかし、それが可能であるならば声質変換技術を用いるまでもなく、収集した目標音声を用いて素片接続型音声合成システムを構築すれば良い。
 すなわち、声質変換技術の利点は、素片接続型音声合成システムと比較して少量の目標音声を用いて目標声質の合成音を得ることにある。
 本実施の形態に示す声質変換装置によると、少量の目標音声を用い、かつ前述の発声様態を考慮すると言う、相反する課題を克服することが可能である。
 図1(a)は、前述の「めまいがします(/memaigashimasxu/)」と発声した際の「めまい」の/ma/の/a/の対数声道断面積関数を示し、図1(b)は、「お湯が出ません(/oyugademaseN/)」と発声した際の/ma/の/a/の対数声道断面積関数を示す。
 図1(a)の/a/は、文頭に近く、また内容語(自立語)であることから、発声様態としてはハッキリと明瞭に発話されている。一方、図1(b)の/a/は、文末に近く、発声様態としては怠けが発生し、明瞭さが低い。
 本願発明者らは、このような発声様態の違いと対数声道断面積関数の関係を注意深く観察することにより、発声様態が口腔内の容積と関連がある知見を見出した。
 つまり、口腔内の容積が大きいほど、発声様態はハッキリと明瞭である傾向があり、逆に口腔内の容積が小さいほど、発声様態は怠けを伴い、明瞭度が低い傾向がある。
 音声から算出可能な口腔内容積を開口度の指標とすることによって、目標音声データから所望の発声様態を有する母音を探し出すことが可能となる。発声様態を口腔内容積と言う一つの値で表すことにより、発話内位置、アクセント句内位置、又は強調の有無と言った多様な組み合わせの情報を考慮する必要がなくなるため、少量の目標音声データから所望の特性を有する母音を探し出すことが可能になる。さらに、音韻環境を全ての音素で区別するのではなく、特性が近い音素を一つのカテゴリとして音韻環境の種類を削減することにより、目標音声データの必要量を少なくすることが可能となる。
 一言で言うと、本発明では、口腔内の容積を用いることにより発声様態の時間的な変動を保存し、自然性の劣化が少ない声質変換を実現する。
 図2は、本発明の実施の形態に係る声質変換装置の機能的な構成を示すブロック図である。
 声質変換装置は、声道音源分離部101と、開口度算出部102と、目標母音DB(データベース)記憶部103と、開口度一致度算出部104と、目標母音選択部105と、母音変形部106と、音源生成部107と、合成部108とを備える。
 声道音源分離部101は、入力音声を声道情報と音源情報に分離する。
 開口度算出部102は、声道音源分離部101により分離された母音の声道情報を用いて、入力音声の各時刻における声道断面積から開口度を算出する。つまり、開口度算出部102は、声道音源分離部101により分離された入力音声の声道情報から口腔内の容積に対応する開口度を算出する。
 目標母音DB記憶部103は、目標となる声質の母音情報を複数記憶している記憶装置である。つまり、目標母音DB記憶部103は、入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している。母音情報の詳細は後述する。
 開口度一致度算出部104は、互いに母音種類が一致する、開口度算出部102が算出した開口度と、目標母音データベース記憶部103に記憶されている各母音情報に含まれる開口度との一致度を算出する。
 目標母音選択部105は、開口度一致度算出部104により算出された一致度に基づいて、目標母音DB記憶部103に記憶されている母音情報の中から、入力音声に含まれる母音の声道情報を変換するための母音情報を選択する。
 母音変形部106は、目標母音選択部105により選択された母音情報に含まれる声道情報を用いて、入力音声の各母音の声道情報を変形することにより、声質を変換する。
 音源生成部107は、声道音源分離部101により分離された音源情報を用いて、音源波形を生成する。
 合成部108は、母音変形部106により声質変換された声道情報と、音源生成部107により生成された音源波形を用いて、合成音を生成する。
 以上のように構成された声質変換装置により、入力音声の発声様態の時間的な変動を保持しながら目標母音DB記憶部103が保持する声質への変換が可能となる。
 以下、それぞれの構成要素について詳しく説明する。
 <声道音源分離部101>
 声道音源分離部101は、入力音声に対して、声道音源モデル(音声の発声機構をモデル化した音声生成モデル)を用いて、声道情報と音源情報の分離を行なう。分離に用いる声道音源モデルに制限はなく、どのようなモデルであっても良い。
 例えば、声道音源モデルとして線形予測モデル(LPCモデル)を用いた場合、音声波形のある標本値s(n)をそれより前のp個の標本値から予測するものであり、標本値s(n)は、式1のように表せる。
Figure JPOXMLDOC01-appb-M000001
 p個の標本値に対する係数αi(i=n-1~n-p)は、相関法又は共分散法などを用いることにより算出できる。算出した係数を用いると入力された音声信号は、式2により生成することができる。
Figure JPOXMLDOC01-appb-M000002
 ここで、S(z)は音声信号s(n)のz変換後の値であり、U(z)は、は音源信号u(n)のz変換後の値であり、入力音声S(z)を声道情報1/A(z)で逆フィルタリングした信号を表す。
 声道音源分離部101は、さらに、LPC分析により分析された線形予測係数を用いて、PARCOR係数(偏自己相関係数)を算出するようにしてもよい。PARCOR係数は、線形予測係数と比較して、補間特性が良いことが知られている。PARCOR係数は、Levinson-Durbin-Itakuraアルゴリズムを用いることにより算出することが可能である。なお、PARCOR係数は、次の2つの特徴を有する。
 (特徴1)低次の係数ほどその変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。
 (特徴2)高次の係数の変動の影響は、平坦に全域にわたる。
 以下の説明では、声道情報として、PARCOR係数を用いて説明する。なお、用いる声道情報はPARCOR係数に限らず、線形予測係数を用いても良い。さらには線スペクトル対(LSP)を用いてもよい。
 また、声道音源分離部101は、声道音源モデルとしてARXモデルを用いた場合、ARX(Autoregressive with exogenous input)分析を用いて、声道と音源を分離する。ARX分析は、音源として数式音源モデルを用いる点がLPC分析と大きく異なる。また、ARX分析では、LPC分析と異なり、分析区間内に複数の基本周期を含んだ場合においても、より正確に声道と音源の情報を分離できる(非特許文献1:大塚、粕谷、「音源パルス列を考慮した頑健なARX音声分析法」、日本音響学会誌58巻7号、2002年、pp.386-397)。
 ARX分析では、音声は式3に示す生成過程により生成される。式3において、S(z)は、音声信号s(n)のz変換後の値を表す。U(z)は、有声音源信号u(n)のz変換後の値を表す。E(z)は、無声雑音音源e(n)のz変換後の値を表す。つまり、ARX分析では、有声音は式3の右辺第1項により音声が生成され、無声音は右辺第2項により生成される。
Figure JPOXMLDOC01-appb-M000003
 このとき、有声音源信号u(t)=u(nTs)のモデルとして、式4に示す音モデルを用いる。ここで、Tsは、サンプリング周期を示す。
Figure JPOXMLDOC01-appb-M000004
 ただし、AVは有声音源振幅、T0は基本周期、OQは声門開放率を表わす。有声音の場合は式4の第1項が使用され、無声音の場合は式4の第2項が使用される。声門開放率OQは、1基本周期における声門が開放されている割合を示す。声門開放率OQの値が大きいほどやわらかい音声となる傾向があることが知られている。
 ARX分析は、LPC分析と比較して以下の利点がある。
 (利点1)分析窓内に複数の基本周期に対応した音源パルス列を配して分析を行っているため、女性又は子供など高ピッチ音声でも安定に声道情報を抽出できる。
 (利点2)特に、基本周波数F0と第1フォルマント周波数F1とが接近している/i/、/u/などの狭母音の声道音源分離性能が高い。
 有声音区間では、LPC分析の場合と同様に、U(z)は、入力音声S(z)を声道情報1/A(z)で逆フィルタリングすることにより得ることができる。
 LPC分析の場合と同様に、ARX分析においても、声道情報1/A(z)は、LPC分析におけるシステム関数と同じ形式である。このことから、声道音源分離部101は、LPC分析と同様の方法により、声道情報をPARCOR係数に変換するようにしても良い。
 <開口度算出部102>
 開口度算出部102は、声道音源分離部101により分離された声道情報を用いて、入力音声に含まれる母音系列に対して、母音毎に口腔内の容積に対応する開口度を算出する。例えば「お湯が出ません(/oyugademaseN/)」という入力音声の場合、母音系列(Vn={/o/,/u/,/a/,/e/,/a/,/e/})に対して、母音毎に開口度を算出する。
 具体的には、開口度算出部102は、声道情報として抽出されたPARCOR係数から式5を用いて、声道断面積関数を算出する。
Figure JPOXMLDOC01-appb-M000005
 ここで、kiは、i次のPARCOR係数、Aiは、i番目の声道断面積を表し、AN+1=1とする。
 図3は、ある発声の母音/a/の対数声道断面積関数を示す図である。声門から口唇までの声道を11個の区間(セクション)に分割しており(N=10)、横軸がセクション番号を示し、縦軸が対数声道断面積を示す。また、セクション11が声門を表し、セクション1が口唇を表す。
 この図において、網掛け領域は概ね口腔内と考えることができる。そこで、セクション1からセクションTまでを口腔内と考えると(図3ではT=5)、開口度Cは式6により定義することができる。ここでTは、LPC分析あるいはARX分析の次数に応じて変更することが望ましい。例えば10次のLPC分析の場合、3乃至5程度が望ましい。ただし、具体的な次数については限定するものではない。
Figure JPOXMLDOC01-appb-M000006
 開口度算出部102は、式6で定義される開口度Cを入力音声に含まれる各母音に対して算出する。または、式7に示すように対数断面積和により算出するようにしてもよい。
Figure JPOXMLDOC01-appb-M000007
 図4に、「めまいがします(/memaigashimasxu/)」という発声において、式6に従って算出された開口度の時間的な変化を示す。
 このように開口度は、時間的に変動しており、この時間変化パターンを崩すと、自然性が劣化する。
 このように声道断面積関数を用いて算出される開口度(口腔内の容積)を用いることにより、単に口唇の開き具合だけではなく、外界から直接観測できない、口腔内の形状(例えば舌の位置)も考慮することができる。
 <目標母音DB記憶部103>
 目標母音DB記憶部103は、声質変換する際に目標となる声質の母音情報を記憶している記憶装置である。母音情報は予め準備され、目標母音DB記憶部103に記憶されているものとする。目標母音DB記憶部103に記憶されている母音情報の構築例について、図5のフローチャートを用いて説明する。
 ステップS101では、目標となる声質を持つ話者に文章を発話してもらい文セットが収録される。文章数は限定するものではないが、数文から数十文規模の音声が収録される。1種類の母音に対して少なくとも2個以上の発声が得られるように音声が収録される。
 ステップS102では、収録した文セットの音声に対して声道音源分離が行われる。具体的には、声道音源分離部101を用いて発話された文セットの音声の声道情報が分離される。
 ステップS103では、ステップS102において分離された声道情報から、母音に相当する区間が抽出される。抽出方法は特に限定しない。人により母音区間を抽出しても良いし、自動ラベリング手法を用いて、母音区間を自動抽出しても良い。
 ステップS104では、ステップS103において抽出された各母音区間に対して、開口度が算出される。具体的には、開口度算出部102を用いて開口度を算出する。開口度算出部102は、抽出した母音区間の中心部における開口度を算出するようにする。もちろん中心部だけではなく、母音区間の特徴を全て算出するようにしても良いし、母音区間の開口度の平均値を算出しても良い。あるいは、母音区間の開口度の中央値を算出しても良い。
 ステップS105では、ステップS104において算出された母音の開口度と、声質変換を行なう際に用いられる情報とが母音毎に母音情報として目標母音DB記憶部103に登録される。具体的には、図6に示すように、母音情報は、母音情報を識別する母音番号、母音種類、母音区間の声道情報であるPARCOR係数、開口度、母音の音韻環境(例えば前後音素情報、前後音節情報、又は前後音素の調音点など)、母音区間における音源情報(スペクトル傾斜又は声門開放度など)、及び韻律情報(基本周波数、パワーなど)を含む。
 <開口度一致度算出部104>
 開口度一致度算出部104は、開口度算出部102により算出された入力音声に含まれる各母音の開口度(C)と、目標母音DB記憶部103に記憶されている入力音声に含まれる母音と同じ母音種類の母音情報とを比較して、開口度の一致度を算出する。
 本実施の形態において、開口度一致度Sijは、以下のいずれかの算出方法により算出することができる。なお、開口度一致度Sijは、2つの開口度が一致するほど小さい値を示し、一致しないほど大きな値を示す。なお、開口度一致度の値が大きいほど、開口度が一致しているように、開口度一致度を設定することもできる。
 (第1の算出方法)
 開口度一致度算出部104は、式8に示すように開口度算出部102により算出された開口度Ciと、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類の母音情報の開口度Cjとの差分により開口度一致度Sijを算出する。
Figure JPOXMLDOC01-appb-M000008
 (第2の算出方法)
 開口度一致度算出部104は、式9に示すように、話者正規化開口度Ci Sと話者正規化開口度Cj Sとの差分により開口度一致度Sijを算出する。ここで、話者正規化開口度Ci Sは、開口度算出部102により算出された開口度Ciを、話者毎に入力音声の開口度の平均値および標準偏差により正規化した開口度である。また、話者正規化開口度Cj Sは、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Cjを目標話者の開口度の平均値と標準偏差により正規化した開口度である。
 第2の算出方法によると、話者毎に正規化した開口度を用いて開口度一致度を算出している。このため、発声様態の異なる話者(例えば、はっきりと明瞭にしゃべる話者と、こもった声でぼそぼそとしゃべる話者)を区別した上で開口度一致度を算出することができる。よって、話者の発声様態に合致した適切な母音情報を選択することができるため、話者毎に自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
Figure JPOXMLDOC01-appb-M000009
 正規化した開口度(Ci S)は、例えば、式10により算出することができる。
Figure JPOXMLDOC01-appb-M000010
 ただし、μSは対象話者の開口度の平均値、σSは標準偏差を示す。
 (第3の算出方法)
 開口度一致度算出部104は、式11に示すように音韻正規化開口度Ci Pと、音韻正規化開口度Cj Pとの差分により開口度一致度Sijを算出する。ここで、音韻正規化開口度Ci Pは、開口度算出部102により算出された開口度Ciを入力音声の当該母音の開口度の平均値および標準偏差により正規化した開口度である。また、音韻正規化開口度Cj Pは、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Cjを目標話者の当該母音の開口度の平均値と標準偏差により正規化した開口度である。
Figure JPOXMLDOC01-appb-M000011
 音韻正規化開口度Ci Pは、例えば、式12により算出することができる。
Figure JPOXMLDOC01-appb-M000012
 ただし、μPは対象話者の対象母音の開口度の平均値、σPは標準偏差を示す。
 第3の算出方法によると、母音の種類毎に正規化した開口度を用いて開口度一致度を算出している。このため、母音の種類を区別した上で開口度一致度を算出することができる。よって、母音毎に適切な母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 (第4の算出方法)
 開口度一致度算出部104は、式13に示すように開口度差分値Ci Dと、開口度差分値Cj Dとの差分により開口度一致度Sijを算出する。ここで、開口度差分値Ci Dは、開口度算出部102により算出された開口度Ciと入力音声の開口度Ciに対応する母音に先行する母音の開口度との差分を示す開口度である。また、開口度差分値Cj Dは、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Cjと、当該母音の先行母音の開口度との差分を示す開口度である。なお、第4の算出方法により開口度一致度を算出する場合には、図6に示す目標母音DB記憶部103の各母音情報に、開口度差分値Cj D、又は先行母音の開口度が含まれていることとする。
Figure JPOXMLDOC01-appb-M000013
 開口度差分値Ci Dは、例えば、式14により算出することができる。
Figure JPOXMLDOC01-appb-M000014
 ただし、Ci-1は、Ciの一つ前の母音の開口度を示す。
 第4の算出方法によると、開口度の変化に基づいて開口度一致度を算出することができる。このため、先行する母音の開口度を加味した上で母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。
 <目標母音選択部105>
 目標母音選択部105は、開口度一致度算出部104により算出された一致度に基づいて、入力音声に含まれる各母音に対して、目標母音DB記憶部103から母音情報を選択する。
 具体的には、目標母音選択部105は、入力音声に含まれる母音系列に対して、開口度一致度算出部104が算出した開口度一致度が最小になる母音情報を目標母音DB記憶部103から選択する。つまり、目標母音選択部105は、入力音声に含まれる母音系列に対して、母音毎に最も開口度が一致している母音情報を、目標母音DB記憶部103に記憶されている母音情報の中から選択する。
 <母音変形部106>
 母音変形部106は、入力音声に含まれる母音系列のそれぞれの母音の声道情報を、目標母音選択部105により選択された母音情報が持つ声道情報へ変形(変換)する。
 詳細な変換方法を以下に説明する。
 母音変形部106は、入力音声に含まれる母音系列の各母音に対して、母音区間のPARCOR係数で表現された声道情報の各次元の系列を、式15に示す多項式により近似する。例えば10次のPARCOR係数は、それぞれの次数において、式15に示す多項式により近似される。これにより、10種類の多項式を得ることができる。多項式の次数は特に限定するものではなく、適当な次数を設定することができる。
Figure JPOXMLDOC01-appb-M000015
 ここで、
Figure JPOXMLDOC01-appb-M000016
は、多項式により近似されたPARCOR係数、aiは多項式の係数、xは時刻を示す。
 このとき、多項式近似を適用する単位としては、例えば、一つの音素区間を近似の単位とすることができる。また、音素区間ではなく、音素中心から次音素中心までを時間幅を近似の単位とするようにしても良い。なお、以下の説明では、音素区間を単位として説明を行う。
 多項式の次数としては、例えば、5次が想定されるが、多項式の次数は5次でなくとも良い。なお、多項式による近似以外にも音素単位時間毎の回帰直線により近似するようにしても良い。
 同様に、母音変形部106は、目標母音選択部105により選択された母音情報においてPARCOR係数で表現された声道情報を、式16に示す多項式により近似し、多項式の係数biを取得する。
Figure JPOXMLDOC01-appb-M000017
 ここで、
Figure JPOXMLDOC01-appb-M000018
は、多項式により近似されたPARCOR係数、biは多項式の係数、xは時刻を示す。
 次に、母音変形部106は、入力音声に含まれる母音のPARCOR係数の多項式の係数(ai)と、目標母音選択部105で選択された母音情報のPARCOR係数の多項式の係数(bi)と、変換比率(r)とを用いて、変形後のPARCOR係数の多項式の係数ciを式17により求める。
Figure JPOXMLDOC01-appb-M000019
 通常、変換比率rは、-1≦r≦1 の範囲で指定される。
 しかし、変換比率rがその範囲を超える場合においても、式17により係数を変換することは可能である。rが1を超える場合は、被変換声道情報(ai)と目標母音声道情報(bi)との差分をさらに強調するような変換になる。一方、変換比率rが負の値の場合は、被変換声道情報(ai)と目標母音声道情報(bi)との差分を逆方向にさらに強調するような変換になる。
 母音変形部106は、算出した変換後の多項式の係数ciを用いて、変形後の声道情報を式18で求める。
Figure JPOXMLDOC01-appb-M000020
 以上の変換をPARCOR係数の各次元において計算することにより、目標母音選択部105により選択された母音情報のPARCOR係数へ、指定された変換比率での変換が可能になる。
 実際に、母音/a/に対して、上記の変換を行った例を図7に示す。同図において、横軸は、正規化された時間を表し、縦軸は、1次元目のPARCOR係数を表す。正規化された時間とは、母音区間の継続時間長で、時間を正規化することにより、0から1までの値をとる時刻のことである。これは、被変換音声の母音継続時間と、目標母音選択部105により選択された母音情報(以下、「目標母音情報」と言う。)の継続時間とが異なる場合において、時間軸をそろえるための処理である。図7の(a)は男性話者の/a/の発声の係数の推移を示している。同様に(b)は女性話者の/a/の発声の係数の推移を示している。(c)は上記変換方法を用いて、男性話者の係数を女性話者の係数に変換比率0.5で変換した際の係数の推移を示している。図7から分かるように、上記の変形方法により、話者間のPARCOR係数を補間できていることがわかる。
 音素境界でPARCOR係数の値が不連続になるのを防止するために、母音変形部106は、音素境界において適当な過渡区間を設けて補間処理を行う。補間の方法は特に限定するものではないが例えば線形補間によりPARCOR係数の不連続を解消してもよい。
 図8に変換した母音区間の時間的な中心における声道断面積を示す。図8は、図7に示したPARCOR係数の時間的な中心点におけるPARCOR係数を式5により声道断面積に変換した後の、声道断面積のグラフである。
 図8(a)は変換元の男性話者の声道断面積を示すグラフであり、図8(b)は目標話者の女性の声道断面積を示すグラフであり、図8(c)は変換比率0.5で変換したときの声道断面積を示すグラフである。この図からも、図8(c)は変換元と変換先の間の中間の声道形状を表していることがわかる。
 <音源生成部107>
 音源生成部107は、声道音源分離部101により分離された音源情報を用いて声質変換後の合成音の音源情報を生成する。
 具体的には、音源生成部107は、入力音声の基本周波数又はパワーを変更することにより、目標となる声質の音源情報を生成する。基本周波数又はパワーの変更方法は特に限定するものではないが、音源生成部107は、例えば、目標母音情報に含まれる平均基本周波数および平均パワーが一致するように入力音声の音源情報の基本周波数およびパワーを変更する。具体的には平均基本周波数を変換する場合には、PSOLA法(pitch synchronous overlap add)(非特許文献2:「Diphone Synthesis using an Overlap-Add technique for Speech Waveforms Concatenation」Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing. 1997, pp.2015-2018)を用いることにより音源情報の基本周波数を変更することができる。また、PSOLA法により基本周波数を変更する際にピッチ波形毎にパワーを調整することで、入力音声のパワーを変換することができる。
 <合成部108>
 合成部108は、母音変形部106により変換された声道情報と、音源生成部107により生成された音源情報を用いて、音声を合成する。合成の方法は特に限定するものではないが、声道情報としてPARCOR係数を用いている場合は、PARCOR合成を用いればよい。あるいは、PARCOR係数からLPC係数に変換した後に合成してもよいし、フォルマントを抽出し、フォルマント合成により合成してもよい。さらにはPARCOR係数からLSP係数を算出しLSP合成により合成するようにしてもよい。
 (フローチャート)
 本実施の形態に係る声質変換装置の具体的な動作に関して図9に示すフローチャートを用いて説明する。
 声道音源分離部101は、入力音声を声道情報と音源情報とに分離する(ステップS101)。開口度算出部102は、ステップS101で分離された声道情報を用いて、入力音声に含まれる母音系列の開口度を算出する(ステップS002)。
 開口度一致度算出部104は、ステップS002で算出された入力音声に含まれる母音系列の各母音の開口度と、目標母音DB記憶部103に記憶されている目標母音候補(母音種類が入力音声に含まれる母音と一致する母音情報)の開口度との開口度一致度を算出する(ステップS003)。
 目標母音選択部105は、ステップS003において算出された開口度一致度に基づいて、入力音声に含まれる母音系列のそれぞれの母音に対して目標母音の母音情報を選択する(ステップS004)。つまり、目標母音選択部105は、入力音声に含まれる母音系列に対して、母音毎に最も開口度が一致している母音情報を、目標母音DB記憶部103に記憶されている母音情報の中から選択する。
 母音変形部106は、入力音声に含まれる母音系列のそれぞれの母音に対して、ステップS004で選択された目標母音の母音情報を用いて、声道情報を変形する(ステップS005)。
 音源生成部107は、ステップS001において分離された入力音声の音源情報を用いて、音源波形を生成する(ステップS006)。
 合成部108は、ステップS005において変形された声道情報と、ステップS006において生成された音源波形を用いて、音声を合成する(ステップS007)。
 (効果)
 かかる構成によれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 例えば、図20(a)に示すような入力音声に含まれる各母音の発声様態(明瞭度)の変化パターン(はっきり又は怠けの時間パターン)と、声質変換後の音声の発声様態の変化パターンとが、同じになる。このため、音声の発声様態の不自然さに起因する音質の劣化が生じない。
 また、目標母音の選択基準として、入力音声に含まれる母音系列における口腔内の容積(開口度)を用いているため、入力音声の言語的、生理的な諸条件を直接考慮した場合と比較すると、目標母音DB記憶部103に記憶される母音情報のサイズを小さくできるという効果も有する。
 なお、本実施の形態では、日本語の音声について説明を行なったが、本発明の適用範囲は日本語に限るものではなく、英語をはじめ他の言語においても同様に声質変換を行なうことができる。
 例えば、“Can I make a phone call from this plane?”と発声した場合において、文末のplaneの/e/と、“May I have a thermometer?”の文頭のMayの/e/との発声様態は異なる。また、日本語と同様に文内位置、内容語若しくは機能語の種別、又は強調の有無などによりその発声様態は変化することから、音韻環境のみから目標母音の母音情報を選択すると、日本語と同様に発声様態の時間的変化パターンが崩れる。このことに起因し、声質変換音声の自然性は劣化する。したがって、英語においても開口度を基準に目標母音の母音情報を選択することにより、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声には、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換ができる。
 (変形例1)
 図10は、本発明の実施の形態の声質変換装置の変形例の機能的な構成を示すブロック図である。図10において、図2と同じ構成要素については同じ符号を用い、説明を省略する。
 本変形例では、目標母音選択部105が目標母音DB記憶部103から目標母音の母音情報を選択する際に、開口度一致度算出部104により算出される開口度一致度だけではなく、入力音声に含まれる母音の音韻環境と、目標母音DB記憶部103に含まれる各母音の音韻環境の距離に基づいて目標母音の母音情報を選択することが異なる。
 本変形例に係る声質変換装置は、図2に示した声質変換装置の構成に加えて、さらに、音韻環境距離算出部109を備えている。
 <音韻環境距離算出部109>
 図10において、音韻環境距離算出部109は、互いに母音種類が一致する、入力音声に含まれる母音の音韻環境と、目標母音DB記憶部103に含まれる母音情報の音韻環境の距離を算出する。
 具体的には、前後音素種類の一致性を調べることにより距離を算出する。
 例えば、音韻環境距離算出部109は、先行音素種類が一致しない場合にはペナルティdを距離に加算する。同様に後続音素種類が一致しない場合はペナルティdを距離に加算する。ペナルティdは、同じ値でなくとも良く、例えば先行音素の一致度を優先するようにしても良い。
 あるいは、先行音素が一致しない場合においても、音素の類似度によりペナルティの大きさを変更するようにしても良い。例えば、音素カテゴリ(破裂音、摩擦音など)が同一の場合はペナルティを小さくするようにしても良い。また、調音位置(歯茎音、口蓋音など)が同一の場合はペナルティを小さくするようにしても良い。
 <目標母音選択部105>
 目標母音選択部105は、開口度一致度算出部104により算出された一致度と、音韻環境距離算出部109により算出された音韻環境の距離とを用いて、入力音声に含まれる各母音に対して、目標母音DB記憶部103から母音情報を選択する。
 具体的には、目標母音選択部105は、式19に示すように入力音声に含まれる母音系列に対して、開口度一致度算出部104が算出した開口度一致度Sijと、音韻環境距離算出部109が算出した音韻環境の距離Dijとの重み付け和が最小になる母音(j)の母音情報を目標母音DB記憶部103から選択する。
Figure JPOXMLDOC01-appb-M000021
 重みwの設定方法は特に限定するものではなく、事前に適宜決定する。なお、目標母音DB記憶部103のデータサイズに応じて、重みを変化させるようにしても良い。具体的には、目標母音DB記憶部103に記憶される母音情報の数が大きいほど、音韻環境距離算出部109により算出される音韻環境の距離の重みを大きくするようにしてもよい。このような重み付けを行うのは、母音情報の数が多い場合には、音韻環境が一致している母音情報の中から、開口度が一致するものを選ぶほうが、より自然な声質変換を行うことができるからである。一方、母音情報の数が少ない場合には、入力音声の音韻環境に一致する音韻環境の母音情報が得られない場合がある。このような場合に、無理に音韻環境が類似する母音情報を選択しても、より自然な声質変換を行うことができる母音情報が得られない場合があるため、開口度が一致する母音情報を優先して選択したほうが、より自然な声質変換を行うことができる。
 (フローチャート)
 本変形例に係る声質変換装置の具体的な動作に関して図11に示すフローチャートを用いて説明する。
 声道音源分離部101は、入力音声を声道情報と音源情報に分離する(ステップS101)。開口度算出部102は、ステップS101で分離された声道情報を用いて、入力音声に含まれる母音系列の開口度を算出する(ステップS102)。
 開口度一致度算出部104は、ステップS002で算出された入力音声に含まれる母音系列の各母音の開口度と、目標母音DB記憶部103に記憶されている目標母音候補の開口度との開口度一致度を算出する(ステップS103)。
 音韻環境距離算出部109は、入力音声に含まれる母音系列の各母音の音韻環境と、目標母音DB記憶部103に記憶されている目標母音候補との音韻環境の距離を算出する(ステップS104)。
 目標母音選択部105は、ステップS103において算出された開口度一致度と、ステップS104において算出された音韻環境の距離に基づいて、入力音声に含まれる母音系列のそれぞれの母音に対して目標母音の母音情報を選択する(ステップS105)。
 母音変形部106は、入力音声に含まれる母音系列のそれぞれの母音に対して、ステップS105で選択された目標母音の母音情報を用いて、声道情報を変形する(ステップS106)。
 音源生成部107は、ステップS101において分離された入力音声の音源情報を用いて、音源波形を生成する(ステップS107)。
 合成部108は、ステップS106において変形された声道情報と、ステップS107において生成された音源波形を用いて、音声を合成する(ステップS108)。
 以上の処理により、入力音声の声質を目標音声の声質に変換する際に、音韻性を維持しながら、且つ、発声様態の時間変化パターンを保存することが可能となる。結果として、各母音の音韻性と発声様態の時間変化パターンを保存することが可能となるため、自然性(流暢さ)を劣化させない高音質の声質変換が可能となる。
 また、この構成によれば少量の目標音声データを用いても発声様態の時間変化パターンを損なわない声質変換が可能であるため、あらゆる利用形態において有用性の高いものとなる。例えば、複数の音声メッセージが蓄積された情報機器の出力を、ユーザが少量の発声を行うことによって自分の声質に変換することが可能になる。
 また、目標母音選択部105により目標母音の母音情報を選択する際に、目標母音DB記憶部103のデータサイズに応じて、重みを調整している(目標母音DB記憶部103に記憶される母音情報数が大きいほど、音韻環境距離算出部109により算出される音韻環境の距離の重みを大きくする)。これにより、目標母音DB記憶部103のデータサイズが小さい場合には、開口度一致度を優先することにより、音韻環境の類似性が高い母音がない場合においても、開口度一致度の高い母音の母音情報を選択することにより、発声様態が一致した母音情報が選択される。これにより、全体として自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 一方、目標母音DB記憶部103のデータサイズが大きい場合には、音韻環境距離と開口度一致度の双方を考慮しながら目標母音の母音情報を選択することにより、音韻環境を考慮した上で、さらに開口度を考慮することができる。このため、従来の音韻環境のみで母音情報を選択する場合と比較して、自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。
 (変形例2)
 図12は、本発明の実施の形態の変形例に係る声質変換システムの機能的な構成を示すブロック図である。図12において、図2と同じ構成要素については同じ符号を用い、説明を省略する。
 声質変換システムは、声質変換装置1701と、母音情報作成装置1702とを含む。声質変換装置1701と母音情報作成装置1702とは有線又は無線により直接接続されていても良いし、インターネット又はLAN(Local Area Network)などのネットワークを介して接続されていても良い。
 声質変換装置1701は、図2に示した実施の形態1に係る声質変換装置と同様の構成を有する。
 母音情報作成装置1702は、目標話者音声収録部110と、声道音源分離部101bと、母音区間抽出部111と、開口度算出部102bと、目標母音DB作成部112とを備える。なお、母音情報作成装置1702において、必須の構成要素は、声道音源分離部101bと、開口度算出部102bと、目標母音DB作成部112とである。
 目標話者音声収録部110は、目標話者の音声を数文から数十文規模で収録する。母音区間抽出部111は、収録された音声から母音区間を抽出する。目標母音DB作成部112は、目標話者音声収録部110により収録された目標話者の音声を用いて、母音情報を生成し目標母音DB記憶部103に書き込む。
 声道音源分離部101b及び開口度算出部102bは、図2に示した声道音源分離部101及び開口度算出部102とそれぞれ同様の構成を有する。このため、その詳細な説明はここでは繰り返さない。
 目標母音DB記憶部103に記憶される母音情報の作成方法を図5のフローチャートを用いて説明する。
 目標となる声質を持つ話者に文章を発話してもらい、目標話者音声収録部110は、発話した音声からなる文セットを収録する(ステップS101)。文章数は限定するものではないが、数文から数十文規模の音声を収録する。目標話者音声収録部110は、1種類の母音に対して少なくとも2個以上の発声が得られるように音声を収録する。
 声道音源分離部101bは、収録した文セットの音声に対して声道音源分離を行なう(ステップS102)。
 母音区間抽出部111は、ステップS102において分離された声道情報から、母音に相当する区間を抽出する(ステップS103)。抽出方法は特に限定しない。例えば、自動ラベリング手法を用いて、母音区間を自動抽出しても構わない。
 開口度算出部102bは、ステップS103において抽出された各母音区間に対して、開口度を算出する(ステップS104)。開口度は、抽出した母音区間の中心部における開口度を算出するようにする。もちろん中心部だけではなく、母音区間の特徴を全て算出するようにしても良いし、母音区間の開口度の平均値を算出しても良い。あるいは、母音区間の開口度の中央値を算出しても良い。
 目標母音DB作成部112は、ステップS104により算出した各母音の開口度と、声質変換を行なう際に用いられる各情報を母音毎に母音情報として目標母音DB記憶部103に登録する(ステップS105)。具体的には、図6に示すように、母音情報は、母音情報を識別する母音番号、母音種類、母音区間の声道情報であるPARCOR係数、開口度、母音の音韻環境(例えば前後音素情報、前後音節情報、又は前後音素の調音点など)、母音区間における音源情報(スペクトル傾斜又は声門開放度など)、及び韻律情報(基本周波数、パワーなど)を含む。
 以上の処理により、母音情報作成装置において、目標話者の音声を収録し、目標母音DB記憶部103に記憶される母音情報を作成することが可能になる。このため、目標声質を随時更新することが可能となる。
 以上のように作成した目標母音DB記憶部103を用いることで、入力音声の声質を目標音声の声質に変換する際に、音韻性を維持しながら、且つ、発声様態の時間変化パターンを保存することが可能となる。結果として、各母音の音韻性と発声様態の時間変化パターンを保存することが可能となるため、自然性(流暢さ)を劣化させない高音質の声質変換が可能となる。
 なお、声質変換装置1701と母音情報作成装置1702とが同一装置内にあってもよい。この場合には、声道音源分離部101bは、声道音源分離部101を用いるように設計しても良い。同様に開口度算出部102bは、開口度算出部102を用いるように設計しても良い。
 なお、本発明を実施するための最小構成要素は以下となる。
 図13は、本発明を実施するための声質変換装置の最小構成を示すブロック図である。図13において、声質変換装置は、声道音源分離部101と、開口度算出部102と、目標母音DB記憶部103と、開口度一致度算出部104と、目標母音選択部105と、母音変形部106と、合成部108とを含む。つまり、図2に示した声質変換装置の構成において、音源生成部107を備えない構成となっている。図13に示す声質変換装置の合成部108は、音源生成部107で生成された音源情報を用いて音声を合成するのではなく、声道音源分離部101で分離された音源情報を用いて音声を合成する。つまり、音声合成に用いられる音源情報は、本発明においては特に限定されるものではない。
 また、図14は、目標母音DB記憶部103に記憶されている母音情報の最小構成を示す図である。つまり、母音情報は、母音種類と、声道情報(PARCOR係数)と、開口度とを含む。この母音情報があれば、開口度に基づいて声道情報の選択を行うことができ、声道情報の変形を行うことができる。
 母音の声道情報が開口度に基づき適切に選択されていれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
 なお、目標母音DB記憶部103は、声質変換装置の外部に備えられていても良く、その場合には、声質変換装置の必須の構成要素とはならない。
 以上、本発明の実施の形態に係る声質変換装置及び声質変換システムについて説明したが、本発明は、この実施の形態に限定されるものではない。
 例えば、上述の実施の形態及び変形例で説明した各装置は、コンピュータにより実現することが可能である。
 図15は、声質変換装置20の外観図である。声質変換装置20は、コンピュータ34と、コンピュータ34に指示を与えるためのキーボード36およびマウス38と、コンピュータ34の演算結果等の情報を提示するためのディスプレイ32と、コンピュータ34で実行されるプログラムを読み取るためのCD-ROM(Compact Disc-Read Only Memory)装置40および通信モデム(図示せず)とを含む。
 声質変換をするためのプログラムは、コンピュータで読取可能な媒体であるCD-ROM42に記憶され、CD-ROM装置40で読み取られる。または、コンピュータネットワーク26を通じて通信モデムで読み取られる。
 図16は、声質変換装置20のハードウェア構成を示すブロック図である。コンピュータ34は、CPU(Central Processing Unit)44と、ROM(Read Only Memory)46と、RAM(Random Access Memory)48と、ハードディスク50と、通信モデム52と、バス54とを含む。
 CPU44は、CD-ROM装置40または通信モデム52を介して読み取られたプログラムを実行する。ROM46は、コンピュータ34の動作に必要なプログラム又はデータを記憶する。RAM48は、プログラム実行時のパラメータなどのデータを記憶する。ハードディスク50は、プログラム又はデータなどを記憶する。通信モデム52は、コンピュータネットワーク26を介して他のコンピュータとの通信を行なう。バス54は、CPU44、ROM46、RAM48、ハードディスク50、通信モデム52、ディスプレイ32、キーボード36、マウス38およびCD-ROM装置40を相互に接続する。
 なお、母音情報作成装置も同様にコンピュータにより実現することが可能である。
 また、上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
 さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしても良い。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしても良い。
 また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。
 さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な不揮発性の記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc(登録商標))、半導体メモリなどに記録したものとしても良い。また、これらの不揮発性の記録媒体に記録されている上記デジタル信号であるとしても良い。
 また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
 また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。
 また、上記プログラムまたは上記デジタル信号を上記不揮発性の記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。
 さらに、上記実施の形態及び上記変形例をそれぞれ組み合わせるとしても良い。
 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
 本発明に係る声質変換装置は、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換する機能を有し、多様な声質を必要とする情報機器若しくは家電機器のユーザインタフェース、又は自分用の声質に変換した着信音などのエンターテイメント等の用途において有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の用途にも応用できる。
101、101b 声道音源分離部
102、102b 開口度算出部
103 目標母音DB記憶部
104 開口度一致度算出部
105 目標母音選択部
106 母音変形部
107 音源生成部
108 合成部
109 音韻環境距離算出部
110 目標話者音声収録部
111 母音区間抽出部
112 目標母音DB作成部
1701 声質変換装置
1702 母音情報作成装置

Claims (16)

  1.  入力音声の声質を変換する声質変換装置であって、
     入力音声を声道情報と音源情報とに分離する声道音源分離部と、
     前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、
     前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部と、
     互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、
     前記開口度一致度算出部が算出した一致度に基づいて、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部と、
     前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、
     前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部と
     を備える声質変換装置。
  2.  前記目標母音選択部は、前記開口度一致度算出部が算出した一致度に基づいて、前記入力音声に含まれる母音の開口度と最も一致する開口度を有する母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
     請求項1に記載の声質変換装置。
  3.  前記母音情報は、さらに、母音の音韻環境を含み、
     前記声質変換装置は、さらに、互いに母音種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部を備え、
     前記目標母音選択部は、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
     請求項1記載の声質変換装置。
  4.  前記目標母音選択部は、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離とに基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
     請求項3記載の声質変換装置。
  5.  前記開口度算出部は、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から声道断面積関数を算出し、算出した前記声道断面積関数で示される声道断面積の和として、前記開口度を算出する
     請求項1に記載の声質変換装置。
  6.  前記開口度算出部は、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から声道断面積関数を算出し、声道を複数の区間に分割した場合に、算出した前記声道断面積関数で示される各区間の声道断面積の和として、前記開口度を算出する
     請求項5記載の声質変換装置。
  7.  前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、話者毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
     請求項1に記載の声質変換装置。
  8.  前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、母音の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
     請求項1に記載の声質変換装置。
  9.  前記開口度一致度算出部は、前記一致度として、互いに母音種類が一致する、前記開口度算出部が算出した開口度の時間方向の差分と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度の時間方向の差分との一致度を算出する
     請求項1に記載の声質変換装置。
  10.  前記母音変形部は、前記入力音声に含まれる母音の声道情報を、前記目標母音選択部が選択した母音情報に含まれる声道情報に、所定の変換比率で変形する
     請求項1に記載の声質変換装置。
  11.  入力音声の声質を変換する声質変換装置であって、
     入力音声を声道情報と音源情報とに分離する声道音源分離部と、
     前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、
     目標母音データベース記憶部に記憶されている、各々が、前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む複数の母音情報を参照し、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、
     前記開口度一致度算出部が算出した一致度に基づいて、前記目標母音データベースに記憶されている複数の母音情報の中から母音情報を選択する目標母音選択部と、
     前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、
     前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部と
     を備える声質変換装置。
  12.  入力音声の声質変換に用いられる目標話者の母音情報を作成する母音情報作成装置であって、
     目標話者の音声を声道情報と音源情報とに分離する声道音源分離部と、
     前記声道音源分離部により分離された前記目標話者の音声の声道情報から口腔内の容積に対応する開口度を算出する開口度算出部と、
     前記目標話者に関する、母音種類と前記開口度算出部が算出した前記開口度の情報と前記声道音源分離部が分離した前記声道情報とを含む母音情報を作成する目標母音情報作成部と
     を備える母音情報作成装置。
  13.  請求項1に記載の声質変換装置と、
     請求項12記載の母音情報作成装置と
     を備える声質変換システム。
  14.  入力音声の声質を変換する声質変換方法であって、
     入力音声を声道情報と音源情報とに分離する声道音源分離ステップと、
     前記声道音源分離ステップにおいて分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出ステップと、
     互いに母音種類が一致する、前記開口度算出ステップにおいて算出された開口度と、前記入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出ステップと、
     前記開口度一致度算出ステップにおいて算出された一致度に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択ステップと、
     前記目標母音選択ステップにおいて選択された母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形ステップと、
     前記母音変形ステップにおいて母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離ステップにおいて分離された前記音源情報とを用いて、音声を合成する合成ステップと
     を含む声質変換方法。
  15.  目標母音選択ステップでは、前記開口度一致度算出ステップで算出された一致度に基づいて、前記入力音声に含まれる母音の開口度と最も一致する開口度を有する母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
     請求項14に記載の声質変換装置。
  16.  入力音声の声質を変換するためのコンピュータ実行可能なプログラムであって、
     前記コンピュータは、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している目標母音データベース記憶部を備え、
     入力音声を声道情報と音源情報とに分離する声道音源分離ステップと、
     前記声道音源分離ステップにおいて分離された前記入力音声に含まれる母音の声道情報から口腔内の容積に対応する開口度を算出する開口度算出ステップと、
     互いに母音種類が一致する、前記開口度算出ステップにおいて算出された開口度と、前記入力音声の声質を変換する目標となる目標話者に関する、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出ステップと、
     前記開口度一致度算出ステップにおいて算出された一致度に基づいて、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から母音情報を選択する目標母音選択ステップと、
     前記目標母音選択ステップにおいて選択された母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形ステップと、
     前記母音変形ステップにおいて母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離ステップにおいて分離された前記音源情報とを用いて、音声を合成する合成ステップと
     をコンピュータに実行させるためのプログラム。
PCT/JP2011/001541 2010-06-04 2011-03-16 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム Ceased WO2011151956A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012502798A JP5039865B2 (ja) 2010-06-04 2011-03-16 声質変換装置及びその方法
CN2011800026487A CN102473416A (zh) 2010-06-04 2011-03-16 音质变换装置及其方法、元音信息制作装置及音质变换系统
US13/334,119 US20120095767A1 (en) 2010-06-04 2011-12-22 Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010129466 2010-06-04
JP2010-129466 2010-06-04

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/334,119 Continuation US20120095767A1 (en) 2010-06-04 2011-12-22 Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system

Publications (1)

Publication Number Publication Date
WO2011151956A1 true WO2011151956A1 (ja) 2011-12-08

Family

ID=45066350

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/001541 Ceased WO2011151956A1 (ja) 2010-06-04 2011-03-16 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム

Country Status (4)

Country Link
US (1) US20120095767A1 (ja)
JP (1) JP5039865B2 (ja)
CN (1) CN102473416A (ja)
WO (1) WO2011151956A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5148026B1 (ja) * 2011-08-01 2013-02-20 パナソニック株式会社 音声合成装置および音声合成方法
CN103730117A (zh) * 2012-10-12 2014-04-16 中兴通讯股份有限公司 一种自适应智能语音装置及方法
US9640185B2 (en) * 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
JP6446993B2 (ja) * 2014-10-20 2019-01-09 ヤマハ株式会社 音声制御装置およびプログラム
JP6428256B2 (ja) * 2014-12-25 2018-11-28 ヤマハ株式会社 音声処理装置
US10706867B1 (en) * 2017-03-03 2020-07-07 Oben, Inc. Global frequency-warping transformation estimation for voice timbre approximation
KR20200027475A (ko) 2017-05-24 2020-03-12 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
US12100410B2 (en) * 2018-05-10 2024-09-24 Nippon Telegraph And Telephone Corporation Pitch emphasis apparatus, method, program, and recording medium for the same
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words
US11996117B2 (en) 2020-10-08 2024-05-28 Modulate, Inc. Multi-stage adaptive system for content moderation
US20230395065A1 (en) 2022-06-01 2023-12-07 Modulate, Inc. Scoring system for content moderation

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215198A (ja) * 2001-01-16 2002-07-31 Sharp Corp 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP2010014913A (ja) * 2008-07-02 2010-01-21 Panasonic Corp 声質変換音声生成装置および声質変換音声生成システム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7392190B1 (en) * 1997-11-07 2008-06-24 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7117155B2 (en) * 1999-09-07 2006-10-03 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US6990449B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6862568B2 (en) * 2000-10-19 2005-03-01 Qwest Communications International, Inc. System and method for converting text-to-voice
US6990451B2 (en) * 2001-06-01 2006-01-24 Qwest Communications International Inc. Method and apparatus for recording prosody for fully concatenated speech
JP4177751B2 (ja) * 2003-12-25 2008-11-05 株式会社国際電気通信基礎技術研究所 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
KR100706967B1 (ko) * 2005-02-15 2007-04-11 에스케이 텔레콤주식회사 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템
JP4644879B2 (ja) * 2005-11-14 2011-03-09 株式会社国際電気通信基礎技術研究所 調音パラメータ補間用データ生成装置及びコンピュータプログラム
CN101004911B (zh) * 2006-01-17 2012-06-27 纽昂斯通讯公司 用于生成频率弯曲函数及进行频率弯曲的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215198A (ja) * 2001-01-16 2002-07-31 Sharp Corp 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP2010014913A (ja) * 2008-07-02 2010-01-21 Panasonic Corp 声質変換音声生成装置および声質変換音声生成システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOSHINORI UCHIMURA ET AL.: "Analysis of the vocal tract area function aimed at manipulation of voice quality", IPSJ SIG NOTES, vol. 2008, no. 12, 8 February 2008 (2008-02-08), pages 127 - 132 *

Also Published As

Publication number Publication date
CN102473416A (zh) 2012-05-23
US20120095767A1 (en) 2012-04-19
JP5039865B2 (ja) 2012-10-03
JPWO2011151956A1 (ja) 2013-07-25

Similar Documents

Publication Publication Date Title
JP5039865B2 (ja) 声質変換装置及びその方法
CN101578659B (zh) 音质转换装置及音质转换方法
Kain High-resolution voice transformation
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
JP5148026B1 (ja) 音声合成装置および音声合成方法
Doi et al. Alaryngeal speech enhancement based on one-to-many eigenvoice conversion
US20070213987A1 (en) Codebook-less speech conversion method and system
Aryal et al. Foreign accent conversion through voice morphing.
Shahnawazuddin et al. Studying the role of pitch-adaptive spectral estimation and speaking-rate normalization in automatic speech recognition
Deka et al. Development of assamese text-to-speech system using deep neural network
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2013033103A (ja) 声質変換装置および声質変換方法
JPWO2010104040A1 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP2003208188A (ja) 日本語テキスト音声合成方法
Pfitzinger Unsupervised speech morphing between utterances of any speakers
JP3742206B2 (ja) 音声合成方法及び装置
KR101567566B1 (ko) 개인 음색을 반영한 통계적 음성합성 시스템 및 방법
Wu et al. Synthesis of spontaneous speech with syllable contraction using state-based context-dependent voice transformation
López Methods for speaking style conversion from normal speech to high vocal effort speech
Hinterleitner Speech synthesis
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
Ramírez López Methods for speaking style conversion from normal speech to high vocal effort speech
Ngo et al. Toward a rule-based synthesis of vietnamese emotional speech
SRIKANTH Generation of syllable level templates using dynamic programming for statistical speech synthesis

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180002648.7

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2012502798

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11789371

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11789371

Country of ref document: EP

Kind code of ref document: A1