[go: up one dir, main page]

WO2008032787A1 - Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program - Google Patents

Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program Download PDF

Info

Publication number
WO2008032787A1
WO2008032787A1 PCT/JP2007/067849 JP2007067849W WO2008032787A1 WO 2008032787 A1 WO2008032787 A1 WO 2008032787A1 JP 2007067849 W JP2007067849 W JP 2007067849W WO 2008032787 A1 WO2008032787 A1 WO 2008032787A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotional state
probability
emotional
speech
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2007/067849
Other languages
English (en)
French (fr)
Inventor
Go Irie
Kouta Hidaka
Takashi Satou
Yukinobu Taniguchi
Shinya Nakajima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to CN200780031814XA priority Critical patent/CN101506874B/zh
Priority to US12/439,051 priority patent/US8386257B2/en
Priority to JP2008534386A priority patent/JP5039045B2/ja
Priority to EP07807256A priority patent/EP2063416B1/en
Publication of WO2008032787A1 publication Critical patent/WO2008032787A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to an emotion detection technique based on audio signal data.
  • audio data is analyzed, and at least one of the time variation characteristics of the fundamental frequency, power, and dynamic features, and the difference between the frames, at least one of the time variation characteristics, or These inter-frame differences are extracted as speech feature vectors.
  • the representative vector obtained by quantizing the extracted speech feature vector and a codebook that associates the emotions and emotional expression probabilities of the speakers the expression probability of emotional states of laughter, anger, and sadness Ask for.
  • An emotion detection method in which a part including a section determined to be an emotional state based on the expression probability of the emotional state is determined as an important part in the content and extracted.
  • the content summarization technique of Patent Document 2 analyzes audio data, and at least one of the time-variation characteristics of the basic frequency, power, and dynamic features, and the difference between the frames, At least one of the time variation characteristics or the difference between them is extracted as a speech feature vector. Obtained by quantizing the extracted speech feature vector The expression probability of the emphasized state and the calm state is obtained by using a codebook in which the representative vector is associated with the utterance emphasized state probability and the calm state probability.
  • Non-Patent Document 1 fundamental frequency and power extraction methods
  • speech speed temporal variation characteristics for example, see Non-Patent Document 2
  • probability model parameter estimation methods A method for obtaining a generalized state space model (for example, see Non-Patent Document 5) is known.
  • Patent Document 1 JP-A-2005-345496 (paragraphs [0011] to [0014] etc.).
  • Patent Document 2 Japanese Patent No. 3803311.
  • Non-Patent Document 1 Sadaaki Furui, “Digital Speech Processing Chapter 4. 4. 9 Pitch Extraction”, Tokai University Press, September 1985, pp.57-59.
  • Non-Patent Document 2 Shigeki Hiyama, Fumitada Itakura, “Personality information included in the dynamic scale of speech”, Proceedings of the 54th Spring Conference of the Acoustical Society of Japan, 3-2-7, 1979, pp .589-5 90.
  • Non-Patent Document 3 Kenichiro Ishii, Nobuyoshi Ueda, Eisaku Maeda, Hiroshi Murase, “Intuitive Pattern Recognition”, Ohmsha, 1st Edition, August 1998, pp.52-54.
  • Non-Patent Document 4 Kanayoshi Kan, Tezuka Shu, Nobuo Ueda, Masaaki Taguri, “Computational Statistics I New Methods of Stochastic Calculations, Frontier of Statistical Science 11 Chapter III 3EM Method 4 Variational Bayes Method”, Iwanami Shoten, 2003 6 Moon, pp.157-186.
  • Patent Document 5 I ⁇ itagawa, G., Non-Aussian state-space modeling of nonstationary time series, “Journal of the American Statistical Association, December 1987, p.1032-1063.
  • the speech feature vector is quantized for each frame and the speech feature vector, which is a continuous quantity, is represented by several representative vectors, the speech feature vector that appears characteristically in utterances in emotional states. As a result, there was a problem that the judgment accuracy of the emotional state was low! /!
  • the present invention has been made on the basis of the above-mentioned problem, detects an important change of a speech feature vector appearing in utterance in an emotional state, and further detects an emotion not only by a change of the speech feature vector.
  • the emotion detection method, emotion detection device, and its detection method can be implemented in a wider area by improving the accuracy of emotional state determination even in the case of targeting noisy speech. It is an object of the present invention to provide an emotion detection program implementing the method and a recording medium recording the program.
  • the nature of the emotional state itself is a property related to the behavior of the emotional state.
  • the emotional state has a sense of change and difficulty, and it is unlikely that it will suddenly change to a sad emotional state even though it is an emotional state of joy until just before.
  • an emotion detection method or apparatus for performing an emotion detection process based on an audio feature amount of input audio signal data is provided:
  • a fundamental frequency For each analysis frame from the speech signal data, one or more of a fundamental frequency, a series of temporal fluctuation characteristics of the fundamental frequency, a power, a series of temporal fluctuation characteristics of the power, and a temporal fluctuation characteristic of the speech rate are represented by an audio feature vector.
  • the speech feature vector is stored in the storage unit.
  • the speech feature vector of each analysis frame is read from the storage unit, and a first statistical model constructed based on pre-input learning speech data is used as a condition for a sequence of one or more emotional states. Ascending the probability of appearance of the speech feature amount that is the speech feature amount vector,
  • an emotion detection method or apparatus for performing an emotion detection process based on an audio feature amount of input audio signal data includes:
  • a fundamental frequency For each analysis frame from the speech signal data, one or more of a fundamental frequency, a series of temporal fluctuation characteristics of the fundamental frequency, a power, a series of temporal fluctuation characteristics of the power, and a temporal fluctuation characteristic of the speech rate are represented by an audio feature vector.
  • the speech feature vector is stored in the storage unit.
  • the speech feature vector of each analysis frame is read from the storage unit, and one or more statistical models configured based on pre-input learning speech signal data are used to calculate one or more emotional state sequences. Calculating an emotional state probability based on the speech feature vector;
  • the present invention provides a computer program in which the emotion detection method according to the first or second aspect of the present invention is mounted, and a recording medium on which the program is recorded. Further, the present invention includes a computer-executable program that implements the emotion detection method according to the first or second aspect, and a recording medium that records the program.
  • the statistical model related to the transition probability of the emotional state sequence is used together with the statistical model related to the speech feature amount. Since the emotional state probabilities are calculated based on two statistical models with different information to be processed, it is possible to capture information on emotional states and their natural transitions more accurately. Moreover, in order to obtain information on the emotional state in consideration of the temporal transition characteristics of the emotion that the emotional state has as a basic property, even if strong noise is superimposed on the voice feature amount, When the calculation is based only on the quantity, the inaccuracy of the information about the emotional state due to the probability that the speech feature quantity of the frame appears different from the original value can be improved.
  • the emotional state is determined based on a difference between a probability of one emotional state and a convex combination of the other emotional states. By judging, the emotional state can be determined in consideration of the recall relationship between different emotional states.
  • the input audio signal data is divided into one or more consecutive analysis frame intervals based on periodicity.
  • the content summary is possible to respond more flexibly to the viewer's summary requirements.
  • FIG. 1 is a flowchart for explaining an emotion detection method in the present embodiment.
  • FIG. 2 is a flowchart showing the processing details of steps constituting the statistical model in the present embodiment.
  • FIG. 3 is a conceptual diagram of a method for obtaining the time variation characteristic of the fundamental frequency.
  • FIG. 4 is a diagram for explaining a temporal change in an audio feature vector.
  • FIG. 6 An example of emotional state probabilities when dealing with emotional states of joy, sadness, and calm.
  • FIG. 7 is a conceptual diagram showing the relationship between a voice sub-paragraph and emotion level.
  • FIG. 8 is a diagram showing an example of a method for generating an audio paragraph.
  • FIG. 9 is a conceptual diagram showing the relationship between the voice paragraph and the emotion level.
  • FIG. 11 is a logical configuration diagram of the emotion detection device according to the present embodiment.
  • FIG. 12 is a physical configuration diagram of the emotion detection device in the present embodiment.
  • FIG. 1 is a flowchart for explaining an emotion detection method according to this embodiment. Note that the data in the description of this embodiment is stored in a general-purpose storage unit (for example, a memory or a hard disk device) or storage means and accessed.
  • a general-purpose storage unit for example, a memory or a hard disk device
  • step S110 is a step that is performed in advance before the emotional state is actually determined by the emotion detection method according to the present embodiment. This is the step of constructing two statistical models (referred to as the first statistical model and the second statistical model) used for the calculation.
  • the entity of the statistical model is a function in which the statistics are calculated and parameters such as statistics are described as a program.
  • the codes representing the parameters and function types of the statistical model are the power to be stored in the storage unit. The storage capacity for them is smaller than storing all the actual data.
  • step S120 audio feature extraction process step
  • one or more analysis frames (hereinafter also simply referred to as frames) using the desired audio feature as a vector from the audio signal data of the captured content. )
  • each analysis frame is composed of a plurality of subframes.
  • the input speech signal data is analyzed for each subframe, and the fundamental frequency and power, which are speech features, are calculated.
  • a speech feature vector is constructed based on speech features of subframes included in one or more predetermined number of analysis frames including the frame.
  • this speech feature vector is a vector composed of one or more elements of the fundamental frequency, the fundamental frequency time variation characteristic series, the power, the power temporal variation characteristic series, and the speech rate temporal variation characteristic. It is.
  • the audio signal data is input by audio signal data input means (for example, input unit 210 in FIG. 12 described later).
  • the extracted voice feature amount is stored in the storage unit. Steps S120 to S150 are processes for calculating the emotional state probability.
  • step S 1 On the basis of the speech feature vector calculated in 20 and stored in the storage unit, the probability that the speech feature vector corresponding to the emotional state appears for each frame is represented by the first statistical model previously constructed in step S110. And the calculation result is regarded as the speech feature appearance probability.
  • step S 140 emotion state transition probability calculation processing step
  • one or more states corresponding to the emotional state using the second statistical model previously configured in step S 110 are used.
  • the transition probability in the time direction of the variable is calculated, and the calculation result is regarded as the emotional state transition probability.
  • step S 150 emotional state probability calculation processing step
  • the emotional state probability is calculated and stored in the storage unit corresponding to any one of the frame number and the time information.
  • step S 160 the emotional state of the frame is determined based on the emotional state probability calculated in step S 150 and output together with the corresponding frame number.
  • the emotional state that gives the maximum emotional state probability for each frame may be determined, and a predetermined number of emotional states may be determined in descending order from the maximum emotional state probability.
  • the determination result is output as information related to the emotional state of the audio signal data. For example, when the input audio signal data is viewing content, if the determination result associated with the frame number or time information is provided to the viewer together with the content, the viewer can use the determination result to determine the desired content in the content. It is possible to search for frames or sections that are conditional on the emotional state.
  • step S 170 a summary of the content in units of one or more frames in which the emotional state determined in step S 150 is continuous is displayed. Generate and output.
  • the emotional state probability obtained in step S 150 represents the emotional state of each frame of the input speech signal data. Therefore, it is possible to output the emotional state probability associated with the frame number or the time information without performing the determination in step SI 60 described above.
  • the emotional state probability associated with this frame number can be provided to the viewer together with the content, and the viewer can use it to extract a summary from the content by setting a desired standard for the emotional state probability.
  • step S110 constituting two statistical models
  • the statistical model shall be obtained by learning from the speech signal data for learning.
  • step S 111 learning speech signal data is input.
  • the learning audio signal data may be input from the same input means as the content audio signal data input means, or input means dedicated to learning audio signal data (for example, a recording in which learning audio signal data is recorded). It may be entered from (medium)! /.
  • step S112 with respect to the learning speech signal data, the emotion in the frame determined by the actual viewing and viewing by the human for each frame over the entire learning speech signal data.
  • information that determines the value of emotional state e determined by a human is called a label, and the action of inputting the value of the determined emotional state in association with that frame is labeled. I will call it.
  • the label may be a numerical value or a sign as long as it can distinguish the type of emotion of interest.
  • the label of emotional state e is not given for each frame, if it can be converted so that it is labeled in units of frames, it can be used by converting to this. May be.
  • labeling there is a case where a label of emotional state e is given in a section extending over a plurality of consecutive frames. In this case, each frame included in the section can be labeled on a frame-by-frame basis by giving the same label as the label attached to the section. More specifically, if an interval of time tl force t2 with speech is labeled emotional state e, all frames in that interval are labeled e!
  • step S 113 the speech feature quantity vector X is extracted for each frame as in step S 120.
  • the audio feature amount X in each frame may be determined including not only the audio feature amount of the frame but also the audio feature amounts of a predetermined number of frames in the past.
  • the sound in frame F with frame number t the sound in frame F with frame number t
  • step S I 14 a first statistical model for calculating the speech feature amount appearance probability and a second statistical model for calculating the emotional state transition probability are constructed by learning.
  • the first statistical model for calculating the speech feature occurrence probability is a probability distribution in the speech feature vector X space given for each frame. For example, in frame F,
  • a conditional probability representing the probability of x appearing depending on the sequence of emotional states E ⁇ e, e, ..., e ⁇ in a continuous frame interval from that frame up to a predetermined number n
  • n is a force that is an integer greater than or equal to 1, for example, about 2 to 3
  • E) is, for example, positive for the appearance probability of for each possible value of E.
  • It may be configured by using a probability model. Further, it may be configured using a probability model such as a normal distribution, a multinomial distribution, or a mixture distribution thereof for each type of speech feature.
  • the parameters of these probabilistic models are estimated from the learning speech signal data by a conventional learning method and used as the first statistical model.
  • a known method such as a maximum likelihood estimation method, an EM algorithm, or a variational Bayes method (for example, see Non-Patent Document 3 and Non-Patent Document 4). Can be used.
  • the second statistical model for calculating the emotional state transition probability is the same as the first statistical model for calculating the speech feature quantity occurrence probability. Earn by.
  • the learning speech signal data includes the speech feature vector X extracted for each frame over all the learning speech signal data, and the actual human hearing and judgment thereof.
  • An example of the step of performing learning in step S114 will be described below on the assumption that the label of emotional state e in the frame is given.
  • the emotional state at frame number t is represented as e.
  • E) creates, for example, a bi-gram type probability distribution because it is a variable of expression and! / In this case, by counting the number of times each emotional state sequence E appears when E is given, based on the speech signal data for learning. This is nothing but the maximum likelihood estimation method, but in addition to this, it is assumed that an appropriate prior distribution is determined and learned by the Bayes method. They may be.
  • step S110 The detailed processing in step S110 has been described above.
  • step S120 a desired audio feature vector is extracted for each frame from the audio signal data of the captured content.
  • the voice in the present invention includes a singing voice or music that is not limited to a human voice.
  • the voice feature amount in the present embodiment can be obtained stably even under noisy environment as compared to higher-order voice spectrum peaks, etc., and is less dependent on the speaker profile in determining the emotional state. Those are preferred.
  • the fundamental frequency Sequence of dynamic characteristics ⁇ riDi ⁇ , power P, sequence of time variation characteristics of noise Extract one or more of time variation characteristics of speech rate. Note that i is an index of time variation characteristics.
  • a sequence is defined as a set having one or more elements.
  • time variation characteristics include, for example, regression coefficient, average value, maximum value, minimum value of intra-frame variation, cumulative sum of absolute values of intra-frame variation, range, etc.
  • the index can be associated with orders.
  • the regression coefficient may be used up to any order, but may be, for example, about!
  • the case where only the regression coefficient is employed as the time variation characteristic will be described, but it may be used in combination with other time variation characteristics.
  • the power p the amplitude value of the audio signal waveform may be used, or an absolute value, a smooth value, or an rms value may be used.
  • an average value of power in a certain frequency band for example, a range of 500 Hz to 4 KHz that is easy for humans to hear may be used.
  • one or more linear transformations including appropriate coordinate transformations (for example, principal component analysis), nonlinear transformations, and integral transformations (for example, Fourier transformations, cosine transformations, etc.) were performed on various extracted speech features. The value obtained as a result may be newly adopted as the voice feature amount.
  • the time variation characteristic of the speech rate to be extracted is extracted as the time variation characteristic rm of the dynamic measure m by a known method (for example, see Non-Patent Document 2 and Patent Document 1).
  • a known method for example, see Non-Patent Document 2 and Patent Document 1.
  • a method of detecting the time variation characteristic of the speed may be adopted.
  • time variation characteristic of the dynamic scale using the average value of the peak interval of the dynamic scale will be described as rm.
  • An example of a method for extracting a regression coefficient as a sequence of time variation characteristics of the fundamental frequency to be extracted and a sequence of time variation characteristics of power ⁇ will be described.
  • I the maximum order of the regression function.
  • ⁇ and ⁇ so that this approximation error becomes small near t
  • d is the number of subframes before and after time t used for calculation of the time variation characteristics, and corresponds to the vicinity of t.
  • d 2.
  • the calculation may be performed using subframes that do not necessarily fit within that frame. The same calculation can be performed for rp 1 .
  • the length of one analysis frame (hereinafter referred to as the frame length) is 100 msec, and the next frame is compared to the current frame.
  • the fundamental frequency and power which are speech features, are extracted from the audio signal data for each subframe, for example, 10 msec intervals, which is considerably shorter than the analysis frame length, and these subframes in each analysis frame are extracted.
  • Average value of voice feature of frame that is, average fundamental frequency ⁇ ', average time fluctuation characteristic rfD', average power p ', average time fluctuation characteristic rp', average peak interval average value of dynamic scale rm 'is calculated. Or not just the average of these
  • the maximum value, minimum value, or fluctuation range of each voice feature amount in the frame may be calculated and used. Below, the case where only an average value is used is demonstrated.
  • Normalization may be performed by, for example, subtracting the average fundamental frequency over the entire audio signal data to be processed or dividing by the average fundamental frequency for ro ′ of each frame, for example. It may be normalized to average 0 variance 1. The same may be done for other speech features. Further, smoothing processing is performed if necessary.
  • a speech feature vector is configured using speech feature quantities of one or more predetermined frames including the frame, and capture of temporal changes in speech feature quantities is realized. To do. Note that the section in which the speech feature vector is extracted is referred to as a speech feature vector extraction section (for example, the section indicated by the symbol W in FIG. 4).
  • the frame number is expressed as F. Audio features included in F
  • the collected values are the average fundamental frequency ro ', the average frequency fluctuation characteristic rfD' of the fundamental frequency, the average j J power p ', the average time fluctuation characteristic ⁇ ' of the power, and the average peak interval average value rm 'jjj of the dynamic scale To do.
  • the method for constructing the speech feature amount vector is configured, for example, by embedding the speech feature amount for each frame included in the speech feature amount vector extraction section in the delay coordinate space. A way to do this is considered. That is, current frame F force, S frame
  • the vector fif is defined as a column vector! /
  • the transposition vector ⁇ defines a row vector! / ,.
  • the emotional state can be determined by using one or more of the audio feature quantities.
  • utterances that appear characteristically in emotional states In this case, it is often difficult to extract the fundamental frequency ro itself, which is often lost.
  • the speech feature value vector and the speech feature value vector calculation processing performed for each frame are performed for all frames over the entire content, thereby obtaining the speech feature value vector for each frame. Is possible.
  • step S 120 The above is the detailed processing of step S 120.
  • step S130 uses the speech feature vector of each frame extracted in step S120 and the first statistical model previously configured in step S110 to use the speech feature vector in each emotional state.
  • the appearance probability (speech feature appearance probability) is calculated.
  • step S130 an example of the process executed in step S130 will be described.
  • the first statistical model is a conditional feature in the speech feature vector X space given for each frame.
  • ttt Compute all likelihoods of X for each possible value. This calculated likelihood is assigned to each emotional state system.
  • step S 130 The detailed processing in step S 130 has been described above.
  • step S140 the second frame model is used to determine the current frame depending on the emotional state of one or more previous frames immediately before the frame for determining the emotional state (current frame).
  • the transition probabilities that is, emotional state transition probabilities
  • An example of processing for executing step S140 will be described below. First, an example of a method for calculating the emotional state transition probability based on the second statistical model created in step SI10 will be described.
  • This value is used as the emotional state transition probability.
  • the emotional state transition probability can be calculated for all frames.
  • step S140 The above is the detailed process of step S140.
  • step S150 the emotional state probability is calculated based on the voice feature amount appearance probability and the emotional state transition probability calculated in step S130 and step S140.
  • step S150 an example of the process of calculating the emotional state probability performed in step S150 will be described.
  • E) together is a generalized state space model.
  • HMM Hidden Markov Models
  • ⁇ x ⁇ ) of the emotional state sequence E at time t is based on p A (x
  • all the values that E can take are emotional states to handle, eg, “joy”,
  • ⁇ x ⁇ ) is calculated by the computer using the equations (5) and (6).
  • Non-Patent Document 5 Calculate directly as emotional state probabilities. If the calculation is difficult, for example, the approximation method described in Non-Patent Document 5 may be employed.
  • E ' ⁇ e, ..., e ⁇ is obtained by excluding e from the elements of E, and E' can take
  • the emotional state probability of the target state e is
  • Figure 6 shows examples of emotional state probabilities when dealing with emotional states of joy, sadness, and calm. That is, the curve indicated by L1 in FIG. 6 is the emotional state probability of joy, the curve indicated by L2 is the calm emotional state probability, and the curve indicated by L3 is the sad emotional state probability.
  • the speech feature vector up to time t is calculated.
  • ⁇ x ⁇ ) may be calculated and used as the emotional state probability.
  • ⁇ x ⁇ ) can be obtained by adding t T t ⁇ to equations (5) and (6), and further using the following equation (see, for example, Non-Patent Document 5):
  • the emotional state probability of the target state e is
  • step S150 The above is the detailed processing of step S150.
  • step S160 the emotional state probability calculated in step S150 is taken into the emotion determination means, and the emotional state is determined based on the emotional state probability.
  • step S160 for determining the emotional state.
  • e 1 joy, e 2 : anger, e 3 : sadness, e 4 : fear, e 5 : surprise, e 6 : impatience, e 7 : calm, etc.
  • K 7.
  • the emotional state corresponding to e k with the highest probability p k is
  • tt Can be judged as an emotional state.
  • the e k to p k takes a high value, in descending order
  • One or more may be selected, and the determination result may be obtained by having these emotional states.
  • the emotional state there are things that are easily recollected at the same time and things that are difficult to recall. For example, it is easy to imagine that joy and grief are difficult to recall at the same time. Considering such a phenomenon, from the emotional state probability p k corresponding to a certain emotional state e k , the others
  • an emotional value corresponding to p k having a larger value than a predetermined threshold value can be easily determined.
  • State e k may be determined as the emotional state of frame F.
  • step S160 The above is the detailed processing of step S160.
  • step S 170 summary content is generated and output based on the emotional state probability calculated in step S 150 and the emotional state determined in step S 160.
  • the emotional state probability calculated in step S 150 is calculated and the emotional state determined in step S 160.
  • the ability to present a summary in units of frames as a minimum unit. Is preferably understandable. Therefore, in the present embodiment, a process of grouping one or more consecutive frames as one section is performed.
  • this section is referred to as an audio sub-paragraph.
  • a section that is considered to be a speech section is extracted from the content audio signal data.
  • the period of the speech section in the speech waveform is used, the section having a high autocorrelation function of the speech signal data is regarded as the speech section, and the corresponding section is selected. There is a way to extract.
  • the autocorrelation function value is compared with a predetermined threshold value for each frame, and if it is larger than the threshold value, it is determined as an utterance frame, and if not, it is determined as a non-utterance frame.
  • a section of a series of utterance frames showing an autocorrelation function value higher than the threshold is determined as an utterance section, and a section other than that is determined as a non-utterance section.
  • This threshold may be given as a constant, for example, 0.7, or after calculating the autocorrelation function value of the entire content to be summarized, the speech time (or voiced time) in the general case and non-speech Based on the percentage of time (or silent time), the threshold may be determined so that the percentage of speech time is' BR> ° to this standard.
  • a series of V in which the fundamental frequency included in the speech feature amount vector is within a predetermined frequency range (for example, 50 to 350 Hz). You may decide that the frame is the utterance section.
  • a set of utterance sections that are considered to be continuous utterances is gathered as one audio sub-paragraph.
  • An example of a method for generating such an audio sub-paragraph will be described.
  • the set of utterance intervals F 'in the content is ⁇ F', F ', ..., F' ⁇ in order from the earliest time.
  • N is the total number of utterance intervals.
  • the difference t t iend i + 1 i + 1 start i + 1 start iend is calculated.
  • i i + 1 is considered to be the utterance section, and belongs to the same audio sub-paragraph. By repeating this process over all utterance sections, a series of utterance sections that can be considered as continuous utterances can be combined into audio sub-paragraphs. [0064] As another example of the method for generating the audio sub-paragraph, the following can be considered. First, the start time and end time are obtained for each utterance section over the entire content to be summarized, and these are collectively regarded as a two-dimensional vector.
  • the bottom-up clustering method is applied so that the ratio of speech time to non-speech time of the entire content to be summarized is the same as the ratio of speech time to non-speech time in general cases.
  • the ratio of speech time to non-speech time in the general case is 6: 4.
  • the power S is used to compose the audio sub-paragraph as follows.
  • a new utterance interval is defined by connecting utterance intervals that are less than or equal to the threshold value, and the start time t and end time t are recalculated.
  • Speaking sections will be gathered in a series of speaking sections, that is, speech sub-paragraphs, and the speaking time will increase. Hereafter, this may be repeated until the threshold value for the norm is increased step by step until the ratio of the time between the speech segment and the non-speech segment approaches the ratio of 6: 4.
  • this method can absorb a difference in speech rate between contents and adaptively form a voice sub-paragraph.
  • a method of constructing a speech sub-paragraph based on the periodicity of speech regardless of continuous speech or non-speech speech may be determined using the value of the autocorrelation function, as in the above example, or may be determined from the spectrum.
  • a classification criterion may be provided, and the audio substep may be configured based on this. For example, if the autocorrelation function value is .3 or less, the periodicity is low, greater than 0.3, if it is 0.7 or less, the periodicity is slightly high, if it is greater than 0.7, the periodicity is high, etc.
  • Classification criteria may be provided, and audio sub-paragraphs may be configured based on the classification criteria. For example, if the autocorrelation function value of an adjacent section changes from one of these three areas to the other, it is determined that the boundary between the adjacent sections is a voice subparagraph boundary.
  • a small audio paragraph may be configured with the interval between adjacent sections where the value of the autocorrelation function has changed more than a certain value as the boundary of the small audio paragraph.
  • a classification criterion is provided or a criterion is set for the magnitude of change to constitute a small audio paragraph.
  • the classification criteria for example, the average power of the spectrum from 0 to 500 Hz is greater than or equal to a certain value, or the force that the average power of the spectrum from 500 Hz to lkHz is greater than or less than a certain value, etc. If various classification criteria are set, and the corresponding classification criteria in a section change from the corresponding classification criteria in the immediately preceding section, the boundary between these two sections is determined as the boundary of the audio sub-paragraph. .
  • the band of interest for example, 0 to 500 Hz
  • the average power of the spectrum of the band in the adjacent section changes more than a certain value (for example, the average power difference or the average power ratio is greater than or equal to a predetermined value)
  • the entire frame can be grouped into several audio sub-paragraphs.
  • the emotion level of the emotional state is calculated for each constructed audio sub-paragraph.
  • an example of a method for calculating the emotion level will be described with reference to FIG.
  • the set of audio sub-paragraphs S in the content is ⁇ S, S, ..., S ⁇ in order from the earliest time.
  • a series of frames included in a certain audio sub-paragraph S is expressed as ⁇ f, f,..., F ⁇ .
  • NFi is the number of frames included in the audio sub-paragraph S.
  • the emotional level may be calculated after performing windowing within the audio sub-paragraph, and the method may compare the emotional level between the audio sub-paragraphs. It is preferable to set the emotion level within a certain range, for example, between 0 and 1.
  • step S 1 70 in FIG. 1 Next, the summary content generation in step S 1 70 in FIG. 1 will be described.
  • the summary content is created by sequentially extracting from the content an audio paragraph within a target time length that is composed of a series of audio sub-paragraphs including high-! / And audio sub-paragraphs.
  • the target time of the audio paragraph is set to about 5 sec (seconds) or l Osec, and the audio sub-paragraphs are put together so as to approach this!
  • the audio sub-paragraph S in which the emotional state appears strongly in the summary content is arranged at the end of the audio paragraph VC as shown in FIG.
  • the audio sub-paragraphs S 1, S 2,... Preceding the last audio sub-paragraph S are summaries showing the events that caused the emotional state to become stronger. 2
  • the content can be summarized content that reflects the cause and result of the emotional state appearing.
  • the audio sub-paragraph ⁇ in which the emotional state strongly appears in the summary content is arranged at the beginning of the audio paragraph. Viewing this audio step has the advantage that the emotional state appears impressive! /, And the summary content can be viewed first, and more impressive summary content.
  • the audio paragraphs may be configured by combining them.
  • FIG. 9 shows a series of speech paragraphs VC1, VC2, VC3 determined as described above.
  • VC1 is composed of three speech subparagraphs S, S, S, and
  • VC2 is composed of four speech subparagraphs S, S, S S, S, S, S
  • VC3 shows an example of three audio sub-paragraphs S, S, S force
  • each audio paragraph has an emotion level of (number of audio sub-paragraphs) X (number of emotional states).
  • the cumulative emotional level of the each audio paragraph is calculated.
  • the average emotion level of each voice sub-paragraph, the weighted average, or the maximum value is cumulatively added over the voice paragraph to obtain the cumulative emotion level of the voice paragraph.
  • an average value obtained by dividing the cumulative addition result by the number of voice sub-paragraphs of the voice paragraph may be used as the cumulative emotion level.
  • the summary content is a cumulative emotion level (each voice paragraph has the same number of cumulative emotions as K emotional states). Ranks in descending order from the largest audio paragraph), and causes the audio paragraphs to come from the top in order so that the compression ratio, which is the ratio of all content, approaches a certain target value. You can create it.
  • this target value may be input by the viewer as desired. Furthermore, the viewer may input a desired reference value of the cumulative emotion level for a desired emotional state, and extract a speech paragraph that matches the reference value to create a summary.
  • step S 182 the viewer inputs a desired emotional state e k and a desired content emotion level RPC k in that emotional state as conditions.
  • the content is the content including the desired emotional state e k of the viewer by comparing and referring to the content emotion level PC k given to the content and the input condition RPC k. It is determined whether or not.
  • the determination method is, for example, the absolute value of the difference between the emotional state e k and content emotion level RPC k specified as conditions and the content emotion level PC k of the corresponding emotional state e k given to the content
  • step S184 if the content is desired by the viewer, a summary content is created and presented together with the determination result.
  • step SI70 it can be determined whether or not the content includes a part in the emotional state desired by the viewer.
  • the above is the details of the summary content generation process in step SI70.
  • the emotion detection method in the present embodiment has been described in detail above.
  • the present invention can be realized by configuring some or all of the functions of each means in the emotion detection method of the present embodiment with a computer program and executing the program using a computer. It goes without saying that the procedure in this emotion detection method can be configured by a computer program and the program can be executed by a computer.
  • FIG. 11 is a block diagram showing a functional configuration of the emotion detection apparatus according to the present invention.
  • the emotion detection device 800 includes a speech feature quantity extraction unit 820, a speech feature quantity appearance probability calculation unit 830, an emotional state transition probability calculation unit 840, an emotional state probability calculation unit 850, and an emotional state determination unit 860. , Content summarizing section 870.
  • the speech feature quantity appearance probability calculation unit 830 includes a first statistical model 810A
  • the emotional state transition probability calculation unit 840 includes a second statistical model 810B.
  • the first and second statistical models 810A and 810B are speech features that are constructed by learning using conventional methods based on the amount of speech features included in the speech signal data for learning and the emotional state estimated from the speech. Appearance probability distribution p A (x
  • the audio feature amount extraction unit 820 extracts an audio feature amount vector included in the input content audio signal data for each frame.
  • the voice feature quantity appearance probability calculation unit 830 calculates the probability p (x
  • the emotional state transition probability calculation unit 840 calculates the temporal transition probability p (E
  • the emotional state probability calculation unit 850 includes the appearance probability ⁇ ( ⁇
  • the emotional state determination unit 860 determines the emotional state e k (k) of each frame of the input speech signal data based on the emotional state probability p (E
  • E) calculated by the emotional state probability calculation unit 850. l,..., t ti K) is determined.
  • the content summarization unit 870 is provided in the emotion detection device 800 as necessary, and the determined emotional state, emotional state probability, continuous speech and continuous non-speech time, continuous speech, continuous non-speech time. Based on one or more of these, it detects an interval in an emotional state and creates a content summary based on this.
  • FIG. 11 A specific device configuration example of a computer that implements the functional configuration of emotion detection device 800 shown in FIG. 11 will be described based on FIG.
  • CPU Central Processing Unit
  • a pointing device 212 such as a mouse and a keyboard 211 are connected to the input unit 210.
  • the content may be content received via a communication network, or content read from an optical disk drive device 213 such as a CD (Compact Disk) or a DVD (Digital Versatile Disk).
  • an optical disk drive device 213 such as a CD (Compact Disk) or a DVD (Digital Versatile Disk).
  • the display unit 230 has a monitor screen such as a liquid crystal screen, for example, and can display information output from the CPU 221 in accordance with an operation of the keyboard 211 or the pointing device 212. On the monitor screen of the display unit 230, input data, process progress, process result, summary, content, and other information are displayed as necessary. It is also possible to play audio.
  • the program describing the processing functions of the judgment unit 860 and the content summary unit 870 is executed by the CPU 221 in FIG.
  • the program is stored in the hard disk device 222, for example, and necessary programs and data are read into a RAM (Random Access Memory) 224 at the time of execution.
  • the loaded program is executed by the CPU 221.
  • the hard disk device 222 includes a first statistical model 810A and a second statistical model 810B. In addition, the input content is stored.
  • a ROM (Read Only Memory) 223 stores a basic program for starting the computer, other programs, control parameters, and the like.
  • the output unit 240 has a function of extracting a part which is an emotional state in the audio signal data in the content input by executing the program of the CPU 221 as an additional function and outputting the summary content generated based on the extracted part.
  • the output unit 240 may include a function of recording the generated summary content on a CD, a DVD, or the like.
  • the output unit 240 may have a communication function and can transmit data to the outside.
  • the output unit 240 may extract the video signal data of the section corresponding to the audio signal data, and output it with the audio as the summary content if necessary.
  • the first embodiment deals with two types of emotional states, “emotional” and “non-emotional”, and determines each of them.
  • the first embodiment will be described below.
  • “sentimental” is labeled in the section of the learning speech signal data that is determined to be “emotional”, and “emotional “,” Is labeled as “non-emotional”.
  • E) for example, a specific first statistical model 810A in FIG. Emotional state
  • E) for calculating the state transition probability (for example, the specific
  • the procedure for determining the emotional state in the first embodiment is as follows.
  • the audio signal data is taken from the input content and divided into frames (step 1).
  • a speech feature vector is extracted for each frame (step 2).
  • a voice paragraph is generated using the emotional state probability and the emotional state probability that are calculated in the first embodiment, and the emotional state probability that is not emotional.
  • FIG. 6 is an example of generating a content summary.
  • Step 4 the same processing procedure as that in Steps 1 to 3 of the first embodiment is performed.
  • step 4 after extracting the utterance frame using the autocorrelation function value, the ratio of the speech paragraph interval to the other interval is close to a certain target value for all frames.
  • step 5 For each voice paragraph generated in step 4, the "emotional" cumulative emotion level and the “non-emotional” cumulative emotion level are calculated (step 5). Then, select one of the following presentation methods to create and present summary content (step 6).
  • the viewer inputs the summary time, and for the audio paragraph, extracts only the time closest to the entered summary time in descending order from the highest “emotional” cumulative emotion level, Combine to create and present summary content.
  • the most emotional “accumulated” cumulative emotions are extracted in descending order for the time closest to the preset summary time, and combined to create a summary content. And present.
  • a threshold value input by the viewer or predetermined is input.
  • Voice paragraphs with a cumulative emotional level that is higher than the threshold of are extracted and combined to create and present summary content.
  • the third example treats several specific states as emotional states (ie, various emotional states such as joy, anger, sadness, fear, surprise, impatience, calmness, etc.). It is an example.
  • labels corresponding to sections considered to be in each emotional state in the learning speech signal data are assigned.
  • All frames included in the labeled section are extracted from the learning speech signal data, and the same label as the label applied to each extracted section is assigned to the frame.
  • learning speech signal data labeled in units of frames can be obtained.
  • a first statistical model for calculating the speech feature appearance probability and a second statistical model for calculating the emotional state transition probability are constructed and stored.
  • the procedure for determining the emotional state in the third embodiment is as follows.
  • the audio signal data is taken from the input content and divided into frames (step 1).
  • a speech feature vector is extracted for each frame (step 2).
  • each emotional state probability is calculated for each frame using the first and second statistical models constructed in advance, and the emotional state with the highest emotional state probability is calculated as the emotional state in that frame. (Step 3).
  • the fourth embodiment is an embodiment in which an audio paragraph is generated by using the emotional state probabilities for each frame calculated in the third embodiment, and a summary of content is generated.
  • Steps 1 to 3 in the fourth embodiment are performed in the same procedure as in the third embodiment. After that, the procedure is as follows.
  • utterance frames are extracted using autocorrelation function values, and then the bottom of all frames is adjusted so that the ratio of the speech paragraph interval to the other interval approaches a certain target value.
  • Apply an up-clustering method to generate a speech paragraph step 4.
  • the cumulative emotion level of each emotional state is calculated (step 5).
  • select one of the following methods to create and present summary content step 6).
  • the viewer inputs a desired emotional state and a summary time, and the voice paragraph is input in descending order from the highest cumulative emotion level of the input emotional state. Only the time closest to the summarized time is extracted and combined to create and present summary content.
  • the viewer inputs the desired emotional state, and for the audio paragraph, the time closest to the predetermined summarization time in descending order from the cumulative emotion level of the input emotional state. Extract and combine them to create and present summary content.
  • the third presentation method is based on the emotional state input by the viewer and the threshold input by the viewer or a predetermined threshold, and the cumulative emotional level higher than this threshold for the input emotional state. Extract audio paragraphs with and combine them to create and present summary content.
  • the content includes the emotional state specified by the viewer using each emotional state probability for each frame and the determined emotional state calculated in the third embodiment. It is an Example which performs determination.
  • Steps 1 to 5 of the fifth example are performed in the same procedure as in the fourth embodiment. After that, the procedure is as follows.
  • step 5 select one of the following determination methods to determine the content.
  • the viewer inputs a desired emotional state and content emotion level threshold, and if the content emotion level power of the input emotional state is higher than the input threshold, It is determined that the emotional state is included, and the result is output.
  • the determined content is the same as in step 6 of the fourth embodiment.
  • a summary may be generated and presented.
  • XML eXtensible Markup Language
  • XML eXtensible Markup Language
  • it is general-purpose XML data, it will be possible to increase the usability of summary content.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

明 細 書
感情検出方法、感情検出装置、その方法を実装した感情検出プログラム 及びそのプログラムを記録した記録媒体
技術分野
[0001] 本発明は、音声信号データに基づく感情検出技術に関するものである。
背景技術
[0002] 現在、マルチメディアコンテンツの増加に伴い、短時間での視聴を可能とするコン テンッ要約技術が市場から求められている。また、コンテンツの種類も、たとえば、映 画、ドラマ、ホームビデオ、ニュース、ドキュメンタリ、音楽コンテンツなど多様化してお り、それらに応じて視聴者の視聴要求も多様化してきている。
その視聴要求の多様化に伴い、視聴者の視聴要求に対して、観たい映像、シーン を即座に検索、提示するための技術が求められている。その技術に関して、例えば、 視聴コンテンツに含まれる音声信号データに基づいてコンテンツを要約するコンテン ッ要約技術 (例えば、特許文献 1、特許文献 2参照)が知られている。
[0003] 前記のコンテンツ要約技術では、音声データを解析し、基本周波数,パワー,動的 特徴量の時間変動特性の少なくとも 1つ及びそれらのフレーム間差分、その時間変 動特性の少なくとも 1つ又はそれらのフレーム間差分を音声特徴量ベクトルとして抽 出する。その抽出された音声特徴量ベクトルを量子化して得た代表ベクトルと、話者 の感情、感情表出確率を対応付けた符号帳を用いて、笑い,怒り,哀しみの感情的 状態の表出確率を求める。
この感情的状態の表出確率に基づいて感情的状態であると判定された区間を含む 部分をコンテンツ中の重要部分と判定し、抽出する感情検出方法について開示され ている。
[0004] また、同様に、前記特許文献 2のコンテンツ要約技術は、音声データを解析し、基 本周波数、パワー、動的特徴量の時間変動特性の少なくとも 1つ及びそれらのフレー ム間差分、その時間変動特性の少なくとも 1つ又はそれらのフレーム間差分を音声特 徴量ベクトルとして抽出する。その抽出された音声特徴量ベクトルを量子化して得た 代表ベクトルと、発話の強調状態確率及び平静状態確率とをそれぞれ対応付けた符 号帳を用いて、強調状態、平静状態の表出確率を求める。
前記の感情検出方法では、学習用音声信号データを複数保存し、新たに入力され た音声信号データとそれらを比較することによって、これを感情的状態の判定基準と していたため、判定精度を高めるためには多くの学習用音声信号データを保存しな ければならず、メモリ、及び計算時間のコストが膨大になるという問題が知られている
なお、関連技術として、基本周波数及びパワーの抽出法 (例えば、非特許文献 1参 照)、発話速度の時間変動特性の抽出方法 (例えば、非特許文献 2参照)、確率モデ ルのパラメータ推定方法 (例えば、非特許文献 3、非特許文献 4参照)、一般化状態 空間モデルを求める方法 (例えば、非特許文献 5参照)が知られている。
特許文献 1:特開 2005-345496号公報 (段落 [0011]〜[0014]等)。
特許文献 2:特許第 3803311号。
非特許文献 1 :古井貞熙、「ディジタル音声処理 第 4章 4. 9ピッチ抽出」、東海大 学出版会、 1985年 9月、 pp.57-59。
非特許文献 2 :嵯峨山茂樹、板倉 文忠、「音声の動的尺度に含まれる個人性情報」 、 日本音響学会昭和 54年度春季研究発表会講演論文集、 3-2-7、 1979年、 pp.589-5 90。
非特許文献 3 :石井健一郎、上田修功、前田栄作、村瀬洋、「わかりやすいパターン 認識」、オーム社、第 1版、 1998年 8月、 pp.52-54。
非特許文献 4 :汪金芳、手塚集、上田修功、田栗正章、「計算統計 I 確率計算の新し い手法 統計科学のフロンティア 11 第 III章 3EM法 4変分ベイズ法」、岩波書店 、 2003年 6月、 pp.157-186。
^特許文献 5: I\itagawa, G., Non- aussian state-space modeling of nonstationary time series," Journal of the American Statistical Association, 1987年 12月、 p.1032- 1063。
発明の開示
発明が解決しょうとする課題 [0006] 上述の感情検出方法では、感情的発話に頻繁に現れる、声のうわずりや叫び声、 震えとレ、つた発生状況に対する考慮がなされて!/、な!/、ため、判定できる感情的状態 は、典型的な笑い,怒り,哀しみといった、限られた種類にしか対応できなかった。 また、音声特徴量から得られる情報のみに基づいて、強調状態や感情的状態の判 定を行なっていたために、雑音成分の強い音声を対象とした場合に、音声特徴量か ら得られる情報のみからでは十分な判定の根拠が得られない。このため、例えば、本 来ならば怒りの感情的状態と判定されるべき音声であるにもかかわらず、雑音の影響 を受けた音声特徴量が、たまたま哀しみの感情的状態に似ている場合に、哀しみで あると判定されてしまう、といった誤検出が多く見られた。
[0007] 同様に、本来、笑いの感情的状態であると判定されるべき 1つ以上のフレームを含 む区間に、哀しみの感情的状態である確率が非常に高い値を持つフレームが存在し た場合に、哀しみであると誤った判定をされるという問題があった。
また、フレーム毎に音声特徴量ベクトルを量子化し、連続量である音声特徴量べク トルをいくつかの代表ベクトルに代表させていたため、感情的状態における発声に特 徴的に現れる音声特徴量ベクトルの重要な変化を検出できず、その結果、感情的状 態の判定精度が低!/、と!、う問題があった。
[0008] 本発明は、前記課題に基づいてなされたものであって、感情的状態における発声 に現れる音声特徴量ベクトルの重要な変化を検出し、さらに、音声特徴量ベクトルの 変化のみではなぐ感情的状態そのものの性質を考慮することで、雑音の強い音声 を対象とするような場合においても感情的状態の判定精度を高め、より広範な領域に 実施可能な感情検出方法、感情検出装置及びその方法を実装した感情検出プログ ラム及びそのプログラムを記録した記録媒体を提供することにある。
ここで感情的状態そのものの性質とは、感情的状態の振舞いに関わる性質である。 例えば、感情的状態には変化のしゃすさ、しにくさが存在し、直前まで喜びの感情的 状態であるのに、急激に哀しみの感情的状態に変化することは起こりにくい。
[0009] 従って、例えば、ある区間の感情的状態を判定する際に、たとえその区間の音声特 徴量が哀しみの場合に類似していても、その区間前後の区間の感情的状態を判断 材料として推論し、これらが喜びである可能性が高い場合には、これに基づいて単純 に哀しみ、と半 IJ断してしまうことを避けること力 sできる。
このような感情的状態の振舞!/、そのものを考慮して判定を行なうことで、音声特徴 量のみからの判定では誤りやす!/、場合にお!/、ても、高!/、精度で判定できる感情検出 方法、感情検出装置及びその方法を実装した感情検出プログラム及びそのプロダラ ムを記録した記録媒体を提供する。
課題を解決するための手段
[0010] この発明の第 1の観点によれば、入力された音声信号データの音声特徴量に基づ いて感情検出処理を行なう感情検出方法又は装置は、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動 特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のう ち、 1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に
RL「思し、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力され た学習用音声データに基づいて構成された第 1統計モデルを用いて、 1つ以上の感 情的状態の系列を条件として前記音声特徴量ベクトルとなる音声特徴量出現確率を 昇山し、
第 2統計モデルを用いて、 1つ以上の感情的状態の系列の時間方向への遷移確 率を感情的状態遷移確率として算出し、
前記音声特徴量出現確率と前記感情的状態遷移確率に基づいて感情的状態確 率を計算し、
前記算出された感情的状態確率に基づいて、分析フレームを 1つ以上含む各区間 の感情的状態に関する情報を出力する。
[0011] この発明の第 2の観点によれば、入力された音声信号データの音声特徴量に基づ いて感情検出処理を行う感情検出方法又は装置は、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動 特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のう ち、 1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に
RL「思し、 各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力され た学習用音声信号データに基づいて構成された 1つ以上の統計モデルを用いて、 1 つ以上の感情的状態の系列に対する前記音声特徴量ベクトルを条件とした感情的 状態確率を計算し、
前記感情的状態確率に基づいて、前記分析フレームを含む区間の感情的状態を 判定し、
前記判定された感情的状態に関する情報を出力する。
[0012] 更に、この発明の前記第 1又は第 2の観点による感情検出方法を実装したコンビュ ータプログラム及びそのプログラムを記録した記録媒体を提供する。 更に、この発 明は、前記第 1または第 2の観点による感情検出方法を実装したコンピュータで実施 可能なプログラム及びそのプログラムを記録した記録媒体を含む。
発明の効果
[0013] 以上示したようにこの発明の第 1の観点方法又は装置によれば、音声特徴量に関 する統計モデルのみではなぐ感情的状態系列の遷移確率に関する統計モデルを 合わせて利用し、これら処理する情報の異なる 2つの統計モデルに基づいて感情的 状態確率を計算しているので、感情的状態に関する情報及びその自然な遷移をより 正確に捉えること力できる。しかも、感情的状態が基本的な性質として備える感情の 時間的遷移特性を考慮して感情的状態に関する情報を得るため、音声特徴量に強 い雑音が重畳しても、従来のように音声特徴量のみに基づいて計算した場合にフレ ームの音声特徴量出現確率が本来の値と異なってしまうことによる感情的状態に関 する情報の不正確さを改善することができる。
[0014] この発明の第 2の観点の方法又は装置によれば、音声特徴量に関する統計モデル に基づ!/、て、感情的状態での発話にお!/、て頻出する音声特徴量の変化を捉えるた め、感情的発話における特徴的な発声状況を考慮した感情的状態の判定を可能と し、より多様な感情的状態をより高精度に判定できる。
前記第 1又は第 2の観点の方法又は装置において、得られた感情的状態確率の降 順に感情的状態を選択することにより、混合した複数の感情的状態及びその変化の より詳細な情報を検出することができる。 [0015] 前記第 1又は第 2の観点の方法又は装置において、 1つの感情的状態である確率 と、それ以外の感情的状態である確率の凸結合と、の差に基づいて感情的状態を判 定することにより、異なる感情的状態の想起関係を考慮した感情的状態の判定を行 なうことができる。
前記第 1又は第 2の観点の方法又は装置において、入力音声信号データを連続す る発話区間ごとの音声小段落にまとめ、各音声小段落の感情度に基づいてコンテン ッ要約を抽出することにより、視聴者の要約要求条件に対してより柔軟に対応できる 前記第 1又は第 2の観点の方法又は装置において、入力音声信号データを周期性 に基づいて 1つ以上の連続した分析フレームの区間にまとめ、各音声小段落の感情 度に基づいてコンテンツ要約を抽出することにより、視聴者の要約要求条件に対して より柔軟に対応できる。
[0016] これらを以つて感情検出技術分野に貢献できる。
図面の簡単な説明
[0017] [図 1]本実施形態における感情検出方法を説明するフローチャート。
[図 2]本実施形態における統計モデルを構成するステップの処理詳細を示すフロー チャート。
[図 3]基本周波数の時間変動特性を求める方法の概念図。
[図 4]音声特徴量ベクトルの時間的な変化を説明するための図。
[図 5]—般化状態空間モデルの概念図。
[図 6]喜び、哀しみ、平静の感情的状態を扱った場合の感情的状態確率の一例を示 す図。
[図 7]音声小段落と感情度の関係を示す概念図。
[図 8]音声段落の生成の方法の一例を示す図。
[図 9]音声段落と感情度の関係を示す概念図。
[図 10]コンテンツの感情的状態を判定し、要約コンテンツを生成する処理フローチヤ ート。
[図 11]本実施形態における感情検出装置の論理的な構成図。 [図 12]本実施形態における感情検出装置の物理的な構成図。
発明を実施するための最良の形態
[0018] 本実施形態における感情検出方法を図 1に基づいて説明する。図 1は、本実施形 態における感情検出方法を説明するフローチャートである。なお、本実施形態の説 明におけるデータは、汎用的な記憶部(例えば、メモリやハードディスク装置)あるい は記憶手段に記憶され、アクセスされるものとする。
まず、ステップ S110 (統計モデル構築処理ステップ)は、本実施形態に係る感情検 出方法によって、実際に感情的状態の判定を行う前に、予め行っておくステップであ り、感情的状態確率を計算するために用いる 2つの統計モデル (第 1統計モデル及 び第 2統計モデルと呼ぶ)を構築するステップである。なお、前記統計モデルの実体 とは、その統計を計算する関数、及び、統計量などのパラメータをプログラムとして記 載したものである。前記統計モデルのパラメータ及び関数型を表す符号は記憶部に 格納されることになる力 それらのための記憶容量は実際のデータを全て格納してお くよりも小さい。
[0019] 次に、ステップ S 120 (音声特徴量抽出処理ステップ)では、取り込まれたコンテンツ の音声信号データから、所望の音声特徴量をベクトルとして 1つ以上の分析フレーム (以下、単にフレームとも呼ぶ)毎に計算し、抽出する。具体的には、例えば各分析フ レームは複数のサブフレームから構成されており、入力音声信号データはサブフレ ームごとに分析され音声特徴量である基本周波数及びパワーが計算され、各分析フ レーム毎に、そのフレームを含む 1以上の所定数の分析フレームに含まれるサブフレ ームの音声特徴量に基づいて音声特徴量ベクトルが構成される。なお、この音声特 徴量ベクトルは、基本周波数,基本周波数の時間変動特性の系列,パワー,パワー の時間変動特性の系列,発話速度の時間変動特性のうち 1つ以上の要素で構成さ れるベクトルである。また、音声信号データは、音声信号データ入力手段 (例えば、 後述する図 12の入力部 210)によって、入力されるものとする。抽出された音声特徴 量は、記憶部に記憶される。ステップ S 120〜S150は感情的状態確率を計算する処 理である。
[0020] 次に、ステップ S 130 (音声特徴量出現確率計算処理ステップ)では、ステップ S1 20において計算され記憶部に記憶された音声特徴量ベクトルに基づき、フレーム毎 に、感情的状態に対応する音声特徴量ベクトルが出現する確率を、ステップ S110に おいて予め構成された第 1統計モデルによって算出し、その算出結果を音声特徴量 出現確率と見做す。
次に、ステップ S 140 (感情的状態遷移確率計算処理ステップ)では、フレーム毎に 、ステップ S 110において予め構成された第 2統計モデルを用いて、感情的状態に対 応する 1つ以上の状態変数の時間方向への遷移確率を算出し、その算出結果を感 情的状態遷移確率と見做す。
[0021] 次に、ステップ S 150 (感情的状態確率計算処理ステップ)では、フレーム毎に、ス テツプ S 130で計算した音声特徴量出現確率及び S 140で計算した感情的状態遷移 確率に基づいて、感情的状態確率を計算し、フレーム番号、時刻情報の何れ力、 1つ に対応させて記憶部に記憶する。
そして、ステップ S 160 (感情的状態判定処理ステップ)では、フレーム毎に、ステツ プ S 150で計算した感情的状態確率に基づいて、該フレームの感情的状態を判定し 、対応するフレーム番号とともに出力する。判定は、例えばフレームごとの最大の感 情的状態確率を与える感情的状態を判定してもょレ、し、最大の感情的状態確率から 降順に所定数の感情的状態を判定してもよいし、単に全感情的状態の感情的状態 確率の大きい順を判定してもよい。これらの判定は、後述する音声小段落、あるいは 音声段落といった 1つ以上のフレームによって構成される区間毎に行なってもよい。
[0022] このようにして判定した結果を音声信号データの感情的状態に関する情報として出 力する。例えば、入力音声信号データが視聴用コンテンツである場合、視聴者にこの フレーム番号あるいは時刻情報に対応つけられた判定結果をコンテンツと共に提供 すれば、視聴者は、判定結果を使ってコンテンツ中の所望の感情的状態を条件とす るフレームあるいは区間を検索することができる。
必要であれば、ステップ S 170 (要約コンテンツ生成出力処理ステップ)において、 ステップ S 150において判定された感情的状態が連続する 1つ以上のフレームで構 成される区間を単位としたコンテンツの要約を生成し、出力する。ステップ S 150で得 られた感情的状態確率は、入力音声信号データのフレーム毎の感情的状態を表す 情報であり、従って、上述のステップ S I 60の判定を行わず、フレーム番号又は時刻 情報と対応付けた感情的状態確率を出力してもよい。例えば、このフレーム番号に 対応つけられた感情的状態確率を視聴者にコンテンツと共に提供し、視聴者が感情 的状態確率に対し所望の基準を設定してコンテンツから要約を抽出することに利用 できる。
[0023] 以下に、感情検出方法の各ステップを詳細に説明する。
まず、 2つの統計モデルを構成するステップ S 110の処理詳細を図 2に基づいて説 明する。なお、統計モデルは、学習用音声信号データから学習を行うことによって獲 得するものとする。
まず、ステップ S 11 1において、学習用音声信号データを入力する。なお、学習用 音声信号データは、コンテンツ音声信号データの入力手段と同じ入力手段から入力 されても良いし、学習用音声信号データ専用の入力手段 (例えば学習用音声信号デ ータを記録した記録媒体)から入力されても良!/、。
[0024] 次に、ステップ S 112において、この学習用音声信号データに対して、学習用音声 信号データ全てに渡って、フレーム毎に、人間が実際に視聴して判断したそのフレ ームにおける感情的状態 eの値を設定する。ここで、各フレームに対し、人間によって 判定された感情的状態 eの値を定める情報をラベルと呼ぶこととし、判定された感情 的状態の値をそのフレームに対応付けて入力する行為をラベル付けと呼ぶこととする 。ラベルとしては、着目する感情の種類をそれぞれ区別できるものであれば数値でも 符号でもよい。
また、厳密にはフレーム毎に感情的状態 eのラベルが与えられていない場合であつ ても、フレーム単位にラベル付けされるように変換できるものであれば、これに変換す ることで利用してもよい。ラベル付けの例としては、ある複数の連続するフレームに渡 る区間において感情的状態 eのラベルが付与されている場合もある。この場合には、 その区間に含まれる各フレームに対して、区間に付与されたラベルと同じラベルを付 与することによって、フレーム毎にラベル付けできる。より具体的には、音声のある時 刻 tl力 t2の区間が感情的状態 eとラベル付けされている場合は、該区間の全フレー ムは全て eとラベルが与えられて!/、る。 [0025] 次に、ステップ S 113において、フレーム毎に、前記ステップ S120と同様に、音声 特徴量ベクトル Xを抽出する。後述するように、各フレームにおける音声特徴量べタト ル Xはそのフレームの音声特徴量のみならず、それより過去の所定数のフレームの音 声特徴量も含めて決定してもよい。以下では、フレーム番号 tのフレーム Fにおける音
t
声特徴量ベクトルを X、感情的状態を eと表す。
t t
次に、ステップ S I 14において、音声特徴量出現確率を計算するための第 1統計モ デルと、感情的状態遷移確率を計算するための第 2統計モデルをそれぞれ学習によ つて構成する。
[0026] まず、音声特徴量出現確率を計算するための第 1統計モデルの学習方法の一例を 説明する。
音声特徴量出現確率を計算するための第 1統計モデルは、フレーム毎に与えられ る音声特徴量ベクトル X空間上の確率分布であって、例えば、フレーム Fにおいては
t
、そのフレームからそれ以前の所定数 nまでの連続するフレーム区間における感情的 状態の系列 E ={e , e ,…, e }に依存して xが出現する確率を表す条件付き確率
t t t-1 t-n+1 t
分布 pA(x |E )として作成する。 nは 1以上の整数である力 例えば、 2〜3程度とするも t t
のでよい。
[0027] この条件付き確率分布 pA(x |E )は、例えば、 Eの取り得る値毎に、 の出現確率の正
t t t t つた、確率モデルを用いて構成してもよい。また、更に音声特徴量の種類別に、正規 分布、多項分布や、それらの混合分布などといった、確率モデルを用いて構成する のでもよい。これら確率モデルのパラメータを学習用音声信号データから従来の学習 手法により推定し、第 1統計モデルとする。
なお、従来のパラメータの推定方法としては、例えば、最尤推定法や、 EMアルゴリ ズム、変分 Bayes法などの公知のもの(例えば、非特許文献 3、非特許文献 4などを参 照)を用いることができる。
[0028] 次に、感情的状態遷移確率を計算するための第 2統計モデルを説明する。
感情的状態遷移確率を計算するための第 2統計モデルは、音声特徴量出現確率 を計算するための第 1統計モデル同様、学習用音声信号データから、学習を行うこと によって獲得する。
前記ステップ S111〜S 113において、前記学習用音声信号データは、学習用音 声信号データ全てに渡って、フレーム毎に抽出された音声特徴量ベクトル Xと、人間 が実際に聴取して判断したそのフレームにおける感情的状態 eのラベルと、が与えら れているという前提で、以下に、ステップ S114の学習を行うステップの一例について 説明する。なお、フレーム番号 tにおける感情的状態を eと表す。
[0029] 感情的状態遷移確率計算のための第 1統計モデルは、 t-n+1番目から t番目のフレ ームにおける感情的状態の系列 E空間上の確率分布であって、 F以前の (n-1)フレ ームにおける感情的状態の系列 E ={e , e , · · ·, e }に依存して、 E ={e, e ,…, e }が出現する確率を表す条件付き確率分布 pB(E |E )として作成する。
なお、 eは、 "喜び"、 "哀しみ"、 "怖い"、 "激しい"、 "かっこいい"、 "かわいい"、 "ェ キサイティング"、 "情熱的"、 "ロマンチック"、 "暴力的"、 "穏やか"、 "癒される"、 "暖 かい"、 "冷たい"、 "不気味"といった感情や、 "笑い,,、 "泣き,,、 "叫び"、 "悲鳴"、 "さ さやぎ'などの感情表出と!/、つた感情的状態の表記の変数であり、離散変数であるか ら、前記条件付き確率分布 pB(E |E )は、例えば、 bi-gram型の確率分布を作成するこ とで構成すること力できる。この場合は、学習用音声信号データに基づき、 E が与え られている時に、各感情的状態の系列 Eが何度出現するのかを計数することによつ てこれを構成すること力できる。これは最尤推定法に他ならないが、このほか、適当な 事前分布を定めて Bayes法によって学習するものとしてもよい。
[0030] 以上がステップ S110の詳細処理である。
次に、ステップ S 120では、取り込まれたコンテンツの音声信号データから、所望の 音声特徴量ベクトルをフレーム毎に抽出する。なお、本発明における音声とは、人間 による会話音声のみではなぐ歌唱音声、または音楽なども含むものとする。
以下に、音声特徴量ベクトル抽出方法の一例を説明する。
まず、音声特徴量について説明する。本実施形態における音声特徴量としては、 高次の音声スペクトルピーク等と比較して、雑音環境下でも安定して得られ、かつ感 情的状態を判定するにあたり、話者のプロフィールに依存しにくいものが好ましい。 上述のような条件を満たす音声特徴量として、基本周波数お),基本周波数の時間変 動特性の系列 {riDi},パワー P,ノ^ーの時間変動特性の系列 発話速度の時間 変動特性等の 1つ以上を抽出する。なお、 iは時間変動特性のインデクスである。
[0031] また、本実施形態においては、系列とは 1つ以上の要素を持つ集合であると定義す る。時間変動特性の例としては、例えば、回帰係数、フレーム内変化量の平均値,最 大値,最小値や、フレーム内変化量の絶対値の累積和、レンジなどが考えられ、必 要に応じて選択すれば良い。特に、回帰係数の場合には、インデクスは次数に対応 づけること力 Sできる。回帰係数は、何次までを用いてもよいが、例えば、;!〜 3次程度 としてもよい。以下の例では、時間変動特性として回帰係数のみを採用した場合につ いて説明するが、この他の時間変動特性と組み合わせて用いてもよい。パワー pは、 音声信号波形の振幅値を用いるものでもよいし、絶対値や平滑値、 rms値を用いるの でもよい。また、ある周波数帯域、例えば、人間の聞き取り易い 500Hz〜4KHzなどの 領域におけるパワーの平均値などを用いるのでもよい。また、各種抽出した音声特徴 量に対して、適当な座標変換 (例えば、主成分分析など)を含む線形変換、非線形 変換、積分変換 (例えば、フーリエ変換、コサイン変換など)を 1つ以上行なった結果 得られる値を、改めて音声特徴量として採用してもよい。
[0032] 前記抽出すべき基本周波数 ίΌ及びパワー pの抽出法は様々である。それらの抽出 方法は公知であり、その詳細については、例えば、上述の非特許文献 1に記載の方 法等を参照されたい。
前記抽出すべき発話速度の時間変動特性は、既知の方法 (例えば、非特許文献 2 、特許文献 1参照)によって、動的尺度 mの時間変動特性 rmとして抽出する。例えば 、動的尺度のピークを検出し、その数をカウントすることで発話速度を検出する方法 をとつてもよく、また、発話リズムに相当するピーク間隔の平均値、分散値を計算して 発話速度の時間変動特性を検出する方法をとるのでもよい。
[0033] 以下の説明では、動的尺度のピーク間隔平均値を用いた、動的尺度の時間変動 特性を rmとして用い、説明することとする。前記抽出すべき基本周波数の時間変動 特性の系列 及びパワーの時間変動特性の系列 {卬として、回帰係数を抽出す る方法の一例について説明する。
分析するフレームの時刻を tとしたとき、時刻 tにおいて抽出された基本周波数 ίΌ又
t は Pと、 {rffii }又は { }との関係は、次の近似式によって表される c
t t t
[0034] [数 1]
i=I . .
f0t « rfOj xt1 (1)
i=0
Figure imgf000015_0001
ただし、 Iは回帰関数の最大次数を表す。例えば 1=1の場合は直線近似を表し、 1=2の 場合は 2次曲線近似を表す。 tの近傍でこの近似誤差が小さくなるように {ΓΚή及び {^
t 1
}を決定すればよぐこれを実現する方法として、例えば、最小自乗法を用いることが できる。
Iは任意の値でよいが、ここでは、例として、 1= 1であるときの rfD1を求める場合につ
t
いて説明する。分析するフレームの時刻を tとすると、 tにおける基本周波数の時間変 動特性 rfD1は、
t
[0035] [数 2]
∑ (f0j - rf0{=0)j
1=1 . J=t-d
rfOi (3)
j=t+d
∑ J'
j=t-d
=t+d
1=0
rfO (4)
2d— 1 と求めること力 sできる。図 3は音声信号データからフレームごとに求めた基本周波数 ro の系列を示す。 1=0の時間変動特性 rfD である式 (4)は、区間 (t_d)〜(t+d)における
t
基本周波数 ίΌの平均を表しており、 1=1の時間変動特性 rfD 1=1である式 (3)は図 3中に
t
模式的に示す区間 (t-d)〜(t+d)における ωから最小自乗法により求めた近似直線 3Α の勾配を表している。ここで、 dは時間変動特性の計算に用いる時刻 t前後のサブフ レームの数であり、 tの近傍に対応する。例えば、 d = 2とする。あるフレームの回帰係 数を求める際、必ずしもそのフレーム内に収まらない範囲のサブフレームを利用して 計算を行なってもよい。 rp1についても同様に計算できる。 [0036] 以下では、例えば、 1= 1の場合に求めた rfD1、 rp1のみをそれぞれ基本周波数の時
t t
間変動特性 rfD、パワーの時間変動特性 φとして扱う場合について説明する。
分析フレーム毎に音声特徴量を計算する方法の一例を説明する。 1分析フレーム の長さ(以下、フレーム長と呼ぶ)を 100msecとし、次のフレームは現フレームに対して
50msecの時間シフトによって形成されるものとする。実際には、音声信号データから 図 3に示すように分析フレーム長よりかなり短い例えば 10msec間隔のサブフレーム毎 に音声特徴量である基本周波数及びパワーが抽出され、各分析フレーム内でのこれ らサブフレームの音声特徴量の平均値、つまり、平均基本周波数 ίΌ'、基本周波数の 平均時間変動特性 rfD'、平均パワー p'、パワーの平均時間変動特性 rp'、動的尺度 の平均ピーク間隔平均値 rm'が計算される。あるいは、これらの平均値のみではなく
、フレーム内での各音声特徴量の最大値、最小値、または変動幅などを計算して用 いてもよい。以下では、平均値のみを用いた場合について説明する。
[0037] 各音声特徴量は予め規格化しておくことが好ましい。規格化は、例えば各フレーム の ro'に対して、例えば、処理対象となる音声信号データ全体に渡る平均基本周波 数を差し引ぐもしくは、平均基本周波数で割ることによって行うのでもよいし、標準正 規化して平均 0分散 1にするのでもよい。その他の音声特徴量についても、同様に行 うことが考えられる。また、必要な場合には平滑化処理を行なっておく。
感情的状態の判定にぉレ、ては、音声特徴量の時間的な変化を捉えることが必要で ある。本実施形態では、フレーム毎に、そのフレームを含む 1つ以上所定数のフレー ムの音声特徴量を用いて音声特徴量ベクトルを構成して、音声特徴量の時間的な変 化の捕捉を実現する。なお、この音声特徴量ベクトルを抽出する区間を、音声特徴 量ベクトル抽出区間(例えば、図 4中の符号 Wで示される区間)と呼ぶこととする。
[0038] 以下、その音声特徴量の時間的な変化の捕捉方法の一例を図 4に基づいて説明 する。
現フレーム Fについて、そのフレーム番号 とおき、 Fと表す。 Fに含まれる音声特
j j
徴量をそれぞれ、平均基本周波数 ro'、基本周波数の平均時間変動特性 rfD'、平均 j J パワー p'、パワーの平均時間変動特性 φ'、動的尺度の平均ピーク間隔平均値 rm' j j j とする。 以上で求めた音声特徴量に基づ!/、た音声特徴量ベクトルの構成方法は、例えば、 音声特徴量ベクトル抽出区間に含まれるフレーム毎の音声特徴量を、遅延座標空間 に埋め込むことで構成する方法が考えられる。即ち、現フレーム F力、ら Sフレーム分
t
過去のフレーム F までに含まれる所望の音声特徴量をベクトル表記することで構成
t-s
するものとする。
[0039] 例えば、平均基本周波数の場合、図 4に示す例では、フレーム F, F ,…, F のそ
t t-i t-s れぞれの音声特徴量から取り出した平均基本周波数 ro'
t, ro' o' により、 rov t-i,…, r
t-s
= {ίΌ', ίΌ' ,…, ω' }τで表される平均基本周波数の音声特徴量ベクトル rovを求め t t-i t-s あるいは、音声特徴量毎に現フレーム Fと、それから Sフレーム分過去のフレーム F t t までのフレーム間差分量を計算し、これをベクトル表記することで構成する方法も考
-S
えられる。フレーム間差分としては、例えば現フレーム Fと、その直前から Sフレーム
t
過去のフレーム F までのそれぞれのフレーム F , · · ·, F との間の音声特徴量の差
t-s t-i t-s
分を求める。
[0040] ここで、上記 Sの値を、例えば、 S = 5とすると、前述の分析フレーム長力 SlOOmsecで 、隣接フレームが 50msecシフトされている場合は、音声特徴量ベクトル抽出区間 Wの 長さは例えば 350msecとなる。同様に、基本周波数の平均時間変動特性の音声特徴 量ベクトル rfDv、平均パワーの音声特徴量ベクトル ρν、パワーの平均時間変動特性の 音声特徴量ベクトル rpv、動的尺度の平均時間変動特性の音声特徴ベクトル rmvを構 成する。
予め、感情的状態を判定するために使用すると決定した全音声特徴量ベクトルを 並べたものを Xと表記するものとする。例えば、抽出した音声特徴量全てを使用する 場合は、 x = {iDvT, rfOvT, pvT, rpvT, rmvT}Tとなる。あるいは、基本周波数の時間変動特 性 rfD、パワーの時間変動特性 rp、動的尺度のピーク間隔平均値 rmを使用する場合 には x = {rfOvT, rpvT, rmvT}Tとなる。なお、上述では例えばベクトル fifは列ベクトルと規 定して!/、るので、その転置を表すベクトル ίΌνΤは行ベクトルを規定して!/、る。
[0041] 本実施形態においては、前記音声特徴量のうち 1つ以上を使用すれば、感情的状 態を判定することが可能である。ただし、感情的状態において特徴的に現れる発話 においては、基本周波数 roそのものの抽出が困難な場合が多ぐしばしば欠損するこ とがある。このため、そのような欠損を補完する効果を容易に得ることのできる、基本 周波数の時間変動特性 rroを含むことが好ましい。更には、話者依存性を低く抑えた まま、判定精度を高めるため、パワーの時間変動特性 Φを更に含むことが好ましい。 以上のように、フレーム毎に行った音声特徴量、音声特徴量ベクトルの計算処理を 、コンテンツ全体に渡る全フレームに対して行うことで、全てのフレームにおいてそれ ぞれ音声特徴量ベクトルを得ることが可能である。
[0042] 以上がステップ S 120の詳細処理である。
次に、ステップ S 130は、ステップ S 120において抽出された各フレームの音声特徴 量ベクトルと、ステップ S110において予め構成しておいた第 1統計モデルとを用いて 各感情的状態における音声特徴量ベクトルの出現確率(音声特徴量出現確率)を計 算する。
以下に、ステップ S 130で実行する処理の一例を説明する。
ステップ S110で作成した第 1統計モデルに基づき、音声特徴量ベクトルの出現確 率を計算する方法の一例を説明する。
[0043] 第 1統計モデルは、フレーム毎に与えられる音声特徴量ベクトル X空間上の条件付 t
き確率分布 ρΑ(χ |E )であるため、入力された音声特徴量ベクトル Xについて、ステップ
t t t
S I 10によって予め作成した第 1統計モデル ρΑ(χ |E )に基づいてフレーム毎に Eの取
t t t り得る各値に対する Xの尤度を全て計算する。この計算した尤度を、各感情的状態系
t
歹 IBにおいて Xが出現する音声特徴量出現確率と見做す。
t t
以上の処理を、コンテンツ(入力音声信号データ)の全てのフレームに渡って行うこ とで、全てのフレームに対して音声特徴量出現確率を計算することができる。
[0044] 以上がステップ S 130の詳細処理である。
次に、ステップ S 140では、第 2統計モデルを用いて、感情的状態を判定するフレ ーム(現フレーム)直前の 1つ以上遡ったフレームの感情的状態に依存して、現フレ 一ムで各感情的状態に遷移する遷移確率 (即ち、感情的状態遷移確率)が計算され 以下に、ステップ S 140を実行するため処理の一例を説明する。 まず、ステップ SI 10で作成した第 2統計モデルに基づき、感情的状態遷移確率を 計算する方法の一例を説明する。
[0045] 第 2統計モデルは、感情的状態 Eの空間上の条件付き確率分布 pB(E |E )であるか
t t t-i
ら、 E の全ての取り得る値に対して、 pB(E |E )の値が全て計算されている。この計算 t-i t t-i
された値を、感情的状態遷移確率とする。
以上の処理を、全てのフレームに渡って行うことで、全てのフレームに対して感情的 状態遷移確率を計算することができる。
以上がステップ S140の詳細処理である。
次に、ステップ S 150では、ステップ S 130及びステップ S 140において計算された 音声特徴量出現確率及び感情的状態遷移確率に基づ!/ゝて、感情的状態確率が計 算される。
[0046] 以下に、ステップ S 150で行う感情的状態確率を計算する処理の一例について説 明する。
前記 2つの統計モデル pA(x |E )と pB(E |E )の組は、合わせて一般化状態空間モデ
t t t t-i
ルと呼ばれる構造を有しており、音声認識などによく用いられる Left-to-Right型の H MM(Hidden Markov Models)などと同様の因果構造(例えば、図 5中の符号 S で示さ
tl れる感情状態 E , Eと、符号 S で示される音声特徴量 X , χである)を有する。
t-1 t t2 t-1 t
一般化状態空間モデルでは、時刻 tまでの音声特徴量ベクトルの系列 {χ }を得た場
t
合に、時刻 tでの感情的状態系列 Eの確率 p(E |{x })は、 pA(x |E )と pB(E |E )に基づき、
t t t t t t t-i
以下の式を再帰的に計算することで求めることができる(例えば、非特許文献 5参照)
[0047] [数 3] p(Et | {xt_,}) = ∑pB(Et | Et_1)p(Et_1 | {xt_1}) (5)
Et_, eSE p(Et | {xt }) = PA (AXt | EtMEt I — J) (6)
∑pA(xt | Et)p(Et | {xt_1})
Et eSE ただし、 SEは、 Eが取り得る全ての値の集合を表す。
t
[0048] 一般に、一般化状態空間モデルにおいては、 SEの値が非常に大きな値となるため 、前記式 (5),(6)を直接計算して p(E |{x })の値を求めることは困難である。
t t
本実施形態では、 Eが取りうる全ての値は、取り扱う感情的状態、例えば、 "喜び"、
t
"哀しみ"、 "怖い"、 "激しい"、 "かっこいい"、 "かわいい"、 "エキサイティング"、 "情 熱的,,、 "ロマンチック"、 "暴力的"、 "穏やか"、 "癒される"、 "暖かい"、 "冷たい"、 "不 気味"といった感情や、 "笑い"、 "泣き"、 "叫び"、 "悲鳴"、 "ささやぎ'などの感情表 出などに限られており、この数を |E|とすると、 E ={e,e , · · · , e }における可能な全
t t t-1 t-n+1
ての組み合わせを考えたとき、 SEのサイズは |E|nである。
[0049] 例えば、本実施形態にお!/、ては、想定する取り扱う感情的状態の数 |E|は、上記の 例の場合、およそ 10の数倍程度である。このとき、例えば、 n = 3とすれば、 SEのサイ ズはオーダにして 103程度であり、現在普及している汎用的なコンピュータであっても 、前記式 (5),(6)を十分に直接計算可能な規模である。
従って、本実施形態では、式 (5),(6)を使ってコンピュータにより確率 p(E |{x })の値を
t t 感情的状態確率として直接計算するものとする。計算が困難である場合には、例え ば非特許文献 5に記載の近似方法などを採用すればよい。
[0050] 更に、 Eの要素から eを除外したものを E' ={e ,…, e }とし、かつ E'が取りうる
t t t t-1 t-n+1 t
全ての値の集合を SE'と表すとすると、式 (6)で求めた p(E |{x })からフレーム毎の感情
t t
的状態 eの感情的状態確率は、
t
[0051] [数 4]
P(et | {xt}) = ∑p(et, E't | {xt}) (7)
E'teSE' を計算することで求めることが可能である。図 6に、喜び、哀しみ、平静の感情的状態 を扱った場合の感情的状態確率の例を示す。即ち、図 6中の符号 L1で示す曲線が 喜びの感情的状態確率、符号 L2で示す曲線が平静の感情的状態確率、符号 L3で 示す曲線が哀しみの感情的状態確率である。
[0052] 上述の方法は、感情的状態 Eの確率を求めるために、時刻 tまでの音声特徴量べク
t
トルの系列 {x }に基づ!/、て計算を実行するため、実時間で処理を実行できる方法であ
t
る。一方、実時間処理を行なう必要のない場合には、より頑健な検出を実現するため に、時刻 T〉tまでの音声特徴量ベクトル系列 {x }を得た場合の感情的状態系列 Eの
T t 確率 p(E |{x })を計算し、これを感情的状態確率としてもよい。 p(E |{x })は、式 (5),(6)に t T t τ 加え、さらに以下の式を用いることで求めることができる(例えば、非特許文献 5参照)
[0053] [数 5] p(Et |(xT})
Figure imgf000021_0001
(8)
Et+1eSE' \ \xti) ただし、 SEは、 E 力 Sとり得る全ての値の集合である。この場合のフレームごとの感情
t+1
的状態 eの感情的状態確率は、
t
[0054] [数 6コ
P(et|{xT})= ∑p(et,E't|{xT}) (9)
E'teSE' を計算することで求めること力できる。
[0055] 以上の処理を全てのフレームに渡って行うことによって、全てのフレームに対して感 情的状態確率を計算することが可能である。
以上がステップ S 150の詳細処理である。
ステップ S 160において、ステップ S 150において計算された感情的状態確率が感 情判定手段に取り込まれ、感情的状態確率に基づいて感情的状態が判定される。
[0056] 以下、感情的状態を判定するステップ S160の処理の一例を説明する。なお、以下 の説明では、取り扱う感情的状態のカテゴリを順に e1, e ,…, eKとインデクス付けする 。例えば、喜び、怒り、哀しみ、恐怖、驚き、焦り、平静の感情的状態を取り扱う場合 には、 e1:喜び、 e2:怒り、 e3:哀しみ、 e4:恐怖、 e5:驚き、 e6:焦り、 e7:平静などとすれば よぐこの場合は、 K=7である。
ステップ S150で、フレーム番号 tのフレーム Fにおける感情的状態が ekである感情
t
的状態確率 pk =p(e =ek|{x})が k=l,…, Kについてそれぞれ計算されているため、そ
t t t
れを使って最も単純には、この確率 pkが最も高い ekに対応する感情的状態を、 Fに
t t おける感情的状態と判定することができる。あるいは、 pkが高い値をとる ekを、降順に
t
1つ以上選出し、これら複数の感情的状態を持って判定結果としてもよい。 [0057] または、感情的状態によっては、同時刻に相互想起しやすいものと、しにくいものと がある。例えば、喜びと哀しみは同時に想起しにくいことは容易に想像できる。このよ うな現象を考慮して、ある感情的状態 ekに対応する感情的状態確率 pkから、その他
t
の感情的状態 { e ,…, 1, ek+1,…, に対応する感情的状態確率 {p1, p2,…, pk t t
— ^ ρ 1 , · ' ·,ρκ }の凸結合である、
t t t
[0058] [数 7] λ'ρ{ + λ2ρ … + λ^'ρι "1 + k+Ipk+1十… + Kp (10) λ"≥0, ∑λ( = 1
^=1,2,— ,k-l,k+l,—,K を減算し、規格化したものを新たな pkとして、これをそれぞれの感情的状態間で比較
t
してもよい。
[0059] または、簡単に、予めある閾値を定め、これよりも値の大きな pkに対応する感情的
t
状態 ekを、そのフレーム Fの感情的状態と判定してもよい。
t
以上の処理を全てのフレームに渡って行うことによって、フレーム毎に感情的状態 を判定することが可能である。
以上がステップ S 160の詳細処理である。
[0060] 以上のステップ S 1 10〜S 160によって、任意の音声信号データを含むコンテンツ に対して、フレーム毎に感情的状態を判定することが可能となる。
そして、ステップ S 170では、ステップ S 150において計算された感情的状態確率, ステップ S 160で判定した感情的状態に基づいて要約コンテンツを生成し出力する。 以下、要約コンテンツを生成する処理の一例について説明する。
本発明の原理によれば、フレーム毎に感情的状態確率及び感情的状態が与えら れるため、最小単位としてはフレーム単位での要約提示が可能である力 要約された コンテンツは、視聴者にとって意味が理解可能であることが好ましい。よって、本実施 形態においては、連続する 1つ以上のフレームを 1つの区間としてまとめる処理を行 つておく。以下、この区間のことを音声小段落と呼ぶ。
[0061] ここで、音声小段落を生成する方法の一例を説明する。
まず、コンテンツ音声信号データから発話区間であると考えられる区間を抽出する 。このような区間を抽出する方法の一例としては、音声波形における発話区間の周期 性を利用して、音声信号データの自己相関関数の高い区間を発話区間であると見 做して、該当区間を抽出する方法がある。
具体的には、例えば、フレーム毎に自己相関関数値をある所定閾値と比較し、閾 値よりも大であれば発話フレームであると判定し、そうでなければ非発話フレームと判 定する。閾値よりも高い自己相関関数値を示す一連の発話フレームの区間を発話区 間と判定し、そうでない区間を非発話区間と判定する。この閾値の与え方は、予め定 数、例えば 0.7として与えてもよいし、要約するコンテンツ全体の自己相関関数値を計 算した後、一般の場合の発話時間(または、有声時間)と非発話時間(または、無声 時間)の割合を基準として、この基準に 'BR〉°い発話時間割合になるように閾値を決 定してもよい。
[0062] 本実施形態においては、発話区間を抽出する他の方法として、音声特徴量べタト ルに含まれている基本周波数が所定周波数範囲(例えば 50〜350Hz)内に収まって V、る一連のフレームを発話区間と判定してもよレ、。
以上の処理によって、コンテンツ中からフレーム単位で発話区間と非発話区間を分 離することが可能である。
次に、抽出された発話区間のうち、連続する発話であると考えられる一連の発話区 間の集合を 1つの音声小段落としてまとめていく。このような音声小段落を生成する 方法の一例について説明する。
[0063] コンテンツ中の発話区間 F'の集合を時刻の早いものから順に {F', F',…, F' }と
1 2 N する。ここで、 Nは発話区間の総数である。
次に、時間軸上隣り合う発話区間 F'、 F' の時間間隔、即ち、発話区間 F'の終了
i i+1 i 時刻 と、次の発話区間 F' の開始時刻 t について、その時刻の差 t t iend i+1 i+1 start i+1 start iend を計算する。
次に、その計算結果を予め決定したある閾値と比較して小さければ、 Fと F は連続
i i+1 する発話区間であると考え、同じ音声小段落に属するものとする。そして、これを全て の発話区間に渡り繰り返すことで、連続発話と考えられる一連の発話区間を音声小 段落にまとめることができる。 [0064] また、音声小段落を生成する方法の他例としては、次のようなものが考えられる。 まず、要約するコンテンツ全体に渡り発話区間毎に開始時刻、終了時刻を求め、こ れらを纏めて 2次元のベクトルと見做す。
そして、このベクトルについて、要約するコンテンツ全体の発話時間と非発話時間 の比が、一般の場合の発話時間と非発話時間の割合と同じ程度になるようにボトムァ ップクラスタリング法を適用し、音声小段落を生成する。例えば、一般の場合の発話 時間と非発話時間の割合が 6 : 4であったとする。このとき、次のように音声小段落を 構成すること力 Sでさる。
[0065] まず、発話区間 F'の開始時刻 t と終了時刻 t を並べたベクトルを tとする。この i istart iend i とき、コンテンツ中の全発話時間は t -t の総和によって定義でき、非発話時間は istart iend
、コンテンツ全体の長さから全発話時間を減算したものとして定義できる。それぞれの ベクトル tについてベクトル t 又は t とのノルムを計算する。このノルムは、例えば 2次 i i+1 i- 1
のノルム |t -t |2であれば (t - 1 )2+(t - 1 )2により計算する。このノルムに閾値 i i_l istart i- Istart iena i-lend
を設け、閾値以下である発話区間同士を連結することで、新たな発話区間 を定義 し、その開始時刻 t と終了時刻 t を計算し直す。これによつて、時刻的に近い発 istart iend
話区間は順に一連の発話区間、即ち音声小段落にまとめられていくことになり、発話 時間は増加する。以下、これをノルムに対する閾値を段階的に高くして、発話区間と 非発話区間の時間の割合が 6: 4に最も近づく割合となるまで繰り返せばよい。
[0066] この方法は、予め閾値を決定しておく方法とは異なり、コンテンツ間の発話速度の 差を吸収し、適応的に音声小段落を構成できる。
その他の方法の一例としては、音声の連続発話、非発話によらず、音声の周期性 に基づいて音声小段落を構成する方法がある。この周期性は、前述の例と同様、自 己相関関数の値を用いて判断するものとしてもよいし、スペクトルによって判断するも のとしてあよい。
自己相関関数値を用いる場合には、分類基準を設けて、これに基づいて音声小段 落を構成してもよい。例えば、自己相関関数値力 .3以下であるならば周期性が低い 、 0.3より大きく、 0.7以下であるならば周期性はやや高い、 0.7よりも大きい場合には周 期性が高い、などと分類基準を設け、これに基づいて音声小段落を構成してもよい。 例えば、隣接区間の自己相関関数値がこれら 3つの領域の 1つから他の 1つに変化 している場合は、その隣接区間の間を音声小段落の境界と判定する。あるいは、明 確な分類基準を設けるのではなぐ自己相関関数の値がある一定値よりも大きく変化 した隣接区間の間を音声小段落の境界として、音声小段落を構成してもよい。
[0067] スぺ外ルを用いる場合も、自己相関関数値を用いる場合と同様、分類基準を設け るか、変化の大きさに基準を設けて、音声小段落を構成する。分類基準を設ける場 合には、例えば、 0〜500Hzのスペクトルの平均パワーが一定値以上/以下であるか 、 500Hz〜lkHzのスペクトルの平均パワーがある一定値以上/以下である力、、などに よって多様な分類基準を設定し、ある区間の該当する分類基準がその直前の区間の 該当する分類基準から変化していた場合、これら 2つの区間の間を音声小段落の境 界と判定する。また、着目する帯域 (例えば 0〜500Hz)を予め決めておき、隣接区間 でその帯域のスペクトルの平均パワーがある一定値よりも大きく変化した場合 (例えば 平均パワー差分又は平均パワー比が所定値以上になった場合)、隣接区間の間を 音声小段落の境界として、音声小段落を構成してもよレ、。
[0068] 以上の処理によって、コンテンツからフレーム単位で音声小段落を抽出することが 可能である。
以上の処理により、フレーム全体を、いくつかの音声小段落にまとめることが可能で ある。
次に、構成した音声小段落単位での感情的状態の感情度を計算する。以下、この 感情度を計算する方法の一例を図 7に基づいて説明する。
コンテンツ中の音声小段落 Sの集合を時刻の早いものから順に {S, S,…, S }とす
1 2 NS る。例えば、図 7中では、音声小段落 S , S,S を示している。 NSは音声小段落の総
i-1 i i+1
数である。また、ある音声小段落 Sに含まれる一連のフレームを {f, f,…, f }と表す。
i 1 2 NFi
NFiは音声小段落 Sに含まれるフレーム数である。
[0069] 各フレーム fは、感情的状態確率計算手段によって、感情的状態確率 p(e |{x })が式
t t t
(7)又は (9)により与えられている。音声小段落 Sの感情的状態 eが、 ekである感情度 p i Si
(e = ek)は、例えば、平均値を表す次式によって計算することが考えられる。
[0070] [数 8] , 1 NFi .
Psi (e = ek) - -^∑p(et = ek | {xt}) (11)
tl t=i
[0071] あるいは、例えば、最大値を表す次式によって計算してもよい。
[数 9コ ps.(e = ek) = max p(et = ek | {xt}) (12)
t=l,2,--,NFi
[0072] これら以外にも、例えば、音声小段落内で窓掛けを行ってから感情度を計算するな ど、方法はさまざま考えられる力 音声小段落間で感情度を比較する場合があるため 、感情度はある一定の値の範囲内、例えば 0〜1の間に収まるようにすることが好まし い。
なお、図 7には各音声小段落 S内の一連のフレームに対し、それぞれの感情的状 態 e1, e , · · · , eKについての決定された感情度 p (e=e ), p (e=e2),…, p (e=eK)を示して
Si Si Si
いる。
[0073] 以上のような計算を、全ての音声小段落につ!/、て行い、全ての音声小段落に対し て全ての感情的状態の感情度を計算することが可能である。
次に、図 1におけるステップ S 1 70の要約コンテンツ生成につ!/、て説明する。
要約コンテンツは、感情度の高!/、音声小段落を含む一連の音声小段落により構成 された目標時間長以内の音声段落をコンテンツから順次抽出することにより作成する 。音声段落の目標時間は、例えば、 5sec (秒)又は l Osec程度に設定し、これに近づ くように音声小段落をまとめて!/、く。
[0074] この処理方法を、図 8を用いて説明する。コンテンツから抽出された全音声小段落 のうち、最後から遡る方向に目標時間内で、又は最初から進む方向に目標時間内で 最も高レ、感情度(どの感情的状態のものでもよレ、)を付与されて!/、る音声小段落を S とする。この音声小段落 Sを起点に、更に目標時間に達するまで、時刻を i- l, i-2, · · · と遡る方向、または起点から時刻を i+ l, i+2,…と進む方向にまとめていく。あるいは、 その両方向に交互にまとめていってもよい。このようにして 1つの音声段落が決まると 、次の目標時間内の最も高い感情度の音声小段落を基点として同様の処理により音 声段落を決める。このような処理を全コンテンツに渡って実行することにより一連の音 声段落を生成することができる。
[0075] 例えば、時刻を遡る方向にまとめていく場合には、要約コンテンツにおいて、感情 的状態の強く表れている音声小段落 Sが、図 8に示すように、音声段落 VCの最後に 配置される。この音声段落 VCを視聴すると、最後の音声小段落 Sより先行する音声 小段落 S ,S ,…に、感情的状態が強くなる原因となった事象が示された要約となる i-1 i-2
可能性が高くなる。従って、感情的状態が表れるに至る原因と結果が反映された要 約コンテンツとすることができる利点がある。
一方、時刻を進む方向にまとめていく場合には、要約コンテンツにおいて、感情的 状態の強く表れている音声小段落 ^が、音声段落の最初に配置される。この音声段 落を視聴すると、印象的な感情的状態が表れて!/、る区間を最初に視聴することので きる要約コンテンツとなり、より印象的な要約コンテンツとなる利点がある。
[0076] あるいは、隣接音声小段落間の時間長が、ある一定の閾値以下である場合にはこ れらをまとめることで音声段落を構成してもよレ、。
図 9は上述のようにして決められた一連の音声段落 VC 1, VC2, VC3を示し、 VC 1は 3つの音声小段落 S , S , S から構成され、 VC2は 4つの音声小段落 S , S , S , S
11 12 13 14 15 16 17 から構成され、 VC3は 3つの音声小段落 S , S , S 力 構成されている例を示してい
18 19 20 感情度は、音声小段落単位で与えられているため、各音声段落は、(音声小段落の 数) X (感情的状態数)だけ感情度を有していることになる。図 9では各音声段落内の それぞれの音声小段落 Sに対して求められている感情度 p (e=e ), p (e=e2), · · · , p (e
i Si Si Si
=eK)を X印で示し、同じ種類の感情的状態 ekについての感情度を直線で連結して示 している。
[0077] 実際には、各感情的状態 ekについての感情度に基づいて、各音声段落内の累積 感情度を計算する。この計算方法としては、例えば、各音声小段落の感情度の平均 、又は重み付け平均、又は最大値を音声段落に渡って累積加算して音声段落の累 積感情度を求める。あるいは、累積加算結果をその音声段落の音声小段落数で割り 算して得た平均値を累積感情度としてもよい。
要約コンテンツは、累積感情度(各音声段落には感情的状態数 K個と同じ数の累 積感情度が得られている)が最大の音声段落から降順にランキングし、全コンテンツ との比である圧縮率をある一定の目標値に近づくように上位から順番に音声段落を 由出することで作成してあよい。
[0078] なお、この目標値は視聴者が希望のものを入力してもよい。更には、視聴者が所望 の感情的状態についての累積感情度の所望の基準値を入力し、その基準値に整合 する音声段落を優先的に抽出して要約を作成してもよい。
更に、コンテンツが視聴者の望む感情的状態にある部分を含むか否力、を判定する 方法の一例を図 10に基づいて説明する。
まず、ステップ S181において、音声段落毎に付与された各感情的状態 ek(k=l,…, K)の累積感情度に対して、例えば、コンテンツ全体を通した平均、重み付け平均、最 大値などを計算し、その計算結果に基づ!/、て各感情的状態 ekにつ!/、てのコンテンツ 全体の感情度(以降、コンテンツ感情度と呼び、 PCkで表すことにする)をそれぞれ計 算する。この K個のコンテンツ感情度 PCk(k=l,…, K)によって、そのコンテンツがどの ような感情的状態をどの程度含んでレ、るかにつ!/、ての指標を与えることができる。
[0079] 次に、ステップ S 182において、視聴者が所望の感情的状態 ekとその感情的状態で の所望のコンテンツ感情度 RPCkを条件として入力する。
次に、ステップ S 183において、コンテンツに付与されたコンテンツ感情度 PCkと、入 力条件 RPCkを比較参照することで、コンテンツが視聴者の所望の感情的状態 ekを含 むコンテンツであるか否かの判定を行う。
その判定方法は、例えば、条件として指定された感情的状態 ekとコンテンツ感情度 RPCkと、コンテンツに付与された対応する感情的状態 ekのコンテンツ感情度 PCkとの 差の絶対値 |RPCk_PCk|が、予め決定された閾値より小さければそのコンテンツは条 件を満たすコンテンツであると判定することが考えられる。あるいは、 PCk〉RPCkであ れば条件を満たすコンテンツであると判定してもよい。
[0080] そして、ステップ S184において、視聴者の所望のコンテンツであれば、要約コンテ ンッを作成し、判定結果と共に提示する。
以上の処理によって、コンテンツが視聴者の望む感情的状態にある部分を含むか 否かを判定できる。 以上がステップ S I 70での要約コンテンツ生成処理についての詳細である。
以上、本実施形態における感情検出方法を詳細に説明した。
なお、本実施形態の感情検出方法における各手段の一部もしくは全部の機能をコ ンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本 発明を実現することができること、本実施形態の感情検出方法における手順をコンビ ユータのプログラムで構成し、そのプログラムをコンピュータに実行させることができる ことは言うまでもない。
[0081] 図 11は、この発明による感情検出装置の機能構成を示すブロック図である。図 11 において、感情検出装置 800は、音声特徴量抽出部 820,音声特徴量出現確率計 算部 830,感情的状態遷移確率計算部 840,感情的状態確率計算部 850,感情的 状態判定部 860,コンテンツ要約部 870から構成される。
さらに、音声特徴量出現確率計算部 830は第 1統計モデル 810Aを、感情的状態遷 移確率計算部 840は第 2統計モデル 810Bをそれぞれ備えている。
第 1及び第 2統計モデル 810A、 810Bは、学習用音声信号データに含まれる音声特 徴量及びその音声から推測される感情的状態に基づき、従来の手法により学習を行 つて構築した音声特徴量出現確率分布 pA(x |E )と感情的状態遷移確率分布 pB(E |E t t t t-i
)をそれぞれモデル化したものである。
[0082] 音声特徴量抽出部 820は、入力されるコンテンツ音声信号データに含まれる音声 特徴量ベクトルを、フレーム毎に抽出する。
音声特徴量出現確率計算部 830は、抽出した音声特徴量べ外ルが感情的状態 において出現する確率 p(x |E )を第 1統計モデル 810Aに基づいて計算する。
t t
感情的状態遷移確率計算部 840は、第 2統計モデル 810Bに基づいて、感情的状 態の時間的な遷移確率 p(E |E )を計算する。
t t-i
感情的状態確率計算部 850は、音声特徴量出現確率計算部 830が計算した出現 確率 ρ(χ |Ε )と、感情的状態遷移確率計算部 840が計算した遷移確率 ρ(Ε |Ε )とに基 t t t t-i づいて、式 (5),(6)を使って感情的状態確率 p(E |{x })を計算する。
t t
[0083] 感情的状態判定部 860は、感情的状態確率計算部 850が計算した感情的状態確 率 p(E |E )に基づいて入力音声信号データの各フレームの感情的状態 ek(k=l, …, t t-i K)を判定する。
コンテンツ要約部 870は、感情検出装置 800に必要に応じて備えられるものであつ て、判定された感情的状態,感情的状態確率,連続発話及び連続非発話時間,連 続発話,連続非発話時間のうち 1つ以上に基づいて、感情的状態にある区間を検出 し、これを基にコンテンツの要約を作成する。
[0084] 図 11に示した感情検出装置 800の機能構成を実施するコンピュータの具体的な装 置構成例を図 12に基づいて説明する。
図 12中の入力部 210に外部からディジタル信号として入力された音声信号データ を含むコンテンツは、制御部である CPU(Central Processing Unit)221の制御により ハードディスク装置 222に一時格納される。
入力部 210には、例えば、マウス等のポインティングデバイス 212とキーボード 211 等が接続されている。
[0085] なお、コンテンツは、通信ネットワークを介して受信されたコンテンツでもよいし、 CD (Compact Disk), DVD(Digital Versatile Disk)等の光学ディスクドライブ装置 213から 読み出されたコンテンツでもよい。
表示部 230は、例えば、液晶画面等のモニタ画面を有し、キーボード 211あるいは ポインティングデバイス 212の操作に応じて CPU221から出力する情報を表示するこ とができる。表示部 230のモニタ画面には、入力データ,処理経過,処理結果,要約 、コンテンツ、その他の情報が必要に応じて表示される。また、音声も再生できるもの とする。
[0086] 図 11に示した感情検出装置 800における音声特徴量抽出部 820,音声特徴量出 現確率計算部 830,感情的状態遷移確率計算部 840,感情的状態確率計算部 850 ,感情的状態判定部 860,コンテンツ要約部 870の処理機能を記述したプログラム は図 12中の CPU221によって実行し実現される。なお、そのプログラムは、例えば、 ハードディスク装置 222に格納されてあつて、実行時には必要なプログラム及びデー タが RAM(Random Access Memory)224に読み込まれる。その読み込まれたプログラ ムは CPU221によって実行される。
[0087] ハードディスク装置 222にはその他、第 1統計モデル 810Aと第 2統計モデル 810Bが 格納されており、また、入力されたコンテンツが格納される。 ROM(Read Only Memory )223は、コンピュータを起動するための基本プログラム、その他のプログラム及び制 御用のパラメータ等を記憶する。
出力部 240は、付加的機能として CPU221のプログラム実行によって入力されたコ ンテンッにおける音声信号データ中の感情的状態である部分を抽出し、これに基づ いて生成した要約コンテンツを出力する機能を有する。さらに、出力部 240は、前記 生成した要約コンテンツを CD、 DVD等へ記録する機能を含んでいても良い。出力 部 240は、通信機能を有し、外部にデータを送信可能なものでもよい。出力部 240は 、音声信号データに対応する区間の映像信号データを抽出し、要約コンテンツとして 必要に応じて音声と共に出力してもよレ、。
[0088] 以上のように、本実施形態では、音声特徴量として基本周波数の時間変動特性の 系列を含むことで、基本周波数の欠損がある場合でもそれを補完する効果を得ること ができ、より安定した判定をすることができる。これは、感情的状態における発話で、 基本周波数をしばしば抽出できない、という従来技術の問題に対処したものである。 また、保存するものは第 1及び第 2統計モデルの関数型を表す符号及びそのパラメ ータの符号のみでよぐ使用するメモリ、及び計算時間コストをより小さくできる。
以下に、この本実施形態によって所望の感情的状態を判定、要約コンテンツ生成 を行う実施例を示す。
[0089] [第 1実施例]
第 1実施例は、「感情的である」か「感情的でない」か、という 2種類の感情的状態を 扱い、それぞれを判定する実施例である。第 1実施例を以下に説明する。
第 1実施例では、学習用音声信号データ中の、「感情的である」と判断される区間 に「感情的」とラベル付けを行レ、、それ以外の区間で、「感情的でなレ、」と判断される 区間に「非感情的」とラベル付けを行う。
この学習用音声信号データにおいて、ラベル付けの施された区間に含まれるフレ ームを全て抽出し、それぞれ抽出した区間に施されたラベルと同じラベルをフレーム に付与する。これによつて、フレーム単位でラベル付けされた学習用音声信号データ を得ること力 Sでさる。 [0090] この学習用音声信号データに基づき、音声特徴量出現確率を計算するための第 1 統計モデル pA(x |E ) (例えば、図 11中の具体的な第 1統計モデル 810A)と感情的状
t t
態遷移確率を計算するための第 2統計モデル pB(E |E ) (例えば、図 11中の具体的
t t-i
な統計モデル 810B)を構築し記憶しておく。
第 1実施例における感情的状態判定の手順は以下の通りである。
まず、入力されたコンテンツから音声信号データを取り込み、フレーム単位に分割 する(ステップ 1)。次に、フレーム毎に、音声特徴量ベクトルを抽出する(ステップ 2)。 そして、予め構築しておいた第 1統計モデルを用いて、フレーム毎に「感情的である」 確率と、「感情的でない」確率を計算して、「感情的でない」確率と比較して、「感情的 である」確率の方が高!/、フレームを「感情的である」フレームと判定する(ステップ 3)。
[0091] [第 2実施例]
第 2実施例は、前記第 1実施例で計算した、フレーム毎の「感情的である」感情的状 態確率、及び「感情的でない」感情的状態確率を用いて、音声段落を生成し、コンテ ンッの要約を生成する実施例である。
第 2実施例においても第 1実施例のステップ 1〜ステップ 3と同じ処理手順を行う。ス テツプ 3に続いて、発話フレームを自己相関関数値を利用して抽出した後、全てのフ レームに対して、音声段落区間とそれ以外の区間の比がある一定の目標値に近づく ようにボトムアップクラスタリング法を適用して音声段落を生成する(ステップ 4)。
[0092] 次に、ステップ 4で生成した各音声段落につ!/、て、「感情的である」累積感情度と「 感情的でない」累積感情度を計算する(ステップ 5)。そして、次の何れかの提示方法 を選択し、要約コンテンツを作成し、提示する(ステップ 6)。
第 1提示方法としては、視聴者が要約時間を入力し、音声段落について、「感情的 である」累積感情度の高いものから降順に、入力された要約時間に最も近い時間分 だけ抽出し、結合して要約コンテンツを作成し提示する。
第 2提示方法としては、音声段落について、「感情的である」累積感情度の高いも のから降順に、予め定めた要約時間に最も近い時間分だけ抽出し、結合して要約コ ンテンッを作成し提示する。
[0093] 第 3提示方法としては、視聴者が入力した、もしくは予め決定した閾値を入力し、こ の閾値よりも高い「感情的である」累積感情度を持つ音声段落を抽出し、結合して要 約コンテンツを作成し提示する。
[第 3実施例]
第 3実施例は、感情的状態として、いくつかの具体的状態(即ち、喜び、怒り、哀し み、恐怖、驚き、焦り、平静などの多様な感情的状態)を扱い、それぞれを判定する 実施例である。
[0094] 第 1実施例と同様に、学習用音声信号データ中の、それぞれの感情的状態にある と考えられる区間に対応するラベルを付与する。
この学習用音声信号データからラベル付けの施された区間に含まれるフレームを 全て抽出し、それぞれ抽出した区間に施されたラベルと同じラベルをフレームに付与 する。これによつて、フレーム単位でラベル付けされた学習用音声信号データを得る ことができる。この学習用音声信号データに基づき、音声特徴量出現確率を計算す る第 1統計モデルと、感情的状態遷移確率を計算する第 2統計モデルを構築し記憶 しておく。
[0095] 第 3実施例における感情的状態判定の手順は以下の通りである。
まず、入力されたコンテンツから音声信号データを取り込み、フレーム単位に分割 する(ステップ 1)。次に、フレーム毎に、音声特徴量ベクトルを抽出する(ステップ 2)。 そして、予め構築しておいた第 1及び第 2統計モデルを用いて、フレーム毎に各感情 的状態確率を計算し、最も感情的状態確率の高い感情的状態をそのフレームにお ける感情的状態であると判定する (ステップ 3)。
[第 4実施例]
第 4実施例は、前記第 3実施例で計算した、フレーム毎の各感情的状態確率を用 いて、音声段落を生成し、コンテンツの要約を生成する実施例である。
[0096] 第 4実施例におけるステップ 1〜ステップ 3までは第 3実施例の場合と同様の手順で 行う。それ以降は以下のような手順となる。
ステップ 3に続いて、発話フレームを自己相関関数値を利用して抽出した後、全て のフレームに対して、音声段落区間とそれ以外の区間の比がある一定の目標値に近 づくようにボトムアップクラスタリング法を適用して音声段落を生成する(ステップ 4)。 次に、ステップ 4で生成した各音声段落について、各感情的状態の累積感情度を計 算する(ステップ 5)。次に、次の何れかの方法を選択し、要約コンテンツを作成し、提 示する(ステップ 6)。
[0097] 第 1提示方法としては、視聴者が所望の感情的状態、及び要約時間を入力し、音 声段落について、入力された感情的状態の累積感情度の高いものから降順に、入 力された要約時間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し 提示する。
第 2提示方法としては、視聴者が所望の感情的状態を入力し、音声段落について 、入力された感情的状態の累積感情度の高いものから降順に、予め定めた要約時 間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し提示する。
第 3提示方法としては、視聴者が入力した感情的状態、及び視聴者が入力した、も しくは予め決定した閾値に基づいて、入力された感情的状態について、この閾値より も高い累積感情度を持つ音声段落を抽出し、結合して要約コンテンツを作成し提示 する。
[0098] [第 5実施例]
第 5実施例は、前記第 3実施例で計算した、フレーム毎の各感情的状態確率及び 判定された感情的状態を用いて、コンテンツが、視聴者が指定した感情的状態を含 むかどうかの判定を行う実施例である。
第 5実施例のステップ 1からステップ 5までは第 4実施形態の場合と同様の手順で行 う。それ以降は以下のような手順となる。
ステップ 5に続いて、次の何れかの判定方法を選択しコンテンツの判定を行う。
[0099] 第 1判定方法としては、視聴者が所望の感情的状態及びコンテンツ感情度の閾値 を入力し、入力された感情的状態のコンテンツ感情度力 入力された閾値よりも高い 場合にはその感情的状態を含むと判定し、結果を出力する。
第 2判定方法としては、視聴者が所望の感情的状態を入力し、入力された感情的 状態のコンテンツ感情度が予め決定した閾値よりも高い場合にはその感情的状態を 含むと判定し、結果を出力する。
更に、第 5実施例では、前記第 4実施例のステップ 6と同様に、判定されたコンテン ッについて要約を生成し、提示してもよい。
以上、本発明の実施形態について説明したが、本発明は説明した実施形態に限 定されるものでなぐ各請求項に記載した範囲において各種の変形を行うことが可能 である。
例えば、生成された要約コンテンツを含む XML(eXtensible Markup Language)デー タを生成しても良い。汎用的な XMLデータであれば、要約コンテンツの利用性を高 めること力 Sでさる。

Claims

請求の範囲
[1] 入力された音声信号データの音声特徴量に基づいて、感情検出処理を行なう感情 検出方法であり、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動 特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のう ち、 1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に 記憶する音声特徴量抽出ステップと、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力され た学習用音声データに基づいて構成された第 1統計モデルを用いて、 1つ以上の感 情的状態の系列を条件として前記音声特徴量ベクトルとなる音声特徴量出現確率を 算出する音声特徴量出現確率計算処理ステップと、
第 2統計モデルを用いて、 1つ以上の感情的状態の系列の時間方向への遷移確 率を感情的状態遷移確率として算出する感情的状態遷移確率計算処理ステップと、 前記音声特徴量出現確率と前記感情的状態遷移確率に基づいて感情的状態確 率を計算する感情的状態確率計算処理ステップと、
前記算出された感情的状態確率に基づいて、分析フレームを 1つ以上含む各区間 の感情的状態に関する情報を出力する情報出力ステップと、
を含む感情検出方法。
[2] 入力された音声信号データの音声特徴量に基づいて、感情検出処理を行う感情 検出方法であり、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動 特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のう ち、 1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に 記憶する音声特徴量抽出処理ステップと、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力され た学習用音声信号データに基づいて構成された 1つ以上の統計モデルを用いて、 1 つ以上の感情的状態の系列に対する前記音声特徴量ベクトルを条件とした感情的 状態確率を計算する感情的状態確率処理ステップと、 前前記記感感情情的的状状態態確確率率にに基基づづいいてて、、前前記記分分析析フフレレーームムをを含含むむ区区間間のの感感情情的的状状態態をを 判判定定すするる感感情情的的状状態態判判定定スステテッッププとと、、
前前記記判判定定さされれたた感感情情的的状状態態にに関関すするる情情報報をを出出力力すするるスステテッッププとと、、
をを含含むむ感感情情検検出出方方法法。。
[[33]] 請請求求項項 22にに記記載載のの感感情情検検出出方方法法ににおおいいてて、、前前記記感感情情的的状状態態確確率率処処理理スステテッッププはは、、 前前記記 11つつ以以上上のの統統計計モモデデルルののううちちのの第第 11統統計計モモデデルルをを用用いいてて、、 11つつ以以上上のの感感情情的的 状状態態のの系系列列をを条条件件ととししてて前前記記音音声声特特徴徴量量ベベククトトルルととななるる音音声声特特徴徴量量出出現現確確率率をを算算出出 すするる音音声声特特徴徴量量出出現現確確率率計計算算処処理理スステテッッププとと、、
前前記記 11つつ以以上上のの統統計計モモデデルルののううちちのの第第 22統統計計モモデデルルをを用用いいてて 11つつ以以上上のの感感情情的的状状 態態のの系系列列のの時時間間方方向向へへのの遷遷移移確確率率をを感感情情的的状状態態遷遷移移確確率率ととししてて算算出出すするる感感情情的的状状 態態遷遷移移確確率率計計算算処処理理スステテッッププとと、、
前前記記音音声声特特徴徴量量出出現現確確率率とと前前記記感感情情的的状状態態遷遷移移確確率率にに基基づづ!!//、、てて、、前前記記感感情情的的状状
Figure imgf000037_0001
を含む。
[4] 請求項 1又は 3に記載の感情検出方法において、前記音声特徴量出現確率計算 処理ステップは、 1つ以上の分析フレームを含む区間において、前記音声特徴量出 現確率を、前記感情的状態の系列が与えられたときの音声特徴量ベクトルの条件付 き出現確率として構成された前記第 1統計モデルに基づいて計算するステップであ
[5] 請求項 1又は 3に記載の感情検出方法において、前記感情的状態遷移確率計算 処理ステップは、 1つ以上の分析フレームを含む区間において、前記感情的状態の 系列が出現する確率を、該区間より少なくとも 1分析フレーム以上前の区間の感情的 状態の系列を与えたときの現分析フレームでの感情的状態の系列の条件付き遷移 確率として構成された前記第 2統計モデルに基づ!/、て、前記感情的状態遷移確率を
[6] 請求項 2又は 3に記載の感情検出方法において、前記感情的状態判定ステップは 、前記感情的状態確率の降順に前記感情的状態を選出し、該選出された感情的状 態を前記分析フレームを含む区間の感情的状態であると判定するステップを含む。 [7] 請求項 2又は 3に記載の感情検出方法において、前記感情的状態判定ステップは 、 1つの前記感情的状態である確率と、それ以外の感情的状態である確率の凸結合 との差を計算し、この差が最も大きいものから降順に 1つ以上の感情的状態を選出し 、その選出された感情的状態を前記分析フレームを含む区間の感情的状態であると 判定するステップを含む。
[8] 請求項 1乃至 7の何れかに記載の感情検出方法であって、更に、分析フレーム毎 に音声特徴量べ外ルと、感情的状態のラベルが付加された学習用音声信号データ を入力するステップを含む。
[9] 請求項 1乃至 8の何れかに記載の感情検出方法は、更に、分析フレーム毎に発話 フレームであるか否か判定し、 1つ以上の連続した発話フレーム毎に発話区間を構 成し、連続する 1つ以上の発話区間毎に音声小段落を構成し、各音声小段落毎にそ れに含まれる分析フレームの前記感情的状態確率に基づいて感情的状態の感情度 を計算し、該感情度に基づき、前記入力された音声信号データからコンテンツの要 約を抽出するステップを含む。
[10] 請求項 1乃至 8の何れかに記載の感情検出方法は、更に、分析フレーム毎に前記 音声信号データから信号の周期性を求め、上記周期性に基づいて 1つ以上の連続 した分析フレーム毎に区間を構成し、該区間毎に前記感情的状態確率に基づいて 感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号デー タからコンテンツの要約を抽出するステップを含む。
[11] 入力された音声信号データの音声特徴量に基づいて、感情検出処理を行なう感情 検出装置であり、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動 特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のう ち、 1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に 記憶する音声特徴量抽出手段と、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力され た学習用音声データに基づいて構成された第 1統計モデルを用いて、 1つ以上の感 情的状態の系列を条件として前記音声特徴量ベクトルとなる音声特徴量出現確率を 算出する音声特徴量出現確率計算処理手段と、
第 2統計モデルを用いて、 1つ以上の感情的状態の系列の時間方向への遷移確 率を感情的状態遷移確率として算出する感情的状態遷移確率計算処理手段と、 前記音声特徴量出現確率と前記感情的状態遷移確率とに基づいて感情的状態確 率を計算する感情的状態確率計算処理手段と、
前記算出された感情的状態確率に基づいて、分析フレームを 1つ以上含む各区間 の感情的状態に関する情報を出力する情報出力手段と、
を含む感情検出装置。
[12] 入力された音声信号データの音声特徴量に基づいて、感情検出処理を行う感情 検出装置であり、
前記音声信号データから分析フレーム毎に、基本周波数,基本周波数の時間変動 特性の系列,パワー,パワーの時間変動特性の系列,発話速度の時間変動特性のう ち、 1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に 記憶する音声特徴量抽出処理手段と、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力され た学習用音声信号データに基づいて構成された 1つ以上の統計モデルを用いて、 1 つ以上の感情的状態の系列に対する前記音声特徴量ベクトルを条件とした感情的 状態確率を計算する感情的状態確率処理手段と、
前記感情的状態確率に基づいて、前記分析フレームを含む区間の感情的状態を 判定する感情的状態判定手段と、
前記判定された感情的状態に関する情報を出力する情報出力手段と、 を含む感情検出装置。
[13] 請求項 12に記載の感情検出装置において、前記感情的状態確率処理手段は、 前記 1つ以上の統計モデルの 1つとして第 1統計モデルを用いて、 1つ以上の前記 感情的状態の系列を条件として前記音声特徴量ベクトルとなる音声特徴量出現確率 を算出する音声特徴量出現確率計算処理手段と、
前記 1つ以上の統計モデルの他の 1つとして第 2統計モデルを用いて、 1つ以上の 感情的状態の系列の時間方向への遷移確率を感情的状態遷移確率として算出する 感情的状態遷移確率計算処理手段と、
前記音声特徴量出現確率と前記感情的状態遷移確率に基づ!/、て、前記感情的状 態確率を計算する手段と、
を含む。
[14] 請求項 11又は 13に記載の感情検出装置において、前記音声特徴量出現確率計 算処理手段は、 1つ以上の分析フレームを含む区間において、前記音声特徴量べク トルの出現する確率を、前記感情的状態の系列が与えられたときの音声特徴量べク トルの条件付き出現確率として構成された前記第 1統計モデルに基づいて、前記音 声特徴量出現確率を計算する手段である。
[15] 請求項 11又は 13に記載の感情検出装置において、前記感情的状態遷移確率計 算処理手段は、 1つ以上の分析フレームを含む区間において、前記感情的状態の 系列が出現する確率を、該区間より少なくとも 1分析フレーム以上前の区間に感情的 状態の系列を与えたときの現分析フレームでの感情的状態の系列の条件付き遷移 確率として構成された統計モデルに基づいて、前記感情的状態遷移確率を計算す る手段である。
[16] 請求項 12又は 13に記載の感情検出装置において、前記感情的状態判定手段は 、前記感情的状態確率の降順に前記感情的状態を選出し、該選出された感情的状 態を前記分析フレームを含む区間の感情的状態であると判定する手段を含む。
[17] 請求項 12または 13に記載の感情検出装置において、前記感情的状態判定手段 は、 1つの前記感情的状態である確率と、それ以外の感情的状態である確率の凸結 合との差を計算し、この差が最も大きいものから降順に 1つ以上の感情的状態を選出 し、その選出された感情的状態を前記分析フレームの感情的状態であると判定する 手段を含む。
[18] 請求項 11乃至 17の何れかに記載の感情検出装置は、更に、分析フレーム毎に音 声特徴量ベクトルと感情的状態のラベルが付加された学習用音声信号データを入力 する手段を含む。
[19] 請求項 11乃至 18の何れかに記載の感情検出装置は、更に、分析フレーム毎に発 話フレームであるか否か判定し、 1つ以上の連続した発話フレーム毎に発話区間を 構成し、連続する 1つ以上の発話区間毎に音声小段落を構成し、各音声小段落毎 にそれに含まれる分析フレームの感情的状態の感情度を計算し、該感情度に基づき 、前記入力された音声信号データからコンテンツの要約を抽出する手段を含む。
[20] 請求項 11乃至 18の何れかに記載の感情検出装置は、更に、分析フレーム毎に前 記音声信号データから信号の周期性を求め、上記周期性に基づいて 1つ以上の連 続した分析フレーム毎に区間を構成し、該区間毎に前記感情的状態確率に基づい て感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号デ ータからコンテンツの要約を抽出する手段を含む。
[21] 請求項 1乃至 10の何れか記載の感情検出方法をコンピュータで実施可能なプログ ラム。
[22] 請求項 21記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
PCT/JP2007/067849 2006-09-13 2007-09-13 Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program Ceased WO2008032787A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN200780031814XA CN101506874B (zh) 2006-09-13 2007-09-13 情感检测方法、情感检测装置
US12/439,051 US8386257B2 (en) 2006-09-13 2007-09-13 Emotion detecting method, emotion detecting apparatus, emotion detecting program that implements the same method, and storage medium that stores the same program
JP2008534386A JP5039045B2 (ja) 2006-09-13 2007-09-13 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体
EP07807256A EP2063416B1 (en) 2006-09-13 2007-09-13 Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-248090 2006-09-13
JP2006248090 2006-09-13

Publications (1)

Publication Number Publication Date
WO2008032787A1 true WO2008032787A1 (en) 2008-03-20

Family

ID=39183841

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/067849 Ceased WO2008032787A1 (en) 2006-09-13 2007-09-13 Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program

Country Status (6)

Country Link
US (1) US8386257B2 (ja)
EP (1) EP2063416B1 (ja)
JP (1) JP5039045B2 (ja)
KR (1) KR101029786B1 (ja)
CN (1) CN101506874B (ja)
WO (1) WO2008032787A1 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010093584A (ja) * 2008-10-08 2010-04-22 Nippon Telegr & Teleph Corp <Ntt> 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2010134937A (ja) * 2008-12-08 2010-06-17 Korea Electronics Telecommun 状況認知装置およびこれを用いた状況認知方法
WO2011122522A1 (ja) * 2010-03-30 2011-10-06 日本電気株式会社 感性表現語選択システム、感性表現語選択方法及びプログラム
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US8326624B2 (en) 2009-10-26 2012-12-04 International Business Machines Corporation Detecting and communicating biometrics of recorded voice during transcription process
JP2017187676A (ja) * 2016-04-07 2017-10-12 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
JP2019518247A (ja) * 2016-03-31 2019-06-27 シェン ツェン クアン−チ ヘチョン テクノロジー リミティッド クラウドに基づく設備及びその操作方法
CN110036402A (zh) * 2016-12-02 2019-07-19 真实眼私人有限公司 用于媒体内容表现的预测的数据处理方法
JP2019211633A (ja) * 2018-06-05 2019-12-12 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP2020008730A (ja) * 2018-07-09 2020-01-16 富士ゼロックス株式会社 感情推定システムおよびプログラム
JP2020154332A (ja) * 2020-06-17 2020-09-24 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
JP2022106163A (ja) * 2021-01-06 2022-07-19 株式会社竹中工務店 心理状態学習装置及び心理状態推定装置
JP7169030B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP2023507889A (ja) * 2019-12-20 2023-02-28 ジェネシス クラウド サービシーズ ホールディングス セカンド エルエルシー オーディオ相互作用における感情検出

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1288911B1 (en) * 2001-08-08 2005-06-29 Nippon Telegraph and Telephone Corporation Emphasis detection for automatic speech summary
US8344233B2 (en) 2008-05-07 2013-01-01 Microsoft Corporation Scalable music recommendation by search
US8650094B2 (en) * 2008-05-07 2014-02-11 Microsoft Corporation Music recommendation using emotional allocation modeling
CN101930735B (zh) * 2009-06-23 2012-11-21 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
DE102009043775A1 (de) 2009-09-30 2011-04-07 Siemens Medical Instruments Pte. Ltd. Verfahren zum Einstellen einer Hörvorrichtung anhand eines emotionalen Zustandes und entsprechende Hörvorrichtung
CN102142253B (zh) * 2010-01-29 2013-05-29 富士通株式会社 语音情感识别设备及方法
US20200342979A1 (en) * 2010-06-07 2020-10-29 Affectiva, Inc. Distributed analysis for cognitive state metrics
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US9230220B2 (en) * 2011-05-11 2016-01-05 Ari M. Frank Situation-dependent libraries of affective response
CN102831891B (zh) * 2011-06-13 2014-11-05 富士通株式会社 一种语音数据处理方法及系统
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
KR20130055429A (ko) 2011-11-18 2013-05-28 삼성전자주식회사 감정 세그먼트 기반의 감정 인식 장치 및 방법
US20140181668A1 (en) 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
JP6105337B2 (ja) * 2013-03-14 2017-03-29 日本写真印刷株式会社 評価システム及び評価方法
KR101499606B1 (ko) * 2013-05-10 2015-03-09 서강대학교산학협력단 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체
US9788777B1 (en) * 2013-08-12 2017-10-17 The Neilsen Company (US), LLC Methods and apparatus to identify a mood of media
US10431209B2 (en) 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
US10614153B2 (en) 2013-09-30 2020-04-07 Google Llc Resource size-based content item selection
US9703757B2 (en) 2013-09-30 2017-07-11 Google Inc. Automatically determining a size for a content item for a web page
KR102191306B1 (ko) * 2014-01-22 2020-12-15 삼성전자주식회사 음성 감정 인식 시스템 및 방법
US9934793B2 (en) * 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
KR101621778B1 (ko) 2014-01-24 2016-05-17 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621766B1 (ko) 2014-01-28 2016-06-01 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101582746B1 (ko) * 2014-06-11 2016-01-05 주식회사 세븐지엔씨 음악에 대한 감성 결정 방법 및 그 장치
US10803850B2 (en) * 2014-09-08 2020-10-13 Microsoft Technology Licensing, Llc Voice generation with predetermined emotion type
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN105575404A (zh) * 2016-01-25 2016-05-11 薛明博 一种基于语音识别的心理检测方法及系统
US10244113B2 (en) 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
JP6273313B2 (ja) * 2016-04-28 2018-01-31 Cocoro Sb株式会社 感情特定システム、システム及びプログラム
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10535371B2 (en) * 2016-09-13 2020-01-14 Intel Corporation Speaker segmentation and clustering for video summarization
KR102607373B1 (ko) * 2016-11-23 2023-12-05 한국전자통신연구원 음성감성 인식 장치 및 방법
US10783679B2 (en) * 2017-01-30 2020-09-22 Disney Enterprises Inc. Circular visual representation of media content
CN108346436B (zh) * 2017-08-22 2020-06-23 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
JP7000757B2 (ja) * 2017-09-13 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
US10621990B2 (en) 2018-04-30 2020-04-14 International Business Machines Corporation Cognitive print speaker modeler
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
JP7608171B2 (ja) 2018-06-19 2025-01-06 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
KR102216360B1 (ko) * 2018-07-12 2021-02-16 한양대학교 산학협력단 근전도 신호를 이용하는 감정 인식 방법 및 장치
EP3641344B1 (en) 2018-10-16 2023-12-06 Sivantos Pte. Ltd. A method for operating a hearing instrument and a hearing system comprising a hearing instrument
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
US11222199B2 (en) * 2018-12-05 2022-01-11 International Business Machines Corporation Automatically suggesting behavioral adjustments during video conferences
CN111862946B (zh) * 2019-05-17 2024-04-19 北京嘀嘀无限科技发展有限公司 一种订单处理方法、装置、电子设备及存储介质
CN110532422B (zh) * 2019-08-07 2022-03-08 北京三快在线科技有限公司 封面生成装置和方法、电子设备和计算机可读存储介质
CN110751015B (zh) * 2019-09-02 2023-04-11 合肥工业大学 面部红外热图的灌注优化及人工智能情绪监测方法
CN110910902B (zh) * 2019-12-04 2022-09-06 杭州哲信信息技术有限公司 一种基于集成学习的混合模型语音情感识别方法及系统
AU2020424313B2 (en) * 2020-01-20 2023-04-27 Nippon Telegraph And Telephone Corporation Secure inverse computation system, secure normalization system, methods therefor, secure computation apparatus, and program
JP7420211B2 (ja) * 2020-02-28 2024-01-23 日本電信電話株式会社 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
KR102433242B1 (ko) * 2020-05-06 2022-08-17 (주)아이티공간 음성에 기초한 어린이의 감정 컨디션 검출방법
KR102433246B1 (ko) * 2020-05-06 2022-08-17 (주)아이티공간 음성에 기초한 어린이의 감정 컨디션 검출 시스템
CN112967737A (zh) * 2021-04-07 2021-06-15 广州伟宏智能科技有限公司 一种对话文本的深度学习情感识别方法
US20230377560A1 (en) * 2022-05-18 2023-11-23 Lemon Inc. Speech tendency classification
CN120337937B (zh) * 2025-06-19 2025-08-12 解螺旋(上海)科技有限公司 应用于学术文献的学术观点提取方法及系统
CN121054044A (zh) * 2025-11-05 2025-12-02 成都航空职业技术大学 一种语音处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JPH11265239A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 感情生成装置及び感情生成方法
JP2002091482A (ja) * 2000-09-13 2002-03-27 Agi:Kk 感情検出方法及び感情検出装置ならびに記録媒体
JP2003508805A (ja) * 1999-08-31 2003-03-04 アクセンチュア リミテッド ライアビリティ パートナーシップ 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品
JP2003099084A (ja) * 2001-07-13 2003-04-04 Sony France Sa 音声による感情合成方法及び装置
JP2005345496A (ja) 2004-05-31 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理装置、音声処理方法およびそのプログラム
JP2005352420A (ja) * 2004-06-14 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 要約コンテンツ生成装置、生成方法及びそのプログラム
JP3803311B2 (ja) 2001-08-08 2006-08-02 日本電信電話株式会社 音声処理方法及びその方法を使用した装置及びそのプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
GB2348035B (en) * 1999-03-19 2003-05-28 Ibm Speech recognition system
TWI221574B (en) 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
AU2003218320A1 (en) * 2002-03-21 2003-10-08 U.S. Army Medical Research And Materiel Command Methods and systems for detecting, measuring, and monitoring stress in speech
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
EP1796347A4 (en) * 2004-09-10 2010-06-02 Panasonic Corp INFORMATION PROCESSING TERMINAL
US20070192097A1 (en) * 2006-02-14 2007-08-16 Motorola, Inc. Method and apparatus for detecting affects in speech
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JPH11265239A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 感情生成装置及び感情生成方法
JP2003508805A (ja) * 1999-08-31 2003-03-04 アクセンチュア リミテッド ライアビリティ パートナーシップ 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品
JP2002091482A (ja) * 2000-09-13 2002-03-27 Agi:Kk 感情検出方法及び感情検出装置ならびに記録媒体
JP2003099084A (ja) * 2001-07-13 2003-04-04 Sony France Sa 音声による感情合成方法及び装置
JP3803311B2 (ja) 2001-08-08 2006-08-02 日本電信電話株式会社 音声処理方法及びその方法を使用した装置及びそのプログラム
JP2005345496A (ja) 2004-05-31 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理装置、音声処理方法およびそのプログラム
JP2005352420A (ja) * 2004-06-14 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 要約コンテンツ生成装置、生成方法及びそのプログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JINFANG WANG ET AL.: "Calculation of Statistics I: New technique of the probability calculation, frontier of statistics science 11, Chapter 3, 3 EM Method, 4 Variational Bayesian Method", IWANAMI SHOTEN, June 2003 (2003-06-01), pages 157 - 186
KENICHIRO ISHII ET AL.: "Pattern Recognition", OHMSHA, August 1998 (1998-08-01), pages 52 - 54
KITAGAWA, G.: "Non-Gaussian state-space modeling of nonstationary time series", JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, December 1987 (1987-12-01), pages 1032 - 1063
SADAOKI FURUI: "Digital Speech Processing, Chapter 4, 4.9 Pitch Extraction", September 1985, TOKAI UNIVERSITY PRESS, pages: 57 - 59
See also references of EP2063416A4
SHIGEKI SAGAYAMA; FUMITADA ITAKURA: "On individuality in a Dynamic Measure of Speech", PROC. OF THE 1979 SPRING MEETING OF THE ACOUSTIC SOCIETY OF JAPAN, vol. 327, 1979, pages 589 - 590

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010093584A (ja) * 2008-10-08 2010-04-22 Nippon Telegr & Teleph Corp <Ntt> 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2010134937A (ja) * 2008-12-08 2010-06-17 Korea Electronics Telecommun 状況認知装置およびこれを用いた状況認知方法
US8442832B2 (en) 2008-12-08 2013-05-14 Electronics And Telecommunications Research Institute Apparatus for context awareness and method using the same
US8326624B2 (en) 2009-10-26 2012-12-04 International Business Machines Corporation Detecting and communicating biometrics of recorded voice during transcription process
US8457964B2 (en) 2009-10-26 2013-06-04 International Business Machines Corporation Detecting and communicating biometrics of recorded voice during transcription process
WO2011122522A1 (ja) * 2010-03-30 2011-10-06 日本電気株式会社 感性表現語選択システム、感性表現語選択方法及びプログラム
US9286913B2 (en) 2010-03-30 2016-03-15 Nec Corporation Atmosphere expression word selection system, atmosphere expression word selection method, and program
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US9099088B2 (en) 2010-04-22 2015-08-04 Fujitsu Limited Utterance state detection device and utterance state detection method
JP2019518247A (ja) * 2016-03-31 2019-06-27 シェン ツェン クアン−チ ヘチョン テクノロジー リミティッド クラウドに基づく設備及びその操作方法
JP2017187676A (ja) * 2016-04-07 2017-10-12 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
CN110036402A (zh) * 2016-12-02 2019-07-19 真实眼私人有限公司 用于媒体内容表现的预测的数据处理方法
JP2019211633A (ja) * 2018-06-05 2019-12-12 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP7095414B2 (ja) 2018-06-05 2022-07-05 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP2020008730A (ja) * 2018-07-09 2020-01-16 富士ゼロックス株式会社 感情推定システムおよびプログラム
JP7159655B2 (ja) 2018-07-09 2022-10-25 富士フイルムビジネスイノベーション株式会社 感情推定システムおよびプログラム
JP2023507889A (ja) * 2019-12-20 2023-02-28 ジェネシス クラウド サービシーズ ホールディングス セカンド エルエルシー オーディオ相互作用における感情検出
JP7766594B2 (ja) 2019-12-20 2025-11-10 ジェネシス クラウド サービシーズ インコーポレイテッド オーディオ相互作用における感情検出
JP2020154332A (ja) * 2020-06-17 2020-09-24 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
JP7001126B2 (ja) 2020-06-17 2022-01-19 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
JP2022106163A (ja) * 2021-01-06 2022-07-19 株式会社竹中工務店 心理状態学習装置及び心理状態推定装置
JP7562430B2 (ja) 2021-01-06 2024-10-07 株式会社竹中工務店 心理状態学習装置及び心理状態推定装置
JP7169030B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP2023168690A (ja) * 2022-05-16 2023-11-29 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Also Published As

Publication number Publication date
EP2063416A1 (en) 2009-05-27
KR20090038475A (ko) 2009-04-20
CN101506874B (zh) 2011-12-07
JPWO2008032787A1 (ja) 2010-01-28
EP2063416B1 (en) 2011-11-16
KR101029786B1 (ko) 2011-04-19
JP5039045B2 (ja) 2012-10-03
CN101506874A (zh) 2009-08-12
US8386257B2 (en) 2013-02-26
US20090265170A1 (en) 2009-10-22
EP2063416A4 (en) 2010-02-10

Similar Documents

Publication Publication Date Title
WO2008032787A1 (en) Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program
JP4891802B2 (ja) コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
JP4965322B2 (ja) ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
US11727913B2 (en) Automatically associating context-based sounds with text
US20240004606A1 (en) Audio playback method and apparatus, computer readable storage medium, and electronic device
Goh et al. A novel sentiments analysis model using perceptron classifier
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
JP2009139769A (ja) 信号処理装置、信号処理方法及びプログラム
JP2009037050A (ja) 対話装置と対話用プログラム
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
JP4812733B2 (ja) 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
JP2011128790A (ja) ユーザ情報処理プログラム、ユーザ情報処理装置、及び、ユーザ情報処理方法
Gupta et al. Speech emotion recognition using svm with thresholding fusion
CN119622029A (zh) 视频检索模型的训练方法、视频检索方法和装置
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
US20180173400A1 (en) Media Content Selection
JP5589426B2 (ja) コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム
CN111984818A (zh) 跟唱识别方法和装置、存储介质、电子设备
JP4943370B2 (ja) コンテンツ視聴時の印象度推定方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN112416116A (zh) 计算机设备的震动控制方法和系统
JP6791816B2 (ja) 音声区間検出装置、音声区間検出方法、およびプログラム
CN110232911B (zh) 跟唱识别方法、装置、存储介质及电子设备
Lykartsis et al. Prediction of dialogue success with spectral and rhythm acoustic features using dnns and svms
JP5054653B2 (ja) 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780031814.X

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07807256

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008534386

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 1020097004066

Country of ref document: KR

Ref document number: 2007807256

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 12439051

Country of ref document: US