[go: up one dir, main page]

WO2012070212A1 - うるささ判定システム、装置、方法およびプログラム - Google Patents

うるささ判定システム、装置、方法およびプログラム Download PDF

Info

Publication number
WO2012070212A1
WO2012070212A1 PCT/JP2011/006435 JP2011006435W WO2012070212A1 WO 2012070212 A1 WO2012070212 A1 WO 2012070212A1 JP 2011006435 W JP2011006435 W JP 2011006435W WO 2012070212 A1 WO2012070212 A1 WO 2012070212A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
sound
latency
annoyance
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2011/006435
Other languages
English (en)
French (fr)
Inventor
信夫 足立
順 小澤
幸治 森川
弓子 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2012512101A priority Critical patent/JP5144835B2/ja
Priority to CN2011800378518A priority patent/CN103053179A/zh
Publication of WO2012070212A1 publication Critical patent/WO2012070212A1/ja
Priority to US13/630,113 priority patent/US9149214B2/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/12Audiometering
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/377Electroencephalography [EEG] using evoked responses
    • A61B5/38Acoustic or auditory stimuli
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/70Adaptation of deaf aid to hearing loss, e.g. initial electronic fitting

Definitions

  • the present invention relates to a technique for evaluating (determining) whether or not a user has been able to listen to speech comfortably.
  • the hearing aid compensates for the decreased hearing ability of the user by amplifying the amplitude of a signal of a specific frequency among various frequencies constituting a sound that is difficult for the user to hear.
  • Hearing aids are required to adjust the amount of sound amplification in accordance with the degree of hearing loss for each user. Therefore, before starting to use the hearing aid, “fitting” that adjusts the amount of sound amplification in accordance with the hearing ability of each user is essential.
  • Fitting means that the sound pressure to be output (atmospheric pressure fluctuation, which can be perceived as sound) is set to MCL (most comfortable level: sound pressure that the user feels comfortable) for each sound frequency.
  • MCL most comfortable level: sound pressure that the user feels comfortable
  • fitting is not appropriate in the case of either (1) insufficient amplification amount or (2) excessive amplification amount.
  • the amount of amplification is insufficient, the user cannot hear the voice and the purpose of wearing the hearing aid cannot be achieved.
  • the amount of amplification is excessive, the user can distinguish the voice.
  • the loudspeaker presents a louder volume than necessary, which may damage the user's ear.
  • the first procedure of fitting is audiogram measurement.
  • “Audiogram” means measuring the minimum sound pressure of an audible pure tone. For example, it is the figure which plotted the minimum sound pressure (decibel value) which the user can hear about each of the sound of a some frequency according to the frequency (for example, 250Hz, 500Hz, 1000Hz, 2000Hz, 4000Hz).
  • the amplification amount for each frequency is determined based on the fitting theory that is a function for estimating the amplification amount for each frequency from the audiogram result.
  • the audiogram does not have a one-to-one correspondence with the ability to distinguish between conversations, and the difficulty of adjustment because the hearing-impaired person has a narrow sound pressure range that feels appropriate.
  • a hearing aid conformity inspection is carried out using the hearing aid determined and adjusted by the above method (for example, see Non-Patent Document 1).
  • a single syllable speech sound is presented with sound pressures of 55 dB SPL (Sound pressure level), 65 dB SPL, 75 dBSPL, and 85 dB SPL when hearing aid is worn and when hearing aid is not worn (bare ear), Plot the speech intelligibility for each sound pressure and compare. Then, if the clarity is improved at the time of wearing as compared with the case of non-wearing, it is determined as conforming.
  • Speech intelligibility is an indicator of whether or not a single syllable speech sound has been heard. Speech intelligibility reflects the degree of discrimination during conversation.
  • the “single syllable word sound” indicates one vowel or a combination of a consonant and a vowel (for example, “a” / “da” / “shi”).
  • Speech intelligibility is evaluated by the following procedure (for example, Non-Patent Document 2).
  • the 67S-type word table (20-word sound) established by the Japan Audiological Society is played one by one and sent to the user.
  • the user is made to answer by using a method such as utterance or writing, as to which speech has been heard.
  • the speech sound presented by the evaluator is compared with the answer, and the correct answer rate, which is the proportion of the speech sound that is correctly heard out of all 20 speech sounds, is calculated.
  • the correct answer rate is speech intelligibility.
  • Patent Document 1 discloses a speech intelligibility evaluation method that automatically performs correct / incorrect determination using a personal computer (PC).
  • PC personal computer
  • a single syllable voice is presented to a user using a PC, the user is made to answer with a mouse or a pen touch (touch the pen to the display), an answer is accepted as an input of the PC,
  • By receiving an answer input with a mouse or pen touch it is not necessary for the evaluator to identify / decipher the user's answer (speech or writing), and the effort of the evaluator is reduced.
  • Patent Document 2 discloses a speech intelligibility evaluation method that presents a selection candidate of speech corresponding to a speech after speech presentation.
  • the number of selection candidates is narrowed down to several, and the user's trouble of searching for a character is reduced by selecting a corresponding word sound from among several characters.
  • Non-patent Document 2 In the measurement of the permissible level of environmental noise, it is evaluated whether or not the environmental noise is acceptable when the reading sound and the environmental noise are simultaneously presented and the reading sound is heard (Non-patent Document 2). Specifically, the reading sound is presented at 65 dB SPL and the environmental noise is presented at 55 dB SPL, and a subjective impression regarding whether the environmental noise is acceptable is reported. As a subjective impression, it can be reported that either hearing aids can be used when listening to reading sounds under noise, or wearing a hearing aid under noise is difficult. Then, the former case is determined as conforming, and the latter case is determined as nonconforming.
  • the conformity state is determined based only on the speech intelligibility, and it was not considered whether the user felt noisy when listening to the speech . Therefore, even when it was felt noisy when listening to the speech sound, it was evaluated as a suitable hearing aid process if the clarity was higher when the hearing aid was worn than when it was not worn. Further, in the measurement of the environmental noise tolerance level, whether or not the environmental noise is acceptable was evaluated, and the annoyance with respect to listening to the speech was not evaluated. In these evaluations, it may be determined that the hearing aid processing that the user feels noisy at the time of listening to the speech sound and is tired by listening is suitable. Annoyance for listening to speech sounds is a burden for users who wear hearing aids on a daily basis.
  • An object of the present invention is to provide a mechanism for evaluating a user state relating to annoyance with respect to speech listening.
  • An annoyance determination system includes a biological signal measurement unit that measures a user's electroencephalogram signal, and a speech database that stores speech of a plurality of single syllables, and for each speech, corresponds to the speech and the speech
  • the speech sound database in which the reference latency of the negative component of the electroencephalogram signal to be associated is associated the speech sound determination unit for determining the speech sound of a single syllable to be presented with reference to the speech sound database, and the user
  • An output unit that presents the voice, a peak latency of the negative component of the electroencephalogram signal included in a range of 50 ms to 350 ms starting from the time when the speech was presented, and a determination stored in the speech database
  • An annoyance determining unit that compares the reference latency corresponding to the word sound and determines the noisyness of the output word sound.
  • the speech sound database may associate a reference latency of a negative component of an electroencephalogram signal corresponding to the speech sound with the length of the consonant included in the speech sound or the intensity of the consonant.
  • the annoyance determining unit determines that the audio signal is noisy for the user when the peak latency of the negative component is smaller than the reference latency, and the peak latency of the negative component is greater than the reference latency. If it is large, it may be determined that the audio signal is not noisy for the user.
  • the annoyance determination system further includes an event-related potential processing unit that adds event-related potentials of the electroencephalogram signal according to a predetermined standard, the presented word sound determination unit determines a plurality of word sounds, and the output unit includes: The plurality of determined speech sounds are sequentially presented, and the event-related potential processing unit is configured to indicate, for the plurality of speech sounds, a time when the speech sound having the same sound pressure when the speech sound type or the speech sound is presented is presented. The event-related potentials of the electroencephalogram signal as a starting point may be added, and the added result may be output to the annoyance determination unit.
  • the annoyance determination unit takes the minimum potential of the negative component of the electroencephalogram signal included in the range of 50 ms or more and 350 ms or less from the time when the determined speech is presented as the peak latency, or A peak latency associated with the template when the degree of coincidence between the brain wave signal and the template of the waveform of the N1 component prepared in advance is the highest may be adopted.
  • the event-related potential processing unit may add an event-related potential for each consonant or for each word sound group in which the difference in reference latency is smaller than a predetermined value.
  • the annoyance determination system further includes a result storage database that stores information indicating a determination result related to the speech sound annoyance.
  • the result storage database includes a predetermined value for a difference between each word sound, each consonant, or a reference latency. For each smaller speech sound group, information indicating a determination result related to the loudness of the speech sound may be accumulated.
  • the noisy determination system further includes a hearing aid processing unit that selects a type of hearing aid processing for the presented speech and processes the speech data held in the speech database based on the selected hearing aid processing. Also good.
  • the annoyance determination system further includes a switching unit that switches between a calibration mode for obtaining a latency of a negative component for each user and an evaluation mode for evaluating the annoyance, and in the calibration mode, the switching unit includes the presented word sound determination unit. After selecting the vowel and calculating the reference latency for each speech based on the latency of the negative component with respect to the vowel, and after switching to the evaluation mode, the switching unit calculates the peak latency of the negative component The reference latency may be compared.
  • the evaluation switching unit sets the latency of the N1 component with respect to the vowel as the reference latency of the vowel, and sets the length of the consonant part during the reference latency of the vowel.
  • the reference latency for each consonant may be calculated by adding a positive value determined according to the length or intensity.
  • a hearing aid processing system is a speech sound database that stores speech sounds of a plurality of single syllables, and for each speech sound, there is a speech sound and a reference latency of a negative component of an electroencephalogram signal corresponding to the speech sound.
  • the speech sound determination unit that determines the speech sound of a single syllable to be presented with reference to the speech sound database associated with the speech sound database, the speech sound Corresponds to the peak latency of the negative component of the electroencephalogram signal included in the range of 50 ms to 350 ms starting from the time when the message is presented to the user by the output unit, and the determined word sound held in the word sound database
  • An annoyance determination unit that outputs a result of comparing the reference latency to be output, and a negative component peak of the electroencephalogram signal output by the annoyance determination unit Based on the difference between the reference time latency corresponding to a time to the word sounds, and a hearing aid processor for adjusting said speech.
  • the annoyance determination method relates to a step of measuring a user's brain wave signal, a word sound of a plurality of single syllables, and a reference latency of a negative component of an electroencephalogram signal corresponding to the word sound.
  • determining a speech of a single syllable to be presented presenting the determined speech to the user, and starting from the time when the speech is presented 50 ms to 350 ms
  • the peak latency of the negative component of the electroencephalogram signal included in the following range is compared with the reference latency corresponding to the determined speech stored in the speech database, and the output of the speech Determining noisy.
  • a computer program is a computer program executed by a computer provided in a speech sound annoyance determination system, wherein the computer program is implemented in the annoyance determination system.
  • a speech sound database in which a step of receiving a user's brain wave signal, a plurality of single syllable speech sounds, and a reference latency of a negative component of the electroencephalogram signal corresponding to the speech sound is stored in association with each other, A step of determining a syllable speech, a step of presenting the determined speech to the user, and a peak of a negative component of the electroencephalogram signal included in a range of 50 ms to 350 ms starting from the time when the speech was presented Latency and the determined and stored in the speech database By comparing the time reference latency corresponding to the sound, to perform the step of determining loudness of the output the word sound.
  • An annoyance determination system includes a biological signal measurement unit that measures a user's brain wave signal, a voice input unit that inputs a voice signal uttered by a specific speaker, and the voice signal is input.
  • a voice analysis unit that detects a timing and outputs a trigger, and further analyzes a feature relating to a length and intensity of a consonant portion of the speech, and based on the feature analyzed by the speech analysis unit,
  • a reference latency estimation unit for estimating a reference latency, a peak latency of a negative component of the electroencephalogram signal included in a range of 50 ms to 350 ms starting from the trigger, and a reference estimated by the reference latency estimation unit
  • an annoyance determining unit that determines annoyance by comparing with the latency.
  • the annoyance determination system further includes a character output unit that outputs character information indicating a sound to be generated by the specific speaker, and the specific speaker is generated based on the character information output by the character output unit.
  • An audio signal may be input to the audio input unit.
  • the character output unit further outputs information related to sound pressure indicating the volume when the specific speaker utters the speech of the single syllable, and the character information and information related to sound pressure output by the character output unit Based on the voice signal generated by the specific speaker, the voice input unit may input the voice signal.
  • the annoyance determination system further includes a presentation speech sound determination unit that determines a speech sound to be uttered by the specific speaker with reference to a speech sound list prepared in advance, and the character output unit is determined by the presentation speech sound determination unit.
  • character information indicating the speech may be output.
  • the reference latency estimation unit estimates a reference latency of the negative component based on the characteristics analyzed by the speech analysis unit and the speech to be uttered by the specific speaker determined by the presentation speech determination unit. May be.
  • the reference latency estimation unit estimates a reference latency of the negative component by adding a predetermined positive value determined based on a consonant length or a consonant intensity of the voice to a base latency prepared in advance. May be.
  • an annoyance determination method includes a step of measuring a user's brain wave signal, a step of inputting a voice signal uttered by a specific speaker, and a timing at which the voice signal is input. Outputting a trigger and further analyzing characteristics related to the length and intensity of the consonant portion of the speech; estimating a reference latency of a negative component based on the characteristics analyzed in the analyzing step; And comparing the peak latency of the negative component of the electroencephalogram signal included in the range of 50 ms or more and 350 ms or less starting from the trigger with the reference latency estimated by the estimating step to determine annoyance. To do.
  • FIG. 1 It is a figure which shows the outline
  • (A) is a figure which shows the sound pressure level for every condition measured with the sound level meter
  • (b) is a figure which shows the gain adjustment amount for every frequency in each of six conditions.
  • (A) is the figure which showed the electrode position of the international 10-20 method (10-20 square system).
  • (B) is an electrode arrangement equipped with an electroencephalograph. It is a figure which shows the result of having made a subjective report about the annoyance on a visual analog scale.
  • FIG. 6 is a flowchart showing a processing procedure of a speech sound annoyance determination system 200 according to Embodiment 2. It is a figure which shows the structure of the functional block of the noisy judgment system 300 of the speech sound listening by Embodiment 3.
  • FIG. 10 is a flowchart illustrating a processing procedure of a speech sound annoyance determination system 300 according to Embodiment 3. It is a figure which shows the structure of the functional block of the annoyance determination system 400 of speech sound listening by Embodiment 4.
  • FIG. It is a figure which shows the hardware constitutions of the noisy judgment apparatus 4 of the speech sound listening by Embodiment 4.
  • 10 is a flowchart illustrating a processing procedure of a speech sound annoyance determination system 400 according to a fourth embodiment.
  • the speech sound annoyance determination system is used to evaluate whether the user feels noisy when listening to the speech using the brain wave as a user state at the time of listening to the speech. More specifically, the present system presents a single syllable word sound as a voice, and evaluates the annoyance of the word sound using an event-related potential of a user brain wave measured from the voice presentation as an index.
  • An “event-related potential (ERP)” is a part of an electroencephalogram (EEG), and is a transient potential generated in time in relation to an external or internal event. Refers to fluctuations.
  • “presenting a voice” means outputting an auditory stimulus (also referred to as a “voice stimulus”). For example, sound is output from a speaker.
  • the type of the speaker is arbitrary, and a speaker installed on a floor or a stand may be used, or a headphone type speaker may be used. However, the speaker needs to be able to output accurately at the sound pressure specified for correct evaluation. “Evaluation” is also used as a meaning of “determination”.
  • the speech intelligibility evaluation is a short-time evaluation performed at a hearing aid store. Whether or not the user feels noisy is not an object to be evaluated. Therefore, even if the user feels a little noisy if he / she cannot tolerate, he / she will endure and perform the evaluation task.
  • the inventors of the present application believe that the user status when listening to speech should be evaluated separately when “tolerance against annoyance” is not necessary and when “tolerance against annoyance” is necessary. It was. Since annoyance is a process in the brain at the time of listening to speech, there is a possibility that it can be evaluated by measuring an electroencephalogram.
  • the inventors of the present invention have found that in the event-related potential starting from the voice presentation, the latency of the negative component (N1 component) having a latency of about 200 ms is shortened with an increase in annoyance to the voice. Furthermore, it has been found that the latency of the N1 component varies depending on the difference in characteristics such as consonant length or consonant intensity for each word sound.
  • the “latency” refers to the time until the peak of the positive component or negative component appears from the time when the voice stimulus is presented.
  • the present inventors have found that it is possible to determine the annoyance of speech listening from the latency of the negative component (N1 component) having a latency of about 200 ms. With this method, it is possible to objectively and quantitatively evaluate for each speech sound whether it was felt noisy as the user state of speech sound listening.
  • EEG measurement experiment we investigated the relationship between the subjective report about annoyance obtained after voice presentation and the event-related potential from the voice.
  • FIG. 1 to FIG. 6 experimental settings and experimental results of an electroencephalogram measurement experiment will be described.
  • the experiment participants were 13 university / graduate students with normal hearing.
  • Fig. 1 shows an outline of the experimental procedure for an electroencephalogram measurement experiment.
  • procedure A a single syllable voice was presented. Details of the presented voice will be described later.
  • procedure B the participant was made to hear the voice and the hiragana corresponding to the heard voice was written down. Only the type of speech was changed without changing the conditions of the presented speech.
  • Procedures A and B were repeated 5 times.
  • Procedure C the participants were subjected to subjective evaluation regarding the annoyance and the like with respect to the voice presented in Procedure A. Subjective evaluation was performed on a visual analog scale (100-level evaluation) using a touch panel.
  • the above procedure A to procedure C were repeated as 12 blocks and repeated 12 blocks (total 60 trials). The sound pressure and distortion conditions of the voice presented for each block were changed in a random order.
  • FIG. 2 is a flowchart showing the procedure for one block.
  • step S11 a single syllable voice is presented to the experiment participant.
  • step S12 the participant hears a single syllable and thinks of the corresponding character.
  • step S13 the character corresponding to the voice heard by the participant is written down.
  • step S14 the number of voice presentations is counted.
  • the process returns to step S11 until the number of presentations is four.
  • the process proceeds to step S15 and the number of presentations is reset.
  • step S15 the participant answers the subjectivity to the voice heard in step S11.
  • the speech sounds presented as stimuli are 8 voices (Ki, Ku, Si, Su, Ta, Te, T C).
  • Frequency gain means gain (circuit gain, amplification factor) for each of a plurality of frequency bands.
  • LF Large Flat
  • LD Large Distorted
  • MF Middle Flat
  • MD Middle Distorted
  • FIG. 3 (a) shows the classification of 6 conditions of speech and distortion.
  • FIG. 3B shows a gain adjustment amount for each frequency. The reason why the frequency gain in the high frequency band is reduced is to simulate a high-tone gradual type that is a typical pattern of elderly hearing loss. The voice stimulus was presented from a speaker with a flat frequency characteristic.
  • FIG. 4 (a) shows the electrode positions of the international 10-20 method (10-20 system), and FIG. 4 (b) shows the electrode arrangement in which the electrodes were mounted in this experiment.
  • the sampling frequency was 200 Hz and the time constant was 1 second.
  • a 0.05-20 Hz digital bandpass filter was applied off-line.
  • a waveform of ⁇ 200 ms to 1000 ms was cut out from the time when the voice was presented.
  • ⁇ 200 ms refers to a time point that is 200 milliseconds before the time when the voice is presented.
  • the results of subjective evaluation are shown. Based on the subjective evaluation results, “noisy” / “not noisy” labeling was performed based on the threshold for each participant determined by the method described later.
  • the label of the subjective evaluation is a user state at the time of listening to the speech.
  • Fig. 5 shows the result of subjective evaluation for each participant regarding annoyance.
  • the horizontal axis is the subjective evaluation value (1 to 100 on the visual analog scale), and the vertical axis is the ratio (0 to 1) obtained by dividing the frequency distribution by the total number of trials.
  • FIG. 5 shows the percentage of all trials.
  • the solid line in FIG. 5 is the distribution of the subjective evaluation results, and the broken line indicates the threshold value obtained by dividing the subjective evaluation (“noisy” / “not noisy”).
  • the inventors of the present application determined the threshold based on the ranking of evaluation results (1 to 100 on the visual analog scale) for each individual. Specifically, the inventors of the present application set the threshold value by setting the evaluation value rank within an individual to be “noisy” for one third from the highest evaluation value, and “not noisy” for others. However, the same evaluation results were treated as the same subjective evaluation.
  • FIG. 6 shows event-related potentials starting from the time when voice stimulation was presented at the top of the head (Pz). Specifically, FIG. 6 shows a waveform obtained by performing the total addition averaging by dividing according to the criteria of “noisy” / “not noisy” labeled by the above-described method. The addition average was performed based on the subjective evaluation regarding the annoyance for every block in all the six conditions of the said measurement experiment.
  • the horizontal axis in FIG. 6 is time and the unit is ms, and the vertical axis is potential and the unit is ⁇ V. As is clear from the scale shown in FIG. 6, the lower direction of the graph corresponds to positive (positive) and the upper direction corresponds to negative (negative).
  • the solid line shown in FIG. 6 is the total addition average waveform in the case of “noisy”, and the broken line is the total addition average waveform in the case of “not noisy”.
  • FIG. 6 shows that the latency of the negative component (N1 component) caused by the latency of about 200 ms is shorter in the solid line in the “noisy” case than in the broken line in the “noisy” case.
  • the latency of the N1 component for each participant was 195 ms for “noisy” and 240 ms for “noisy”.
  • p ⁇ 0.05 a significant difference was observed (p ⁇ 0.05). Therefore, it is possible to conclude that the latency was shorter in the “noisy” case than in the “not noisy” case, and the N1 component starting from the time when the presentation of the voice stimulus (hereinafter referred to as “voice presentation”) was performed.
  • voice presentation the N1 component starting from the time when the presentation of the voice stimulus
  • FIG. 7 shows an example of the speech waveform of the MF condition (8 words: Ki, K, Shi, Su, Ta, Te, G, and C) used in this experiment.
  • the consonant length is the time length until the waveform rises relatively large after the generation start time (0 ms). More specifically, the consonant length is a time length until the vowel rises.
  • the consonant length was about 80 ms for the Ka line, about 170 ms for the Sa line, about 40 ms for the Ta line, and 130 ms for the Ha line.
  • the intensity of the consonant part was stronger in the Sa line than in the Ka Ta Ha line. While the voice waveforms for each row are greatly different, it can be seen that the characteristics of the entire waveform are similar for the same row.
  • the K line indicates the sound that begins with k. Specifically, ka, ki, ku, ke, and ko are shown.
  • the word “S” indicates a sound that starts with “s”. Specifically, sa, si, su, se, and so are shown.
  • a line indicates a sound that begins with t. Specifically, ta, ti, tu, te, and to are shown.
  • the latency and amplitude of the N1 component with respect to the word sound may be different for each word sound.
  • the feature of the speech sound presented is the cause of the fluctuation of the latency of the N1 component
  • the latency of the N1 component varies regardless of “noisiness”. For this reason, there is a risk of mis-evaluation such as annoying voices that are noisy or noisy voices.
  • the inventors of the present application performed an averaging operation for each same line having similar voice waveform characteristics. A certain average number of times required for analysis of the latency of the N1 component was ensured by the addition average for each row. Then, from the result of the addition average waveform for each row, the influence of the difference in the characteristics of the voice stimulus on the latency of the N1 component was examined. In addition, in order to clarify the relationship between the sound pressure and the N1 component latency, addition averaging was performed for each sound pressure regardless of the presence or absence of distortion.
  • FIGS. 8A to 8C sequentially show the results of the Ta row (Ta Te To), the Ha row (C), and the Sa row (Shi Su).
  • the horizontal axis in FIG. 8 is time and the unit is ms, and the vertical axis is potential and the unit is ⁇ V.
  • the thick solid line shown in FIG. 8 is the total addition average waveform in the case of the Large condition (85 dB), the broken line is the total addition average waveform in the case of the Middle condition (65 dB), and the thin solid line is in the case of the Small condition (45 dB). It is a total addition average waveform.
  • the circles in FIG. 8 indicate the N1 component.
  • the N1 component takes a minimum value in a section from 0 ms to 500 ms, for example. Also, in FIGS.
  • FIG. 9 shows an example of a change due to sound pressure in the latency of the N1 component obtained by this experiment.
  • FIG. 9 also shows the change due to the sound pressure of a pure tone according to conventional research.
  • the following features can be found for (1) sound intensity and (2) consonant length.
  • (1) sound intensity it can be seen that the N1 latency is shortened as the sound pressure increases in any row.
  • (2) consonant length it can be seen that the latency of the N1 component differs depending on the consonant length, by comparing the result of the TA row and the result of the HA row.
  • the consonant lengths of the TA row and the HA row are about 40 ms and about 130 ms, respectively, and there is a difference of about 90 ms.
  • the latency of the Ta row and the C row under the Small condition is 236 ms and 322 ms, and a difference of about 90 ms is stored. Therefore, it can be considered that this N1 component is caused by the rise of the vowel.
  • the influence of the consonant length was different in the Sa line where the consonant intensity was stronger than the other lines.
  • the consonant length of the Sa line is about 170 ms, which is longer than the consonant length of the Ha line (about 130 ms), but the latency of the N1 component was shorter in the Sa line than the Ha line in all sound pressure conditions. Further, the latency of the N1 component in the large condition of the Sa line was 156 ms, which was shorter than the consonant length of the Sa line.
  • FIG. 10 shows, as an example of the consonant intensity of the speech sound presented as a stimulus, the sum of the mean square amplitude of the consonant part in the MF condition up to that time. From FIG. 10, it can be seen that in the Sa line, the intensity of the consonant part is higher than that of other word sounds.
  • “Consonant intensity” means the amplitude of the consonant part of the speech waveform in the time zone. The consonant intensity may be obtained by, for example, a mean square value of the amplitude of the consonant part.
  • FIG. 11 shows examples of speech waveforms of a consonant with a weak consonant intensity and a strong consonant. It can be seen that the consonant intensity of ma line “mo” and na line “ne” is stronger than the line “di” and ra line “li”. In addition, it can be said that the consonant intensity is strong, for example, for the word sounds of the ma line, na line, ya line, wa line and ga line.
  • an electroencephalogram measurement experiment has revealed the existence of an electroencephalogram component that reflects a subjective evaluation of the user's annoyance with respect to speech listening. Specifically, it was discovered that annoyance is reflected in a negative potential having a peak at a latency of about 200 ms. It was also found that the latency of the N1 component is different for each speech sound due to the influence of the difference in the speech waveform.
  • the latency of the N1 component (FIG. 6) with a latency of about 200 ms for each subjective evaluation regarding annoyance at the top of the head (Pz) described above may be, for example, the time when the minimum potential is taken in the corresponding section.
  • a template may be created from a typical N1 component waveform, and the peak time of the N1 component of the template when the degree of coincidence between the template and the measured waveform is the highest may be used as the latency.
  • the latency of the N1 component can be identified by a method of comparing with a predetermined threshold related to latency. Note that the threshold value / template may be a typical user's previously stored or may be created for each individual.
  • negative components can be identified by non-addition or a few additions of several times by devising a feature amount extraction method (for example, wavelet transform of a waveform) or an identification method (for example, support vector machine learning).
  • a feature amount extraction method for example, wavelet transform of a waveform
  • an identification method for example, support vector machine learning
  • a time after a predetermined time elapsed from a certain time point in order to define a component of an event-related potential is expressed as, for example, “latency about 200 ms”. This means that a range centered on a specific time of 200 ms can be included.
  • EMP Event-Related Potential
  • the terms “about Xms” and “near Xms” mean that a width of 30 to 50 ms can exist around the Xms (for example, 300 ms ⁇ 30 ms, 750 ms ⁇ 50 ms).
  • the latency of the N1 component changes according to the characteristics of the speech sound. Therefore, it is preferable to handle it as having a wider width, for example, about 150 ms before and after, including at least the consonant length variation (0 ms: vowel to about 200 ms: consonant). Therefore, in this embodiment, “latency about 200 ms” means a latency included in the range of 50 ms to 350 ms.
  • the electroencephalogram measurement experiment conducted by the inventors of the present application revealed that the negative component (N1 component) having a latency of about 200 ms reflects annoyance in the event-related potential starting from the time when the voice was presented. It was. Therefore, the subjective evaluation regarding the annoyance at the time of listening to the speech can be realized by using the event-related potential for voice presentation (voice stimulation) as an index.
  • FIG. 12 shows the correspondence between the latency of the N1 component and the noisy determination summarized by the inventors of the present application.
  • the latency of the N1 component is shorter than a predetermined threshold, it is determined as “noisy”.
  • the latency of the N1 component is longer than a predetermined threshold, it is determined that it is “noisy”.
  • negative component means a potential smaller than 0 ⁇ V.
  • negative component in order to identify whether or not it is felt “noisy”, the case where the latency is shorter than a predetermined threshold is “negative component”, and the case where the latency is longer than the predetermined threshold is “negative” It is defined as “no ingredients”. A specific example of the threshold will be described later.
  • the speech sound annoyance determination system presents a single syllable word sound sequentially as speech, and based on the latency of the negative component of the event-related potential latency of about 200 ms starting from the time when the speech was presented, the speech sound annoyance Make a decision. This is realized for the first time based on the discovery of the present inventors.
  • the speech sound annoyance determination system sequentially presents voices and measures event-related potentials starting from each voice presentation time. Then, a negative component having a latency of about 200 ms is detected, and the annoyance of listening to the speech is determined.
  • the exploration electrode is provided on the top of the head (Pz)
  • the reference electrode is provided on either the left or right mastoid
  • an electroencephalogram that is a potential difference between the exploration electrode and the reference electrode is measured.
  • the level and polarity of the characteristic component of the event-related potential may vary depending on the part to which the electroencephalogram measurement electrode is attached and how to set the reference electrode and the exploration electrode.
  • a person skilled in the art can make an appropriate modification according to the reference electrode and the exploration electrode at that time to detect the characteristic component of the event-related potential and evaluate the speech intelligibility It is. Such modifications are within the scope of the present invention.
  • FIG. 13 shows the configuration and usage environment of the speech sound annoyance determination system 100 according to this embodiment.
  • the speech sound annoyance determination system 100 is illustrated in correspondence with the system configuration of the first embodiment to be described later.
  • the speech sound annoyance determination system 100 includes a speech sound annoyance determination device 1, a sound output unit 11, and a biological signal measurement unit 50.
  • the biological signal measuring unit 50 is connected to at least two electrodes A and B.
  • the electrode A is affixed to the mastoid of the user 5, and the electrode B is affixed to the top of the scalp of the user 5 (so-called Pz).
  • the noisy judgment system 100 for listening to a speech presents a single syllable speech to the user 5 with a sound pressure of a certain sound pressure, and N1 having a latency of about 200 ms in the brain wave (event-related potential) of the user 5 measured from the speech presentation time. Whether the component latency is shorter than a predetermined threshold is identified. And based on the identification result regarding the latency of the present voice and the N1 component, it is determined whether the user feels noisy when listening to the speech.
  • the brain wave of the user 5 is acquired by the biological signal measuring unit 50 based on the potential difference between the electrode A and the electrode B.
  • the biological signal measurement unit 50 transmits information corresponding to the potential difference (electroencephalogram signal) to the annoyance determination device 1 for listening to the speech sound wirelessly or by wire.
  • FIG. 13 illustrates an example in which the biological signal measurement unit 50 transmits the information to the annoyance determination device 1 for listening to speech wirelessly.
  • the speech sound annoyance determination device 1 controls the sound pressure of the sound or the sound presentation timing for the speech sound annoyance determination, and presents the sound to the user 5 via the sound output unit 11 (for example, a speaker).
  • the sound output unit 11 for example, a speaker
  • FIG. 14 shows the hardware configuration of the speech sound annoyance judging device 1 according to the present embodiment.
  • the speech sound annoyance determination device 1 includes a CPU 30, a memory 31, and an audio controller 32. These are connected to each other via a bus 34 and can exchange data with each other.
  • the CPU 30 executes a computer program 35 stored in the memory 31.
  • the computer program 35 describes a processing procedure shown in a flowchart described later.
  • the speech listening annoyance determination device 1 uses the speech database (DB) 71 stored in the same memory 31 to perform processing for controlling the speech listening annoyance determination system 100 as a whole. . This process will be described in detail later.
  • the audio controller 32 generates a sound to be presented in accordance with a command from the CPU 30, and outputs the generated sound signal to the sound output unit 11 with a designated sound pressure.
  • the annoyance determination device 1 for listening to speech may be realized as hardware such as a DSP in which a computer program is incorporated in one semiconductor circuit.
  • a DSP can realize all the functions of the CPU 30, the memory 31, and the audio controller 32 described above with a single integrated circuit.
  • the computer program 35 described above can be recorded on a recording medium such as a CD-ROM and distributed as a product to the market, or can be transmitted through an electric communication line such as the Internet.
  • a device for example, a PC
  • the speech sound DB 71 may not be held in the memory 31 and may be stored in, for example, a hard disk (not shown) connected to the bus 34.
  • FIG. 15 shows a functional block configuration of the speech sound annoyance determination system 100 according to the present embodiment.
  • the speech sound listening annoyance determination system 100 includes an audio output unit 11, a biological signal measurement unit 50, and a speech sound listening annoyance determination device 1.
  • FIG. 15 also shows detailed functional blocks of the annoyance determination device 1 for listening to speech. That is, the speech sound annoyance determination device 1 includes an event-related potential processing unit 55, an annoyance determination unit 65, a presented speech sound determination unit 70, a speech sound DB 71, and a result storage DB 80. Note that the block of the user 5 is shown for convenience of explanation.
  • Each function block (except for the speech DB 71) of the speech listening annoyance determination device 1 is sometimes changed as a whole by the CPU 30, the memory 31, and the audio controller 32 by executing the program described with reference to FIG. It corresponds to the function realized in.
  • the speech sound DB 71 is a speech sound database for determining the annoyance of speech sound listening.
  • FIG. 16 shows an example of the speech sound DB 71 when, for example, the 20 word sounds of the 67S word table are used as the inspection sound sounds.
  • the reference latency of the N1 component for each speech sound is stored in association with each other.
  • the reference latency of the N1 component for each word sound is preferably a length corresponding to the length of the consonant included in the word sound or the intensity of the consonant.
  • the sound file may be a standard test sound for 20 words in the 67S word table, for example, or may be a recorded sound in which a voice of the other party who mainly talks with a hearing aid is recorded. It is assumed that the stored sound has been subjected to gain adjustment (hearing aid processing) for each frequency based on a certain fitting theory from the audiogram of the hearing impaired measured in advance.
  • 50 sounds in the 57S word table may be used in addition to the 20 sound in the 67S word table.
  • the consonant label is used when the user 5 evaluates in which consonant the loudness is high.
  • the reference latency of the N1 component is a threshold (unit: ms) of the latency of the N1 component for each speech, taking into account the influence of differences in the features of speech sounds.
  • the latency of the N1 component measured for each word sound may be used at a sound pressure at which a general user feels noisy.
  • the standard test voice for example, when using a recorded voice in which the voice of the other party who mainly talks wearing a hearing aid is used, it is calculated based on the consonant length and consonant intensity of the presented word sound, for example. A value may be set.
  • the annoyance is determined by comparing the reference latency of the N1 component with the measured latency of the N1 component. A method for determining annoyance will be described later.
  • the presentation speech sound determination unit 70 refers to the speech sound DB 71 and determines which speech sound is to be presented at which sound pressure.
  • the presentation word sounds may be selected and determined in a random order, for example.
  • the sound pressure of the presented speech is the sound pressure after the hearing aid processing is performed on the speech of 55 dB SPL, 65 dB SPL, 75 dB SPL, 85 dB SPL of the speech intelligibility curve measurement.
  • the sound pressure may be changed in order from a small sound pressure to a large sound pressure, or vice versa. Further, the sound pressures may be selected in a random order.
  • the presented speech sound determination unit 70 outputs a trigger to the biological signal measurement unit 50 in accordance with the voice presentation time, and transmits the content of the presented voice to the event-related potential processing unit 55.
  • the voice output unit 11 presents the user 5 with a single syllable voice determined by the presentation word sound determination unit 70.
  • the biological signal measuring unit 50 is an electroencephalograph that measures a biological signal of the user 5 and measures an electroencephalogram as a biological signal. Then, the EEG data is subjected to frequency filtering of a cutoff frequency suitable for extraction of the N1 component, and an event related to an electroencephalogram in a predetermined section (for example, a section from ⁇ 200 ms to 500 ms) is triggered by the trigger received from the presented word sound determination unit 70. The potential is cut out and the waveform data (electroencephalogram data) is sent to the event-related potential processing unit 55.
  • the frequency of the N1 component is about 10 Hz.
  • a bandpass filter used as the frequency filter, for example, it may be set so that components of brain waves from 5 Hz to 15 Hz are passed. It is assumed that the user 5 is wearing an electroencephalograph in advance.
  • the electroencephalogram measurement electrode is attached to, for example, Pz at the top of the head.
  • the event-related potential processing unit 55 performs an addition operation of the event-related potential received from the biological signal measuring unit 50 in accordance with the content of the presented voice received from the presented word sound determining unit 70.
  • the event-related potential processing unit 55 selects only the event-related potential for voice presentation of the same word sound, for example, and performs an event-related potential addition operation for each type of word sound.
  • event-related potentials are added only with the same word sound, annoyance can be determined for each word sound. Since the features of speech sounds are similar in speech sounds having the same consonant, addition may be performed by selecting event-related potentials of speech sounds having the same consonant. Further, word sounds whose difference in reference latency of the N1 component shown in FIG.
  • the 16 is as small as 10 ms or less may be grouped and added.
  • speech sounds having the same consonant it is possible to evaluate the annoyance of listening to the speech for each consonant type.
  • addition when addition is performed for each word sound having a small difference in the reference latency of the N1 component, it is possible to determine annoyance for each group.
  • An addition waveform in which the number of additions is ensured to some extent is obtained for each consonant and for each group having a small difference in the reference latency of the N1 component.
  • the event-related potential processing unit 55 may obtain S (signal) / N (noise) using the N1 component as a signal. In the above experiment, the event-related potentials are added and averaged. However, if attention is paid only to the latency of the N1 component, the averaging process is unnecessary.
  • the event-related potential processing unit 55 sends the electroencephalogram data obtained by executing a predetermined number of addition operations for each word sound to the annoyance determination unit 65.
  • the noisy determination unit 65 receives the electroencephalogram data from the event-related potential processing unit 55 and performs analysis processing described later.
  • the annoyance determination unit 65 determines whether or not the user feels noisy based on the latency of the N1 component at the latency of about 200 ms of the electroencephalogram data received from the event-related potential processing unit 55. For example, the annoyance determination unit 65 sets the time (hereinafter also referred to as “peak latency”) at which a negative potential peak is applied between 50 ms and 350 ms starting from the trigger received from the presented word sound determination unit 70 as the N1 component. The latency is compared with a predetermined reference latency (threshold value) stored in the speech sound DB 71.
  • the annoyance determining unit 65 may determine not only the binary determination of “noisy” and “not noisy” but also the difference between the peak latency of the N1 component and the reference latency.
  • the reference latency for each speech is set as a predetermined threshold.
  • the reference latency for each row is set as a predetermined threshold, and when determining the annoyance for each group having a small difference in the reference latency, The reference latency may be set as a predetermined threshold value.
  • the result accumulation DB 80 receives the voice information presented from the presented word sound determination unit 70. Further, the result accumulation DB 80 receives information on the result of annoyance determination for each speech from the annoyance determination unit 65. Then, for example, the information of the received annoyance determination result is accumulated for each speech and sound pressure of the presented voice.
  • FIG. 17 is an example of data accumulation in the result accumulation DB 80.
  • FIG. 17 illustrates an example in which information on annoyance is accumulated for each speech sound and for each sound pressure.
  • “1” in FIG. 17 indicates a case where the noisy determination unit 65 determines that the latency of the N1 component is shorter than the reference latency and is “noisy”, and “0” indicates that the latency of the N1 component is The case where it is longer than the reference latency and is determined to be “noisy” is shown.
  • FIG. 18A shows an example in which only the speech intelligibility is evaluated for each sound pressure of the presented voice during wearing.
  • This example is an evaluation result obtained by a conventional evaluation method.
  • the intelligibility is evaluated as 80% or more at a sound pressure of 65 dB SPL or more. Therefore, when the speech intelligibility is improved as compared with the non-wearing state (not shown in FIG. 18), it is determined to be suitable in the hearing aid compatibility test.
  • 18 (b) and 18 (c) are examples of evaluation results obtained by adding annoyance determination according to the present embodiment in addition to the measurement results of the speech intelligibility curve at the time of wearing shown in FIG. 18 (a). It is assumed that the speech intelligibility curve is separately measured by a conventional method of performing speech or key input.
  • the evaluation of annoyance is generally low. Therefore, it can be evaluated that this is a hearing aid process in which the user feels noisy.
  • the evaluation of annoyance is generally high, and particularly high at a large sound pressure of 65 dB SPL or higher. Therefore, it can be evaluated as hearing aid processing that feels noisy at 65 dB SPL, which is the sound pressure of everyday conversation.
  • the gain adjustment amount is increased overall. In the case of FIG. It is possible to propose a specific fitting procedure for reducing the gain adjustment amount and further increasing the compression in nonlinear amplification.
  • 18 (b) and 18 (c) show the evaluation of annoyance only during wearing, but the annoyance is also evaluated during non-wearing (bare ears), and the annoyance is compared between non-wearing and wearing. May be.
  • FIG. 19 is a flowchart illustrating a procedure of processing performed in the annoyance determination system 100 for listening to speech.
  • step S101 the presented speech sound determination unit 70 determines the speech and sound pressure of a single syllable to be presented with reference to the speech sound DB 71.
  • the voice output unit 11 presents the speech to the user 5 with the determined sound pressure.
  • the presented word sound determination unit 70 transmits a trigger to the biological signal measurement unit 50, and transmits sound information related to the presented word sound to the event-related potential processing unit 55.
  • the speech sounds to be presented may be selected randomly from the DB 71, or the speech sounds of specific consonants may be selected intensively.
  • the sound pressure of the presented speech sound is, for example, the sound pressure after the hearing aid processing is performed on the speech of the speech intelligibility curve measurement of 55 dB SPL, 65 dB SPL, 75 dB SPL, and 85 dB SPL.
  • the order in which the sound pressures are presented may be changed in order from a small sound pressure to a large sound pressure, or vice versa. Further, the sound pressures may be selected in a random order.
  • step S102 the biological signal measuring unit 50 receives a trigger from the presented word sound determining unit 70, and cuts out an event-related potential from ⁇ 200 ms to 500 ms, for example, starting from the trigger in the measured electroencephalogram. Then, for example, an average potential of ⁇ 200 ms to 0 ms is obtained, and the obtained event-related potential is baseline-corrected so that the average potential becomes 0 ⁇ V.
  • the biological signal measurement unit 50 always measures an electroencephalogram during the evaluation and applies a frequency filter suitable for extracting the N1 component to the electroencephalogram data.
  • a suitable frequency filter is, for example, a bandpass filter that passes 5 Hz to 15 Hz around the center frequency 10 Hz of the N1 component. Note that when a high-pass filter of, for example, 5 Hz or higher is applied to the electroencephalogram data, baseline correction is not essential because it is hardly affected by a low-frequency baseline change.
  • step S103 the event-related potential processing unit 55 adds the event-related potential cut out in step S102 for each word sound and sound pressure based on the information of the presented word sound received from the presented word sound determining unit 70.
  • the addition calculation is performed for each word sound / sound pressure, but the target of the addition calculation is not limited to each word sound. For example, it may be performed for each consonant, for each group of word sounds having a small difference in reference latency, or for each sound pressure presented, depending on the type of word sound.
  • the event-related potential processing unit 55 presents the sounds belonging to the same classification. What is necessary is just to add the event related electric potential of the electroencephalogram signal obtained when it is done.
  • step S104 the event-related potential processing unit 55 determines whether or not the number of event-related potentials added to the word sound presented in step S101 has reached a predetermined number. If the number of additions is less than or equal to the predetermined number, the process returns to step S101 and repeats voice presentation. If the number of additions is equal to or greater than the predetermined number, the process proceeds to step S105.
  • the predetermined number is, for example, 20 times. Note that “20 times” is the number of additions frequently used in the field of measuring event-related potentials, but this is only an example.
  • the event-related potential processing unit 55 may obtain S (signal) / N (noise) using the N1 component as a signal, and the number of additions at which the S / N becomes a certain value or more may be a predetermined number.
  • step S105 the event-related potential processing unit 55 sends the electroencephalogram data that has undergone a predetermined number of addition operations to the annoyance determination unit 65.
  • the annoyance determination unit 65 obtains the latency of the N1 component of the electroencephalogram data received from the event-related potential processing unit 55, and compares it with the reference latency of the N1 component received from the speech sound DB 71.
  • the latency of the N1 component in the electroencephalogram data is, for example, a time at which the potential is minimum in a section from 0 ms to 500 ms.
  • the reference latency for each speech is compared with the latency of the N1 component in the electroencephalogram data.
  • step S107 the noisy determination unit 65 determines that the user 5 feels noisy when the latency of the N1 component in the electroencephalogram data is shorter than the reference latency. On the other hand, when the latency of the N1 component in the electroencephalogram data is longer than the reference latency, it is determined that the user 5 feels noisy.
  • step S108 the result accumulation DB 80 accumulates information of the annoyance determination result received from the annoyance determination unit 65 for each word sound and sound pressure presented in step S101.
  • step S109 the presented speech sound determination unit 70 determines whether or not the stimulus presentation has been completed for all the speech sounds and sound pressures that are to be evaluated for the annoyance of speech listening. If it has not been completed, the process returns to step S101. If it has been completed, the noisy determination for listening to the speech is terminated.
  • the annoyance of speech listening was evaluated by processing using the negative component of the latency of about 200 ms of the event-related potential starting from the time when the speech was presented with the setting of presenting the speech of a single syllable as speech. .
  • the suitability of hearing aid processing can be evaluated with the annoyance of listening to speech different from speech intelligibility as an axis. Since it is possible to evaluate the hearing aid process with the annoyance as the axis, it is possible to realize a hearing aid process in which the user does not feel annoyed while listening to the speech and is not tired when listening.
  • the speech sounding annoyance determination device 1 in the present embodiment is realized by a configuration that can be miniaturized using general hardware as shown in FIG.
  • the user can evaluate the comfort of listening to speech in a sound environment in which the user uses a hearing aid by configuring the loudness determination device 1 in a size and weight that can be carried and being carried by the user.
  • the audio output unit 11 is a speaker, but the audio output unit 11 may be a headphone. By using headphones, it is easy to carry and the speech intelligibility can be evaluated in the environment used by the user.
  • the description has been made assuming Japanese evaluation.
  • it may be in English or Chinese as long as it is a single syllable.
  • a single syllable word may be presented and the evaluation for each word may be performed.
  • Single syllable English words are short-time voices and are composed of consonants and vowels. Therefore, the reference latency can be determined for each word based on the consonant length and the consonant intensity in substantially the same manner as the above-described single syllable word sound in Japanese.
  • FIG. 20 shows an example of the result of evaluating the annoyance for each single syllable word. “1” in FIG. 20 indicates that the user feels noisy, and “0” indicates that the user does not feel noisy.
  • the speech sound annoyance determination system 100 it is possible to determine how loud (noisy) a user feels when listening to a sound just by listening to the voice. As a result, the “noisiness” that the user feels when listening to the speech is quantified, and the hearing aid process can be evaluated on the axis of noisy, and a fitting that does not feel noisy and is hard to listen to can be realized.
  • the biological signal measurement unit 50 extracts an event-related potential in a predetermined range starting from the trigger from the presentation word sound determination unit 70, performs baseline correction, and converts the potential waveform data into the event. It is assumed that it is transmitted to the related potential processing unit 55. However, this process is an example. As another process, for example, the biological signal measurement unit 50 may continuously measure the brain waves, and the event-related potential processing unit 55 may perform necessary event-related potential extraction and baseline correction. If it is the said structure, the presentation sound determination part 70 does not need to transmit a trigger to the biological signal measurement part 50, and should just transmit a trigger to the event related electric potential process part 55. FIG.
  • the result of the noisy determination is stored in the result storage DB 80, but it may not be stored.
  • each determination result of the annoyance determination unit 65 may be simply output.
  • Each determination result can be used as information regarding the annoyance of listening to the speech.
  • the annoyance determination system shown in the present embodiment shows how annoying it feels for speech listening according to the latency of the negative component of the user brain wave latency of about 200 ms (more specifically, 50 ms to 350 ms) after voice presentation. Determine (noisy). At that time, by setting different reference latencies for each word sound, it is possible to increase the annoyance with high accuracy regardless of characteristics such as the length of the consonant part (consonant length) and the intensity of the consonant part (consonant intensity). evaluate. By determining the annoyance for listening to the speech sound, it is possible to select a hearing aid process in which the user does not feel annoyance and is less tired even if the hearing aid is worn for a long time.
  • a description will be given of a speech sound annoyance determination system that includes a hearing aid processing unit that processes a speech sound to be presented into a sound output from a hearing aid and evaluates the annoyance of each hearing aid process.
  • FIG. 21 shows a functional block configuration of the speech sound annoyance determination system 200 according to the present embodiment.
  • the speech sound annoyance determination system 200 includes an audio output unit 11, a biological signal measurement unit 50, and a speech sound annoyance determination device 2.
  • the same blocks as those in FIG. 15 are denoted by the same reference numerals, and the description thereof is omitted.
  • the hardware configuration of the speech sound annoyance judging device 2 is as shown in FIG.
  • the annoyance determination system 200 is also referred to as a hearing aid processing system.
  • the point that the speech sound listening annoyance determination device 2 according to the present embodiment is greatly different from the speech sound listening annoyance determination device 1 according to the first embodiment is that a hearing aid processing unit 90 is newly provided.
  • a hearing aid processing unit 90 is newly provided.
  • the same names as those of the first embodiment are used for the component names of the annoyance determination device 2, but different reference numerals are used when they have different operations and / or functions.
  • the event-related potential processing unit 55 in order to perform annoyance determination for each of a plurality of hearing aid processes, which is not performed in the first embodiment, the event-related potential processing unit 55, the presented word sound determination unit 70, the word sound DB 71, and the results according to the first embodiment
  • an event-related potential processing unit 56 in this embodiment, a presentation word sound determination unit 75, a word sound DB 72, and a result accumulation DB 85 are provided.
  • the speech sound DB 72 the presented speech sound determination unit 75, the hearing aid processing unit 90, the event-related potential processing unit 56, the result accumulation DB 85, and the hearing aid processing unit 90 will be described.
  • the speech sound DB 72 is a speech sound database for determining the annoyance of listening to a speech sound such as the 20 speech sounds of the 67S-type word table shown in FIG. Similarly to the speech sound DB 71, information on the reference latency of the N1 component is also held for each speech sound.
  • the difference between the speech sound DB 72 and the speech sound DB 71 is that the speech sound DB 72 has speech sound data before hearing aid processing.
  • the presentation speech sound determination unit 75 refers to the speech sound DB similarly to the presentation speech sound control unit 70 according to the first embodiment, and determines the type and sound pressure of the speech sound.
  • the difference between the presenting word sound determining unit 75 and the presenting word sound control unit 70 is that the presenting sound determining unit 75 selects which hearing processing to process the sound and sends the sound data of the presenting word sound to the hearing aid processing unit 90 together. It is.
  • the hearing aid processing unit 90 processes the sound data by the instructed hearing aid processing method based on the instruction regarding the hearing aid processing selection received from the presentation word sound determination unit 75 and the sound data.
  • Hearing aid processing includes, for example, consonant enhancement, directivity, noise reduction, and the like. If the consonant-enhanced hearing aid process is selected, for example, a process of increasing the gain amplification amount of the consonant frequency is performed to process the audio data.
  • the hearing aid processing unit 90 may adjust the gain amplification amount of the sound based on the determination result of the annoyance determination unit 65. For example, the predetermined gain amplification amount is reduced with respect to the voice data of the speech that the noisy determination unit 65 determines to be noisy.
  • the gain amplification amount is not adjusted with respect to the voice data of the speech that is determined to be noisy by the noisy determination unit 65.
  • the gain amplification amount may be determined based on the difference between the peak latency of the N1 component and the reference latency determined by the noisy determination unit 65. For example, if the magnitude of the difference between the peak latency of the N1 component and the reference latency is within a predetermined range, the hearing aid processing unit 90 does not adjust the gain amplification amount. The greater the difference between the peak latency of the N1 component and the reference latency and the upper limit value or lower limit value of the predetermined range, the smaller the hearing aid processor 90 decreases the gain amplification amount.
  • the event-related potential processing unit 56 receives the event-related potential received from the biological signal measurement unit 50 in accordance with the content of the presented voice received from the presentation word sound determination unit 75. Addition operation is performed.
  • the difference between the event-related potential processing unit 56 and the event-related potential processing unit 55 is that the event-related potential processing unit 56 receives information on the hearing aid processing from the presented word sound determination unit 75 and receives each sound, sound pressure, and hearing aid processing. This is the point where the addition operation is performed.
  • the result storage DB 85 stores information on the annoyance determination result based on the latency of the N1 component received from the annoyance determination unit 65, for example, for each speech and sound pressure.
  • the difference between the result accumulation DB 85 and the result accumulation DB 80 is that the result accumulation DB 85 receives information on the type of hearing aid processing from the presentation word sound determination unit 75 in addition to the information on the sound and sound pressure of the presentation stimulus, and the type of hearing aid processing. It is a point to accumulate data every time.
  • FIG. 22 (a) and 22 (b) are examples of data accumulation in the result accumulation DB 85.
  • FIG. FIG. 22 illustrates a case where the determination results of annoyance are accumulated for each speech sound, each sound pressure, and each hearing aid process.
  • FIG. 22A shows a pattern of hearing aid processing A
  • FIG. 22B shows a pattern of hearing aid processing B.
  • the evaluation results of the annoyance in the case of presenting each hearing aid processed speech are shown.
  • “1” indicates that the annoyance determination unit 65 determines that the user 5 felt that the latency of the N1 component was shorter than the reference latency
  • “0” represents the latency of the N1 component. Shows a case where it is determined that the user 5 feels noisy longer than the reference latency. Comparing (a) and (b) in FIG. 22, it can be said that the number of “1” is smaller in (b) subjected to hearing aid processing with the pattern of hearing aid processing B, and the user does not feel noisy.
  • FIG. 23 shows a processing procedure of the speech intelligibility system 200 according to the present embodiment.
  • steps that perform the same process as the process (FIG. 19) of the speech sound annoyance determination system 100 are denoted by the same reference numerals, and description thereof is omitted.
  • the processing of the speech listening annoyance determination system 200 according to the present embodiment is different from the processing of the speech listening annoyance determination system 100 according to Embodiment 1 in steps S201, S202, and S203.
  • step S201 a single syllable speech processed by the designated hearing aid process is presented.
  • step S202 an addition operation is performed for each speech sound / sound pressure / hearing aid process.
  • step S203 the results are accumulated for each word sound, each voice, and each hearing aid process. Other steps have already been described with reference to FIG.
  • the presented speech sound determination unit 75 refers to the speech sound DB 72 to determine the type and sound pressure of the speech to be presented, and acquires the data. Further, the presented word sound determination unit 75 determines the hearing aid process, and sends information related to the type of the hearing aid process and audio data to the hearing aid processor 90.
  • the hearing aid processing unit 90 receives information on the type of hearing aid processing determined by the presentation word sound determination unit 75 and the sound data, and processes the sound data based on the designated hearing aid processing method.
  • the audio output unit 11 presents the processed audio data to the user 5.
  • step S ⁇ b> 202 the event-related potential processing unit 56 receives the information on the type of presentation word sound, sound pressure, and hearing aid processing received from the presentation word sound determination unit 75, and determines the event-related potential of the electroencephalogram measured by the biological signal measurement unit 50. For example, it is added for each word sound, each sound pressure, and each hearing aid process.
  • step S203 the result accumulation DB is annoyance based on the latency of the N1 component determined by the annoyance determination unit 65 for each piece of information (sound type, sound pressure, and hearing aid processing) related to the presented word sound received from the presentation word sound determination unit 75. Are accumulated.
  • An example of the result accumulation is as shown in FIG.
  • comfort for listening to speech can be evaluated for each hearing aid processing such as consonant enhancement, directivity, and noise reduction.
  • hearing aid processing it is assumed that a plurality of types of sounds that have been subjected to hearing aid processing are mixed and presented in a random order. For example, after hearing aid processing A is performed, hearing aid processing B is performed. Furthermore, you may perform annoyance determination in order for every kind of hearing aid process. When implemented for each type of hearing aid processing, there is a feature that the parameter of the next hearing aid processing can be changed according to the annoyance determination result.
  • the annoyance for each hearing aid process can be evaluated. As a result, it is possible to realize selection of hearing aid processing in accordance with the purpose of wearing the hearing aid and the usage environment.
  • the noisy judgment unit 65 compares the reference latency of the N1 component for each speech sound of a general user with the latency of the N1 component of the measured electroencephalogram data. Annoyance determination was performed.
  • the N1 component is an initial component of an event-related potential called an evoked potential, and the individual difference regarding latency / amplitude is considered to be relatively small.
  • the N1 component is not completely free of individual differences in latency / amplitude. Therefore, in the identification based on the reference latency obtained from the latency of the N1 component for each general user's speech, there is a limit in determining annoyance with higher accuracy.
  • calibration is performed to measure the reference latency of the N1 component for each user before determining the annoyance of listening to the speech, and the annoyance is evaluated based on the characteristics of the N1 component for each individual.
  • FIG. 24 shows a functional block configuration of a speech sound annoyance determination system 300 according to this embodiment.
  • the speech sound annoyance determination system 300 includes an audio output unit 11, a biological signal measurement unit 50, and a speech sound annoyance determination device 3.
  • the same blocks as those in FIG. 15 are denoted by the same reference numerals, and the description thereof is omitted.
  • the hardware configuration of the speech sound listening annoyance determination device 3 is as shown in FIG.
  • the speech sound annoyance determination device 3 By executing a program that defines processing different from the program 35 (FIG. 14) described in the first embodiment, the speech sound annoyance determination device 3 according to the present embodiment shown in FIG. 24 is realized.
  • the speech sound annoyance judging device 3 is greatly different from the speech sound annoyance judging device 1 according to the first embodiment in that a calibration / evaluation switching unit 95 and a reference latency calculating unit 96 are newly provided. It is.
  • the presented word sound determination unit 70, the event-related potential processing unit 55, the word sound DB 71 of the first embodiment instead of (FIG. 15), a presenting speech sound determination unit 77, an event related potential processing unit 57, and a speech sound DB 73 are provided.
  • the proofreading / evaluation switching unit 95 the reference latency calculation unit 96, the presented speech sound control unit 77, the event-related potential processing unit 57, and the speech sound DB 73 will be described.
  • the proofreading / evaluation switching unit 95 is a calibration mode for specifying the reference latency of the N1 component with respect to each word sound for each user, and for determining annoyance based on the specified reference latency and the measured latency of the N1 component. Switch between evaluation modes. Then, information indicating the current mode is sent to the presentation word sound determination unit 77.
  • the mode switching may be performed at the time when the reference latency for each speech is written in the speech DB 73, or a predetermined number of times necessary to specify the reference latency of the N1 component for each speech of the user brain wave. You may implement when the speech presentation is completed.
  • the presented speech sound determination unit 77 refers to the speech sound DB 73 to determine the type of the speech sound and the sound pressure of the presented speech, and outputs the information to the user 5 via the speech output unit 11 and at the same time provides trigger information to the biological signal measurement unit 50. Send. Further, the information on the calibration mode / evaluation mode is received from the calibration / evaluation switching unit 95, and the audio information and the information on the configuration / evaluation mode are sent to the event-related potential processing unit 57. The presented word sound determination unit 77 switches the operation according to the mode received from the proofreading / evaluation switching unit 95. In the calibration mode, for example, a voice of a vowel (single syllable with no consonant part) is presented at a predetermined sound pressure.
  • the predetermined sound pressure is a sound pressure equal to or higher than a threshold at which the user can hear the voice. For example, it may be a sound pressure that the user feels “noisy”.
  • the sound pressure that can be heard by the user / the sound pressure that the user feels noisy may be determined with reference to the user's audiogram, for example, or may be measured in advance by subjective evaluation.
  • the speech is presented at a predetermined sound pressure, similar to the presented speech control unit 70.
  • the event-related potential processing unit 57 performs an addition operation of the event-related potential received from the biological signal measurement unit 50 according to the content of the presented voice received from the presentation word sound determination unit 77. .
  • the event-related potential processing unit 57 receives mode information from the presentation word sound determination unit 77 and switches the operation. In the calibration mode, for example, an addition operation is performed for each vowel, and when a predetermined number of additions are completed, an addition waveform for each vowel is sent to the reference latency calculation unit 96.
  • the evaluation mode as with the event-related potential processing unit 55, an added waveform for each speech and sound pressure is sent to the annoyance determination unit 65.
  • the reference latency calculation unit 96 receives the added waveform data for each vowel from the event-related potential processing unit 57, and obtains the latency of the N1 component at a latency of about 200 ms.
  • the latency of the N1 component is, for example, a time at which the potential becomes minimum at a latency of 50 ms to 350 ms.
  • the latency of the N1 component for each obtained vowel is set as the reference latency of each vowel.
  • the reference latency of the N1 component can be obtained for each vowel according to the difference in sound characteristics for each vowel. Further, the reference latency of the consonant including the consonant part is obtained by adding a predetermined positive value according to the characteristics of the consonant part in the reference latency of each vowel.
  • the predetermined positive value is determined for each consonant. For example, in the case of a consonant with a weak consonant part, the consonant length may be set to a predetermined positive value. For example, in the case of a consonant having a strong consonant part, the time until the consonant part becomes equal to or greater than a predetermined value may be a predetermined positive value. Then, the calculated result is written in the speech sound DB 73.
  • vowels have a smaller difference in speech characteristics between word sounds than vowels, so the latencies of the N1 component for all vowels may be averaged to serve as the reference latencies for the N1 component of the vowels.
  • the latency of vowels for which the N1 component can be stably measured may be averaged to be the reference latency of the N1 component of the vowel.
  • the speech sound DB 73 is a speech sound database for determining the annoyance of speech sound listening, similar to the speech sound DB 71 shown as an example in FIG.
  • the difference between the speech sound DB 73 and the speech sound DB 71 is that the reference latency of the N1 component can be rewritten. Until the reference latency of the N1 component is rewritten by the reference latency calculation unit 96, 0 indicating that the reference latency is not set for each speech may be held.
  • FIG. 25 shows a processing procedure of the speech intelligibility system 300 according to the present embodiment.
  • steps that perform the same processing as the processing (FIG. 19) of the speech sound annoyance determination system 100 are denoted by the same reference numerals, and description thereof is omitted.
  • the processing of the speech listening annoyance determination system 300 according to the present embodiment is different from the processing of the speech listening annoyance determination system 100 according to Embodiment 1 in steps S301 to S306. Since the other steps have already been described in relation to FIG.
  • step S301 the proofreading / evaluation switching unit 95 sets the current mode to the proofreading mode, and sends the information on the proofreading mode to the presentation word sound determining unit 77.
  • the proofreading / evaluation switching unit 95 may select the configuration mode when the reference latency value of the N1 component is 0 with reference to the speech sound DB 73. Further, the calibration mode may be set until a predetermined number of voice presentations are completed. The calibration / evaluation mode switching may be performed by selection of a hearing aid fitting expert or the user 5.
  • the presented speech sound determination unit 77 refers to the speech sound DB 73, selects, for example, a vowel, and outputs it to the user 5 via the speech output unit 11 with a predetermined sound pressure.
  • the predetermined sound pressure is a sound pressure that is equal to or higher than a threshold at which the user can hear the voice. For example, it may be a sound pressure that the user feels “noisy”. The sound pressure that can be heard by the user / the sound pressure that the user feels noisy may be determined with reference to the user's audiogram, for example.
  • step S303 the event-related potential processing unit 57 adds the event-related potential measured by the biological signal measuring unit 50 for each vowel.
  • the reference latency calculation unit 96 receives the added waveform data for each vowel from the event-related potential processing unit 57, and obtains the latency of the N1 component at the latency of about 200 ms.
  • the latency of the N1 component is, for example, a time at which the potential becomes minimum at a latency of 50 ms to 350 ms.
  • the presented word sound determination unit 77 sets the sound pressure to a sound pressure at which the user feels “noisy”
  • the latency of the N1 component for each obtained vowel is set as the reference latency of the vowel.
  • the reference latency of the consonant including the consonant part is obtained by adding a predetermined positive value corresponding to the characteristic of the consonant part in the reference latency of the vowel.
  • the predetermined positive value is determined for each consonant.
  • the consonant length may be set to a predetermined positive value.
  • the time until the consonant part becomes equal to or greater than a predetermined value may be a predetermined positive value.
  • step S305 the reference latency calculation unit 96 writes the reference latency of the N1 component for each word sound calculated in step S304 in the word sound DB 73.
  • step S306 the proofreading / evaluation switching unit 95 detects that the reference latency of the N1 component is written in the speech sound DB 73, switches from the proofreading mode to the evaluation mode, and presents information on the evaluation mode. It is sent to the speech sound determination unit 77.
  • the mode switching may be performed when a predetermined number of voice presentations have been completed, or may be performed by an operation input by a hearing aid fitting expert or the user 5.
  • Such processing makes it possible to compare the reference latency of the N1 component for each word sound for each user with the latency of the N1 component of the measured electroencephalogram data. become able to.
  • the vowel is selected by the presented word sound determination unit 77 in the calibration mode, the reference latency of the vowel is determined from the latency of the N1 component with respect to the vowel, and the reference latency of the consonant is calculated.
  • the reference latency is calculated.
  • all speech sounds subject to annoyance determination may be presented in the calibration mode, and the reference latency may be obtained for all speech sounds.
  • a pure tone that is generally measured by an audiogram such as 250 Hz, 500 Hz, 1 kHz, 2 kHz, 4 kHz, etc. is held in the presentation word sound determination unit 77, the pure tone is presented in the calibration mode, and the latency of the N1 component with respect to the pure tone From the above, the reference latency for each speech may be calculated.
  • the annoyance can be evaluated with high accuracy according to the brain wave characteristics of each user. As a result, it is possible to realize hearing aid processing in which the user does not feel noisy and is not tired when listening.
  • the speech sound DB is described as being provided in the speech sound listening annoyance determination device, but this is not essential.
  • the speech sound DB may be provided, for example, in a database server (not shown) or an external storage device connected to the speech sound annoyance determination device via a network.
  • the speech sound annoyance determination system of each embodiment includes the database server and the external storage device.
  • the N1 component of the measured electroencephalogram data is stored by storing the speech already recorded in the speech DB 71 and the reference latency of the N1 component for each speech according to the features of the speech sound.
  • the noisy judgment was carried out by comparing with the latency.
  • the recorded voice includes, for example, a standard test voice and a voice of a partner (hereinafter referred to as “speaker A”) who mainly talks while wearing a hearing aid.
  • the loudness determination for the voice uttered by the speaker A is an evaluation of the voice that the speaker A talks to the user in daily life, and is important.
  • the speech sound uttered by the speaker A is analyzed in real time, the reference latency of the N1 component of the user 5 is estimated according to the characteristics of the speech sound of the speaker A, and the estimated reference latency is estimated. And annoyance is evaluated by comparing the measured N1 component of the electroencephalogram with the reference latency.
  • FIG. 26 shows a functional block configuration of the speech sound annoyance determination system 400 according to this embodiment.
  • the speech sound annoyance determination system 400 includes a character output unit 12, a voice input unit 41, a biological signal measurement unit 50, and a speech sound annoyance determination device 4.
  • the same blocks as those in FIG. 15 are denoted by the same reference numerals, and the description thereof is omitted.
  • the speech sound listening annoyance determination system 400 according to the present embodiment is different from the speech sound listening annoyance determination system 100 according to the first embodiment in that a speech input unit 41 is newly provided and in place of the speech output unit 11.
  • the character output unit 12 is provided.
  • the speech listening annoyance determination device 4 has a function different from that of the speech listening annoyance determination device 1 with the addition of these components.
  • the character output unit 12 is a display device that outputs character information of speech to the speaker A, for example, a liquid crystal display.
  • character information the speech of a single syllable uttered by speaker A (for example, “a”, “da”, “shi”) is presented.
  • information regarding the sound pressure of how loud the speaker A speaks may be indicated.
  • the information on the sound pressure is, for example, “in a size that is usually spoken”, “in a loud voice”, or “in a small voice”.
  • the voice input unit 41 is a microphone that collects the voice uttered by the speaker A.
  • the annoyance judging device 4 for listening to speech will be described later.
  • FIG. 27 shows a hardware configuration of the speech sound annoyance judging device 4.
  • the same symbol is attached
  • the difference from FIG. 14 is that a sound controller 46 is newly provided, a graphic controller 45 is provided instead of the audio controller 32, and a speech sound DB 71 is removed from the memory 31.
  • the sound controller 46 utters the voice of the speaker A, A / D converts the voice waveform input from the voice input unit 41, and sends the obtained voice digital data to the CPU 30.
  • the graphic controller 45 outputs the character information of the speech to be presented to the character output unit 12 according to the instruction of the CPU 30.
  • the processing of the speech listening annoyance determination device 4 according to the present embodiment is realized by executing a program that defines processing different from the program 35 (FIG. 14) described in the first embodiment.
  • the speech sound annoyance determination device 4 is greatly different from the speech sound annoyance determination device 1 according to the first embodiment in that a speech analysis unit 42 and a reference latency estimation unit 43 are newly provided. It is.
  • the presented speech sound determination unit 78 and the noisy determination unit 66 determine the type of the speech sound uttered by the speaker A, and obtain the reference latency of the N1 component for the speech sound uttered by the speaker A. The noisy determination is performed based on the reference latency.
  • the presentation word sound determination unit 78 the voice analysis unit 42, the reference latency estimation unit 43, and the annoyance determination unit 66 will be described.
  • the presented speech sound determination unit 78 is prepared in advance, refers to the speech sound list held by itself, randomly determines the speech sound uttered by the speaker A, and outputs it to the speaker A via the character output unit 12.
  • the determined speech information is sent to the event-related potential processing unit 55 and the reference latency estimation unit 43.
  • the word sound list may be, for example, 20 sounds in the 67S word table or 50 sounds in the 57S word table.
  • the voice analysis unit 42 detects the timing at which the speaker A uttered the voice from the sound information input to the voice input unit 41, and analyzes characteristics related to the consonant length, consonant intensity, vowel intensity, and the like of the voice. Then, a trigger is sent to the biological signal measuring unit 50 at the timing when the utterance of the speaker A is detected. Further, information about the voice feature is sent to the reference latency estimation unit 42.
  • the reference latency estimation unit 43 estimates the reference latency of the N1 component for the word sound based on the information regarding the voice feature received from the voice analysis unit 42 and the word sound information received from the presented word sound determination unit 78.
  • the annoyance determining unit 66 like the annoyance determining unit 65 of the first embodiment, has the user felt noisy based on the latency of the N1 component at the latency of about 200 ms of the electroencephalogram data received from the event-related potential processing unit 55? Determine whether or not. For example, the annoyance determination unit 66 compares the latency of the negative potential peak from the latency of 50 ms to 350 ms with the reference latency (threshold) estimated by the reference latency estimation unit 43. When the peak latency of the N1 component is shorter than the threshold, it is determined as “noisy”, and when the peak latency is smaller than the predetermined threshold, it is determined as “not too loud”.
  • FIG. 28 shows a processing procedure of the speech intelligibility system 400 according to the present embodiment.
  • steps that perform the same processing as the processing of the speech sound listening annoyance determination system 100 are denoted by the same reference numerals, and description thereof is omitted.
  • the processing of the speech listening annoyance determination system 400 according to the present embodiment is different from the processing of the speech listening annoyance determination system 100 according to Embodiment 1 in steps S401 to S407. Since the other steps have already been described in relation to FIG.
  • step S401 the presented speech sound determination unit 78 refers to the speech sound list held by the presented speech sound determination unit 78, randomly determines the type of the speech sound generated by the speaker A, and uses the determined speech sound as the character output unit. 12 to the speaker A.
  • step S402 the voice analysis unit 42 detects the timing at which the speaker A utters the voice from the sound information input to the voice input unit 41, and sends a trigger to the biological signal measurement unit 50 at the detected timing.
  • step S403 the voice analysis unit 42 analyzes characteristics related to the consonant length, consonant intensity, vowel intensity, and the like of the voice detected from the sound information input to the voice input unit 41. Then, the analysis result is sent to the reference latency estimation unit 43.
  • the reference latency estimation unit 43 estimates the reference latency of the N1 component with respect to the speech based on the information regarding the speech features received from the speech analysis unit 42 and the speech information received from the presented speech sound determination unit 78. To do.
  • the reference latency is estimated by adding a predetermined positive value based on the consonant length or consonant intensity of the speech to a predetermined base latency.
  • the predetermined base latency may be, for example, an average N1 component latency of a general user when a vowel is heard at 90 dB SPL. Specifically, it may be 100 ms.
  • the predetermined positive value is determined for each consonant.
  • the consonant length analyzed by the speech analysis unit 42 may be set to a predetermined positive value.
  • the time until the intensity of the consonant part analyzed by the speech analysis unit 42 or the intensity of the specific frequency in the consonant part exceeds a predetermined value is set to a predetermined positive value. It is good also as the value of.
  • the strength of the consonant intensity may be determined based on the speech information received from the presented speech sound determination unit 78. Then, the estimated reference latency is sent to the annoyance determination unit 66.
  • step S405 the event-related potential processing unit 55 sends the content of the presented voice received from the presented word sound determining unit 70 and the event-related potential received from the biological signal measuring unit 50 to the annoyance determining unit 66.
  • the annoyance determining unit 66 determines whether or not the user feels noisy based on the latency of the N1 component at the latency of about 200 ms of the electroencephalogram data received from the event-related potential processing unit 55. For example, the annoyance determination unit 65 compares the latency of the negative potential peak from the latency of 50 ms to 350 ms with the reference latency received from the reference latency estimation unit 43. When the peak latency of the N1 component is shorter than the reference latency, it is determined as “noisy”, and when the peak latency is smaller than the reference latency, it is determined as “not too loud”.
  • step S407 the result storage DB 80 receives the type of the speech sound from the presented speech sound determination unit 77, and receives information on the result of the noisy determination from the noisy determination unit 66. Then, for example, information on the determination result of annoyance is accumulated for each speech sound.
  • the feature of the voice uttered by the speaker A is analyzed, the reference latency of the N1 component is estimated for each voice feature, and the estimated reference latency of the N1 component and the N1 component of the measured electroencephalogram data Comparison with the latency of Note that when the speaker A freely utters a single syllable speech and causes the speech analysis unit 42 to perform speech recognition, the presented speech sound determination unit 78 and the character output unit 12 may be omitted.
  • the speech sound listening annoyance determination system 400 of the present embodiment it is possible to determine speech sound annoyance in real time using the voice uttered by the speaker A. As a result, it is possible to realize a hearing aid process in which the speaker A and the hearing aid fitting specialist are less troublesome and the user does not feel noisy and is not tired of listening.
  • the voice analysis unit 42 may transmit a trigger to the event-related potential processing unit 55 instead of transmitting the trigger to the biological signal measurement unit 50.
  • the biological signal measurement unit 50 may continuously measure the brain wave, and the event-related potential processing unit 55 may perform necessary event-related potential extraction and baseline correction.
  • the annoyance determining unit performs the operation of “determining”
  • the presentation word sound determining unit performs the operation of “determining”.
  • these operations are expressions for convenience of human understanding, and are not intended to output the fact that the apparatus has positively “determined” and “determined” to the outside.
  • the “noisiness determination unit” and the “presentation speech sound determination unit” as one component of the device may perform a predetermined process when a predetermined condition is satisfied.
  • the annoyance determination unit may accumulate the result according to the classification that the user felt noisy, and the N1 component in the electroencephalogram data If the latency is longer than the reference latency, the results may be accumulated according to the classification that the user felt noisy.
  • the presented speech sound determination unit may refer to the speech sound DB, select the speech sounds in a random order, select the sound pressures in a random order, and output them to the speech output unit. It should be noted that these processes are only described using expressions such as “determination” and “determination”.
  • the speech sound annoyance determination device and the speech sound annoyance determination system in which the speech sound annoyance determination device of the present invention is incorporated in addition to the intelligibility of whether or not the sound can be discriminated, the electroencephalogram at the time of listening to the sound Based on the above, it is possible to quantitatively determine the annoyance of listening to speech. As a result, the user can select a hearing aid process that does not feel annoying and does not get tired while listening, so that it can be used for fitting all hearing aid users.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Veterinary Medicine (AREA)
  • Biomedical Technology (AREA)
  • Acoustics & Sound (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Psychology (AREA)
  • Psychiatry (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

 語音聴取に対するうるささに関するユーザ状態を評価(判定)する仕組みを提供する。 うるささ判定システムは、ユーザの脳波信号を計測する生体信号計測部と、複数の単音節の語音を保持する語音データベースであって、各語音について、語音と語音に対応する脳波信号の陰性成分の基準潜時とが対応付けられている語音データベースと、語音データベースを参照して、呈示する単音節の語音を決定する呈示語音決定部と、ユーザに、語音を呈示する出力部と、決定された語音が呈示された時刻を起点として50ms以上350ms以下の範囲に含まれる脳波信号の陰性成分のピーク潜時と語音データベースに保持されている、決定された語音に対応する基準潜時とを比較して、出力された語音のうるささを判定するうるささ判定部とを備えている。

Description

うるささ判定システム、装置、方法およびプログラム
 本発明は、ユーザが語音を快適に聴取できたか否かを評価(判定)するための技術に関する。
 近年、社会の高齢化に伴い、加齢を原因とした難聴者が増加している。大音量の音楽を長時間聴く機会が増えたなどの影響により、若年の難聴者が増加している。また、補聴器の小型化・高性能化に伴い、ユーザが、抵抗なく、補聴器を装用するようになってきている。これらを背景として、会話の聞き分け能力の向上を目的に、補聴器を装用するユーザが増加している。
 補聴器は、ユーザが聞きとりにくい音を構成する種々の周波数のうち、特定周波数の信号の振幅を増幅させることにより、ユーザの低下した聴力を補う。補聴器は、ユーザごとの聴力低下の度合いに応じて、音を増幅する量を調整することが求められる。そのため、補聴器の利用を開始する前には、ユーザごとの聴力に合わせて、音の増幅量を調整する「フィッティング」が必須である。
 フィッティングとは、音の周波数ごとに、出力する音圧(音として知覚され得る、大気の圧力変動) をMCL(most comfortable level:ユーザが快適に感じる音圧)にすることを意味する。このとき、(1)増幅量不足、または、(2)増幅量過多のいずれかの場合には、フィッティングが適切でない。たとえば、増幅量不足の場合、ユーザが音声を聞き分けられず、補聴器装用の目的が達成できない。また、増幅量過多の場合、ユーザが音声を聞き分けることができる。しかし、ユーザが音声をうるさいと感じるため、補聴器を長時間使用できないという問題が発生する。そのため、上記(1)または(2)のいずれにも該当しないよう、フィッティングを行う必要がある。特に(2)の場合には、補聴器から必要以上の大音量が呈示されることになり、ユーザの耳を傷つける可能性がある。
 フィッティングの最初の手順は、オージオグラムの測定である。「オージオグラム」とは、聴取可能な純音の最小音圧を測定することを意味する。たとえば、複数の周波数の音のそれぞれについて、そのユーザが聞き取ることが可能な最も小さい音圧(デシベル値)を周波数(たとえば250Hz、500Hz、1000Hz、2000Hz、4000Hz)に応じてプロットした図である。
 次に、オージオグラムの結果から周波数ごとの増幅量を推定するための関数であるフィッティング理論に基づき、周波数ごとの増幅量を決定する。
 しかしながら、オージオグラムとフィッティング理論に基づく調整のみでは、会話の聞き分け明瞭度を向上させる最適なフィッティングが実現されたかどうかは分からない。その理由として、たとえばオージオグラムと会話の聞き分け能力とが一対一対応しないこと、難聴者は適切な大きさに感じる音圧の範囲が狭いため調整が難しいことなどが挙げられる。
 そこで、上記の方法で決定・調整された補聴器を装用して、補聴器適合検査が実施される(たとえば、非特許文献1参照)。補聴器適合検査の必須検査項目には、(1)語音明瞭度曲線の測定、(2)環境騒音許容レベルの測定の2種類がある。
 語音明瞭度曲線の測定では、補聴器装用時と補聴器非装用時(裸耳)において、55dB SPL(Sound pressure level)、65dB SPL、75dBSPLおよび85dB SPLの音圧で単音節の語音音声を呈示し、それぞれの音圧ごとの語音明瞭度をプロットし比較する。そして、非装用時の場合と比較して装用時において明瞭度が向上していれば適合と判定する。
 この「語音明瞭度」とは、単音節の語音音声が聞き取れたか否かの程度の指標をいう。語音明瞭度は、会話時の聞き分けの程度を反映する。「単音節の語音」とは、一つの母音、または子音と母音との組合せを示す(たとえば「あ」/「だ」/「し」)。
 語音明瞭度は、以下の手順で評価する(たとえば非特許文献2)。まず、日本聴覚医学会が制定した67S式語表(20語音)の音声をひとつずつ再生し、ユーザに聞かせる。次に、呈示された語音をどの語音として聞き取ったかをユーザに発話または書き取りなどの方法で回答させる。そして、評価者が呈示した語音と回答とを照合し、全20語音のうち正しく聞き取れた語音の割合である正解率を計算する。その正解率が語音明瞭度である。
 語音明瞭度の評価方法に関して、従来から種々の技術が公開されている。たとえば、特許文献1には、パーソナルコンピュータ(PC)を用いて自動的に正誤判定を行う語音明瞭度評価方法が開示されている。特許文献1では、PCを用いてユーザに対して単音節の音声を呈示し、ユーザにマウスまたはペンタッチ(touch the pen to the display)により回答させ、回答をPCの入力として受け付け、呈示した音声と回答入力との正誤判定を自動的に行う方法が提案されている。マウスまたはペンタッチで回答入力を受けることで、ユーザの回答(発話または書き取り)を評価者が識別/解読する必要がなくなり、評価者の手間が削減される。
 また、たとえば特許文献2には、音声呈示後に該当する語音の選択候補を文字で呈示する語音明瞭度評価方法が開示されている。特許文献2では、選択候補を数個に絞り、数個の文字の中から該当する語音を選択させることでユーザが文字を探す手間を低減している。
 一方、環境騒音許容レベルの測定では、朗読音と環境騒音を同時に呈示し朗読音を聴取させた場合に、環境騒音が許容できるかどうかを評価する(非特許文献2)。具体的には、朗読音を65dB SPLで、環境騒音を55dB SPLで呈示し、環境騒音が許容できるかどうかに関する主観的な印象を報告させる。主観的な印象として、雑音下で朗読音を聴取するときに補聴器を使用できる、または雑音下での補聴器装用は困難である、のどちらかを報告さFせる。そして、前者の場合を適合、後者の場合を不適合と判定する。
特開平9-038069号公報 特開平6-114038号公報
細井裕司他、「補聴器適合検査の指針2008」、2008年 小寺一興、「補聴器フィッティングの考え方」、診断と治療社、1999年、166頁
 しかしながら、上述の補聴器適合検査のうち、語音明瞭度曲線の測定では、語音明瞭度のみに基づいて適合状態が判定されており、語音聴取時にユーザがうるさいと感じたか否かは考慮されていなかった。そのため、語音聴取時にうるさいと感じた場合にも、非装用時と比較して補聴器装用時において明瞭度が高ければ、適した補聴処理であると評価された。また、環境騒音許容レベルの測定では、環境騒音が許容できるか否かが評価され、語音聴取に対するうるささの評価はされなかった。これらの評価では、語音聴取時にユーザがうるさいと感じる、聞いていて疲れやすい補聴処理であっても、適合していると判定してしまう場合があった。語音聴取に対するうるささは、補聴器を日常的に装用するユーザにとって負担である。
 本発明の目的は、語音聴取に対するうるささに関するユーザ状態を評価する仕組みを提供することである。
 本発明のある実施形態によるうるささ判定システムは、ユーザの脳波信号を計測する生体信号計測部と、複数の単音節の語音を保持する語音データベースであって、各語音について、語音と前記語音に対応する脳波信号の陰性成分の基準潜時とが対応付けられている語音データベースと、前記語音データベースを参照して、呈示する単音節の語音を決定する呈示語音決定部と、前記ユーザに、決定された語音を呈示する出力部と、前記語音が呈示された時刻を起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、前記語音データベースに保持されている、決定された前記語音に対応する基準潜時とを比較して、出力された前記語音のうるささを判定するうるささ判定部とを備えている。
 語音データベースは、前記語音に含まれる子音の長さ又は子音の強度に応じて、前記語音と前記語音に対応する脳波信号の陰性成分の基準潜時を対応付けていてもよい。
 前記うるささ判定部は、前記陰性成分のピーク潜時が前記基準潜時よりも小さい場合に、前記音声信号が前記ユーザにとってうるさいと判定し、前記陰性成分のピーク潜時が前記基準潜時よりも大きい場合に、前記音声信号が前記ユーザにとってうるさくないと判定してもよい。
 前記うるささ判定システムは、前記脳波信号の事象関連電位を、所定の基準にしたがって加算する事象関連電位処理部をさらに備え、前記呈示語音決定部は、複数の語音を決定し、前記出力部は、決定された前記複数の語音を順次呈示し、前記事象関連電位処理部は、前記複数の語音について、前記語音の種類又は前記語音呈示されたときの音圧が同じ語音が呈示された時刻を起点とした前記脳波信号の事象関連電位を加算して、前記加算した結果を前記うるささ判定部に出力してもよい。
 前記うるささ判定部は、前記ピーク潜時として、前記決定された前記語音が呈示された時刻を起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分の最小の電位を取る時刻、または、前記脳波信号と予め用意されたN1成分の波形のテンプレートとの一致度が最も高くなる場合の、前記テンプレートに対応付けられたピーク潜時を採用してもよい。
 前記事象関連電位処理部は、子音ごとまたは基準潜時の差が所定の値よりも小さい語音グループごとに事象関連電位を加算してもよい。
 前記うるささ判定システムは、前記語音のうるささに関する判定結果を示す情報を蓄積する結果蓄積データベースをさらに備え、前記結果蓄積データベースには、語音ごと、子音ごと、または、基準潜時の差が所定の値よりも小さい語音グループごとに、前記語音のうるささに関する判定結果を示す情報が蓄積されていてもよい。
 前記うるささ判定システムは、前記呈示された前記語音に関して補聴処理の種類を選択し、選択された補聴処理に基づいて前記語音データベースに保持されている語音データを加工する補聴処理部をさらに備えていてもよい。
 前記うるささ判定システムは、ユーザごとの陰性成分の潜時を求める校正モードと、うるささを評価する評価モードとを切り替える切替部をさらに備え、前記校正モードにおいて、前記切替部は、前記呈示語音決定部において母音を選択し、母音に対する前記陰性成分の潜時に基づいて語音ごとの基準潜時を算出し、前記評価モードに切り替えられた後において、前記切替部は、前記陰性成分のピーク潜時と算出した前記基準潜時とを比較してもよい。
 前記校正モードにおいて、前記評価切替部は、前記呈示語音決定部において母音が選択された場合に、母音に対するN1成分の潜時を母音の基準潜時に設定し、母音の基準潜時に子音部分の長さまたは強度に応じて決定された正の値を加えて、子音ごとの基準潜時を算出してもよい。
 本発明の他の実施形態による補聴処理システムは、複数の単音節の語音を保持する語音データベースであって、各語音について、語音と前記語音に対応する脳波信号の陰性成分の基準潜時とが対応付けられている語音データベースと、前記語音データベースを参照して、呈示する単音節の語音を決定する呈示語音決定部と、生体信号計測部によって計測された前記ユーザの脳波信号のうち、前記語音が出力部によってユーザに呈示された時刻を起点として、50ms以上350ms以下の範囲に含まれる脳波信号の陰性成分のピーク潜時と、前記語音データベースに保持されている、決定された前記語音に対応する基準潜時とを比較した結果を出力するうるささ判定部と、前記うるささ判定部が出力した、前記脳波信号の陰性成分のピーク潜時と前記語音に対応する基準潜時との差に基づいて、前記語音を調整する補聴処理部とを備えている。
 本発明の他の実施形態によるうるささ判定方法は、ユーザの脳波信号を計測するステップと、複数の単音節の語音と、前記語音に対応する脳波信号の陰性成分の基準潜時とが対応付けて保持されている語音データベースを参照して、呈示する単音節の語音を決定するステップと、前記ユーザに、決定された語音を呈示するステップと、前記語音が呈示された時刻を起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、前記語音データベースに保持されている、決定された前記語音に対応する基準潜時とを比較して、出力された前記語音のうるささを判定するステップとを包含する。
 本発明の他の実施形態によるコンピュータプログラムは、語音聴取のうるささ判定システムに設けられたコンピュータによって実行されるコンピュータプログラムであって、前記コンピュータプログラムは、前記うるささ判定システムに実装されるコンピュータに対し、ユーザの脳波信号を受け取るステップと、複数の単音節の語音と、前記語音に対応する脳波信号の陰性成分の基準潜時とが対応付けて保持されている語音データベースを参照して、呈示する単音節の語音を決定するステップと、前記ユーザに、決定された語音を呈示するステップと、前記語音が呈示された時刻を起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、前記語音データベースに保持されている、決定された前記語音に対応する基準潜時とを比較して、出力された前記語音のうるささを判定するステップとを実行させる。
 本発明のさらに他の実施形態によるうるささ判定システムは、ユーザの脳波信号を計測する生体信号計測部と、特定話者が発声した音声信号を入力するための音声入力部と、前記音声信号が入力されたタイミングを検出してトリガを出力し、さらに前記音声の子音部分の長さおよび強度に関する特徴を分析する音声分析部と、前記音声分析部で分析された前記特徴に基づいて、陰性成分の基準潜時を推定する基準潜時推定部と、前記トリガを起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、前記基準潜時推定部によって推定された基準潜時とを比較してうるささを判定するうるささ判定部とを備えている。
 前記うるささ判定システムは、前記特定話者に発生させるための語音を示す文字情報を出力する文字出力部をさらに備え、前記文字出力部によって出力された文字情報に基づいて前記特定話者が発生した音声信号が前記音声入力部に入力されてもよい。
 前記文字出力部は、前記単音節の語音を前記特定話者が発声する際の大きさを示す音圧に関する情報をさらに出力し、前記文字出力部によって出力された文字情報および音圧に関する情報に基づいて前記特定話者が発生した音声信号が前記音声入力部に入力されてもよい。
 前記うるささ判定システムは、予め用意された語音リストを参照して、前記特定話者に発声させる語音を決定する呈示語音決定部をさらに備え、前記文字出力部は、前記呈示語音決定部によって決定された前記語音を示す文字情報を出力してもよい。
 前記基準潜時推定部は、前記音声分析部で分析された前記特徴、および、呈示語音決定部が決定した前記特定話者に発声させる語音に基づいて、前記陰性成分の基準潜時を推定してもよい。
 前記基準潜時推定部は、予め用意されたベース潜時に、前記音声の子音長あるいは子音強度に基づいて決定される所定の正の値を加えることにより、前記陰性成分の基準潜時を推定してもよい。
 本発明のさらに他の実施形態によるうるささ判定方法は、ユーザの脳波信号を計測するステップと、特定話者が発声した音声信号を入力するステップと、前記音声信号が入力されたタイミングを検出してトリガを出力し、さらに前記音声の子音部分の長さおよび強度に関する特徴を分析するステップと、分析する前記ステップで分析された前記特徴に基づいて、陰性成分の基準潜時を推定するステップと、前記トリガを起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、推定する前記ステップによって推定された基準潜時とを比較してうるささを判定するステップとを包含する、。
 本発明によれば、語音聴取に対するうるささに関するユーザ状態を評価する仕組みを提供できる。
脳波計測実験の実験手順の概要を示す図である。 1試行分の手順を示すフローチャートである。 (a)は、騒音計で測定した条件ごとの音圧レベルを示す図であり、(b)は、6つの条件のそれぞれにおける周波数ごとのゲイン調整量を示す図である。 (a)は、国際10-20法(10-20 System)の電極位置を示した図である。(b)は、脳波計を装着した電極配置である。 うるささについて、ビジュアルアナログスケールで主観報告行った結果を示す図である。 音声が呈示された時刻を起点としたPzにおける事象関連電位を、うるささに関する主観評価ごとに加算平均した波形を示す図である。 実験で呈示したMF条件の音声波形である。 同じ子音を持つ語音ごとの加算平均波形の例である。 同じ子音を持つ語音ごとのN1成分の潜時の音圧による変化と、従来研究による純音のN1成分の潜時の音圧による変化を示した図である。 刺激として呈示した語音音声の子音強度の例として、MF条件における子音部分に関する二乗平均振幅のその時刻までの和を示す図である。 子音強度が弱い子音および強い子音の各音声波形の例を示す図である。 N1成分の潜時の比較結果と、うるささ判定結果の対応関係を示す図である。 実施形態1による語音聴取のうるささ判定システム100の構成および利用環境を示す図である。 実施形態1による語音聴取のうるささ判定装置1のハードウェア構成を示す図である。 実施形態1による語音聴取のうるささ判定システム100の機能ブロックの構成を示す図である。 語音DB71の例を示す図である。 実施形態1による手法を用いたうるささの判定結果蓄積の例を示す図である。 実施形態1による手法を用いたうるささの判定結果と、従来の語音明瞭度曲線の結果との比較を示す図である。 語音聴取のうるささ判定システム100において行われる処理の手順を示すフローチャートである。 単音節の単語ごとの評価結果の一例を示す図である。 実施形態2による語音聴取のうるささ判定システム200の機能ブロックの構成を示す図である。 実施形態2による手法を用いたうるささの判定結果蓄積の例を示す図である。 実施形態2による語音聴取のうるささ判定システム200の処理手順を示すフローチャートである。 実施形態3による語音聴取のうるささ判定システム300の機能ブロックの構成を示す図である。 実施形態3による語音聴取のうるささ判定システム300の処理手順を示すフローチャートである。 実施形態4による語音聴取のうるささ判定システム400の機能ブロックの構成を示す図である。 実施形態4による語音聴取のうるささ判定装置4のハードウェア構成を示す図である。 実施形態4による語音聴取のうるささ判定システム400の処理手順を示すフローチャートである。
 以下、添付の図面を参照して、本発明による語音聴取のうるささ判定システムの実施形態を説明する。
 本発明による語音聴取のうるささ判定システムは、語音聴取時のユーザ状態として、脳波を利用して語音聴取時にユーザがうるさいと感じたか、を評価するために用いられる。より具体的には、本システムは、単音節の語音を音声で呈示し、音声呈示を起点として計測したユーザ脳波の事象関連電位を指標に、語音聴取のうるささを評価する。
 ここで、本明細書で用いる文言を説明する。「事象関連電位(event-related potential:ERP)」とは、脳波(electroencephalogram:EEG)の一部であり、外的あるいは内的な事象に時間的に関連して生じる脳の一過性の電位変動をいう。また、「音声を呈示する」とは、聴覚刺激(「音声刺激」ともいう。)を出力することをいう。たとえば、音声をスピーカから出力する。なお、スピーカの種類は任意であり、床やスタンド上に設置されたスピーカでもよいし、ヘッドフォン型のスピーカでもよい。ただし、スピーカは、正しく評価を行うために指定した音圧で正確に出力できる必要がある。また「評価」は「判定」の意味としても用いられる。
 本願発明者らは、語音明瞭度評価および評価時のユーザ状態を詳細に分析した結果、ユーザにとってうるさいと感じる程度を示す「うるささ」の評価が必要であるという知見を見出した。以下で、具体的に説明する。
 語音明瞭度評価では、語音ごとに音声を聞き分けられたかどうかを聞き分けられた(○)/聞き分けられなかった(×)で評価する。聞き分けられた語音の数を評価対象の語音数(67s式語表の場合は20)で割って求める。そのため、語音聴取時のユーザ状態は結果に反映されない。
 しかしながら、実際には快適に聞き分けができた場合と、聞き分けはできたが不快であった場合が存在すると考えられる。語音明瞭度評価は、補聴器販売店において実施される短時間の評価である。ユーザがうるさいと感じたかどうかは評価対象ではないため、我慢できないうるささでなければ少しうるさいと感じてもユーザは我慢して評価課題を遂行する。
 ところが、日常的に長時間にわたって補聴器を装用する場合には、長時間にわたってうるささを我慢することは、ユーザにとって負担である。
 これらの状況に鑑み、本願発明者らは、語音聴取時のユーザ状態として、「うるささに対する我慢」が不要な場合と、「うるささに対する我慢」が必要な場合は切り分けて評価すべきであると考えた。うるささは、語音聴取時の脳内における処理であるため、脳波の測定により評価できる可能性がある。
 1.実験概要
 本願発明者らは、語音聴取のうるささ判定の実現を目指し、うるささを反映した脳波特徴成分を特定するために以下の実験を実施した。
 単音節の語音を音声で呈示し、音声に対応する語音をユーザに思い浮かべさせる設定で、音声呈示を起点に事象関連電位を計測する脳波計測実験を実施した。実験では、語音聴取に対するうるささに関する主観報告をさせた。そして、うるささに関する主観報告に基づき、それぞれ事象関連電位を加算平均した。なお、音声に対応する語音を思い浮かべさせるという手順は、うるささ判定においては必須ではない。
 その結果、本願発明者らは、音声呈示を起点とした事象関連電位において、音声に対するうるささの増加に伴い潜時約200msの陰性成分(N1成分)の潜時が短くなることを発見した。さらに、語音ごとの子音長又は子音強度などの特徴の違いによって、N1成分の潜時が異なることを発見した。「潜時」とは、音声刺激が呈示された時刻を起点として陽性成分または陰性成分のピークが出現するまでの時間を示す。
 これらの発見から、本願発明者らは、潜時約200msの陰性成分(N1成分)の潜時から語音聴取のうるささの判定が可能であることを見出した。本手法により、語音聴取のユーザ状態として、うるさいと感じていたかの評価を、語音ごとに客観的・定量的に実現できる。
 以下で、これらをより詳細に説明する。はじめに、語音聴取のうるささ判定を実現するために本願発明者らが実施した脳波計測実験について説明する。その後、実施形態としての、語音聴取の快適性を評価する語音聴取のうるささ判定装置の概要および語音聴取のうるささ判定装置を含む語音聴取のうるささ判定システムの構成および動作を説明する。
 2.脳波計測実験
 脳波計測実験では、音声呈示後に取得したうるささに関する主観報告と、音声を起点とした事象関連電位との関係を調べた。以下、図1から図6を参照しながら、脳波計測実験の実験設定および実験結果を説明する。
 実験参加者は、正常な聴力を持つ大学・大学院生13名であった。
 図1は、脳波計測実験の実験手順の概要である。まず、手順Aにおいて単音節の音声を呈示した。呈示した音声の詳細は後述する。次に手順Bにおいて、参加者に音声を聞かせ、聞き取った音声に対応する平仮名を書き取らせた。呈示音声の条件を変えず、語音の種類のみ変化させた。手順AとBを5試行繰り返した。そして手順Cにおいて、参加者に手順Aで呈示した音声に対する、うるささ等に関する主観評価を実施させた。主観評価はタッチパネルを利用し、ビジュアルアナログスケール(100段階評価)で行った。上述の手順Aから手順Cを1ブロックとして12ブロック繰り返した(計60試行)。ブロックごとに呈示音声の音圧と歪みの条件は、ランダムな順序で変化させた。
 図2は、1ブロック分の手順を示すフローチャートである。
 ステップS11では、単音節の音声を実験参加者に呈示する。
 ステップS12では、参加者が単音節の音声を聞いて対応する文字を思い浮かべる。
 ステップS13では、参加者が聞き取った音声に対する文字を書き取る。
 ステップS14では、音声の呈示回数をカウントする。呈示回数が4回まではステップS11に戻る。呈示回数が5回のときステップS15に進み、呈示回数をリセットする。
 ステップS15では、参加者がステップS11で聞き取った音声に対して主観を回答する。
 刺激として呈示した語音音声は、聞き取り間違いが多いとされる無声子音のうち、日本聴覚医学会が制定した67S式語表に含まれる8音(キ、ク、シ、ス、タ、テ、ト、ハ)とした。正常な聴力を有する参加者に対して、うるささを操作するために、周波数ゲインを調整した語音音声を用いた。「周波数ゲイン」とは、複数の周波数帯域ごとのゲイン(回路の利得、増幅率)を意味する。
 周波数ゲインの調整には、音圧3種類(大:Large、中:Middle、小:Small)×歪み2種類(なし:Flat、あり:Distorted)の計6条件を利用した。具体的には以下の(1)~(6)のとおりである。本明細書では、たとえば、音圧大・歪みなしはLargeとFlatの頭文字を取り、LF条件などと呼ぶ。
 (1)LF(Large Flat)条件:音圧は大きく聞き分け易い音声として全ての周波数帯域においてゲインを20dB向上させた。(2)LD(Large Distorted)条件:音圧は大きいが聞き分けが難しい音声としてMD条件をベースに全体的に20dB向上させた。(3)MF(Middle Flat)条件:音圧が大きく聞き分けやすい音声として周波数ゲインの加工をしなかった。(4)MD(Middle Distorted)条件:聞き分けが難しい音声としてLF条件の音声を250Hz-16kHzの周波数のゲインを段々と-30dBまで調整(低減)した。(5)SF(Small Flat)条件:音圧は小さいが聞き分け易い音声として全ての周波数帯域においてゲインを20dB下げた。(6)SD(Small Distorted)条件:音圧が小さく聞き分けが難しい音声としてMD条件をベースに全体的に20dB下げた。
 図3(a)は、音声と歪みの6条件の分類を示す。また、図3(b)は、周波数ごとのゲイン調整量を示す。高周波数帯の周波数ゲインを低減させた理由は、高齢難聴の典型的なパターンである高音漸傾型を模擬するためである。音声刺激は、周波数特性がフラットなスピーカから呈示した。
 脳波は頭皮上のFz、Cz、Pz、C3、C4(国際10-20法)、左右こめかみ、右目上下から右マストイドを基準に記録した。「マストイド」とは、耳の裏の付け根の下部の頭蓋骨の乳様突起である。図4(a)は、国際10-20法(10-20 System)の電極位置を示し、図4(b)は本実験で電極を装着した電極配置を示す。サンプリング周波数は200Hz、時定数は1秒とした。オフラインで0.05-20Hzのディジタルバンドパスフィルタをかけた。音声呈示に対する事象関連電位として、音声が呈示された時刻を起点に-200msから1000msの波形を切り出した。ここで、「-200ms」とは、音声を呈示する時刻より200ミリ秒前の時点をいう。
 以下、主観評価結果の分布と閾値の設定を説明する。
 まず、主観評価の結果を示す。主観評価結果に基づき、後述の方法で決定した参加者ごとの閾値に基づいて、「うるさい」/「うるさくない」のラベル付けを行った。以下では、その主観評価のラベルを語音聴取時のユーザ状態とする。
 図5は、うるささに関する参加者ごとの主観評価の結果である。横軸は主観評価値(ビジュアルアナログスケールの1から100)で、縦軸は度数分布を全試行数で割った割合(0から1)である。図5には全試行に対する割合が示されている。
 図5中の実線は主観評価結果の分布であり、破線は主観評価(「うるさい」/「うるさくない」)を分割した閾値を示す。本願発明者らは、閾値を個人ごとの評価結果(ビジュアルアナログスケールの1から100)の順位に基づいて決定した。具体的には本願発明者らは、個人内での評価値の順位が、評価値が大きい方から3分の1を「うるさい」、それ以外を「うるさくない」とし、閾値を設定した。ただし、評価結果が同じものは同じ主観評価として扱った。
 以下、事象関連電位の結果として、主観評価の結果によってラベル付けした、「うるさい」/「うるさくない」の基準に基づいて加算平均した結果を説明する。
 図6は、頭頂部(Pz)において音声刺激が呈示された時刻を起点とした事象関連電位を示す。具体的には、図6は、上述の方法でラベル付けした「うるさい」/「うるさくない」の基準によって分けて総加算平均した波形である。加算平均は、上記計測実験の全6条件における、ブロックごとのうるささに関する主観評価に基づいて行った。図6の横軸は時間で単位はms、縦軸は電位で単位はμVである。図6中に示されたスケールから明らかなとおり、グラフの下方向が正(陽性)に、上方向が負(陰性)に対応している。図6中に示される実線は「うるさい」場合の総加算平均波形であり、破線は、「うるさくない」場合の総加算平均波形である。
 図6より、「うるさくない」場合の破線に比べて、「うるさい」場合の実線では、潜時約200msに惹起される陰性成分(N1成分)の潜時が短いことが分かる。参加者ごとのN1成分の潜時は「うるさい」場合は195ms、「うるさくない」場合には240msであった。潜時をt検定した結果、有意差が認められた(p<.05)。よって、「うるさくない」場合よりも「うるさい」場合で潜時は短かったと結論付けることができた音声刺激の呈示(以下「音声呈示」という。)が行われた時刻を起点としたN1成分の潜時は、ユーザの主観的なうるささを反映し、語音聴取時のうるささの指標として利用できるといえる。
 ところで、純音(トーンピップ、トーンバースト)を用いた従来研究により、聴覚刺激に対するN1成分の潜時および振幅は、音刺激の強度と立ち上がり時間に応じて変化することが知られている(鈴木他、1985、聴性脳幹反応-その基礎と臨床- pp384-385参照)。具体的には、刺激音の強度の増大に伴って潜時は短縮し、振幅(N1成分-P2成分の差の絶対値)は増大する。また、刺激音の立ち上がり時間の増大に伴い、振幅が減少する。
 本実験では聴覚刺激として語音を用いた。図7は、本実験で用いた、MF条件(8語音:キ、ク、シ、ス、タ、テ、ト、ハ)の音声波形の例を示す。図7からも明らかなように、音声ごとに、子音部分の長さ・強度や、母音部分の強度・立ち上がり時間が異なっていることが分かる。たとえば子音部分の長さ(子音長)に着目する。子音長は、発生開始時刻(0ms)後に、波形が比較的大きく立ち上がるまでの時間長である。より具体的には、子音長は、母音が立ち上がるまでの時間長である。子音長は、カ行(キ・ク)では約80ms、サ行(シ・ス)では約170ms、タ行(タ・テ・ト)では約40ms、ハ行(ハ)では130msであった。また、たとえば、子音部分の強度は、サ行においてカ・タ・ハ行と比べて強かった。それら行ごとの音声波形が大きく異なる一方で、同じ行であれば全体の波形の特徴が似ていることも分かる。
 なお、カ行とは、kから始まる語音を示す。具体的には、ka、ki、ku、ke、koを示す。サ行とは、sから始まる語音を示す。具体的には、sa、si、su、se、soを示す。タ行とは、tから始まる語音を示す。具体的には、ta、ti、tu、te、toを示す。
 従来研究における純音刺激に関する知見、および、図7に示した語音ごとの音声波形の差異によれば、語音に対するN1成分の潜時・振幅は、語音ごとに異なる可能性がある。呈示した語音音声の特徴がN1成分の潜時変動の要因であるとすれば、「うるささ」とは無関係にN1成分の潜時が変動する。そのため、たとえばうるさくない音声に対してうるさい、あるいはうるさい音声に対してうるさくない、のような誤評価をするおそれがある。
 そこで、本願発明者らは、音声波形の特徴が似ている同じ行ごとに加算平均を実施した。行ごとの加算平均により、N1成分の潜時の分析に必要な一定の加算平均回数を確保した。そして、行ごとの加算平均波形の結果から音声刺激の特徴の違いがN1成分の潜時におよぼす影響を調べた。なお、音圧とN1成分潜時との関係を明らかにするために、歪みの有無に関わらず、音圧ごとに加算平均を実施した。
 図8(a)~(c)は、行ごとの加算平均の結果の一例である。図8(a)~(c)は順に、タ行(タ・テ・ト)、ハ行(ハ)、サ行(シ・ス)の結果を示している。図8の横軸は時間で単位はms、縦軸は電位で単位はμVである。
 図8中に示されたスケールから明らかなとおり、グラフの下方向が正(陽性)に、上方向が負(陰性)に対応している。図8中に示される太実線はLarge条件(85dB)の場合の総加算平均波形であり、破線は、Middle条件(65dB)の場合の総加算平均波形、細実線はSmall条件(45dB)の場合の総加算平均波形である。図8中の○印は、N1成分を示している。N1成分は、たとえば0msから500msの区間における最小値を取っている。また、図8(a)から(c)中に、音声波形と脳波との時間的な対応関係を示すために、それぞれの行を代表して、語音「タ」、「ハ」、「シ」の音声波形を、起点をそろえて示した。図8より、いずれの行においても、音圧の増大に伴ってN1成分の潜時が短縮している様子が見て取れる。また、図8(c)のLarge条件では、母音部分が立ち上がる前に、N1成分がピークをとることがわかる。
 図9は、本実験によって得られたN1成分の潜時の、音圧による変化の一例を示す。図9中には、従来研究による純音の音圧による変化も示した。図9によれば、(1)音強度、および、(2)子音長について、下記の特徴を見出すことができる。(1)音強度については、いずれの行においても音圧の増大に伴い、N1潜時が短縮していることが分かる。また、(2)子音長については、タ行の結果とハ行の結果との比較により、子音長に応じて、N1成分の潜時が異なることが分かる。
 以下、上述の音強度、および、子音長に関してそれぞれ考察する。
 まず、語音音声の音圧増大に伴うN1成分の潜時の減少特性を考察する。従来研究によれば、純音では、同様の40dBの音圧増大に対して、N1成分の潜時は10msのみ短縮することが分かっている。一方、本願発明者らの実験結果を用いて語音音声の音圧増大に伴うN1潜時の減少度合いを検討すると、45dBから85dBにかけての40dBの音圧増大に対して、サ行・タ行・ハ行の平均で約100ms短縮することが認められた。これは、純音と語音とではN1成分の減少特性が異なることを示している。よって、語音音声の音圧増大に伴う振幅減少特性は本願発明者らが実施した実験において初めて明らかになったといえる。
 次に、子音長に応じたN1成分の潜時の減少特性を考察する。たとえば、図7に示されるように、タ行とハ行の子音長はそれぞれ約40msと約130msであり、約90msの差がある。Small条件におけるタ行とハ行の潜時は236msと322msであり、約90msの差が保存されている。よって、このN1成分は母音の立ち上がりに対して惹起されたと考えられる。一方、ほかの行と比べて子音強度が強いサ行では、子音長の影響は異なった。サ行の子音長は約170msであり、ハ行の子音長(約130ms)比較して長いが、全ての音圧条件においてN1成分の潜時はサ行においてハ行よりも短かった。また、サ行のLarge条件におけるN1成分の潜時は156msであり、サ行の子音長よりも短かった。
 これらの結果から、子音長の持続時間が所定時間(たとえば100ms程度)よりも長く、かつ子音強度が強い場合には、子音に対してN1成分が惹起されるといえる。
 図10は、刺激として呈示した語音音声の子音強度の例として、MF条件における子音部分に関する二乗平均振幅のその時刻までの和を示す。図10より、サ行では、ほかの語音と比較して、子音部の強度が強いことが分かる。「子音強度」とは、音声波形の子音部分の時間帯における振幅の大きさを意味する。子音強度は、たとえば子音部分の振幅の二乗平均値によって求めてもよい。
 また、図11は、子音強度が弱い子音および強い子音の各音声波形の例を示す。ザ行「ジ」・ラ行「リ」に比べてマ行「モ」・ナ行「ネ」の子音強度が強い様子が見て取れる。なお、サ行以外に、たとえばマ行・ナ行・ヤ行・ワ行・ガ行の語音については子音強度が強いといえる。
 よって、子音部分の強度が強い子音の、子音部分に対してN1成分が惹起されず、母音部分にのみN1成分が惹起された場合(N1成分の潜時が想定よりも大幅に遅れた場合)には、子音部分が聞き取れなかったと判定することも可能である。
 以上、脳波計測実験により、語音聴取に対するユーザのうるささに関する主観評価を反映する脳波成分の存在が明らかになった。具体的には、うるささは潜時約200msにピークを持つ陰性電位に反映されることを発見した。また、N1成分の潜時は、音声波形の違いの影響で語音ごとに異なることを発見した。
 上述の頭頂部(Pz)における、うるささに関する主観評価ごとの、潜時約200msのN1成分(図6)の潜時は、たとえば該当区間において最小の電位を取る時刻としてもよい。また、典型的なN1成分の波形からテンプレートを作成し、そのテンプレートと計測波形の一致度が最も高くなる場合の、テンプレートのN1成分のピーク時刻を潜時としてもよい。なお、N1成分の潜時は、潜時に関する所定の閾値との比較を行う方法等によって識別可能である。なお、閾値・テンプレートはあらかじめ保持した典型的なユーザのものを利用してもよいし、個人ごとに作成してもよい。また、今回の実験では、音声が呈示された時刻を起点とした事象関連電位にうるささに関する主観を反映した成分が出現することを確認する意味で、13人の参加者のデータを加算平均した。しかし、特徴量抽出の方法(たとえば波形のウェーブレット変換)や識別方法(たとえばサポートベクターマシンラーニング)の工夫により、非加算または数回程度の少数加算でも陰性成分の識別は可能である。
 本願明細書においては、事象関連電位の成分を定義するためにある時点から起算した所定時間経過後の時刻を、たとえば「潜時約200ms」と表現している。これは、200msという特定の時刻を中心とした範囲を包含し得ることを意味している。「事象関連電位(ERP)マニュアル-P300を中心に」(加我君孝ほか編集、篠原出版新社、1995)の30頁に記載の表1によると、一般的に、事象関連電位の波形には、個人ごとに30msから50msの差異(ずれ)が生じる。したがって、「約Xms」や「Xms付近」という語は、Xmsを中心として30から50msの幅がその前後(例えば、300ms±30ms、750ms±50ms)に存在し得ることを意味している。また、上述のように、語音音声の特徴に応じてN1成分の潜時は変化する。よって、少なくとも子音長の変動分(0ms:母音から約200ms:子音)を含めて、より広い幅、たとえば前後に約150ms程度の幅であるとして取り扱うことが好ましい。よって、本実施形態において、「潜時約200ms」は、50ms以上350ms以下の範囲に含まれる潜時を意味する。
 以上、本願発明者らが実施した脳波計測実験により、音声が呈示された時刻を起点とした事象関連電位において、潜時約200msの陰性成分(N1成分)がうるささを反映することが明らかになった。ゆえに、音声呈示(音声刺激)に対する事象関連電位を指標に、語音聴取時のうるささに関する主観評価が実現可能となる。
 図12は、本願発明者らによってまとめられた、N1成分の潜時とうるささ判定との対応関係を示す。N1成分の潜時が所定の閾値よりも短い場合に「うるさい」と判定する。N1成分の潜時が所定の閾値よりも長い場合に「うるさくない」と判定する。
 なお、一般的には「陰性成分」とは0μVよりも小さい電位を意味する。しかしながら本願明細書では、「うるさい」と感じたか否かを識別するために、潜時が所定の閾値よりも短い場合を「陰性成分あり」、潜時が所定の閾値よりも長い場合を「陰性成分なし」と定義する。閾値の具体例は後述する。
 以下、本発明の実施形態にかかる語音聴取のうるささ判定システムを説明する。語音聴取のうるささ判定システムは、単音節の語音を音声で順次呈示し、音声が呈示された時刻を起点とした事象関連電位の潜時約200msの陰性成分の潜時に基づいて、語音聴取のうるささ判定を実現する。これは本願発明者らの発見に基づき初めて実現される。
 (実施形態1)
 以下では、まず、語音聴取のうるささ判定システムの概要を説明する。その後、語音聴取のうるささ判定装置を含む語音聴取のうるささ判定システムの構成および動作を説明する。
 本実施形態による語音聴取のうるささ判定システムは、音声を順次呈示し音声呈示時刻の各々を起点に事象関連電位を計測する。そして、潜時約200msの陰性成分を検出し、語音聴取のうるささを判定する。
 本実施形態においては、探査電極を頭頂部(Pz)に設け、基準電極を左右どちらかのマストイドに設けて、探査電極と基準電極の電位差である脳波を計測する。なお、事象関連電位の特徴成分のレベルや極性は、脳波計測用の電極を装着する部位や、基準電極および探査電極の設定の仕方に応じて変わる可能性がある。しかしながら、以下の説明に基づけば、当業者は、そのときの基準電極および探査電極に応じて適切な改変を行って事象関連電位の特徴成分を検出し、語音明瞭度の評価を行うことが可能である。そのような改変例は、本発明の範疇である。
 なお、上記脳波計測実験の説明においては、実験的に正常な聴力を有する参加者に対して周波数ゲインの強弱を変化させて、難聴者の聞こえの状況に近い状況を再現した。しかしながら、難聴者に対して評価を実施する場合には聞き分けにくい語音をあえて呈示する必要はない。本実施形態では、あらかじめ測定した難聴者のオージオグラムからフィッティング理論に基づいて、周波数ごとに最適なゲインで調整された音声を呈示することを前提とする。なお、ユーザが補聴器を装用した状態で評価する場合には、呈示する音声に対する調整は不要である。
 図13は、本実施形態による語音聴取のうるささ判定システム100の構成および利用環境を示す。この語音聴取のうるささ判定システム100は後述する実施形態1のシステム構成に対応させて例示している。
 語音聴取のうるささ判定システム100は、語音聴取のうるささ判定装置1と、音声出力部11と、生体信号計測部50とを備えている。生体信号計測部50は少なくとも2つの電極AおよびBと接続されている。電極Aはユーザ5のマストイドに貼り付けられ、電極Bはユーザ5の頭皮上の頭頂部(いわゆるPz)に貼り付けられている。
 語音聴取のうるささ判定システム100は、単音節の語音をある音圧の音声でユーザ5に呈示し、音声呈示時刻を起点に計測したユーザ5の脳波(事象関連電位)において潜時約200msのN1成分の潜時が所定の閾値よりも短いか否かを識別する。そして、呈示音声と当該N1成分の潜時に関する識別結果に基づき、語音聴取時にユーザがうるさいと感じたかを判定する。
 ユーザ5の脳波は、電極Aと電極Bとの電位差に基づいて生体信号計測部50により取得される。生体信号計測部50は、電位差に対応する情報(脳波信号)を無線または有線で語音聴取のうるささ判定装置1に送信する。図13では、当該情報を生体信号計測部50が無線で語音聴取のうるささ判定装置1に送信する例を示している。
 語音聴取のうるささ判定装置1は、語音聴取のうるささ判定のための音声の音圧又は音声の呈示タイミングの制御を行い、音声出力部11(たとえばスピーカ)を介してユーザ5に音声を呈示する。
 図14は、本実施形態による語音聴取のうるささ判定装置1のハードウェア構成を示す。語音聴取のうるささ判定装置1は、CPU30と、メモリ31と、オーディオコントローラ32とを有している。これらは互いにバス34で接続され、相互にデータの授受が可能である。
 CPU30は、メモリ31に格納されているコンピュータプログラム35を実行する。コンピュータプログラム35には、後述するフローチャートに示される処理手順が記述されている。語音聴取のうるささ判定装置1は、このコンピュータプログラム35にしたがって、同じメモリ31に格納されている語音データベース(DB)71を利用して、語音聴取のうるささ判定システム100の全体を制御する処理を行う。この処理は後に詳述する。
 オーディオコントローラ32は、CPU30の命令に従って、それぞれ、呈示すべき音声を生成し、生成した音声信号を指定された音圧で音声出力部11に出力する。
 なお、語音聴取のうるささ判定装置1は、1つの半導体回路にコンピュータプログラムを組み込んだDSP等のハードウェアとして実現されてもよい。そのようなDSPは、1つの集積回路で上述のCPU30、メモリ31、オーディオコントローラ32の機能を全て実現することが可能である。
 上述のコンピュータプログラム35は、CD-ROM等の記録媒体に記録されて製品として市場に流通され、または、インターネット等の電気通信回線を通じて伝送され得る。図14に示すハードウェアを備えた機器(たとえばPC)は、当該コンピュータプログラム35を読み込むことにより、本実施形態による語音聴取のうるささ判定装置1として機能し得る。なお、語音DB71はメモリ31に保持されていなくてもよく、たとえばバス34に接続されたハードディスク(図示せず)に格納されていてもよい。
 図15は、本実施形態による語音聴取のうるささ判定システム100の機能ブロックの構成を示す。語音聴取のうるささ判定システム100は、音声出力部11と、生体信号計測部50と、語音聴取のうるささ判定装置1とを有している。図15はまた、語音聴取のうるささ判定装置1の詳細な機能ブロックも示している。すなわち、語音聴取のうるささ判定装置1は、事象関連電位処理部55と、うるささ判定部65と、呈示語音決定部70と、語音DB71と、結果蓄積DB80とを備えている。なお、ユーザ5のブロックは説明の便宜のために示されている。
 語音聴取のうるささ判定装置1の各機能ブロック(語音DB71を除く)は、それぞれ、図14に関連して説明したプログラムが実行されることによって、CPU30、メモリ31、オーディオコントローラ32によって全体としてその時々で実現される機能に対応している。
 語音DB71は、語音聴取のうるささ判定を行うための語音のデータベースである。図16は、たとえば67S式語表の20語音を検査語音として用いる場合の語音DB71の例を示す。図16に示した語音DB71では、呈示する語音ごとの音声ファイル、子音ラベルに加えて、語音ごとのN1成分の基準潜時を対応付けて保持する。語音毎のN1成分の基準潜時は、語音に含まれる子音の長さ又は子音の強度に応じた長さであることが好ましい。音声ファイルは、たとえば67S語表の20語に関する標準的なテスト音声としてもよいし、補聴器を装用して主に会話する相手の声を収録した収録音声としてもよい。保存されている音声は、あらかじめ測定した難聴者のオージオグラムからあるフィッティング理論に基づいて周波数ごとのゲイン調整(補聴処理)が完了しているとする。なお、保存される語音の種類は、67S式語表の20語音以外にも、57S式語表の50音を用いてもよい。子音ラベルは、ユーザ5がどの子音においてうるささが高いかを評価する際に利用される。
 N1成分の基準潜時は、語音音声の特徴の違いの影響を考慮した、語音ごとのN1成分の潜時の閾値(単位はms)である。標準的なテスト音声を用いる場合には、一般的なユーザがうるささを感じる音圧において、語音ごとに計測したN1成分の潜時を用いてもよい。また、標準的なテスト音声に限らず、たとえば補聴器を装用して主に会話する相手の声を録音した収録音声を用いる場合には、たとえば呈示語音の子音長と子音強度とに基づいて算出した値を設定してもよい。このN1成分の基準潜時と、計測したN1成分の潜時との比較によって、うるささを判定する。うるささ判定の方法については後述する。
 再び図15を参照する。呈示語音決定部70は、語音DB71を参照し、どの語音をどの音圧で呈示するかを決定する。呈示語音は、たとえばランダムな順序で選択・決定してもよい。呈示語音の音圧は、語音明瞭度曲線測定の55dB SPL、65dB SPL、75dB SPL、85dB SPLの音声に対して補聴処理を実施した後の音圧とする。音圧は、小さな音圧から大きな音圧に順に変更してもよいし、その逆でもよい。また、ランダムな順序で音圧を選択してもよい。
 呈示語音決定部70は、音声呈示時刻に合わせてトリガを生体信号計測部50へ出力し、また呈示される音声の内容を事象関連電位処理部55に送信する。
 音声出力部11は、呈示語音決定部70によって決定された単音節の音声を再生することにより、ユーザ5に呈示する。
 生体信号計測部50は、ユーザ5の生体信号を計測する脳波計であり、生体信号として脳波を計測する。そして、脳波データに対してN1成分の抽出に適した遮断周波数の周波数フィルタリングを行い、呈示語音決定部70から受けたトリガを起点に所定区間(たとえば-200msから500msの区間)の脳波の事象関連電位を切り出し、その波形データ(脳波データ)を事象関連電位処理部55に送付する。N1成分の周波数は10Hz程度である。よって、周波数フィルタとしてバンドパスフィルタを用いる場合には、たとえば脳波の5Hzから15Hzまでの成分を通過させるように設定してもよい。ユーザ5はあらかじめ脳波計を装着しているものとする。脳波計測用の電極はたとえば頭頂部のPzに装着される。
 事象関連電位処理部55は、呈示語音決定部70から受けた呈示音声の内容に応じて、生体信号計測部50から受けた事象関連電位の加算演算を行う。事象関連電位処理部55は、たとえば同じ語音の音声呈示に対する事象関連電位のみを選択して、語音の種類毎に事象関連電位の加算演算を行う。同じ語音のみで事象関連電位を加算した場合には語音ごとのうるささ判定が可能となる。語音音声の特徴は同じ子音を持つ語音において似ているため、加算は、同じ子音を持つ語音の事象関連電位を選択して行ってもよい。また、図16に示したN1成分の基準潜時の差がたとえば10ms以内と小さい語音をグルーピングして加算してもよい。同じ子音を持つ語音で加算した場合には、子音の種類毎に、語音聴取のうるささの評価が可能となる。また、N1成分の基準潜時の差が小さい語音ごとに加算した場合には、そのグループごとのうるささ判定が可能となる。子音ごと、N1成分の基準潜時の差の小さなグループごとの加算によって、ある程度加算回数が確保された加算波形がそれぞれ得られる。また、たとえば、計測脳波データの特徴として、事象関連電位処理部55において、N1成分をシグナルとしてS(signal)/N(noise)を求めてもよい。なお、上述の実験では事象関連電位の加算平均を実施したが、N1成分の潜時のみに着目する場合には平均の処理は不要である。
 事象関連電位処理部55は、語音ごとに所定回数の加算演算を実行して得られた脳波データを、うるささ判定部65に送付する。
 うるささ判定部65は、事象関連電位処理部55から脳波データを受け取って、後述する解析処理を行う。
 うるささ判定部65は、事象関連電位処理部55から受け取った脳波データの潜時約200msにおける、N1成分の潜時に基づいて、ユーザがうるさいと感じたか否かを判定する。たとえば、うるささ判定部65は、呈示語音決定部70から受けたトリガを起点とする50msから350msの間で陰性電位のピークを与える時刻(以下「ピーク潜時」とも呼ぶ。)を、N1成分の潜時として、語音DB71に保存した所定の基準潜時(閾値)と比較する。そして、N1成分のピーク潜時が所定の閾値よりも短い場合には「うるさい」と判定し、ピーク潜時が所定の閾値より小さい場合を「うるさくない」と判定する。ここで、「うるさい」とは、語音が、ユーザが不快に感じるほど大きな音圧であることを意味する。「うるさくない」とは、語音が、ユーザがうるさすぎて不快に感じることのない範囲の音圧であることを意味する。なお、うるささ判定部65は、「うるさい」と「うるさくない」の2値の判定だけでなく、N1成分のピーク潜時と基準潜時との差を判定してもよい。
 たとえば語音ごとにうるささを判定する場合には、語音ごとの基準潜時を所定の閾値とする。また、同じ子音をもつ行ごとにうるささを判定する場合には、行ごとの基準潜時を所定の閾値とし、基準潜時の差が小さいグループごとにうるささを判定する場合には、グループごとの基準潜時を所定の閾値としてもよい。
 結果蓄積DB80は、呈示語音決定部70から呈示した音声の情報を受け取る。また結果蓄積DB80は、うるささ判定部65から語音ごとのうるささ判定の結果の情報を受け取る。そして、たとえば呈示音声の語音ごと・音圧ごとに、受け取ったうるささの判定結果の情報を蓄積する。
 図17は、結果蓄積DB80におけるデータ蓄積の例である。図17では、語音ごと・音圧ごとにうるささの情報を蓄積する場合を例示している。たとえば図17中の「1」は、うるささ判定部65においてN1成分の潜時が基準潜時よりも短く、「うるさい」と判定された場合を示し、「0」は、N1成分の潜時が基準潜時よりも長く、「うるさくない」と判定された場合を示す。
 図18(a)から(c)は、語音明瞭度曲線の測定結果(従来評価)と、従来評価に加えて本実施形態による語音聴取のうるささ判定結果の例である。図18(a)は、装用時において呈示音声の音圧ごとの語音明瞭度のみを評価した例である。この例は従来の評価手法によって得られた評価結果である。この例では、65dB SPL以上の音圧において、明瞭度は80%以上と評価されている。そのため、非装用時(図18には表示せず)と比較して語音明瞭度が向上している場合には補聴器適合検査で適合と判定される。
 図18(b)および(c)は、図18(a)に示した装用時における語音明瞭度曲線の測定結果に加えて、本実施形態によるうるささ判定を加えた評価結果の例である。語音明瞭度曲線は、発話やキー入力等を行う従来の方法で別途測定したとする。
 図18(b)および(c)の明瞭度は同じであるが、うるささ判定の結果が大きく異なる。たとえば、図18(b)では、うるささの評価が全体的に低い。そこで、ユーザがうるささを感じることが少ない補聴処理であると評価できる。また、たとえば、図18(c)では、うるささの評価が全体的に高く、65dB SPL以上の大きな音圧では特に高い。そこで、日常会話の音圧である65dB SPLでうるささを感じる補聴処理だと評価できる。このような評価によって、たとえば図18(b)の場合に、ユーザがさらに明瞭度向上を要求するのであれば、全体的にゲイン調整量を上げる、図18(c)の場合には全体的にゲイン調整量を下げ、さらにノンリニア増幅におけるコンプレッションを強くするという具体的なフィッティング手順の提案ができる。
 なお、図18(b)、(c)では、装用時のみのうるささの評価を示しているが、非装用時(裸耳)についてもうるささを評価し、非装用時と装用時でうるささを比較してもよい。
 次に、図19を参照しながら図15の語音聴取のうるささ判定システム100において行われる処理手順を説明する。図19は、語音聴取のうるささ判定システム100において行われる処理の手順を示すフローチャートである。
 ステップS101において、呈示語音決定部70は語音DB71を参照しながら呈示する単音節の語音と音圧を決定する。音声出力部11は、決定された音圧でユーザ5にその語音を呈示する。呈示語音決定部70は、生体信号計測部50にはトリガを送信し、事象関連電位処理部55には呈示した語音に関する音声情報を送信する。呈示する語音はDB71からランダムに選択してもよいし、特定の子音の語音を集中的に選択してもよい。呈示語音の音圧は、たとえば語音明瞭度曲線測定の55dB SPL、65dB SPL、75dB SPL、85dB SPLの音声に対して補聴処理を実施した後の音圧とする。音圧の呈示順序は、小さな音圧から大きな音圧に順に変更してもよいし、その逆でもよい。また、ランダムな順序で音圧を選択してもよい。
 ステップS102において、生体信号計測部50は呈示語音決定部70からトリガを受けて、計測した脳波のうち、トリガを起点にたとえば-200msから500msまでの事象関連電位を切り出す。そしてたとえば-200msから0msの平均電位を求め、その平均電位が0μVになるよう、得られた事象関連電位をベースライン補正する。
 なお、生体信号計測部50は、評価中常に脳波を計測し、脳波データに対してN1成分の抽出に適した周波数フィルタをかけているものとする。適した周波数フィルタとは、たとえばN1成分の中心周波数10Hz周辺の、5Hzから15Hzを通過させるバンドパスフィルタである。なお、脳波データに対してたとえば5Hz以上のハイパスフィルタをかけた場合には、低周波の基線変化の影響をほとんど受けないため、ベースライン補正は必須ではない。
 ステップS103において、事象関連電位処理部55はステップS102で切り出した事象関連電位を、呈示語音決定部70から受けた呈示語音の情報に基づき、語音ごと・音圧ごとに加算する。本実施形態では語音ごと・音圧ごとに加算演算を行っているが、加算演算の対象は語音ごとに限られない。たとえば、語音の種類に応じて、たとえば子音ごとや基準潜時の差の小さい語音のグループごとに行ってもよいし、呈示された音圧ごとに行ってもよい。すなわち、各語音が語音の種類または、子音の種類、基準潜時の差が小さいグループの少なくとも一つに基づいて分類されるときにおいて、事象関連電位処理部55は、同じ分類に属する語音が呈示されたときに得られる脳波信号の事象関連電位を加算すればよい。
 ステップS104において、事象関連電位処理部55はステップS101で呈示された語音に対する事象関連電位の加算回数が所定の加算回数に到達したか否かを判定する。加算回数が所定回数以下の場合には処理はステップS101へ戻り、音声の呈示を繰り返す。加算回数が所定回数以上の場合には、処理はステップS105へ進む。所定回数とは、たとえば20回である。なお、「20回」は、事象関連電位を計測する分野において多く採用される加算回数であるが、これは一例に過ぎない。たとえば、事象関連電位処理部55において、N1成分をシグナルとしてS(signal)/N(noise)を求め、S/Nが一定以上となる加算回数を所定回数としてもよい。
 ステップS105において、事象関連電位処理部55は所定回数の加算演算をした脳波データをうるささ判定部65に送付する。
 ステップS106において、うるささ判定部65は、事象関連電位処理部55から受け取った脳波データのN1成分の潜時を求め、語音DB71から受け取ったN1成分の基準潜時と比較を行う。脳波データにおけるN1成分の潜時は、たとえば0msから500msの区間において電位が最小となる時刻とする。また、ステップS103において語音ごと・音圧ごとの加算を実施した場合には、語音ごとの基準潜時と、脳波データにおけるN1成分の潜時との比較を行う。
 ステップS107において、うるささ判定部65は、脳波データにおけるN1成分の潜時が基準潜時よりも短い場合に、ユーザ5はうるさいと感じたと判定する。一方、脳波データにおけるN1成分の潜時が基準潜時よりも長い場合に、ユーザ5はうるさくないと感じたと判定する。
 ステップS108において、結果蓄積DB80は、ステップS101で呈示した語音ごと・音圧ごとに、うるささ判定部65から受け取ったうるささの判定結果の情報を蓄積する。
 ステップS109において、呈示語音決定部70は、語音聴取のうるささを評価する予定の、全ての語音・音圧において刺激呈示が完了したか否かを判定する。完了していない場合には処理はステップS101へ戻り、完了している場合には語音聴取のうるささ判定を終了する。
 結果蓄積DB80において蓄積した語音ごと・音圧ごとのうるささ判定結果に基づけば、より具体的なフィッティング手順の提案ができる。たとえば、図18(b)に示す語音明瞭度曲線の測定結果が得られたとする。図18(b)ではうるささの評価が全体的に低いと考えられる。しかしながら、ユーザがさらに明瞭度向上を要求するのであれば、全体的にゲイン調整量を上げればよい。これにより、そのユーザにより適切なフィッティングを実現できる。また、図18(c)に示す語音明瞭度曲線の測定結果が得られた場合には全体的にゲイン調整量を下げ、さらにノンリニア増幅におけるコンプレッションを強くする、というフィッティングを提案してもよい。
 本実施形態では、単音節の語音を音声で呈示する設定で音声が呈示された時刻を起点とした事象関連電位の潜時約200msの陰性成分を用いた処理により、語音聴取のうるささを評価した。上述の処理によれば、語音聴取時に、ユーザがどれくらいうるささを感じたか(うるささ)に関する判定が実現できる。これは、語音明瞭度とは異なる語音聴取のうるささを軸として、補聴処理の適合度合いを評価できることを意味する。うるささを軸として補聴処理の評価ができるので、ユーザが語音聴取時にうるささを感じない、聞いていて疲れにくい補聴処理を実現できる。
 なお、本実施形態における語音聴取のうるささ判定装置1は、図14に示すとおり、一般的なハードウェアを用いた、小型化可能な構成により実現される。うるささ判定装置1を持ち運び可能な大きさおよび重さで構成してユーザが携行することにより、ユーザが補聴器を利用する音環境で語音聴取の快適性を評価することができる。なお、図13では音声出力部11をスピーカとしたが、音声出力部11はヘッドフォンでもよい。ヘッドフォンを用いることで、持ち運びが簡易になりユーザが利用する環境において語音明瞭度の評価が可能となる。
 本実施形態では日本語の評価を想定して説明した。しかしながら、単音節の語音であれば英語でも中国語でもよい。たとえば英語の場合には、単音節の単語を呈示し、単語ごとの評価をしてもよい。単音節の英単語は、短時間の音声であり、子音と母音とで構成されている。そのため、上述の日本語における単音節語音とほぼ同様に、子音長および子音強度に基づいて、単語ごとに基準潜時を決定できる。
 図20は、単音節の単語ごとにうるささを評価した結果の一例を示している。図20中の「1」は、ユーザがうるさいと感じたこと、「0」はうるさいと感じなかったことを示す。
 本実施形態の語音聴取のうるささ判定システム100によれば、ユーザは音声を聞いているだけで語音聴取時にどれくらいうるささを感じたか(うるささ)の判定が実現される。これにより、語音聴取時にユーザが感じる「うるささ」が定量化され、うるささの軸で補聴処理の評価ができるようになり、うるささを感じない、聞いていて疲れにくいフィッティングを実現できる。
 本実施形態の説明では、生体信号計測部50は、呈示語音決定部70からのトリガを起点にして予め定められた範囲の事象関連電位を切り出し、ベースライン補正を行って電位波形のデータを事象関連電位処理部55に送信するとした。しかしながら、この処理は一例である。他の処理として、たとえば、生体信号計測部50は継続的に脳波を計測し、事象関連電位処理部55が必要な事象関連電位の切り出しおよびベースライン補正を行ってもよい。当該構成であれば、呈示語音決定部70は生体信号計測部50にトリガを送信する必要はなくなり、事象関連電位処理部55にトリガを送信すればよい。
 また、本実施形態においては、うるささ判定の結果は、結果蓄積DB80に蓄積されるとしたが、蓄積しなくてもよい。たとえば結果蓄積DB80をうるささ判定装置1の外部に設ける場合には、うるささ判定部65の各判定結果を単に出力すればよい。各判定結果は、語音聴取のうるささに関する情報として利用され得る。
 本実施形態に示すうるささ判定システムは、音声呈示後のユーザ脳波の潜時約200ms(より具体的には50msから350ms)の陰性成分の潜時に応じて、語音聴取に対してどれくらいうるさいと感じたか(うるささ)を判定する。その際、語音ごとに異なる基準潜時を設定することで、語音ごとのたとえば子音部分の長さ(子音長)や子音部分の強度(子音強度)などの特徴によらずに高精度でうるささを評価する。語音聴取に対するうるささ判定により、ユーザがうるささを感じることがなく、長時間にわたって補聴器を装用しても疲れにくい補聴処理を選択できる。
 (実施形態2)
 実施形態1による語音聴取のうるささ判定システム100では、語音DB71に保存されたある1種類の補聴処理に基づいてあらかじめ調整された所定の音声に対して、潜時約200msの陰性成分の有無に基づき、語音聴取時のうるささを判定した。
 しかしながら、近年、信号処理の高精度化に伴い、たとえば子音強調、指向性、ノイズリダクション等の機能を実現する補聴処理方法の開発が進んでおり、1つの補聴処理に対するうるささ判定の結果のみから、最適な補聴処理を探索・特定することには限界があった。
 そこで本実施形態では、呈示する語音音声を補聴器から出力される音に加工する補聴処理部を設け、補聴処理ごとのうるささを評価する、語音聴取のうるささ判定システムについて説明する。
 図21は、本実施形態による語音聴取のうるささ判定システム200の機能ブロックの構成を示す。語音聴取のうるささ判定システム200は、音声出力部11と、生体信号計測部50と、語音聴取のうるささ判定装置2とを有している。図15と同じブロックについては同一の参照符号を付し、その説明は省略する。なお、語音聴取のうるささ判定装置2のハードウェア構成は、図14に示すとおりである。実施形態1で説明したプログラム35(図14)と異なる処理を規定するプログラムが実行されることにより、図21に示す本実施形態による語音聴取のうるささ判定装置2が実現される。うるささ判定システム200は、補聴処理システムとも表記する。
 本実施形態による語音聴取のうるささ判定装置2が、実施形態1による語音聴取のうるささ判定装置1と大きく相違する点は、新たに補聴処理部90を設けた点である。なお、うるささ判定装置2の構成要素名に関しては、原則として実施形態1と同じ名称を用いているが、異なる動作および/または機能を有している場合には、異なる参照符号を用いている。たとえば、本実施形態では、実施形態1では行わなかった、複数の補聴処理ごとのうるささ判定を実施するため、実施形態1にかかる事象関連電位処理部55、呈示語音決定部70、語音DB71、結果蓄積DB80に代えて、本実施形態では事象関連電位処理部56、呈示語音決定部75、語音DB72、結果蓄積DB85を設けている。
 以下、語音DB72、呈示語音決定部75、補聴処理部90、事象関連電位処理部56、結果蓄積DB85および補聴処理部90を説明する。
 語音DB72は、実施形態1にかかる語音DB71と同様に、たとえば図16に示した67S式語表の20語音のような語音聴取のうるささ判定を行うための語音データベースである。語音DB71と同様に、語音ごとにN1成分の基準潜時の情報も保持している。語音DB72と語音DB71との差異は、語音DB72が補聴処理前の語音データを持つ点である。
 呈示語音決定部75は、実施形態1にかかる呈示語音制御部70と同様に語音DBを参照し、語音の種類と音圧を決定する。呈示語音決定部75と呈示語音制御部70との差異は、呈示語音決定部75がどの補聴処理で音声を加工するかを選択し、補聴処理部90に呈示語音の音声データを共に送付する点である。
 補聴処理部90は、呈示語音決定部75から受けた補聴処理選択に関する指示と、音声データとに基づき、音声データを指示された補聴処理方法で加工する。補聴処理には、たとえば子音強調、指向性、ノイズリダクション等がある。子音強調の補聴処理が選択されていた場合には、たとえば通常よりも子音周波数のゲイン増幅量を上げるという処理をほどこし、音声データを加工する。なお、補聴処理部90は、うるささ判定部65の判定結果に基づいて、音声のゲイン増幅量を調整してもよい。たとえば、うるささ判定部65がうるさいと判定した語音の音声データに対して、所定のゲイン増幅量を低下させる。うるささ判定部65がうるさくないと判定した語音の音声データに対して、ゲイン増幅量を調整しない。または、うるささ判定部65が判定した、N1成分のピーク潜時と基準潜時との差に基づいて、ゲイン増幅量を決定しても良い。たとえば、N1成分のピーク潜時と基準潜時との差の大きさが、あらかじめ定めた範囲に含まれる場合には、補聴処理部90は、ゲイン増幅量を調整しない。N1成分のピーク潜時と基準潜時との差の大きさと、あらかじめ定めた範囲の上限値または下限値との差が大きいほど、補聴処理部90は、ゲイン増幅量を小さくする。
 事象関連電位処理部56は、実施形態1にかかる事象関連電位処理部55と同様に、呈示語音決定部75から受けた呈示音声の内容に応じて、生体信号計測部50から受けた事象関連電位の加算演算を行う。事象関連電位処理部56と事象関連電位処理部55との差異は、事象関連電位処理部56は、呈示語音決定部75から補聴処理の情報を受けて、語音ごと・音圧ごと・補聴処理ごとの加算演算を行う点である。
 結果蓄積DB85は、実施形態1にかかる結果蓄積DB80と同様に、たとえば語音ごと・音圧ごとに、うるささ判定部65から受け取ったN1成分の潜時に基づく、うるささ判定結果の情報を蓄積する。結果蓄積DB85と結果蓄積DB80との差異は、結果蓄積DB85は、呈示語音決定部75から、呈示刺激の語音・音圧の情報に加えて、補聴処理の種類の情報を受け取り、補聴処理の種類ごとにデータを蓄積する点である。
 図22(a)および(b)は、結果蓄積DB85におけるデータ蓄積の例である。図22では、語音ごと・音圧ごと・補聴処理ごとにうるささの判定結果をそれぞれ蓄積する場合を例示している。図22(a)は補聴処理Aのパターンを示し、図22(b)は補聴処理Bのパターンを示す。それぞれ補聴処理された語音を呈示した場合のうるささの評価結果を示している。図22中の「1」は、うるささ判定部65において、N1成分の潜時が基準潜時よりも短くユーザ5がうるさいと感じたと判定された場合で、「0」は、N1成分の潜時が基準潜時よりも長くユーザ5がうるさくないと感じたと判定された場合を示す。図22の(a)と(b)とを比べると、補聴処理Bのパターンで補聴処理された(b)の方が、「1」の数が少なく、ユーザはうるささを感じていないといえる。
 次に、図23のフローチャートを参照しながら、語音聴取のうるささ判定システム200において行われる全体的な処理の手順を説明する。
 図23は、本実施形態による語音明瞭度システム200の処理手順を示す。図23では、語音聴取のうるささ判定システム100の処理(図19)と同じ処理を行うステップについては同一の参照符号を付し、その説明は省略する。
 本実施形態による語音聴取のうるささ判定システム200の処理が、実施形態1による語音聴取のうるささ判定システム100の処理と相違する点は、ステップS201、S202およびS203である。ステップS201では、指定された補聴処理で加工した単音節音声が呈示される。ステップS202では、語音・音圧・補聴処理ごとに加算演算が行われる。ステップS203では、語音ごと・音声ごと・補聴処理ごとに結果が蓄積される。それ以外のステップについては、図19に関連して既に説明しているため、説明を省略する。
 ステップS201において、呈示語音決定部75は、語音DB72を参照して呈示する音声の種類と音圧を決定し、そのデータを取得する。さらに、呈示語音決定部75は、補聴処理を決定して、補聴処理の種類に関する情報と音声データを補聴処理部90に送付する。補聴処理部90は、呈示語音決定部75によって決定された補聴処理の種類に関する情報と音声データとを受け取り、指定された補聴処理方法に基づいて音声データを加工する。音声出力部11は、加工された音声データをユーザ5に呈示する。
 ステップS202において、事象関連電位処理部56は呈示語音決定部75から受けた呈示語音の種類、音圧、補聴処理の情報を受けて、生体信号計測部50で計測した脳波の事象関連電位を、たとえば語音ごと・音圧ごと・補聴処理ごとに加算する。
 ステップS203において、結果蓄積DBは、呈示語音決定部75から受けた呈示語音に関する情報(語音の種類、音圧、補聴処理)ごとに、うるささ判定部65で判定したN1成分の潜時に基づく、うるささの判定結果を蓄積する。結果蓄積の例は、図22に示したとおりである。
 このような処理によって、たとえば、子音強調、指向性、ノイズリダクション等の補聴処理ごとに、語音聴取に対する快適性が評価できる。
 なお、本実施形態では、複数の種類で補聴処理された音声をミックスして、ランダムな順序で呈示する場合を想定したが、たとえば補聴処理Aを行った後に補聴処理Bを行ったときのように、補聴処理の種類ごとに順番にうるささ判定を実施してもよい。補聴処理の種類ごとに実施すると、うるささ判定結果に応じて、次の補聴処理のパラメータを変更できるという特長がある。
 本実施形態の語音聴取のうるささ判定システム200によれば、補聴処理ごとのうるささを評価できる。これによって、補聴器装用の目的、使用環境に合わせた補聴処理の選択が実現できるようになる。
 (実施形態3)
 実施形態1による語音聴取のうるささ判定システム100では、うるささ判定部65において、一般的なユーザにおける語音ごとのN1成分の基準潜時と、計測した脳波データのN1成分の潜時との比較により、うるささ判定を実施した。
 N1成分は、誘発電位と呼ばれる事象関連電位の初期成分であり、潜時/振幅に関する個人差は比較的小さいと考えられる。しかしながら、N1成分に潜時/振幅の個人差が全くないわけではない。そのため、一般的なユーザの語音ごとのN1成分の潜時から求めた基準潜時による識別では、うるささをより高精度で判定するには限界があった。
 そこで本実施形態では、語音聴取のうるささ判定の前に、ユーザごとのN1成分の基準潜時を測定するキャリブレーションを行い、個人ごとのN1成分の特徴に基づいてうるささを評価する。 これにより、本実施形態によれば、実施形態1よりもうるささをより高精度で判定することが可能となった。
 図24は、本実施形態による語音聴取のうるささ判定システム300の機能ブロックの構成を示す。語音聴取のうるささ判定システム300は、音声出力部11と、生体信号計測部50と、語音聴取のうるささ判定装置3とを有している。図15と同じブロックについては同一の参照符号を付し、その説明は省略する。なお、語音聴取のうるささ判定装置3のハードウェア構成は、図14に示すとおりである。実施形態1で説明したプログラム35(図14)と異なる処理を規定するプログラムが実行されることにより、図24に示す本実施形態による語音聴取のうるささ判定装置3が実現される。
 本実施形態による語音聴取のうるささ判定装置3が、実施形態1による語音聴取のうるささ判定装置1と大きく相違する点は、新たに校正/評価切替部95および基準潜時算出部96を設けた点である。また、ユーザごとの各語音に対するN1成分の基準潜時を求め、その基準潜時に基づいてうるささ判定を実施するために、実施形態1の呈示語音決定部70、事象関連電位処理部55、語音DB71(図15)に代えて呈示語音決定部77、事象関連電位処理部57、語音DB73を設けている。
 以下、校正/評価切替部95、基準潜時算出部96、呈示語音制御部77、事象関連電位処理部57、語音DB73を説明する。
 校正/評価切替部95は、ユーザごとの各語音に対するN1成分の基準潜時を特定するための校正モードと、特定した基準潜時と計測したN1成分の潜時に基づいてうるささ判定をするための評価モードとを切り替える。そして、現在のモードを示す情報を呈示語音決定部77に送付する。なおモードの切り替えは、語音DB73に各語音に対する基準潜時が書き込まれた時点で実施してもよいし、ユーザ脳波の各語音に対するN1成分の基準潜時を特定するために必要な所定回数の語音呈示が終了した時点で実施してもよい。
 呈示語音決定部77は、語音DB73を参照し、語音の種類と呈示音声の音圧を決定し、音声出力部11を介してユーザ5に出力すると同時に、生体信号計測部50にトリガの情報を送付する。また、校正/評価切替部95から校正モード/評価モードの情報を受け取り、事象関連電位処理部57に音声情報と構成/評価モードの情報を送付する。呈示語音決定部77は、校正/評価切替部95から受け取ったモードに応じて動作を切り替える。校正モードの場合には、たとえば母音(子音部分がない単音節語)の音声を所定の音圧で呈示する。語音音声として母音を呈示することで、子音部分の影響を受けない、ユーザごとにベースとなるN1成分の潜時が特定できる。所定の音圧は、ユーザが音声を聞くことができる閾値以上の音圧である。たとえばユーザが「うるさい」と感じる音圧としてもよい。ユーザが聞くことができる音圧/ユーザがうるさいと感じる音圧は、たとえばユーザのオージオグラムを参考に決定してもよいし、あらかじめ主観評価によって測定してもよい。評価モードの場合には、呈示語音制御部70と同様に、語音を所定の音圧で呈示する。
 事象関連電位処理部57は、事象関連電位処理部55と同様に、呈示語音決定部77から受けた呈示音声の内容に応じて、生体信号計測部50から受けた事象関連電位の加算演算を行う。また、事象関連電位処理部57は、呈示語音決定部77からモード情報を受け取り、動作を切り替える。校正モードの場合には、たとえば母音ごとに加算演算を実施し、所定回数の加算が完了すると、基準潜時算出部96に、母音ごとの加算波形を送付する。評価モードの場合には、事象関連電位処理部55と同様に、うるささ判定部65に語音ごと・音圧ごとの加算波形を送付する。
 基準潜時算出部96は、事象関連電位処理部57から母音ごとの加算波形データを受け取り、潜時約200msにおけるN1成分の潜時を求める。N1成分の潜時は、たとえば潜時50msから350msにおいて電位が最小となる時刻とする。たとえば、呈示語音決定部77において、音圧をユーザが「うるさい」と感じる音圧に設定した場合には、求めた母音ごとのN1成分の潜時を、各母音の基準潜時とする。母音に対するN1潜時を測定することで、母音ごとの音特徴の違いに応じて、母音ごとにN1成分の基準潜時を求めることができる。また、子音部分を含む子音の基準潜時は、各母音の基準潜時に子音部分の特徴に応じた所定の正の値を加えて求める。所定の正の値は、子音ごとに決定する。たとえば、子音部分の強度が弱い子音の場合には、子音長を所定の正の値としてもよい。また、たとえば、子音部分の強度が強い子音の場合には、子音部分の強度が所定の値以上となるまでの時間を、所定の正の値としてもよい。そして、算出した結果を、語音DB73に書き込む。
 なお、子音に比べて母音は、語音ごとの音声特徴の差が小さいため、全ての母音に対するN1成分の潜時を平均し、母音のN1成分の基準潜時としてもよい。また、N1成分が安定的に計測できた母音の潜時のみを平均し、母音のN1成分の基準潜時としてもよい。
 語音DB73は、図16に一例を示した語音DB71と同様に、語音聴取のうるささ判定を行うための語音のデータベースである。語音DB73と語音DB71との相違点は、N1成分の基準潜時の書き換えが可能な点である。基準潜時算出部96によって、N1成分の基準潜時が書き換えられるまでは、語音ごとに基準潜時が設定されていないことを示す0を保持してもよい。
 次に、図25のフローチャートを参照しながら、語音聴取のうるささ判定システム300において行われる全体的な処理の手順を説明する。
 図25は、本実施形態による語音明瞭度システム300の処理手順を示す。図25では、語音聴取のうるささ判定システム100の処理(図19)と同じ処理を行うステップについては同一の参照符号を付し、その説明は省略する。
 本実施形態による語音聴取のうるささ判定システム300の処理が、実施形態1による語音聴取のうるささ判定システム100の処理と相違する点は、ステップS301~S306である。それ以外のステップについては、図19に関連して既に説明しているため、説明を諸略する。
 ステップS301において、校正/評価切替部95は、現在のモードを校正モードに設定し、校正モードの情報を呈示語音決定部77に送付する。校正/評価切替部95は、語音DB73を参照し、N1成分の基準潜時の値が0の場合に構成モードを選択してもよい。また、所定回数の音声呈示が終了するまでは校正モードに設定してもよい。なお、校正/評価のモード切り替えは、補聴器フィッティングの専門家やユーザ5の選択によって実施してもよい。
 ステップS302において、呈示語音決定部77は、語音DB73を参照して、たとえば母音を選択し、所定の音圧で音声出力部11を介してユーザ5に出力する。所定の音圧とは、ユーザが音声を聞くことができる閾値以上の音圧である。たとえばユーザが「うるさい」と感じる音圧としてもよい。ユーザが聞くことができる音圧/ユーザがうるさいと感じる音圧は、たとえばユーザのオージオグラムを参考に決定してもよい。
 ステップS303において、事象関連電位処理部57は、生体信号計測部50で計測した事象関連電位を、母音ごとに加算する。
 ステップS304において、基準潜時算出部96は、事象関連電位処理部57から母音ごとの加算済の波形データを受け取り、潜時約200msにおけるN1成分の潜時を求める。N1成分の潜時は、たとえば潜時50msから350msにおいて電位が最小となる時刻とする。たとえば、呈示語音決定部77において、音圧をユーザが「うるさい」と感じる音圧に設定した場合には、求めた母音ごとのN1成分の潜時を母音の基準潜時とする。そして、子音部分を含む子音の基準潜時は、母音の基準潜時に子音部分の特徴に応じた所定の正の値を加えて求める。所定の正の値は、子音ごとに決定する。たとえば、子音部分の強度が弱い子音の場合には、子音長を所定の正の値としてもよい。また、たとえば、子音部分の強度が強い子音の場合には、子音部分の強度が所定の値以上となるまでの時間を、所定の正の値としてもよい。
 ステップS305において、基準潜時算出部96は、ステップS304で算出した語音ごとのN1成分の基準潜時を、語音DB73に書き込む。
 ステップS306において、校正/評価切替部95は、語音DB73において、N1成分の基準潜時が書き込まれていることを検出して、校正モードから評価モードへの切替えを行い、評価モードの情報を呈示語音決定部77に送付する。モードの切り替えは、所定回数の音声呈示が終了した段階で実施してもよいし、補聴器フィッティングの専門家やユーザ5の操作入力によって実施してもよい。
 このような処理によって、ユーザごとの各語音に対するN1成分の基準潜時と、計測した脳波データのN1成分の潜時との比較ができるようになるため、語音聴取のうるささがより高精度で評価できるようになる。
 なお、本実施形態では、校正モードの場合に呈示語音決定部77において母音を選択し、母音に対するN1成分の潜時から、母音の基準潜時を決定し、子音の基準潜時を算出した。このようにすることで、全ての語音に対する基準潜時を算出する必要がなく、短時間で検査が実施できる。しかし、これは一例である。たとえば、うるささ判定対象の全ての語音を校正モードで呈示し、全ての語音に対して基準潜時を求めてもよい。また、たとえば、呈示語音決定部77に250Hz、500Hz、1kHz、2kHz、4kHz等のオージオグラムで一般的に測定される純音を保持し、校正モードにおいて純音を呈示し、純音に対するN1成分の潜時から語音ごとの基準潜時を算出してもよい。
 本実施形態の語音聴取のうるささ判定システム300によれば、ユーザごとの脳波特徴に合わせて高い精度でうるささを評価できる。これによって、ユーザがうるささを感じない、聞いていて疲れない補聴処理が実現できるようになる。
 なお、上述の実施形態1~3では、語音DBは語音聴取のうるささ判定装置内に設けられていると説明したが、これは必須ではない。語音DBは、たとえば語音聴取のうるささ判定装置とネットワークを介して接続されたデータベースサーバ(図示せず)や外部記憶装置内に設けられていてもよい。その場合には、各実施形態の語音聴取のうるささ判定システムは、当該データベースサーバや外部記憶装置を含むことになる。
 (実施形態4)
 実施形態1による語音聴取のうるささ判定システム100では、語音DB71に収録済みの音声と、その語音音声の特徴に合わせた語音ごとのN1成分の基準潜時を保持し、計測した脳波データのN1成分の潜時との比較によりうるささ判定を実施した。収録済みの音声には、たとえば標準的なテスト音声、補聴器を装用して主に会話する相手(以下では「話者A」と呼ぶ。)の音声がある。話者Aが発声した音声に対するうるささ判定は、日常生活において話者Aがユーザにしゃべりかける音声の評価であり、重要である。
 しかしながら、うるささ判定の前に、話者Aの音声を収録することは、話者Aにとっても補聴器フィッティングの専門化にとっても手間であった。
 そこで本実施形態では、話者Aが発声した語音音声をリアルタイムに分析して、話者Aの語音音声の特徴に合わせてユーザ5のN1成分の基準潜時を推定し、推定した基準潜時と計測した脳波のN1成分の基準潜時との比較によって、うるささを評価する。
 図26は、本実施形態による語音聴取のうるささ判定システム400の機能ブロックの構成を示す。語音聴取のうるささ判定システム400は、文字出力部12と、音声入力部41と、生体信号計測部50と、語音聴取のうるささ判定装置4とを有している。図15と同じブロックについては同一の参照符号を付し、その説明は省略する。
 本実施形態による語音聴取のうるささ判定システム400が、実施形態1による語音聴取のうるささ判定システム100と相違する点は、音声入力部41を新たに設けた点、および、音声出力部11に代えて文字出力部12を設けた点である。語音聴取のうるささ判定装置4は、これらの構成要素の追加に伴い、語音聴取のうるささ判定装置1とは異なる機能を有している。
 文字出力部12は、話者Aに対して語音の文字情報を出力する表示装置、たとえば液晶ディスプレイである。文字情報として、話者Aが発話する単音節の語音(たとえば「あ」、「だ」、「し」)を呈示する。また、単音節の語音に加えて、話者Aがどれくらいの大きさで発話するかの音圧に関する情報を示してもよい。音圧に関する情報とは、たとえば「普段話しかける程度の大きさで」、「大きな声で」、「小さな声で」である。
 音声入力部41は、話者Aが発声した音声を集音するマイクである。
 語音聴取のうるささ判定装置4については後述する。
 図27は、語音聴取のうるささ判定装置4のハードウェア構成を示す。図14に示した実施形態1と同じ構成については、同様の記号を付し、その説明は省略する。図14との相違点は、新たにサウンドコントローラ46を備えた点と、オーディオコントローラ32の代わりにグラフィックコントローラ45を備えた点、メモリ31から語音DB71を除いた点である。
 サウンドコントローラ46は、話者Aが発声し、音声入力部41から入力された音声波形をA/D変換して、得られた音声デジタルデータをCPU30に送付する。
 グラフィックコントローラ45は、CPU30の命令に従って、呈示すべき語音の文字情報を、文字出力部12に出力する。
 音声波形の分析など、本実施形態による語音聴取のうるささ判定装置4の処理は、実施形態1で説明したプログラム35(図14)と異なる処理を規定するプログラムが実行されることにより実現される。
 再び図26を参照する。本実施形態による語音聴取のうるささ判定装置4が、実施形態1による語音聴取のうるささ判定装置1と大きく相違する点は、音声分析部42と、基準潜時推定部43とを新たに設けた点である。また、本実施形態においては、呈示語音決定部78およびうるささ判定部66は、話者Aが発声する語音の種類を決定し、話者Aが発声した語音音声に対するN1成分の基準潜時を求め、その基準潜時に基づいてうるささ判定を実施する。
 以下、呈示語音決定部78、音声分析部42、基準潜時推定部43、うるささ判定部66を説明する。
 呈示語音決定部78は、予め用意され、自らが保持している語音リストを参照し、話者Aが発声する語音をランダムに決定し、文字出力部12を介して話者Aに出力する。そして、決定した語音の情報を事象関連電位処理部55および基準潜時推定部43に送る。語音リストは、たとえば67S語表の20語音でもよいし、57S語表の50音でもよい。
 音声分析部42は、音声入力部41に入力された音情報から、話者Aが音声を発声したタイミングを検出し、その音声の子音長・子音強度・母音強度などに関する特徴を分析する。そして、話者Aの発声を検出したタイミングでトリガを生体信号計測部50に送付する。さらに、基準潜時推定部42に音声特徴に関する情報を送付する。
 基準潜時推定部43は、音声分析部42から受けた音声特徴に関する情報と、呈示語音決定部78から受けた語音情報とに基づき、その語音に対するN1成分の基準潜時を推定する。
 うるささ判定部66は、実施形態1のうるささ判定部65と同様に、事象関連電位処理部55から受け取った脳波データの潜時約200msにおける、N1成分の潜時に基づいて、ユーザがうるさいと感じたか否かを判定する。たとえば、うるささ判定部66は、潜時50msから350msの陰性電位のピークの潜時を、基準潜時推定部43で推定された基準潜時(閾値)と比較する。そして、N1成分のピーク潜時が閾値よりも短い場合には「うるさい」と判定し、ピーク潜時が所定の閾値より小さい場合を「うるさくない」と判定する。
 次に、図28のフローチャートを参照しながら、語音聴取のうるささ判定システム400において行われる全体的な処理の手順を説明する。
 図28は、本実施形態による語音明瞭度システム400の処理手順を示す。図28では、語音聴取のうるささ判定システム100の処理(図19)と同じ処理を行うステップについては同一の参照符号を付し、その説明は省略する。
 本実施形態による語音聴取のうるささ判定システム400の処理が、実施形態1による語音聴取のうるささ判定システム100の処理と相違する点は、ステップS401~S407である。それ以外のステップについては、図19に関連して既に説明しているため、説明を諸略する。
 ステップS401において、呈示語音決定部78は、呈示語音決定部78が保持している語音リストを参照し、話者Aに発生させる語音の種類をランダムに決定し、決定した語音を、文字出力部12を介して話者Aに出力する。
 ステップS402において、音声分析部42は、音声入力部41に入力された音情報から、話者Aが音声を発声したタイミングを検出し、検出したタイミングでトリガを生体信号計測部50に送付する。
 ステップS403において、音声分析部42は、音声入力部41に入力された音情報から検出した音声の子音長・子音強度・母音強度などに関する特徴を分析する。そして、基準潜時推定部43に分析結果を送付する。
 ステップS404において、基準潜時推定部43は、音声分析部42から受けた音声特徴に関する情報と、呈示語音決定部78から受けた語音情報とに基づき、その語音に対するN1成分の基準潜時を推定する。基準潜時は、所定のベース潜時に、音声の子音長あるいは子音強度に基づく所定の正の値を加えて推定する。所定のベース潜時とは、たとえば90dB SPLで母音を聞いたときの一般ユーザの平均的なN1成分の潜時としてもよい。具体的には、100msとしてもよい。また、所定の正の値は、子音ごとに決定する。たとえば、子音部分の強度が弱い子音の場合には、音声分析部42において分析した子音長を所定の正の値としてもよい。また、たとえば、子音部分の強度が強い子音の場合には、音声分析部42において分析した子音部分の強度あるいは子音部分における特定周波数の強度が所定の値以上となるまでの時間を、所定の正の値としてもよい。子音強度の強弱は、呈示語音決定部78から受けた語音情報に基づいて決定してもよい。そして、推定した基準潜時をうるささ判定部66に送付する。
 ステップS405において、事象関連電位処理部55は、呈示語音決定部70から受けた呈示音声の内容と、生体信号計測部50から受けた事象関連電位を、うるささ判定部66に送付する。
 ステップS406において、うるささ判定部66は、事象関連電位処理部55から受け取った脳波データの潜時約200msにおける、N1成分の潜時に基づいて、ユーザがうるさいと感じたか否か有無を判定する。たとえば、うるささ判定部65は、潜時50msから350msの陰性電位のピークの潜時と、基準潜時推定部43からうけた基準潜時とを比較する。そして、N1成分のピーク潜時が基準潜時よりも短い場合には「うるさい」と判定し、ピーク潜時が基準潜時より小さい場合を「うるさくない」と判定する。
 ステップS407において、結果蓄積DB80は、呈示語音決定部77から語音の種類を受け取り、うるささ判定部66からうるささ判定の結果の情報を受け取る。そして、たとえば語音ごとに、うるささの判定結果の情報を蓄積する。
 このような処理によって、話者Aが発声した音声の特徴を分析し、音声特徴ごとにN1成分の基準潜時を推定し、推定したN1成分の基準潜時と、計測した脳波データのN1成分の潜時との比較が可能になる。なお、話者Aに単音節の語音を自由に発声させ、音声分析部42において音声認識をさせる場合には、呈示語音決定部78および文字出力部12はなくてもよい。
 本実施形態の語音聴取のうるささ判定システム400によれば、話者Aが発声した音声を用いて、リアルタイムに語音聴取のうるささ判定が実現できる。これによって、話者Aおよび補聴器フィッティングの専門家の手間が少なく、かつ、ユーザがうるささを感じない、聞いていて疲れない補聴処理が実現できるようになる。
 また、本実施形態では、音声分析部42は生体信号計測部50にトリガを送信するのではなく、事象関連電位処理部55にトリガを送信してもよい。このとき、生体信号計測部50は継続的に脳波を計測し、事象関連電位処理部55が必要な事象関連電位の切り出しおよびベースライン補正を行ってもよい。
 上述の実施形態においては、たとえばうるささ判定部は「判定する」という動作を行い、呈示語音決定部は「決定する」という動作を行うとして説明した。しかしながらこれらの動作は、人間の理解の便宜のための表現であり、装置が積極的に「判定」し、「決定」したことを外部に出力することを意図するものではない。装置の一構成要素としての「うるささ判定部」や「呈示語音決定部」は、所定の条件が満たされたとき、所定の処理を行えばよい。
 たとえば、うるささ判定部は、脳波データにおけるN1成分の潜時が基準潜時よりも短い場合には、ユーザがうるさいと感じたという分類でその結果を蓄積すればよく、また脳波データにおけるN1成分の潜時が基準潜時よりも長い場合に、ユーザがうるさくないと感じたという分類でその結果を蓄積すればよい。また、呈示語音決定部は、語音DBを参照して、語音をランダムな順序で選択し、音圧をランダムな順序で選択して、音声出力部に出力させればよい。これらの処理を、「判定」や「決定」という表現を利用して説明しているに過ぎないことに留意されたい。
 上述の説明は、本願発明による処理を方法として実施する場合も同様である。
 本発明の語音聴取のうるささ判定装置および語音聴取のうるささ判定装置が組み込まれた語音聴取のうるささ判定システムによれば、語音の聞き分けができたか否かの明瞭度に加えて、語音聴取時の脳波に基づき、語音聴取のうるささ判定が定量的にできる。それによって、ユーザがうるささを感じることがなく、聞いていて疲れない補聴処理が選択できるため、全ての補聴器ユーザのフィッティングにおいて利用可能である。
 1、2、3、4  語音聴取のうるささ判定装置
 5  ユーザ
 11 音声出力部
 12 文字出力部
 41 音声入力部
 42 音声分析部
 43 基準潜時推定部
 50 生体信号計測部
 55、56、57 事象関連電位処理部
 65、66 うるささ判定部
 70、75、77、78 呈示語音決定部
 71、72、73 語音DB
 80、85 結果蓄積DB
 90 補聴処理部
 95 評価切替部
 96 基準潜時算出部
 100、200、300、400 語音聴取のうるささ判定システム

Claims (20)

  1.  ユーザの脳波信号を計測する生体信号計測部と、
     複数の単音節の語音を保持する語音データベースであって、各語音について、語音と前記語音に対応する脳波信号の陰性成分の基準潜時とが対応付けられている語音データベースと、
     前記語音データベースを参照して、呈示する単音節の語音を決定する呈示語音決定部と、
     前記ユーザに、決定された語音を呈示する出力部と、
     前記語音が呈示された時刻を起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、前記語音データベースに保持されている、決定された前記語音に対応する基準潜時とを比較して、出力された前記語音のうるささを判定するうるささ判定部と
     を備えたうるささ判定システム。
  2.  語音データベースは、前記語音に含まれる子音の長さ又は子音の強度に応じて、前記語音と前記語音に対応する脳波信号の陰性成分の基準潜時を対応付けている、請求項1に記載のうるささ判定システム。
  3.  前記うるささ判定部は、前記陰性成分のピーク潜時が前記基準潜時よりも小さい場合に、前記音声信号が前記ユーザにとってうるさいと判定し、前記陰性成分のピーク潜時が前記基準潜時よりも大きい場合に、前記音声信号が前記ユーザにとってうるさくないと判定する、請求項1に記載のうるささ判定システム。
  4.  前記脳波信号の事象関連電位を、所定の基準にしたがって加算する事象関連電位処理部をさらに備え、
     前記呈示語音決定部は、複数の語音を決定し、
     前記出力部は、決定された前記複数の語音を順次呈示し、
     前記事象関連電位処理部は、前記複数の語音について、前記語音の種類又は前記語音呈示されたときの音圧が同じ語音が呈示された時刻を起点とした前記脳波信号の事象関連電位を加算して、前記加算した結果を前記うるささ判定部に出力する、請求項1に記載のうるささ判定システム。
  5.  前記うるささ判定部は、前記ピーク潜時として、前記決定された前記語音が呈示された時刻を起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分の最小の電位を取る時刻、または、前記脳波信号と予め用意されたN1成分の波形のテンプレートとの一致度が最も高くなる場合の、前記テンプレートに対応付けられたピーク潜時を採用する、請求項1に記載のうるささ判定システム。
  6.  前記事象関連電位処理部は、子音ごとまたは基準潜時の差が所定の値よりも小さい語音グループごとに事象関連電位を加算する、請求項5に記載のうるささ判定システム。
  7.  前記語音のうるささに関する判定結果を示す情報を蓄積する結果蓄積データベースをさらに備え、
     前記結果蓄積データベースには、語音ごと、子音ごと、または、基準潜時の差が所定の値よりも小さい語音グループごとに、前記語音のうるささに関する判定結果を示す情報が蓄積されている、請求項1に記載のうるささ判定システム。
  8.  前記呈示された前記語音に関して補聴処理の種類を選択し、選択された補聴処理に基づいて前記語音データベースに保持されている語音データを加工する補聴処理部をさらに備えた、請求項1に記載のうるささ判定システム。
  9.  ユーザごとの陰性成分の潜時を求める校正モードと、うるささを評価する評価モードとを切り替える切替部をさらに備え、
     前記校正モードにおいて、前記切替部は、前記呈示語音決定部において母音を選択し、母音に対する前記陰性成分の潜時に基づいて語音ごとの基準潜時を算出し、
     前記評価モードに切り替えられた後において、前記切替部は、前記陰性成分のピーク潜時と算出した前記基準潜時とを比較する、請求項1に記載のうるささ判定システム。
  10.  前記校正モードにおいて、前記評価切替部は、前記呈示語音決定部において母音が選択された場合に、母音に対するN1成分の潜時を母音の基準潜時に設定し、母音の基準潜時に子音部分の長さまたは強度に応じて決定された正の値を加えて、子音ごとの基準潜時を算出する、請求項9に記載のうるささ判定システム。
  11.  複数の単音節の語音を保持する語音データベースであって、各語音について、語音と前記語音に対応する脳波信号の陰性成分の基準潜時とが対応付けられている語音データベースと、
     前記語音データベースを参照して、呈示する単音節の語音を決定する呈示語音決定部と、
     生体信号計測部によって計測された前記ユーザの脳波信号のうち、前記語音が出力部によってユーザに呈示された時刻を起点として、50ms以上350ms以下の範囲に含まれる脳波信号の陰性成分のピーク潜時と、前記語音データベースに保持されている、決定された前記語音に対応する基準潜時とを比較した結果を出力するうるささ判定部と、
     前記うるささ判定部が出力した、前記脳波信号の陰性成分のピーク潜時と前記語音に対応する基準潜時との差に基づいて、前記語音を調整する補聴処理部と
     を備えた補聴処理システム。
  12.  ユーザの脳波信号を計測するステップと、
     複数の単音節の語音と、前記語音に対応する脳波信号の陰性成分の基準潜時とが対応付けて保持されている語音データベースを参照して、呈示する単音節の語音を決定するステップと、
     前記ユーザに、決定された語音を呈示するステップと、
     前記語音が呈示された時刻を起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、前記語音データベースに保持されている、決定された前記語音に対応する基準潜時とを比較して、出力された前記語音のうるささを判定するステップと
     を包含する、うるささ判定方法。
  13.  語音聴取のうるささ判定システムに設けられたコンピュータによって実行されるコンピュータプログラムであって、
     前記コンピュータプログラムは、前記うるささ判定システムに実装されるコンピュータに対し、
     ユーザの脳波信号を受け取るステップと、
     複数の単音節の語音と、前記語音に対応する脳波信号の陰性成分の基準潜時とが対応付けて保持されている語音データベースを参照して、呈示する単音節の語音を決定するステップと、
     前記ユーザに、決定された語音を呈示するステップと、
     前記語音が呈示された時刻を起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、前記語音データベースに保持されている、決定された前記語音に対応する基準潜時とを比較して、出力された前記語音のうるささを判定するステップと
     を実行させる、コンピュータプログラム。
  14.  ユーザの脳波信号を計測する生体信号計測部と、
     特定話者が発声した音声信号を入力するための音声入力部と、
     前記音声信号が入力されたタイミングを検出してトリガを出力し、さらに前記音声の子音部分の長さおよび強度に関する特徴を分析する音声分析部と、
     前記音声分析部で分析された前記特徴に基づいて、陰性成分の基準潜時を推定する基準潜時推定部と、
     前記トリガを起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、前記基準潜時推定部によって推定された基準潜時とを比較してうるささを判定するうるささ判定部と
     を備えたうるささ判定システム。
  15.  前記特定話者に発生させるための語音を示す文字情報を出力する文字出力部をさらに備え、
     前記文字出力部によって出力された文字情報に基づいて前記特定話者が発生した音声信号が前記音声入力部に入力される、請求項14に記載のうるささ判定システム。
  16.  前記文字出力部は、前記単音節の語音を前記特定話者が発声する際の大きさを示す音圧に関する情報をさらに出力し、
     前記文字出力部によって出力された文字情報および音圧に関する情報に基づいて前記特定話者が発生した音声信号が前記音声入力部に入力される、請求項15に記載のうるささ判定システム。
  17.  予め用意された語音リストを参照して、前記特定話者に発声させる語音を決定する呈示語音決定部をさらに備え、
     前記文字出力部は、前記呈示語音決定部によって決定された前記語音を示す文字情報を出力する、請求項15に記載のうるささ判定システム。
  18.  前記基準潜時推定部は、前記音声分析部で分析された前記特徴、および、呈示語音決定部が決定した前記特定話者に発声させる語音に基づいて、前記陰性成分の基準潜時を推定する、請求項17に記載のうるささ判定システム。
  19.  前記基準潜時推定部は、予め用意されたベース潜時に、前記音声の子音長あるいは子音強度に基づいて決定される所定の正の値を加えることにより、前記陰性成分の基準潜時を推定する、請求項17に記載のうるささ判定システム。
  20.  ユーザの脳波信号を計測するステップと、
     特定話者が発声した音声信号を入力するステップと、
     前記音声信号が入力されたタイミングを検出してトリガを出力し、さらに前記音声の子音部分の長さおよび強度に関する特徴を分析するステップと、
     分析する前記ステップで分析された前記特徴に基づいて、陰性成分の基準潜時を推定するステップと、
     前記トリガを起点として50ms以上350ms以下の範囲に含まれる前記脳波信号の陰性成分のピーク潜時と、推定する前記ステップによって推定された基準潜時とを比較してうるささを判定するステップと
     を包含する、うるささ判定方法。
PCT/JP2011/006435 2010-11-24 2011-11-18 うるささ判定システム、装置、方法およびプログラム Ceased WO2012070212A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012512101A JP5144835B2 (ja) 2010-11-24 2011-11-18 うるささ判定システム、装置、方法およびプログラム
CN2011800378518A CN103053179A (zh) 2010-11-24 2011-11-18 嘈杂度判定系统、装置、方法以及程序
US13/630,113 US9149214B2 (en) 2010-11-24 2012-09-28 Annoyance judgment system, apparatus, method, and program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010-261372 2010-11-24
JP2010261373 2010-11-24
JP2010-261373 2010-11-24
JP2010261372 2010-11-24

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/630,113 Continuation US9149214B2 (en) 2010-11-24 2012-09-28 Annoyance judgment system, apparatus, method, and program

Publications (1)

Publication Number Publication Date
WO2012070212A1 true WO2012070212A1 (ja) 2012-05-31

Family

ID=46145583

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/006435 Ceased WO2012070212A1 (ja) 2010-11-24 2011-11-18 うるささ判定システム、装置、方法およびプログラム

Country Status (4)

Country Link
US (1) US9149214B2 (ja)
JP (1) JP5144835B2 (ja)
CN (1) CN103053179A (ja)
WO (1) WO2012070212A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017189488A (ja) * 2016-04-15 2017-10-19 日本電信電話株式会社 コンテンツ評価装置、コンテンツ評価方法、プログラム
JPWO2019022242A1 (ja) * 2017-07-28 2019-07-25 国立大学法人大阪大学 快不快の判別
CN110068466A (zh) * 2019-04-30 2019-07-30 山东理工大学 基于脑电波的车辆声品质评价方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049336B2 (en) 2013-02-14 2018-08-14 Sociometric Solutions, Inc. Social sensing and behavioral analysis system
US9443521B1 (en) * 2013-02-14 2016-09-13 Sociometric Solutions, Inc. Methods for automatically analyzing conversational turn-taking patterns
JP2015040903A (ja) * 2013-08-20 2015-03-02 ソニー株式会社 音声処理装置、音声処理方法、及び、プログラム
CN105193430A (zh) * 2015-08-31 2015-12-30 京东方科技集团股份有限公司 一种保护装置、可穿戴设备及保护方法和显示系统
WO2018166625A1 (en) * 2017-03-17 2018-09-20 Telefonaktiebolaget Lm Ericsson (Publ) Method and appartus for adaptive audio signal alteration
EP3684463B1 (en) 2017-09-19 2025-05-14 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement
US10580427B2 (en) * 2017-10-30 2020-03-03 Starkey Laboratories, Inc. Ear-worn electronic device incorporating annoyance model driven selective active noise control
JP6337362B1 (ja) * 2017-11-02 2018-06-06 パナソニックIpマネジメント株式会社 認知機能評価装置、及び、認知機能評価システム
US11717686B2 (en) 2017-12-04 2023-08-08 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to facilitate learning and performance
US12280219B2 (en) 2017-12-31 2025-04-22 NeuroLight, Inc. Method and apparatus for neuroenhancement to enhance emotional response
US11273283B2 (en) 2017-12-31 2022-03-15 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to enhance emotional response
US11364361B2 (en) 2018-04-20 2022-06-21 Neuroenhancement Lab, LLC System and method for inducing sleep by transplanting mental states
CA3112564A1 (en) 2018-09-14 2020-03-19 Neuroenhancement Lab, LLC System and method of improving sleep
US10922044B2 (en) * 2018-11-29 2021-02-16 Bose Corporation Wearable audio device capability demonstration
US10817251B2 (en) 2018-11-29 2020-10-27 Bose Corporation Dynamic capability demonstration in wearable audio device
US10923098B2 (en) 2019-02-13 2021-02-16 Bose Corporation Binaural recording-based demonstration of wearable audio device functions
US11786694B2 (en) 2019-05-24 2023-10-17 NeuroLight, Inc. Device, method, and app for facilitating sleep
KR102774638B1 (ko) * 2019-07-11 2025-02-27 현대자동차주식회사 오류 모니터링을 이용한 교통 감시 시스템
EP3961624B1 (de) * 2020-08-28 2024-09-25 Sivantos Pte. Ltd. Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals
US20230222359A1 (en) * 2022-01-11 2023-07-13 Dell Products L.P. Conversational artificial intelligence system with live agent engagement based on automated frustration level monitoring

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60219000A (ja) * 1984-04-14 1985-11-01 Rion Co Ltd 補聴器
JPH08275297A (ja) * 1995-03-31 1996-10-18 Rion Co Ltd リモートコントローラ
WO2010073614A1 (ja) * 2008-12-22 2010-07-01 パナソニック株式会社 語音明瞭度評価システム、その方法およびそのコンピュータプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06114038A (ja) 1992-10-05 1994-04-26 Mitsui Petrochem Ind Ltd 聴覚検査・訓練装置
JPH0938069A (ja) 1995-08-02 1997-02-10 Nippon Telegr & Teleph Corp <Ntt> 語音聴力検査方法およびこの方法を実施する装置
ATE407622T1 (de) * 2000-05-19 2008-09-15 Baycrest Ct For Geriatric Care Vorrichtung zur objektiven hörbewertung bei anwendung von auditiven stationären evozierten potentialen
US8311228B2 (en) * 2006-06-01 2012-11-13 Personics Holdings Inc. Ear input sound pressure level monitoring system
US8165687B2 (en) * 2008-02-26 2012-04-24 Universidad Autonoma Metropolitana, Unidad Iztapalapa Systems and methods for detecting and using an electrical cochlear response (“ECR”) in analyzing operation of a cochlear stimulation system
EP2164066B1 (en) 2008-09-15 2016-03-09 Oticon A/S Noise spectrum tracking in noisy acoustical signals
JP5144836B2 (ja) * 2010-06-11 2013-02-13 パナソニック株式会社 語音聴取の評価システム、その方法およびそのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60219000A (ja) * 1984-04-14 1985-11-01 Rion Co Ltd 補聴器
JPH08275297A (ja) * 1995-03-31 1996-10-18 Rion Co Ltd リモートコントローラ
WO2010073614A1 (ja) * 2008-12-22 2010-07-01 パナソニック株式会社 語音明瞭度評価システム、その方法およびそのコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIN'YA KURISHIRO: "Measurements of auditory evoked neuromagnetic field using a multichannel SQUID magnetometer", JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 48, no. 5, 1 May 1992 (1992-05-01), pages 320 - 327 *
TAKAHIRO TAMESUE ET AL.: "Kioku Seishin Sagyoji no Soon ni Taisuru Shinri-Seiriteki Teiryo Hyoka ni Kansuru Kisoteki Kosatsu", REPORT OF THE 2009 SPRING MEETING, THE ACOUSTICAL SOCIETY OF JAPAN KOEN YOSHI-KOEN RONBUN CD-ROM, 10 March 2009 (2009-03-10), pages 1031 - 1032 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017189488A (ja) * 2016-04-15 2017-10-19 日本電信電話株式会社 コンテンツ評価装置、コンテンツ評価方法、プログラム
JPWO2019022242A1 (ja) * 2017-07-28 2019-07-25 国立大学法人大阪大学 快不快の判別
JP2020073084A (ja) * 2017-07-28 2020-05-14 国立大学法人大阪大学 快不快の判別
JP7203388B2 (ja) 2017-07-28 2023-01-13 国立大学法人大阪大学 快不快の判別
US11690547B2 (en) 2017-07-28 2023-07-04 Osaka University Discernment of comfort/discomfort
CN110068466A (zh) * 2019-04-30 2019-07-30 山东理工大学 基于脑电波的车辆声品质评价方法

Also Published As

Publication number Publication date
US20130039498A1 (en) 2013-02-14
CN103053179A (zh) 2013-04-17
JP5144835B2 (ja) 2013-02-13
US9149214B2 (en) 2015-10-06
JPWO2012070212A1 (ja) 2014-05-19

Similar Documents

Publication Publication Date Title
JP5144835B2 (ja) うるささ判定システム、装置、方法およびプログラム
JP5144836B2 (ja) 語音聴取の評価システム、その方法およびそのプログラム
JP4690507B2 (ja) 語音明瞭度評価システム、その方法およびそのプログラム
JP5042398B1 (ja) 脳波記録装置、補聴器、脳波記録方法およびそのプログラム
JP4769336B2 (ja) 補聴器の調整装置、方法およびプログラム
JP5002739B2 (ja) 聴力判定システム、その方法およびそのプログラム
JP5215508B1 (ja) 不快閾値推定システム、方法およびそのプログラム、補聴器調整システムおよび不快閾値推定処理回路
JP4638558B2 (ja) 語音明瞭度評価システム、その方法およびそのコンピュータプログラム
US8849391B2 (en) Speech sound intelligibility assessment system, and method and program therefor
WO2012063423A1 (ja) 音圧評価システム、その方法およびそのプログラム
JPWO2013057929A1 (ja) 不快音圧推定システム、不快音圧推定装置、不快音圧推定システムの作動方法およびそのコンピュータプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180037851.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2012512101

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11842780

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11842780

Country of ref document: EP

Kind code of ref document: A1