WO2021234873A1 - Sound source separation model learning device, sound source separation device, sound source separation model learning method, and program - Google Patents
Sound source separation model learning device, sound source separation device, sound source separation model learning method, and program Download PDFInfo
- Publication number
- WO2021234873A1 WO2021234873A1 PCT/JP2020/019997 JP2020019997W WO2021234873A1 WO 2021234873 A1 WO2021234873 A1 WO 2021234873A1 JP 2020019997 W JP2020019997 W JP 2020019997W WO 2021234873 A1 WO2021234873 A1 WO 2021234873A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sound source
- spectrogram
- unit
- template
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Definitions
- the present invention relates to a sound source separation model learning device, a sound source separation device, a sound source separation model learning method, and a program.
- a sound source separation technology that separates the signal of each sound source from the monaural mixed sound signal of multiple sound sources.
- a technique proposed based on the idea of a class identification problem that identifies which speaker's energy is dominant at each time frequency point of the spectrogram of the observed signal.
- a technique using a machine learning method has been proposed as a technique proposed based on the idea of such a class identification problem.
- a sound source separation technique using a machine learning method for example, a sound source separation technique using a neural network (NN) has been proposed (see Non-Patent Documents 1 and 2).
- a sound source separation technique using a neural network for example, a sound source separation technique using a deep clustering (DC) method (see Non-Patent Documents 3 and 4) has been proposed.
- DC deep clustering
- the time frequency point is a point (that is, a source included in the time frequency space) in the space (time frequency space) where the time axis and the frequency axis extend.
- Each time frequency point indicates an N-dimensional feature quantity vector for each time and frequency indicated by the position of each time frequency point in the time frequency space (N is an integer of 2 or more).
- the feature amount vector is a set of information that satisfies a predetermined condition obtained through learning or the like among the information obtained from the analysis target.
- Learning the low-dimensional embedded representation means learning a mapping that transforms an N-dimensional feature vector into a feature vector with dimensions less than N.
- the sound source separation technique using the DC method sound source separation is performed by clustering the obtained embedded vectors by using an unsupervised clustering method such as the k-means method.
- the embedded vector is a feature vector having a dimension less than N at each time frequency point. It has been experimentally shown that the sound source separation technique using the DC method is capable of highly accurate separation even for mixed voices of unknown sound sources.
- the trained model which is a map obtained by learning and is a map for performing sound source separation.
- Interpreting a trained model means knowing the basis for the predicted results of the trained model. For example, in the case of the DC method, it may be difficult for the user to determine the basis for determining the embedded vector.
- the understanding of the DC method will be deepened, and it is expected that the sound source separation technology will be further improved, such as improvement of generalization performance and adaptation to sound sources other than the speaker.
- the sound source separation technology will be greatly improved if the user can visualize what kind of spectrogram structure is specifically used as a clue when determining the embedded vector.
- One aspect of the present invention is a learning data acquisition unit that acquires a spectrogram of a mixed signal in which a plurality of sounds are mixed and dominant sound source information indicating whether or not a target sound source is dominant for each time frequency point of the spectrogram. And estimation of the composite product using a template, which is information representing one or more values related to the spectrogram, which is one or more values at time frequency points belonging to one section divided in the time axis direction of the spectrogram.
- a weight estimation unit that estimates the weights used in the above, a dominant sound source information estimation unit that acquires the estimation result of the dominant sound source information based on the combined product, and a loss acquisition unit that acquires the difference between the estimation result and the dominant sound source information.
- the template and the weight used for estimating the synthetic product indicate the estimation result regarding the spectrogram of the target sound source, and the weight estimation unit is a machine that estimates the weight so as to reduce the difference. It is a sound source separation model learning device that learns a learning model.
- the present invention makes it possible to facilitate the interpretation of a trained model that separates sound sources.
- the flowchart which shows an example of the flow of the process executed by the sound source separation model learning apparatus 1 in embodiment.
- the figure which shows the 2nd result of the separation experiment in an embodiment The figure which shows the 3rd result of the separation experiment in an embodiment.
- the figure which shows the 4th result of the separation experiment in an embodiment The figure which shows the 5th result of the separation experiment in an embodiment.
- the figure which shows the sixth result of the separation experiment in an embodiment The figure which shows the 7th result of the separation experiment in an embodiment.
- FIG. 1 is an explanatory diagram illustrating an outline of the sound source separation system 100 of the embodiment.
- the sound source separation system 100 will be described below by taking an audio signal as an example as a signal for dealing with the processing of the sound source separation system 100 for the sake of simplicity.
- any signal to be processed by the sound source separation system 100 is a sound signal. It may be a thing.
- the signal to be processed by the sound source separation system 100 may be a signal of the sound of a musical instrument.
- the sound source is a monaural sound source.
- the sound source separation system 100 separates the non-mixed sound signal from the mixed sound signal to be separated.
- the mixed sound signal is a sound signal in which a plurality of non-mixed sound signals are mixed. Different non-mixed sound signals are signals with different sound sources.
- the mixed sound signal is, for example, a voice signal in which the voice emitted by the first person is mixed with the voice emitted by the second person.
- the sound source separation system 100 separates the voice signal emitted by the first person and the voice signal emitted by the second person.
- the voice signal emitted by the first person and the voice signal emitted by the second person are examples of non-mixed sound signals.
- the number of non-mixed sound signals separated by the sound source separation system 100 may be one or a plurality.
- the sound source separation system 100 includes a sound source separation model learning device 1 and a sound source separation device 2.
- the sound source separation model learning device 1 obtains a trained model (hereinafter referred to as “sound source separation model”) that estimates dominant sound source information from the mixed spectrogram by machine learning.
- the mixed spectrogram is a spectrogram of a mixed sound signal. Dominant means that the spectrogram strength (ie, sound intensity) is stronger than other sound sources.
- the time frequency point represents one point in the spectrogram. That is, a time frequency point is a point in space where one axis represents time and one axis represents frequency. The value of the time frequency point in the spectrogram represents the sound intensity.
- the dominant sound source information is information indicating which of the plurality of sound sources included in the mixed spectrogram is dominant for each time frequency point of the mixed spectrogram. Therefore, the sound source separation model is a model that acquires the estimation result of the dominant sound source information (hereinafter referred to as "estimated dominant sound source information") from the mixed spectrogram.
- Learning for the sake of simplicity of the following explanation means to appropriately adjust the value of the parameter in the machine learning model (hereinafter referred to as “machine learning model”) based on the input.
- learning to be A means that the value of the parameter in the machine learning model is adjusted to satisfy A.
- A represents a predetermined condition.
- the trained model is a machine learning model after one or a plurality of learnings have been performed, and is a machine learning model at a timing when a predetermined end condition (hereinafter referred to as “learning end condition”) is satisfied.
- the sound source separation model learning device 1 performs learning using data for obtaining a trained model (hereinafter referred to as "learning data").
- the training data specifically includes a plurality of pairs of data.
- the paired data is a pair of the learning spectrum gram X and the learning dominant sound source information Y.
- the spectrogram X for learning is a mixed spectrogram used as an explanatory variable when the sound source separation model learning device 1 obtains a trained model.
- the spectrogram X for learning is information represented by the following equation (1).
- Equation (1) f (f is an integer of 0 or more (F-1) or less.
- F is an integer of 1 or more.
- Equation (1) Represents the position of each point in the mixed spectrogram on the frequency axis.
- N is an integer of 1 or more) represents the position of each point of the mixed spectrogram on the time axis. Therefore, equation (1) represents a mixed spectrogram having (F ⁇ N) time frequency points. More specifically, the spectrogram X for learning is expressed by the following equation (2).
- K (k is an integer of 1 or more and K or less. K is an integer of 1 or more) in the equation (2) is an identifier for identifying each time frequency point.
- the learning dominant sound source information Y is information used as an objective variable when the sound source separation model learning device 1 obtains a trained model. That is, the learning dominant sound source information Y is a correct label in the learning data.
- the learning dominant sound source information Y indicates whether or not a predetermined sound source (hereinafter referred to as “learning sound source”) is dominant for each time frequency point of the learning spectrum gram X. Whether or not the learning sound source is dominant at each time frequency point is represented by, for example, a binary value of 0 or 1 for each time frequency point.
- FIG. 2 is an explanatory diagram illustrating an outline of the sound source separation model learning device 1 in the embodiment.
- the sound source separation model learning device 1 estimates the spectrogram template and the template weight, which will be described later, based on the spectrogram X for learning, and acquires the combined product of the estimated spectrogram template and the template weight.
- the sound source separation model learning device 1 acquires the estimation result of the learning dominant sound source information Y (hereinafter referred to as “estimated dominant sound source information V”) based on the synthetic product.
- the sound source separation model learning device 1 is a machine learning model (hereinafter referred to as a machine learning model) that estimates the template weight based on the spectrogram template and the learning spectrogram X based on the difference between the acquired estimated dominant sound source information V and the learning dominant sound source information Y. "Weight estimation model”) and is updated.
- the spectrogram template is one or more values at time frequency points belonging to one interval (hereinafter referred to as "time interval") divided in the time axis direction of the learning spectrogram X, and is one or more related to the learning spectrogram X. Information that represents the value of.
- the spectrogram template is the same regardless of the interval.
- the spectrogram template is updated by learning.
- the value of the spectrogram X for learning represented by the spectrogram template depends on the learning process by the sound source separation model learning device 1. Therefore, the value related to the spectrogram X for learning represented by the spectrogram template may be a physical quantity or a value that is not a physical quantity such as a statistical value, and what kind of value it is is a sound source separation model learning device. It is not a value determined in advance by one user.
- the spectrogram template is updated by training during the learning stage (ie, until the learning end condition is met), but does not change during the stage of separating the mixed sound signal to be separated using the trained model (that is, the sound source separation model). ..
- the template weight is a weight used for estimating the synthetic product using the spectrogram template based on the spectrogram X for learning.
- the template weight is a value corresponding to the mixed sound signal to be separated even at the stage of separating the mixed sound signal to be separated by using the trained model (that is, the sound source separation model).
- the sound source separation model is a trained model having a weight estimation model at the timing when the learning end condition is satisfied, and is a trained model having a spectrogram template at the timing when the learning end condition is satisfied as a (trained) parameter. ..
- the sound source separation model learning device 1 includes a sound source separation neural network 110, a loss acquisition unit 120, and a template update unit 130.
- the sound source separation neural network 110, the loss acquisition unit 120, and the template update unit 130 cooperate to perform learning to obtain a sound source separation model.
- the sound source separation neural network 110 is a neural network that obtains a sound source separation model by learning based on the loss acquired by the loss acquisition unit 120, which will be described in detail later.
- the sound source separation neural network 110 includes an input information acquisition unit 111, a configuration information estimation unit 112, and a dominant sound source information estimation unit 113.
- the input information acquisition unit 111 acquires the learning spectrogram X.
- the input information acquisition unit 111 is an input layer in the sound source separation neural network 110.
- the configuration information estimation unit 112 estimates the template weight based on the learning spectrogram X.
- the configuration information estimation unit 112 may be any as long as the template weight can be estimated based on the learning spectrogram X and the weight estimation model can be updated by learning.
- the configuration information estimation unit 112 is, for example, a convolutional neural network (CNN).
- the configuration information estimation unit 112 is, for example, an intermediate layer from the first intermediate layer to the (L-1) intermediate layer in the sound source separation neural network 110.
- the configuration information estimation unit 112 learns based on the loss acquired by the loss acquisition unit 120, which will be described in detail later.
- the weight estimation model is updated by learning by the configuration information estimation unit 112.
- the weight estimation model is updated to reduce the loss.
- the dominant sound source information estimation unit 113 acquires the combined product of the spectrogram template and the template weight.
- the dominant sound source information estimation unit 113 acquires the estimated dominant sound source information V based on the acquired synthetic product.
- the dominant sound source information estimation unit 113 is, for example, the Lth intermediate layer and the output layer in the sound source separation neural network 110.
- the loss acquisition unit 120 acquires the difference between the estimated dominant sound source information V and the learning dominant sound source information Y.
- the difference between the estimated dominant sound source information V and the learning dominant sound source information Y is referred to as a loss.
- the loss is expressed by, for example, the following equation (3).
- the symbol on the left side of the equation (3) is a symbol representing the loss.
- YY T is when the element in the k row and k'column is 1 when the same sound source is dominant at the time frequency point k and the time frequency point k'of the learning spectrogram X, and when it is not. It is a binary matrix of K rows and K columns such that it is 0. Note that k and k'are integers of 1 or more and K or less, and K is an integer of 2 or more.
- the template update unit 130 updates the spectrogram template based on the loss. More specifically, the template update unit 130 updates the spectrogram template so as to reduce the loss.
- the template update unit 130 updates the spectrogram template, it means that the values of the parameters representing the spectrogram template in the neural network constituting the dominant sound source information estimation unit 113 are appropriately adjusted.
- the template update unit 130 updates the spectrogram template to a non-negative value (hereinafter referred to as “non-negative value”) when updating the spectrogram template.
- the spectrogram template (that is, the initial value of the spectrogram template) at the stage where the sound source separation neural network 110 has never been learned is a predetermined value.
- the initial value of the spectrogram template is a predetermined value using, for example, a random number.
- the spectrogram template does not have to be one, and may be multiple.
- the number of spectrogram templates may be a predetermined number preset by the user, or may be a predetermined number using a method such as cross validation.
- the input layer of the sound source separation neural network 110 is the input information acquisition unit 111
- the intermediate layer from the first intermediate layer to the (L-1) intermediate layer is the configuration information estimation unit 112
- the L The condition is that the intermediate layer and the output layer are the dominant sound source information estimation unit 113.
- the template weight is estimated based on the learning spectrogram X input to the input layer.
- the output result of the first (L-1) intermediate layer is the template weight.
- the activation function of the third (L-1) intermediate layer outputs a non-negative value. Therefore, the template weight value is non-negative.
- the activation function that outputs a non-negative value is, for example, a soft plus function or a rectified linear function.
- the first intermediate layer to the (L-1) layer intermediate layer may be any neural network that can estimate the template weight based on the learning spectrogram X input to the input layer.
- the composite product of the spectrogram template and the template weight is acquired.
- the process of acquiring the composite product is expressed by a mathematical formula, for example, by the following equation (5).
- H (L) represents the output of the Lth layer
- H (L-1) represents the output of the (L-1) layer.
- the equation (5) is expressed in more detail by the following equation (6) for each element of H (L).
- d represents a sound source.
- d is a value of 0 or 1, where 1 represents one of the two speakers and 0 represents the other.
- m is an integer of 1 or more and N or less, and represents the time on the time axis of the spectrogram X for learning.
- J (j is an integer of 1 or more and J is an integer of 1 or more. J is an integer of 1 or more) in the equation (6) is an identifier for identifying the spectrogram template for the sound source d. Therefore, J is the total number of spectrogram templates for the sound source d.
- equation (6) is expressed by the following equation (8) after the left side of the equation (6) is shifted by m in the time axis direction for each of the J spectrogram templates represented by the following equation (7). It is shown that it is the sum of the products multiplied by the values to be calculated.
- Equation (8) represents the template weight multiplied by the spectrogram template j at the time (nm ) of the sound source d of H (L-1).
- the synthetic product acquired in the Lth intermediate layer is standardized.
- the processing of the final layer is represented by, for example, the following equation (9).
- Equation (9) is expressed in more detail by the following equation (10) for each element of V.
- Equation (10) represents that the squared norm of the estimated dominant sound source information V is 1.
- the estimated dominant sound source information V may be standardized in any way, and may be standardized so that the p-th power norm of the estimated dominant sound source information V is 1 (p is an integer of 1 or more).
- the left side of the equation (10) can be interpreted as representing the Wiener mask.
- H (L) may be acquired as the estimated dominant sound source information V in the final layer. Since the estimated dominant sound source information V represented by the equation (9) is only a standardized synthetic product, the loss is a quantity representing the difference between the synthetic product and the learning dominant sound source information Y.
- the sound source separation device 2 separates the non-mixed sound signal from the input mixed sound signal by using the sound source separation model obtained by the sound source separation model learning device 1 by learning.
- the number of non-mixed sound signals separated from the mixed sound signal may be a number specified in advance by the user of the sound source separation device 2 (hereinafter referred to as “user-specified number”), or may be mixed based on some other learning model. It may be a number estimated by using a technique for estimating the number of sound sources from a sound signal. Some other learning model is, for example, the method described in Reference 1 below.
- the sound source separation system 100 will be described by taking as an example the case where the number of non-mixed sound signals separated from the mixed sound signal is a number specified in advance by the user.
- FIG. 3 is a diagram showing an example of the hardware configuration of the sound source separation model learning device 1 in the embodiment.
- the sound source separation model learning device 1 includes a control unit 10 including a processor 91 such as a CPU (Central Processing Unit) connected by a bus and a memory 92, and executes a program.
- the sound source separation model learning device 1 functions as a device including a control unit 10, an input unit 11, an interface unit 12, a storage unit 13, and an output unit 14 by executing a program. More specifically, the processor 91 reads out the program stored in the storage unit 13, and stores the read program in the memory 92. By executing the program stored in the memory 92 by the processor 91, the sound source separation model learning device 1 functions as a device including a control unit 10, an input unit 11, an interface unit 12, a storage unit 13, and an output unit 14. ..
- a control unit 10 including a processor 91 such as a CPU (Central Processing Unit) connected by a bus and a memory 92, and executes a program.
- the control unit 10 controls the operation of various functional units included in the sound source separation model learning device 1.
- the control unit 10 executes, for example, a unit learning process.
- the unit learning process is a series of processes in which a loss is acquired using one learning data, and the spectrogram template and the weight estimation model are updated based on the acquired loss.
- the input unit 11 includes an input device such as a mouse, a keyboard, and a touch panel.
- the input unit 11 may be configured as an interface for connecting these input devices to its own device.
- the input unit 11 receives input of various information to its own device.
- the input unit 11 receives, for example, an input instructing the start of learning.
- the input unit 11 accepts, for example, input of learning data.
- the instruction to start learning may be, for example, input of learning data.
- the interface unit 12 includes a communication interface for connecting the own device to an external device.
- the interface unit 12 communicates with an external device via wired or wireless.
- the external device may be a storage device such as a USB (Universal Serial Bus) memory.
- USB Universal Serial Bus
- the interface unit 12 acquires the learning data output by the external device by communicating with the external device.
- the interface unit 12 includes a communication interface for connecting the own device to the sound source separation device 2.
- the interface unit 12 communicates with the sound source separation device 2 via wired or wireless.
- the interface unit 12 outputs a sound source separation model to the sound source separation device 2 by communicating with the sound source separation device 2.
- the storage unit 13 is configured by using a non-temporary computer-readable storage medium device such as a magnetic hard disk device or a semiconductor storage device.
- the storage unit 13 stores various information about the sound source separation model learning device 1.
- the storage unit 13 stores, for example, a weight estimation model in advance.
- the storage unit 13 stores, for example, the initial value of the spectrogram template in advance.
- the storage unit 13 stores, for example, a spectrogram template.
- the output unit 14 outputs various information.
- the output unit 14 includes display devices such as a CRT (Cathode Ray Tube) display, a liquid crystal display, and an organic EL (Electro-Luminescence) display.
- the output unit 14 may be configured as an interface for connecting these display devices to its own device.
- the output unit 14 outputs, for example, the information input to the input unit 11.
- the output unit 14 may display information indicating the spectrogram template at the time when the learning end condition is satisfied, for example.
- FIG. 4 is a diagram showing an example of the functional configuration of the control unit 10 in the embodiment.
- the control unit 10 includes a controlled unit 101 and a management unit 102.
- the managed unit 101 executes the unit learning process.
- the managed unit 101 includes a sound source separation neural network 110, a loss acquisition unit 120, a template update unit 130, and a learning data acquisition unit 140.
- the learning data acquisition unit 140 acquires the learning data input to the input unit 11 or the interface unit 12.
- the learning data acquisition unit 140 outputs the learning spectrogram X out of the acquired learning data to the sound source separation neural network 110, and outputs the learning control sound source information Y to the loss acquisition unit 120. More specifically, the learning data acquisition unit 140 outputs the learning spectrogram X to the input information acquisition unit 111.
- the management unit 102 controls the operation of the managed unit 101.
- the management unit 102 controls, for example, the execution of the unit learning process as the operation control of the managed unit 101.
- the management unit 102 controls, for example, the operations of the input unit 11, the interface unit 12, the storage unit 13, and the output unit 14.
- the management unit 102 reads various information from the storage unit 13 and outputs it to the managed unit 101.
- the management unit 102 acquires, for example, the information input to the input unit 11 and outputs the information to the managed unit 101.
- the management unit 102 acquires, for example, the information input to the input unit 11 and records it in the storage unit 13.
- the information input to the management unit 102, for example, the interface unit 12 is acquired and output to the managed unit 101.
- the information input to the management unit 102, for example, the interface unit 12, is acquired and recorded in the storage unit 13.
- the management unit 102 causes the output unit 14, for example, to output the information input to the input unit 11.
- the management unit 102 records, for example, the information used for executing the unit learning process and the information generated by executing the unit learning process in the storage unit 13.
- FIG. 5 is a diagram showing an example of the hardware configuration of the sound source separation device 2 in the embodiment.
- the sound source separation device 2 includes a control unit 20 including a processor 93 such as a CPU connected by a bus and a memory 94, and executes a program.
- the sound source separation device 2 functions as a device including a control unit 20, an input unit 21, an interface unit 22, a storage unit 23, and an output unit 24 by executing a program. More specifically, the processor 93 reads out the program stored in the storage unit 23, and stores the read program in the memory 94. By executing the program stored in the memory 94 by the processor 93, the sound source separation device 2 functions as a device including a control unit 20, an input unit 21, an interface unit 22, a storage unit 23, and an output unit 24.
- the control unit 20 controls the operation of various functional units included in the sound source separation device 2.
- the control unit 20 separates a user-specified number of non-mixed sound signals from the mixed sound signals to be separated by using, for example, the sound source separation model obtained by the sound source separation model learning device 1.
- the sound source separation device 2 will be described by taking as an example the case where the mixed sound signal to be separated is input in advance before being input to the sound source separation device 2.
- the input unit 21 includes an input device such as a mouse, a keyboard, and a touch panel.
- the input unit 21 may be configured as an interface for connecting these input devices to its own device.
- the input unit 21 receives input of various information to its own device.
- the input unit 21 accepts, for example, a user-specified number of inputs.
- the input unit 21 receives, for example, an input instructing the start of a process of separating the non-mixed sound signal from the mixed sound signal.
- the input unit 21 receives, for example, an input of a mixed sound signal to be separated.
- the interface unit 22 includes a communication interface for connecting the own device to an external device.
- the interface unit 22 communicates with an external device via wired or wireless.
- the external device is, for example, the output destination of the non-mixed sound signal separated from the mixed sound signal.
- the interface unit 22 outputs a non-mixed sound signal to the external device by communicating with the external device.
- the external device for outputting the non-mixed sound signal is a sound output device such as a speaker.
- the external device may be, for example, a storage device such as a USB memory that stores the sound source separation model.
- the interface unit 22 acquires the sound source separation model by communicating with the external device.
- the external device is, for example, an output source of a mixed sound signal.
- the interface unit 22 acquires the mixed sound signal from the external device by communicating with the external device.
- the interface unit 22 includes a communication interface for connecting the own device to the sound source separation model learning device 1.
- the interface unit 22 communicates with the sound source separation model learning device 1 via wired or wireless.
- the interface unit 22 acquires a sound source separation model from the sound source separation model learning device 1 by communicating with the sound source separation model learning device 1.
- the storage unit 23 is configured by using a non-temporary computer-readable storage medium device such as a magnetic hard disk device or a semiconductor storage device.
- the storage unit 23 stores various information about the sound source separation device 2.
- the storage unit 13 stores, for example, the sound source separation model acquired via the interface unit 22.
- the storage unit 13 stores, for example, a user-specified number input via the input unit 11.
- the storage unit 13 stores the number of spectrogram templates.
- the output unit 24 outputs various information.
- the output unit 24 includes display devices such as a CRT display, a liquid crystal display, and an organic EL display.
- the output unit 24 may be configured as an interface for connecting these display devices to the own device.
- the output unit 24 outputs, for example, the information input to the input unit 21.
- the output unit 24 outputs, for example, the spectrogram template used when the non-mixed sound signal is separated from the mixed sound signal and the template weight corresponding to the spectrogram template.
- FIG. 6 is a diagram showing an example of the functional configuration of the control unit 20 in the embodiment.
- the control unit 20 includes a separation target acquisition unit 201, a spectrogram acquisition unit 202, a separation information acquisition unit 203, a non-mixed sound signal generation unit 204, a sound signal output control unit 205, and an interface control unit 206.
- the separation target acquisition unit 201 acquires the mixed sound signal to be separated.
- the separation target acquisition unit 201 acquires, for example, the mixed sound signal input to the input unit 21.
- the separation target acquisition unit 201 acquires, for example, the mixed sound signal input to the interface unit 22.
- the spectrogram acquisition unit 202 acquires a spectrogram of the mixed sound signal acquired by the separation target acquisition unit 201 (hereinafter referred to as “separation target spectrogram”).
- the method for acquiring the spectrogram may be any method as long as the spectrogram can be acquired from the mixed sound signal.
- the spectrogram acquisition method may be, for example, a method of applying a short-time Fourier transform to the waveform of a mixed sound signal and then acquiring an amplitude spectrogram obtained by extracting only the amplitude information. Is.
- the acquired spectrogram is output to the separation information acquisition unit 203.
- the separation information acquisition unit 203 acquires the estimated dominant sound source information V for each of the user-specified number of non-mixed sound signals included in the mixed sound signal to be separated by using the sound source separation model based on the separation target spectrogram.
- the sound source separation model For the sound source separation model, spectrogram templates for all sound sources used for learning are obtained. Therefore, when the number specified by the user is plural, the sound source separation model can separate all the sound sources used for learning.
- the non-mixed sound signal generation unit 204 generates a non-mixed sound signal by using the mixed sound signal to be separated, the spectrogram to be separated, and the estimated dominant sound source information V acquired by the separation information acquisition unit 203. For example, the non-mixed sound signal generation unit 204 multiplies the estimated dominant sound source information V by the input amplitude spectrogram, adds the phase information based on the phase reconstruction method such as the Griffin-Lim method, and then applies the inverse short-time Fourier transform. Generates a non-mixed sound signal. In this way, the non-mixed sound signal generation unit 204 separates the non-mixed sound signal from the mixed sound signal to be separated. The separated non-mixed sound signal is output to the sound signal output control unit 205.
- the sound signal output control unit 205 controls the operation of the interface unit 22.
- the sound signal output control unit 205 controls the operation of the interface unit 22 so that the interface unit 22 outputs a separated non-mixed sound signal.
- FIG. 7 is a flowchart showing an example of the flow of processing executed by the sound source separation model learning device 1 in the embodiment. More specifically, FIG. 7 is a flowchart showing an example of the flow of the unit learning process.
- the sound source separation model learning device 1 executes the unit learning process shown in FIG. 7 every time the learning data is input to obtain a sound source separation model.
- Learning data is input to the input unit 11 or the interface unit 12 (step S101).
- the input information acquisition unit 111 acquires the learning spectrogram X included in the learning data (step S102).
- the configuration information estimation unit 112 estimates the template weight using the weight estimation model based on the learning spectrogram X (step S103).
- the dominant sound source information estimation unit 113 estimates the estimated dominant sound source information V based on the spectrogram template and the template weight (step S104).
- the loss acquisition unit 120 acquires the difference (that is, the loss) between the estimated dominant sound source information V and the learning dominant sound source information Y included in the learning data (step S105).
- the template update unit 130 updates the spectrogram template so as to reduce the loss, and the configuration information estimation unit 112 updates the weight estimation model so as to reduce the loss (step S106).
- FIG. 8 is a flowchart showing an example of the flow of processing executed by the sound source separation device 2 in the embodiment.
- the process executed by the sound source separation device 2 is performed by taking as an example the case where the user-specified number has been input to the sound source separation device 2 in advance and the input user-specified number has been stored in the storage unit 23. An example of the flow will be described.
- the separation target acquisition unit 201 acquires the separation target mixed sound signal input to the input unit 21 or the interface unit 22 (step S201).
- the spectrogram acquisition unit 202 acquires the spectrogram to be separated using the mixed sound signal to be separated (step S202).
- the separation information acquisition unit 203 acquires the estimated dominant sound source information V for each of the user-specified number of non-mixed sound signals included in the mixed sound signal to be separated by using the sound source separation model based on the separation target spectrogram (step). S203).
- the non-mixed sound signal generation unit 204 uses the mixed sound signal to be separated, the spectrogram to be separated, and the estimated dominant sound source information V acquired by the separation information acquisition unit 203, and the non-mixed sound from the mixed sound signal. Separate the signals (step S204).
- the sound signal output control unit 205 controls the operation of the interface unit 22 so that the interface unit 22 outputs the separated non-mixed sound signal (step S205).
- the training data was created as follows. First, a short-time Fourier transform using a humming window was applied to each one utterance signal of speaker 0 and speaker 1. Next, the weights generated from the uniform distribution on the closed interval from 0 to 1 were multiplied by each signal after the short-time Fourier transform to obtain the spectrogram X ⁇ (d) for each speaker. In the separation experiment, d is 0 or 1, where 0 indicates speaker 0 and 1 indicates speaker 1. Note that X ⁇ means a symbol represented by the following equation (11).
- X ⁇ (q) means a symbol represented by the following equation (12).
- the inputs X (X f, n ) f and n to the proposed model were scaled so that the maximum value was 1, and the amplitude spectrograms X f and n were obtained.
- the amplitude spectrograms X f and n are represented by the following equation (13).
- the information represented by the following equation (15) was used as the learning dominant sound source information Y indicating the dominant speaker at each time frequency point (f, n).
- the left side of the equation (15) represents the learning dominant sound source information Y used in the separation experiment.
- test data 66 utterances of each of the voices of speaker 0 (bdl) and speaker 1 (clb) were used.
- the method of creating the test data is the same as that of the training data, but the weight to be multiplied after applying the short-time Fourier transform is set to 1 for both speakers.
- FIG. 9 is a diagram showing the first result of the separation experiment in the embodiment. Specifically, FIG. 9 is an example of a spectrogram of test data using a sound source separation model obtained by learning 500 epochs. The result R1 in FIG. 9 is the spectrogram of speaker 0, and the result R2 in FIG. 9 is the spectrogram of speaker 1.
- FIG. 10 is a diagram showing the second result of the separation experiment in the embodiment. Specifically, FIG. 10 shows the dominant sound source information of the correct answer data with respect to the test data of FIG.
- the result R3 in FIG. 10 is the correct answer data corresponding to the speaker 0, and the result R4 in FIG. 9 is the correct answer data corresponding to the speaker 1.
- FIG. 11 is a diagram showing the third result of the separation experiment in the embodiment. Specifically, FIG. 11 is an estimation result before normalization of the sound source separation device 2 with respect to the test data of FIG.
- the result R5 in FIG. 11 is the estimation result corresponding to the speaker 0, and the result R6 in FIG. 11 is the estimation result corresponding to the speaker 1.
- FIG. 12 is a diagram showing the fourth result of the separation experiment in the embodiment. Specifically, FIG. 12 is an estimation result after normalization of the sound source separation device 2 with respect to the test data of FIG.
- the result R7 in FIG. 12 is the estimation result corresponding to the speaker 0, and the result R8 in FIG. 12 is the estimation result corresponding to the speaker 1.
- FIG. 13 is a diagram showing the fifth result of the separation experiment in the embodiment. Specifically, FIG. 13 shows a spectrogram template acquired by the sound source separation device 2 with respect to the test data of FIG.
- the result R9 in FIG. 13 is the spectrogram template corresponding to the speaker 0, and the result R10 in FIG. 13 is the spectrogram template corresponding to the speaker 1.
- FIG. 13 represents five spectrogram templates in ascending order of j.
- the horizontal axis of each spectrogram template represents time, and the vertical axis represents frequency.
- j is a number for distinguishing a plurality of spectrogram templates.
- FIG. 14 is a diagram showing the sixth result of the separation experiment in the embodiment. Specifically, FIG. 14 shows the template weight corresponding to the speaker 0 acquired by the sound source separation device 2 with respect to the test data of FIG.
- FIG. 15 is a diagram showing the seventh result of the separation experiment in the embodiment. Specifically, FIG. 15 shows the template weight corresponding to the speaker 1 acquired by the sound source separation device 2 with respect to the test data of FIG.
- FIGS. 13 to 15 show how the sound source separating device 2 separated the difference between the speakers. Therefore, the results of the separation experiment show that the sound source separation system 100 facilitates the interpretation of the trained model.
- the sound source separation system 100 of the embodiment configured in this way estimates the spectrogram template and the template weight, and learns to reduce the loss based on the estimation result. Specifically, if the sound source separation system 100 is used, the user can grasp the information of the frequency pattern used for sound source separation for the input signal and its time change by looking at the spectrogram template and its weight. can.
- the frequency pattern is information representing the distribution of energy according to the frequency. Therefore, if the sound source separation system 100 is used, the user can know at least the time change of the frequency pattern as to how the sound source is separated, and the time change of the frequency pattern can be useful for interpreting the trained model. can. In this way, the sound source separation system 100 facilitates the interpretation of the trained model.
- the sound source separation system 100 of the embodiment configured in this way learns so that the values of the spectrogram template and the template weight are non-negative values. In such cases, the spectrogram template value and the template weight value are no longer negative, making it easier to interpret the physical meaning of the spectrogram template and the physical meaning of the template weight. .. Therefore, the sound source separation system 100 configured in this way facilitates the interpretation of the trained model.
- B) is a non-negative function that outputs 0 when A and B match, and outputs a larger value as the difference between X and Y increases. Therefore, D (A
- ⁇ is a non-negative constant that represents the strength of regularization.
- Equation (17) is a term (regularization term) representing an error between the value obtained by summing the right side of equation (10) for all sound sources d and the spectrogram X for learning.
- the sound source separation model learning device 1 learns so as to reduce the loss represented by the equation (16), so that the right side of the equation (10) is the sum of all the sound sources d and the spectrogram X for learning. The difference can be small. Specifically, if the loss acquisition unit 120 acquires the loss represented by the equation (16) instead of the loss represented by the equation (3), the sound source separation model learning device 1 obtains the right side of the equation (10). The difference between the sum of all sound sources d and the learning spectrogram X can be reduced.
- the sound source separation device 2 does not necessarily have to include the spectrogram acquisition unit 202. In such a case, the separation target spectrogram is input to the sound source separation device 2 as it is.
- the sound source separation model learning device 1 and the sound source separation device 2 may be implemented by using a plurality of information processing devices that are communicably connected via a network. Each functional unit included in the sound source separation model learning device 1 may be distributed and mounted in a plurality of information processing devices.
- the template updating unit 130 may be provided by the dominant sound source information estimation unit 113.
- the non-mixed sound signal generation unit 204 is an example of a separation unit.
- the configuration information estimation unit 112 is an example of the weight estimation unit.
- the spectrogram template makes it easier to interpret the trained model when it is a non-negative value than when it is not a non-negative value, but it does not necessarily have to be a non-negative value.
- a non-negative value makes it easier to interpret the trained model than a case where it is not a non-negative value, but it does not necessarily have to be a non-negative value. It was
- All or part of each function of the sound source separation model learning device 1 and the sound source separation device 2 is equipped with hardware such as ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), and FPGA (Field Programmable Gate Array). It may be realized by using.
- the program may be recorded on a computer-readable recording medium.
- the computer-readable recording medium is, for example, a flexible disk, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, or a storage device such as a hard disk built in a computer system.
- the program may be transmitted over a telecommunication line.
- Spectrogram acquisition unit 203 ... Separation information acquisition unit, 204 ... non-mixed sound signal generation unit, 205 ... sound signal output control unit, 206 ... interface control unit, 91 ... processor, 92 ... memory, 93 ... processor, 94 ... memory
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
本発明は、音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法及びプログラムに関する。 The present invention relates to a sound source separation model learning device, a sound source separation device, a sound source separation model learning method, and a program.
複数の音源によるモノラルの混合音信号から各音源の信号を分離する音源分離の技術がある。このような技術としては、例えば観測信号のスペクトログラムの各時間周波数点においてどの話者のエネルギーが支配的かを識別するクラス識別問題の考え方に着想を得て提案された技術がある。このようなクラス識別問題の考え方に着想を得て提案された技術として、近年、機械学習の手法を用いた技術が提案されている。機械学習の手法を用いた音源分離の技術としては、例えばニューラルネットワーク(Neural Network; NN)を用いた音源分離の技術が提案されている(非特許文献1及び2参照)。
There is a sound source separation technology that separates the signal of each sound source from the monaural mixed sound signal of multiple sound sources. As such a technique, for example, there is a technique proposed based on the idea of a class identification problem that identifies which speaker's energy is dominant at each time frequency point of the spectrogram of the observed signal. In recent years, a technique using a machine learning method has been proposed as a technique proposed based on the idea of such a class identification problem. As a sound source separation technique using a machine learning method, for example, a sound source separation technique using a neural network (NN) has been proposed (see Non-Patent
ニューラルネットワークを用いた音源分離の技術としては、例えば深層クラスタリング(Deep Clustering;DC)法(非特許文献3及び4参照)を用いた音源分離の技術が提案されている。DC法を用いた音源分離の技術ではまず、NNを用いて各時間周波数点の低次元埋め込み表現が学習される。時間周波数点とは、時間軸と周波数軸とが張る空間(時間周波数空間)内の点(すなわち時間周波数空間に含まれる元)である。
As a sound source separation technique using a neural network, for example, a sound source separation technique using a deep clustering (DC) method (see Non-Patent
各時間周波数点は、時間周波数空間における各時間周波数点の位置が示す時間及び周波数ごとにN次元の特徴量ベクトルを示す(Nは2以上の整数)。特徴量ベクトルは、解析対象から得られる情報のうち学習等を通じて得られた所定の条件を満たす情報の集合である。低次元埋め込み表現を学習するとは、N次元の特徴量ベクトルを次元がN未満の特徴量ベクトルに変換する写像を学習することを意味する。 Each time frequency point indicates an N-dimensional feature quantity vector for each time and frequency indicated by the position of each time frequency point in the time frequency space (N is an integer of 2 or more). The feature amount vector is a set of information that satisfies a predetermined condition obtained through learning or the like among the information obtained from the analysis target. Learning the low-dimensional embedded representation means learning a mapping that transforms an N-dimensional feature vector into a feature vector with dimensions less than N.
これにより各時間周波数点の低次元埋め込みを表現する学習済みモデルが得られる。DC法を用いた音源分離の技術では次に、k平均法等の教師なしクラスタリング手法を用い、得られた埋め込みベクトルをクラスタリングすることにより音源分離を行う。埋め込みベクトルとは、各時間周波数点における次元がN未満の特徴量ベクトルである。DC法を用いた音源分離の技術は、未知の音源の混合音声に対しても高精度な分離が可能であることが実験的に示されている。 This gives a trained model that expresses the low-dimensional embedding of each time frequency point. Next, in the sound source separation technique using the DC method, sound source separation is performed by clustering the obtained embedded vectors by using an unsupervised clustering method such as the k-means method. The embedded vector is a feature vector having a dimension less than N at each time frequency point. It has been experimentally shown that the sound source separation technique using the DC method is capable of highly accurate separation even for mixed voices of unknown sound sources.
しかしながら、DC法を含めNNを用いた音源分離の技術は、学習により得られた写像であって音源分離を行う写像である学習済みモデルの解釈が難しい場合があった。学習済みモデルを解釈するとは、学習済みモデルの予測結果の根拠を知ることを意味する。例えばDC法であれば、埋め込みベクトルが決定された根拠をユーザが判断することが難しい場合があった。 However, in the sound source separation technique using NN including the DC method, it may be difficult to interpret the trained model which is a map obtained by learning and is a map for performing sound source separation. Interpreting a trained model means knowing the basis for the predicted results of the trained model. For example, in the case of the DC method, it may be difficult for the user to determine the basis for determining the embedded vector.
もし学習済みモデルの解釈が容易になれば、DC法に対する理解が深まり、汎化性能の向上や話者以外の音源への適応などの、音源分離の技術の更なる向上が期待される。特に、埋め込みベクトルを決定する際に具体的にどのようなスペクトログラム構造を手がかりにしているか、を可視化する、つまりユーザが知ることができれば音源分離の技術が大きく向上することが期待される。 If the trained model can be easily interpreted, the understanding of the DC method will be deepened, and it is expected that the sound source separation technology will be further improved, such as improvement of generalization performance and adaptation to sound sources other than the speaker. In particular, it is expected that the sound source separation technology will be greatly improved if the user can visualize what kind of spectrogram structure is specifically used as a clue when determining the embedded vector.
上記事情に鑑み、本発明は、音源分離を行う学習済みモデルの解釈を容易にする技術を提供することを目的としている。 In view of the above circumstances, it is an object of the present invention to provide a technique for facilitating the interpretation of a trained model that separates sound sources.
本発明の一態様は、複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得部と、前記スペクトログラムの時間軸方向に区分された1つの区間に属する時間周波数点における1又は複数の値であって前記スペクトログラムに関する1又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定部と、前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定部と、前記推定結果と前記支配音源情報との違いを取得する損失取得部と、を備え、前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、前記重み推定部は前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する、音源分離モデル学習装置である。 One aspect of the present invention is a learning data acquisition unit that acquires a spectrogram of a mixed signal in which a plurality of sounds are mixed and dominant sound source information indicating whether or not a target sound source is dominant for each time frequency point of the spectrogram. And estimation of the composite product using a template, which is information representing one or more values related to the spectrogram, which is one or more values at time frequency points belonging to one section divided in the time axis direction of the spectrogram. A weight estimation unit that estimates the weights used in the above, a dominant sound source information estimation unit that acquires the estimation result of the dominant sound source information based on the combined product, and a loss acquisition unit that acquires the difference between the estimation result and the dominant sound source information. The template and the weight used for estimating the synthetic product indicate the estimation result regarding the spectrogram of the target sound source, and the weight estimation unit is a machine that estimates the weight so as to reduce the difference. It is a sound source separation model learning device that learns a learning model.
本発明により、音源分離を行う学習済みモデルの解釈を容易にすることが可能となる。 The present invention makes it possible to facilitate the interpretation of a trained model that separates sound sources.
(実施形態)
図1及び図2を用いて、実施形態の音源分離システム100の概要を説明する。図1は、実施形態の音源分離システム100の概要を説明する説明図である。以下説明の簡単のため音源分離システム100の処理対処の信号として音声の信号を例に音源分離システム100を説明するが、音源分離システム100の処理対象の信号は音の信号であればどのようなものであってもよい。例えば、音源分離システム100の処理対象の信号は、楽器の音の信号であってもよい。なお音源は、モノラル音源である。音源分離システム100は、分離対象の混合音信号から非混合音信号を分離する。混合音信号は、複数の非混合音信号が混合された音の信号である。異なる非混合音信号は、音源が異なる音の信号である。
(Embodiment)
An outline of the sound
混合音信号は、例えば第1の人が発した音声に第2の人が発した音声とが混じった音声の信号である。このような場合、音源分離システム100は、第1の人が発した音声の信号と第2の人が発した音声の信号とを分離する。この場合、第1の人が発した音声の信号と第2の人が発した音声の信号とはそれぞれ非混合音信号の一例である。音源分離システム100によって分離される非混合音信号の数は1つであってもよいし複数であってもよい。
The mixed sound signal is, for example, a voice signal in which the voice emitted by the first person is mixed with the voice emitted by the second person. In such a case, the sound
音源分離システム100は、音源分離モデル学習装置1及び音源分離装置2を備える。音源分離モデル学習装置1は、混合スペクトログラムから支配音源情報を推定する学習済みのモデル(以下「音源分離モデル」という。)を機械学習によって得る。
The sound
混合スペクトログラムは、混合音信号のスペクトログラムである。支配的とは、他の音源よりもスペクトログラムの強度(すなわち音の強さ)が強いことを意味する。時間周波数点とは、スペクトログラムの一点を表す。すなわち時間周波数点は、一軸が時刻を表し一軸が周波数を表す空間における点である。スペクトログラムにおける時間周波数点の値は音の強さを表す。 The mixed spectrogram is a spectrogram of a mixed sound signal. Dominant means that the spectrogram strength (ie, sound intensity) is stronger than other sound sources. The time frequency point represents one point in the spectrogram. That is, a time frequency point is a point in space where one axis represents time and one axis represents frequency. The value of the time frequency point in the spectrogram represents the sound intensity.
支配音源情報は、混合スペクトログラムの各時間周波数点について、混合スペクトログラムに含まれる複数の音源のいずれが支配的かを示す情報である。そのため、音源分離モデルは、混合スペクトログラムから支配音源情報の推定結果(以下「推定支配音源情報」という。)を取得するモデルである。 The dominant sound source information is information indicating which of the plurality of sound sources included in the mixed spectrogram is dominant for each time frequency point of the mixed spectrogram. Therefore, the sound source separation model is a model that acquires the estimation result of the dominant sound source information (hereinafter referred to as "estimated dominant sound source information") from the mixed spectrogram.
以下説明の簡単のため学習するとは、入力に基づいて機械学習のモデル(以下「機械学習モデル」という。)におけるパラメータの値を好適に調整することを意味する。以下の説明において、Aであるように学習するとは、機械学習モデルにおけるパラメータの値がAを満たすように調整されることを意味する。Aは予め定められた条件を表す。学習済みモデルとは、1又は複数回の学習が行われた後の機械学習モデルであって所定の終了条件(以下「学習終了条件」という。)が満たされたタイミングの機械学習モデルである。 Learning for the sake of simplicity of the following explanation means to appropriately adjust the value of the parameter in the machine learning model (hereinafter referred to as "machine learning model") based on the input. In the following description, learning to be A means that the value of the parameter in the machine learning model is adjusted to satisfy A. A represents a predetermined condition. The trained model is a machine learning model after one or a plurality of learnings have been performed, and is a machine learning model at a timing when a predetermined end condition (hereinafter referred to as “learning end condition”) is satisfied.
音源分離モデル学習装置1は、学習済みモデルを得るためのデータ(以下「学習用データ」という。)を用いて学習を行う。学習用データは、具体的には複数の対データを含む。対データは、学習用スペクトルグラムXと学習用支配音源情報Yとの対である。
The sound source separation
学習用スペクトログラムXは、音源分離モデル学習装置1が学習済みモデルを得る際の説明変数として用いられる混合スペクトログラムである。学習用スペクトログラムXは以下の式(1)で表される情報である。
The spectrogram X for learning is a mixed spectrogram used as an explanatory variable when the sound source separation
式(1)におけるf(fは0以上(F-1)以下の整数。Fは1以上の整数。)は混合スペクトログラムの各点の周波数軸上の位置を表す。式(1)におけるn(nは0以上(N-1)以下の整数。Nは1以上の整数。)は混合スペクトログラムの各点の時間軸上の位置を表す。そのため、式(1)は(F×N)個の時間周波数点を有する混合スペクトログラムを表す。学習用スペクトログラムXは、より具体的には以下の式(2)で表される。 In equation (1), f (f is an integer of 0 or more (F-1) or less. F is an integer of 1 or more.) Represents the position of each point in the mixed spectrogram on the frequency axis. In equation (1), n (n is an integer of 0 or more (N-1) or less. N is an integer of 1 or more) represents the position of each point of the mixed spectrogram on the time axis. Therefore, equation (1) represents a mixed spectrogram having (F × N) time frequency points. More specifically, the spectrogram X for learning is expressed by the following equation (2).
式(2)におけるk(kは1以上K以下の整数。Kは1以上の整数)は、各時間周波数点を識別する識別子である。 K (k is an integer of 1 or more and K or less. K is an integer of 1 or more) in the equation (2) is an identifier for identifying each time frequency point.
学習用支配音源情報Yは、音源分離モデル学習装置1が学習済みモデルを得る際の目的変数として用いられる情報である。すなわち、学習用支配音源情報Yは、学習用データにおける正解ラベルである。学習用支配音源情報Yは、学習用スペクトルグラムXの時間周波数点ごとに、予め定められた音源(以下「学習用音源」という。)が支配的か否かを示す。各時間周波数点において学習用音源が支配的か否かは、例えば時間周波数点ごとに0又は1の2値で表される。
The learning dominant sound source information Y is information used as an objective variable when the sound source separation
図2は、実施形態における音源分離モデル学習装置1の概要を説明する説明図である。音源分離モデル学習装置1は、学習用スペクトログラムXに基づき、後述するスペクトログラムテンプレートとテンプレート重みとを推定し、推定したスペクトログラムテンプレートとテンプレート重みとの合成積を取得する。音源分離モデル学習装置1は、合成積に基づき学習用支配音源情報Yの推定結果(以下「推定支配音源情報V」という)を取得する。次に音源分離モデル学習装置1は、取得した推定支配音源情報Vと学習用支配音源情報Yとの違いに基づき、スペクトログラムテンプレートと、学習用スペクトログラムXに基づきテンプレート重みを推定する機械学習モデル(以下「重み推定モデル」という。)とを更新する。
FIG. 2 is an explanatory diagram illustrating an outline of the sound source separation
スペクトログラムテンプレートは、学習用スペクトログラムXの時間軸方向に区分された1つの区間(以下「時間区間」という。)に属する時間周波数点における1又は複数の値であって学習用スペクトログラムXに関する1又は複数の値を表す情報である。スペクトログラムテンプレートは、区間によらず同一である。 The spectrogram template is one or more values at time frequency points belonging to one interval (hereinafter referred to as "time interval") divided in the time axis direction of the learning spectrogram X, and is one or more related to the learning spectrogram X. Information that represents the value of. The spectrogram template is the same regardless of the interval.
スペクトログラムテンプレートは学習によって更新される。スペクトログラムテンプレートが表す学習用スペクトログラムXに関する値は、音源分離モデル学習装置1による学習の過程に依存する。そのため、スペクトログラムテンプレートが表す学習用スペクトログラムXに関する値は、物理量であることもあるし統計値等の物理量では無い値であることもあり、どのような種類の値であるかは音源分離モデル学習装置1のユーザが予め決定する値ではない。
The spectrogram template is updated by learning. The value of the spectrogram X for learning represented by the spectrogram template depends on the learning process by the sound source separation
スペクトログラムテンプレートは学習の段階では(すなわち学習終了条件が満たされるまで)、学習によって更新されるものの、学習済みモデル(すなわち音源分離モデル)を用いて分離対象の混合音信号を分離する段階では変化しない。 The spectrogram template is updated by training during the learning stage (ie, until the learning end condition is met), but does not change during the stage of separating the mixed sound signal to be separated using the trained model (that is, the sound source separation model). ..
テンプレート重みは、学習用スペクトログラムXに基づきスペクトログラムテンプレートを用いた合成積の推定に用いる重みである。テンプレート重みは、学習済みモデル(すなわち音源分離モデル)を用いて分離対象の混合音信号を分離する段階においても、分離対象の混合音信号に応じた値である。 The template weight is a weight used for estimating the synthetic product using the spectrogram template based on the spectrogram X for learning. The template weight is a value corresponding to the mixed sound signal to be separated even at the stage of separating the mixed sound signal to be separated by using the trained model (that is, the sound source separation model).
音源分離モデルは、学習終了条件が満たされたタイミングにおける重み推定モデルを有する学習済みモデルであって、学習終了条件が満たされたタイミングにおけるスペクトログラムテンプレートを(学習済み)パラメータとして有する学習済みモデルである。 The sound source separation model is a trained model having a weight estimation model at the timing when the learning end condition is satisfied, and is a trained model having a spectrogram template at the timing when the learning end condition is satisfied as a (trained) parameter. ..
音源分離モデル学習装置1は、音源分離ニューラルネットワーク110、損失取得部120及びテンプレート更新部130を備える。音源分離モデル学習装置1においては、音源分離ニューラルネットワーク110、損失取得部120及びテンプレート更新部130が協働して音源分離モデルを得るための学習を実行する。
The sound source separation
音源分離ニューラルネットワーク110は、詳細を後述する損失取得部120が取得する損失に基づいて学習することで音源分離モデルを得るニューラルネットワークである。音源分離ニューラルネットワーク110は、入力情報取得部111、構成情報推定部112及び支配音源情報推定部113を備える。
The sound source separation
入力情報取得部111は、学習用スペクトログラムXを取得する。入力情報取得部111は、音源分離ニューラルネットワーク110においては入力層である。
The input
構成情報推定部112は、学習用スペクトログラムXに基づきテンプレート重みを推定する。構成情報推定部112は、学習用スペクトログラムXに基づきテンプレート重みを推定可能であって、重み推定モデルを学習により更新可能に構成されていればどのようなものであってもよい。構成情報推定部112は、例えば畳み込みネットワーク(CNN:Convolutional Neural Network)である。構成情報推定部112は、音源分離ニューラルネットワーク110においては例えば第1中間層から第(L-1)中間層までの中間層である。
The configuration
構成情報推定部112は、詳細を後述する損失取得部120が取得する損失に基づいて学習する。構成情報推定部112による学習により、重み推定モデルが更新される。重み推定モデルは、損失を小さくするように更新される。
The configuration
支配音源情報推定部113は、スペクトログラムテンプレートとテンプレート重みとの合成積を取得する。支配音源情報推定部113は、取得した合成積に基づき推定支配音源情報Vを取得する。支配音源情報推定部113は、音源分離ニューラルネットワーク110においては例えば第L中間層及び出力層である。
The dominant sound source
損失取得部120は、推定支配音源情報Vと学習用支配音源情報Yとの間の違いを取得する。以下、推定支配音源情報Vと学習用支配音源情報Yとの間の違いを損失という。損失は、例えば以下の式(3)で表される。式(3)の左辺の記号は損失を表す記号である。
The
式(3)において以下の式(4)で表される記号は、Frobeniusノルムを表す。また、式(3)において「T」は行列の転置を意味する。そのため、例えばVTは行列Vの転置行列を意味する。 In the formula (3), the symbol represented by the following formula (4) represents the Frobenius norm. Further, in the equation (3), "T" means the transpose of the matrix. Therefore, for example, V T denotes a transposed matrix of the matrix V.
式(3)においてYYTは、学習用スペクトログラムXの時間周波数点kと時間周波数点k´とで同一の音源が支配的であるときにk行k´列目の要素が1、そうでないときに0であるようなK行K列のバイナリ行列である。なお、k及びk´は1以上K以下の整数であり、Kは2以上の整数である。 In equation (3), YY T is when the element in the k row and k'column is 1 when the same sound source is dominant at the time frequency point k and the time frequency point k'of the learning spectrogram X, and when it is not. It is a binary matrix of K rows and K columns such that it is 0. Note that k and k'are integers of 1 or more and K or less, and K is an integer of 2 or more.
テンプレート更新部130は、損失に基づきスペクトログラムテンプレートを更新する。より具体的には、テンプレート更新部130は、損失を小さくするようにスペクトログラムテンプレートを更新する。テンプレート更新部130がスペクトログラムテンプレートを更新するとは、支配音源情報推定部113を構成するニューラルネットワークにおけるスペクトログラムテンプレートを表すパラメータの値を好適に調整することを意味する。なお、テンプレート更新部130は、スペクトログラムテンプレートの更新に際してスペクトログラムテンプレートを非負の値(以下「非負値」という。)に更新する。
The
なお、音源分離ニューラルネットワーク110の学習が一度も行われていない段階におけるスペクトログラムテンプレート(すなわちスペクトログラムテンプレートの初期値)は、予め定められた値である。スペクトログラムテンプレートの初期値は、例えば乱数を用いて予め定められた値である。なお、スペクトログラムテンプレートは1つである必要は無く複数であってもよい。スペクトログラムテンプレートの数は、予めユーザが設定した所定の数であってもよいし、交差検証(cross validation)などの手法を用いて予め決定された数であってもよい。
The spectrogram template (that is, the initial value of the spectrogram template) at the stage where the sound source separation
ここで、音源分離ニューラルネットワーク110で実行される処理の具体的な処理の一例を、以下の構成条件を満たす音源分離ニューラルネットワーク110を例に説明する。構成条件は、音源分離ニューラルネットワーク110の、入力層が入力情報取得部111であり、第1中間層から第(L-1)中間層までの中間層が構成情報推定部112であり、第L中間層及び出力層が支配音源情報推定部113であるという条件である。
Here, an example of specific processing of the processing executed by the sound source separation
第1中間層から第(L-1)層中間層までで、入力層に入力された学習用スペクトログラムXに基づき、テンプレート重みが推定される。第(L-1)中間層の出力結果が、テンプレート重みである。第(L-1)中間層の活性化関数は非負値を出力する。そのため、テンプレート重みの値は非負値である。なお、非負値を出力する活性化関数は、例えばソフトプラス関数や正規化線形関数である。 From the first intermediate layer to the (L-1) layer intermediate layer, the template weight is estimated based on the learning spectrogram X input to the input layer. The output result of the first (L-1) intermediate layer is the template weight. The activation function of the third (L-1) intermediate layer outputs a non-negative value. Therefore, the template weight value is non-negative. The activation function that outputs a non-negative value is, for example, a soft plus function or a rectified linear function.
第1中間層から第(L-1)層中間層は、入力層に入力された学習用スペクトログラムXに基づき、テンプレート重みを推定可能なニューラルネットワークであればどのようなものであってもよい。 The first intermediate layer to the (L-1) layer intermediate layer may be any neural network that can estimate the template weight based on the learning spectrogram X input to the input layer.
第L層では、スペクトログラムテンプレートとテンプレート重みとの合成積が取得される。合成積を取得する処理を数式で表すと例えば以下の式(5)で表される。 In the Lth layer, the composite product of the spectrogram template and the template weight is acquired. The process of acquiring the composite product is expressed by a mathematical formula, for example, by the following equation (5).
式(5)においてH(L)は第L層の出力を表し、H(L-1)は第(L-1)層の出力を表す。式(5)をより詳しく、H(L)の要素ごとに表すと以下の式(6)で表される。 In the formula (5), H (L) represents the output of the Lth layer, and H (L-1) represents the output of the (L-1) layer. The equation (5) is expressed in more detail by the following equation (6) for each element of H (L).
式(6)においてdは音源を表す。例えばdは、0又は1の値であり、1が2人の話者のうちの一方の話者を表し、0が他方の話者を表す。式(6)においてmは1以上N以下の整数であり、学習用スペクトログラムXの時間軸上の時刻を表す。式(6)におけるj(jは1以上J以下の整数。Jは1以上の整数。)は、音源dについてのスペクトログラムテンプレートを識別する識別子である。そのためJは音源dについてのスペクトログラムテンプレートの総数である。 In equation (6), d represents a sound source. For example, d is a value of 0 or 1, where 1 represents one of the two speakers and 0 represents the other. In equation (6), m is an integer of 1 or more and N or less, and represents the time on the time axis of the spectrogram X for learning. J (j is an integer of 1 or more and J is an integer of 1 or more. J is an integer of 1 or more) in the equation (6) is an identifier for identifying the spectrogram template for the sound source d. Therefore, J is the total number of spectrogram templates for the sound source d.
すなわち式(6)は、式(6)の左辺が、以下の式(7)で表されるJ個のスペクトログラムテンプレートをそれぞれ時間軸方向にmだけシフトさせた後に以下の式(8)で表される値を乗算したものの総和、であることを示す。 That is, the equation (6) is expressed by the following equation (8) after the left side of the equation (6) is shifted by m in the time axis direction for each of the J spectrogram templates represented by the following equation (7). It is shown that it is the sum of the products multiplied by the values to be calculated.
式(8)は、H(L-1)の音源dの時刻(n-m)におけるスペクトログラムテンプレートjに乗算されるテンプレート重みを表す。 Equation (8) represents the template weight multiplied by the spectrogram template j at the time (nm ) of the sound source d of H (L-1).
最終層では、第L中間層で取得された合成積が規格化される。最終層の処理は例えば以下の式(9)で表される。 In the final layer, the synthetic product acquired in the Lth intermediate layer is standardized. The processing of the final layer is represented by, for example, the following equation (9).
式(9)をより詳しく、Vの要素ごとに表すと以下の式(10)で表される。 The equation (9) is expressed in more detail by the following equation (10) for each element of V.
式(10)においてεは、ゼロ割りを避けるために予め定められた所定の定数である。εは、式(10)の右辺の他の値と比較して、充分小さな値であることが望ましい。式(10)は、推定支配音源情報Vの二乗ノルムが1となることを表している。しかしながら、推定支配音源情報Vはどのように規格化されてもよく、例えば推定支配音源情報Vのp乗ノルムが1となるように規格化されてもよい(pは1以上の整数)。 In equation (10), ε is a predetermined constant determined in advance to avoid zero division. It is desirable that ε is a sufficiently small value as compared with other values on the right side of the equation (10). Equation (10) represents that the squared norm of the estimated dominant sound source information V is 1. However, the estimated dominant sound source information V may be standardized in any way, and may be standardized so that the p-th power norm of the estimated dominant sound source information V is 1 (p is an integer of 1 or more).
また、式(10)の右辺の分子の値を音源dの振幅スペクトログラムと解釈する場合、式(10)の左辺はWienerマスクを表すと解釈することができる。 Further, when the value of the molecule on the right side of the equation (10) is interpreted as the amplitude spectrogram of the sound source d, the left side of the equation (10) can be interpreted as representing the Wiener mask.
なお、最終層において規格化の処理は必ずしも実行される必要は無く、最終層ではH(L)を推定支配音源情報Vとして取得してもよい。式(9)で表される推定支配音源情報Vは、合成積を規格化しただけなので、損失は合成積と学習用支配音源情報Yとの間の違いを表す量である。 It should be noted that the normalization process does not necessarily have to be executed in the final layer, and H (L) may be acquired as the estimated dominant sound source information V in the final layer. Since the estimated dominant sound source information V represented by the equation (9) is only a standardized synthetic product, the loss is a quantity representing the difference between the synthetic product and the learning dominant sound source information Y.
音源分離装置2は、音源分離モデル学習装置1が学習によって得た音源分離モデルを用いて、入力された混合音信号から非混合音信号を分離する。混合音信号から分離する非混合音信号の数は、予め音源分離装置2のユーザが指定した数(以下「ユーザ指定数」という。)であってもよいし、その他の何らかの学習モデルに基づき混合音信号から音源の数を推定する技術を用いて推定した数であってもよい。その他の何らかの学習モデルは、例えば以下の参考文献1に記載の方法である。以下説明の簡単のため、混合音信号から分離する非混合音信号の数が予めユーザが指定した数である場合を例に音源分離システム100を説明する。
The sound
参考文献1:F. Stoter et al.,”CountNet: Estimating the Number of Concurrent Speakers Using Supervised Learning” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Volume: 27, Issue: 2, Feb.2019, pp.268-282 Reference 1: F. Stoter et al., ”CountNet: Estimating the Number of Concurrent Speakers Using Supervised Learning” IEEE / ACM Transactions on Audio, Speech, and Language Processing, Volume: 27, Issue: 2, Feb. .268-282
図3は、実施形態における音源分離モデル学習装置1のハードウェア構成の一例を示す図である。音源分離モデル学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部10を備え、プログラムを実行する。音源分離モデル学習装置1は、プログラムの実行によって制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。より具体的には、プロセッサ91が記憶部13に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、音源分離モデル学習装置1は、制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。
FIG. 3 is a diagram showing an example of the hardware configuration of the sound source separation
制御部10は、音源分離モデル学習装置1が備える各種機能部の動作を制御する。制御部10は、例えば単位学習処理を実行する。単位学習処理は、1つの学習用データ用いて損失を取得し、取得した損失に基づいてスペクトログラムテンプレートと重み推定モデルとを更新する一連の処理である。
The
入力部11は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部11は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部11は、自装置に対する各種情報の入力を受け付ける。入力部11は、例えば学習の開始を指示する入力を受け付ける。入力部11は、例えば学習用データの入力を受け付ける。学習の開始の指示は、例えば学習用データが入力されることであってもよい。
The
インタフェース部12は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して外部装置と通信する。外部装置は、例えばUSB(Universal Serial Bus)メモリ等の記憶装置であってもよい。外部装置が例えば学習用データを出力する場合、インタフェース部12は外部装置との通信によって外部装置が出力する学習用データを取得する。
The
インタフェース部12は、自装置を音源分離装置2に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して音源分離装置2と通信する。インタフェース部12は、音源分離装置2との通信により、音源分離装置2に音源分離モデルを出力する。
The
記憶部13は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部13は音源分離モデル学習装置1に関する各種情報を記憶する。記憶部13は、例えば予め重み推定モデルを記憶する。記憶部13は、例えば予めスペクトログラムテンプレートの初期値を記憶する。記憶部13は、例えばスペクトログラムテンプレートを記憶する。
The
出力部14は、各種情報を出力する。出力部14は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部14は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部14は、例えば入力部11に入力された情報を出力する。出力部14は、例えば学習終了条件が満たされた時点におけるスペクトログラムテンプレートを示す情報を表示してもよい。
The
図4は、実施形態における制御部10の機能構成の一例を示す図である。制御部10は、被管理部101及び管理部102を備える。被管理部101は、単位学習処理を実行する。被管理部101は、音源分離ニューラルネットワーク110、損失取得部120、テンプレート更新部130及び学習用データ取得部140を備える。
FIG. 4 is a diagram showing an example of the functional configuration of the
学習用データ取得部140は、入力部11又はインタフェース部12に入力された学習用データを取得する。学習用データ取得部140は、取得した学習用データのうち、学習用スペクトログラムXを音源分離ニューラルネットワーク110に出力し、学習用支配音源情報Yを損失取得部120に出力する。より具体的には学習用データ取得部140は、学習用スペクトログラムXについては、入力情報取得部111に出力する。
The learning
管理部102は、被管理部101の動作を制御する。管理部102は、被管理部101の動作の制御として、例えば単位学習処理の実行を制御する。
The
管理部102は、例えば入力部11、インタフェース部12、記憶部13及び出力部14の動作を制御する。管理部102は、例えば記憶部13から各種情報を読み出し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し記憶部13に記録する。管理部102、例えばインタフェース部12に入力された情報を取得し被管理部101に出力する。管理部102、例えばインタフェース部12に入力された情報を取得し記憶部13に記録する。管理部102は、例えば入力部11に入力された情報を出力部14に出力させる。
The
管理部102は、例えば単位学習処理の実行に用いられる情報と単位学習処理の実行によって生じた情報とを記憶部13に記録する。
The
図5は、実施形態における音源分離装置2のハードウェア構成の一例を示す図である。音源分離装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部20を備え、プログラムを実行する。音源分離装置2は、プログラムの実行によって制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。より具体的には、プロセッサ93が記憶部23に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、音源分離装置2は、制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。
FIG. 5 is a diagram showing an example of the hardware configuration of the sound
制御部20は、音源分離装置2が備える各種機能部の動作を制御する。制御部20は、例えば音源分離モデル学習装置1が得た音源分離モデルを用いて、分離対象の混合音信号からユーザ指定数の非混合音信号を分離する。以下説明の簡単のためユーザ指定数は分離対象の混合音信号が音源分離装置2に入力される前に予め入力済みである場合を例に、音源分離装置2を説明する。
The
入力部21は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部21は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部21は、自装置に対する各種情報の入力を受け付ける。入力部21は、例えばユーザ指定数の入力を受け付ける。入力部21は、例えば混合音信号から非混合音信号を分離する処理の開始を指示する入力を受け付ける。入力部21は、例えば分離対象の混合音信号の入力を受け付ける。
The
インタフェース部22は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して外部装置と通信する。外部装置は、例えば混合音信号から分離された非混合音信号の出力先である。このような場合、インタフェース部22は、外部装置との通信によって外部装置に非混合音信号を出力する。非混合音信号の出力際の外部装置は、例えばスピーカー等の音の出力装置である。
The
外部装置は、例えば音源分離モデルを記憶したUSBメモリ等の記憶装置であってもよい。外部装置が例えば音源分離モデルを記憶しており音源分離モデルを出力する場合、インタフェース部22は外部装置との通信によって音源分離モデルを取得する。
The external device may be, for example, a storage device such as a USB memory that stores the sound source separation model. When the external device stores, for example, the sound source separation model and outputs the sound source separation model, the
外部装置は、例えば混合音信号の出力元である。このような場合、インタフェース部22は、外部装置との通信によって外部装置から混合音信号を取得する。
The external device is, for example, an output source of a mixed sound signal. In such a case, the
インタフェース部22は、自装置を音源分離モデル学習装置1に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して音源分離モデル学習装置1と通信する。インタフェース部22は、音源分離モデル学習装置1との通信により、音源分離モデル学習装置1から音源分離モデルを取得する。
The
記憶部23は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部23は音源分離装置2に関する各種情報を記憶する。記憶部13は、例えばインタフェース部22を介して取得した音源分離モデルを記憶する。記憶部13は、例えば入力部11を介して入力されたユーザ指定数を記憶する。記憶部13は、スペクトログラムテンプレートの数を記憶する。
The
出力部24は、各種情報を出力する。出力部24は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部24は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部24は、例えば入力部21に入力された情報を出力する。出力部24は、例えば混合音信号から非混合音信号を分離した際に用いたスペクトログラムテンプレートとスペクトログラムテンプレートに対応するテンプレート重みとを出力する。
The
図6は、実施形態における制御部20の機能構成の一例を示す図である。制御部20は、分離対象取得部201、スペクトログラム取得部202、分離情報取得部203、非混合音信号生成部204、音信号出力制御部205及びインタフェース制御部206を備える。
FIG. 6 is a diagram showing an example of the functional configuration of the
分離対象取得部201は、分離対象の混合音信号を取得する。分離対象取得部201は、例えば入力部21に入力された混合音信号を取得する。分離対象取得部201は、例えばインタフェース部22に入力された混合音信号を取得する。
The separation
スペクトログラム取得部202は、分離対象取得部201が取得した混合音信号のスペクトログラム(以下「分離対象スペクトログラム」という。)を取得する。スペクトログラムの取得方法は、混合音信号からスペクトログラムを取得可能であればどのような方法であってもよい。スペクトログラムの取得方法は、例えば混合音信号の波形に対し短時間フーリエ変換を適用した後,その振幅情報のみを抽出した振幅スペクトログラムを取得する方法であってもよい。である。取得されたスペクトログラムは分離情報取得部203に出力される。
The
分離情報取得部203は、分離対象スペクトログラムに基づき音源分離モデルを用いて、分離対象の混合音信号に含まれるユーザ指定数の非混合音信号それぞれについて推定支配音源情報Vを取得する。なお、音源分離モデルには、学習に用いた全ての音源に対するスペクトログラムテンプレートが入手される。そのため、ユーザ指定数が複数の場合には、音源分離モデルは、学習に用いられた全ての音源を分離可能である。
The separation
非混合音信号生成部204は、分離対象の混合音信号と、分離対象スペクトログラムと、分離情報取得部203が取得した推定支配音源情報Vと、を用いて、非混合音信号を生成する。非混合音信号生成部204は、例えば推定支配音源情報Vを入力振幅スペクトログラムに乗じ、Griffin-Lim法等の位相再構成法に基づき位相情報を付加した上で逆短時間フーリエ変換を適用することによって、非混合音信号を生成する。このようにして、非混合音信号生成部204は、分離対象の混合音信号から非混合音信号を分離する。分離された非混合音信号は音信号出力制御部205に出力される。
The non-mixed sound
音信号出力制御部205は、インタフェース部22の動作を制御する。音信号出力制御部205は、インタフェース部22の動作を制御することでインタフェース部22に分離した非混合音信号を出力させる。
The sound signal
図7は、実施形態における音源分離モデル学習装置1が実行する処理の流れの一例を示すフローチャートである。より具体的には、図7は単位学習処理の流れの一例を示すフローチャートである。音源分離モデル学習装置1は、学習用データが入力されるたびに図7に示す単位学習処理を実行し音源分離モデルを得る。
FIG. 7 is a flowchart showing an example of the flow of processing executed by the sound source separation
入力部11又はインタフェース部12に学習用データが入力される(ステップS101)。次に入力情報取得部111が学習用データに含まれる学習用スペクトログラムXを取得する(ステップS102)。次に構成情報推定部112が、学習用スペクトログラムXに基づき重み推定モデルを用いてテンプレート重みを推定する(ステップS103)。
Learning data is input to the
ステップS103の次に、支配音源情報推定部113が、スペクトログラムテンプレートとテンプレート重みとに基づき推定支配音源情報Vを推定する(ステップS104)。次に損失取得部120は、推定支配音源情報Vと学習用データに含まれる学習用支配音源情報Yとの間の違い(すなわち損失)を取得する(ステップS105)。次に、テンプレート更新部130が損失を小さくするようにスペクトログラムテンプレートを更新し、構成情報推定部112が損失を小さくするように重み推定モデルを更新する(ステップS106)。
Next to step S103, the dominant sound source
図8は、実施形態における音源分離装置2が実行する処理の流れの一例を示すフローチャートである。以下説明の簡単のため、ユーザ指定数は予め音源分離装置2に入力済みであり、入力されたユーザ指定数は記憶部23に記憶済みである場合を例に音源分離装置2が実行する処理の流れの一例を説明する。
FIG. 8 is a flowchart showing an example of the flow of processing executed by the sound
分離対象取得部201が、入力部21又はインタフェース部22に入力された分離対象の混合音信号を取得する(ステップS201)。次にスペクトログラム取得部202が、分離対象の混合音信号を用いて分離対象スペクトログラムを取得する(ステップS202)。次に分離情報取得部203が、分離対象スペクトログラムに基づき音源分離モデルを用いて、分離対象の混合音信号に含まれるユーザ指定数の非混合音信号それぞれについて推定支配音源情報Vを取得する(ステップS203)。
The separation
次に非混合音信号生成部204が、分離対象の混合音信号と、分離対象スペクトログラムと、分離情報取得部203が取得した推定支配音源情報Vと、を用いて、混合音信号から非混合音信号を分離する(ステップS204)。次に音信号出力制御部205が、インタフェース部22の動作を制御することでインタフェース部22に分離した非混合音信号を出力させる(ステップS205)。
Next, the non-mixed sound
<実験結果>
音源分離システム100を用いて音声の分離を行った実験(以下「分離実験」という。)の実験結果を説明する。分離実験では、The CMU Arctic speech databases(参考文献2参照)の音声データが混合音信号として用いられた。学習用データとしては、話者0(bdl)と話者1(clb)の音声をそれぞれ1000発話ずつ用いた。
<Experimental results>
The experimental results of an experiment in which voice is separated using the sound source separation system 100 (hereinafter referred to as "separation experiment") will be described. In the separation experiment, the audio data of The CMU Arctic speech database (see Reference 2) was used as the mixed sound signal. As the learning data, the voices of speaker 0 (bdl) and speaker 1 (clb) were used for 1000 utterances each.
参考文献2:J. Kominek and A. W. Black,“The CMU Arctic speech databases”, In 5th ISCA Speech Synthesis Workshop, pp.223-224, 2004. Reference 2: J. Kominek and A. W. Black, “The CMU Arctic speech databases”, In 5th ISCA Speech Synthesis Workshop, pp.223-224, 2004.
学習用データは、以下のようにして作成された。まず、話者0と話者1との各1発話の信号に対して、ハミング窓による短時間フーリエ変換を適用した。次に、0から1までの閉区間上の一様分布から生成された重みを短時間フーリエ変換後の各信号に乗じ、話者ごとにスペクトログラムX{~}(d)を得た。分離実験においてdは0又は1であり、0は話者0を示し、1は話者1を示す。なお、X{~}は、以下の式(11)で表される記号を意味する。
The training data was created as follows. First, a short-time Fourier transform using a humming window was applied to each one utterance signal of
また、X{~}(q)は、以下の式(12)で表される記号を意味する。 Further, X {~} (q) means a symbol represented by the following equation (12).
次にスペクトログラムX{~}(d)を合成し、混合信号の複素スペクトログラムX{~}を算出した。すなわち、X{~}=(X{~}(0)+X{~}(1))である。次に提案モデルへの入力X=(Xf、n)f、nを最大値が1になるようにスケーリングし、振幅スペクトログラムXf、nを取得した。振幅スペクトログラムXf、nは以下の式(13)で表される。 Next, the spectrogram X {~} (d) was synthesized to calculate the complex spectrogram X {~} of the mixed signal. That is, X {~} = (X {~} (0) + X {~} (1) ). Next, the inputs X = (X f, n ) f and n to the proposed model were scaled so that the maximum value was 1, and the amplitude spectrograms X f and n were obtained. The amplitude spectrograms X f and n are represented by the following equation (13).
また、分離実験では各時間周波数点(f、n) について、以下の式(14)を満たすものを無音として扱った。 Also, in the separation experiment, for each time frequency point (f, n), those satisfying the following equation (14) were treated as silence.
また、分離実験では、各時間周波数点(f、n)の支配的な話者を示す学習用支配音源情報Yとして以下の式(15)で表される情報を用いた。式(15)の左辺が分離実験で用いた学習用支配音源情報Yを表す。 Further, in the separation experiment, the information represented by the following equation (15) was used as the learning dominant sound source information Y indicating the dominant speaker at each time frequency point (f, n). The left side of the equation (15) represents the learning dominant sound source information Y used in the separation experiment.
テストデータの作成には、話者0(bdl)と話者1(clb)の音声をそれぞれ66発話ずつ用いた。テストデータの作成方法は学習用データと同様であるが、短時間フーリエ変換の適用後に乗じる重みはどちらの話者に関しても1にした。 To create the test data, 66 utterances of each of the voices of speaker 0 (bdl) and speaker 1 (clb) were used. The method of creating the test data is the same as that of the training data, but the weight to be multiplied after applying the short-time Fourier transform is set to 1 for both speakers.
図9は、実施形態における分離実験の第1の結果を示す図である。具体的には図9は、500エポックの学習によって得られた音源分離モデルを用いたテストデータのスペクトログラムの一例である。図9の結果R1が話者0のスペクトログラムであり、図9の結果R2が話者1のスペクトログラムである。
FIG. 9 is a diagram showing the first result of the separation experiment in the embodiment. Specifically, FIG. 9 is an example of a spectrogram of test data using a sound source separation model obtained by learning 500 epochs. The result R1 in FIG. 9 is the spectrogram of
図10は、実施形態における分離実験の第2の結果を示す図である。具体的には図10は、図9のテストデータに対する正解データの支配音源情報を表す。図10の結果R3が話者0に対応する正解データであり、図9の結果R4が話者1に対応する正解データである。
FIG. 10 is a diagram showing the second result of the separation experiment in the embodiment. Specifically, FIG. 10 shows the dominant sound source information of the correct answer data with respect to the test data of FIG. The result R3 in FIG. 10 is the correct answer data corresponding to the
図11は、実施形態における分離実験の第3の結果を示す図である。具体的には図11は、図9のテストデータに対する音源分離装置2の正規化前の推定結果である。図11の結果R5が話者0に対応する推定結果であり、図11の結果R6が話者1に対応する推定結果である。
FIG. 11 is a diagram showing the third result of the separation experiment in the embodiment. Specifically, FIG. 11 is an estimation result before normalization of the sound
図12は、実施形態における分離実験の第4の結果を示す図である。具体的には図12は、図9のテストデータに対する音源分離装置2の正規化後の推定結果である。図12の結果R7が話者0に対応する推定結果であり、図12の結果R8が話者1に対応する推定結果である。
FIG. 12 is a diagram showing the fourth result of the separation experiment in the embodiment. Specifically, FIG. 12 is an estimation result after normalization of the sound
図13は、実施形態における分離実験の第5の結果を示す図である。具体的には図13は、図9のテストデータに対して音源分離装置2が取得したスペクトログラムテンプレートを示す。図13の結果R9が話者0に対応するスペクトログラムテンプレートであり、図13の結果R10が話者1に対応するスペクトログラムテンプレートである。図13は、jの小さい方から順に5つのスペクトログラムテンプレートを表す。なお、各スペクトログラムテンプレートの横軸は、時刻を表し、縦軸は周波数を表す。jは複数のスペクトログラムテンプレートを区別するための番号である。
FIG. 13 is a diagram showing the fifth result of the separation experiment in the embodiment. Specifically, FIG. 13 shows a spectrogram template acquired by the sound
図14は、実施形態における分離実験の第6の結果を示す図である。具体的には図14は、図9のテストデータに対して音源分離装置2が取得した話者0に対応するテンプレート重みを示す。図14において、R11-0は、図13のj=0における話者0に対応するテンプレート重みを示す。図14において、R11-1は、図13のj=1における話者0に対応するテンプレート重みを示す。図14において、R11-2は、図13のj=2における話者0に対応するテンプレート重みを示す。図14において、R11-3は、図13のj=3における話者0に対応するテンプレート重みを示す。図14において、R11-4は、図13のj=4における話者0に対応するテンプレート重みを示す。
FIG. 14 is a diagram showing the sixth result of the separation experiment in the embodiment. Specifically, FIG. 14 shows the template weight corresponding to the
図15は、実施形態における分離実験の第7の結果を示す図である。具体的には図15は、図9のテストデータに対して音源分離装置2が取得した話者1に対応するテンプレート重みを示す。図15において、R12-0は、図13のj=0における話者1に対応するテンプレート重みを示す。図15において、R12-1は、図13のj=1における話者1に対応するテンプレート重みを示す。図15において、R12-2は、図13のj=2における話者1に対応するテンプレート重みを示す。図15において、R12-3は、図13のj=3における話者1に対応するテンプレート重みを示す。図15において、R12-4は、図13のj=4における話者1に対応するテンプレート重みを示す。
FIG. 15 is a diagram showing the seventh result of the separation experiment in the embodiment. Specifically, FIG. 15 shows the template weight corresponding to the
図13~図15の実験結果は、音源分離装置2がどのようにして話者の違いを分離したかを示す。そのため、分離実験の結果は、音源分離システム100は学習済みモデルの解釈を容易にすることを示す。
The experimental results of FIGS. 13 to 15 show how the sound
このように構成された実施形態の音源分離システム100は、スペクトログラムテンプレートとテンプレート重みとを推定し、推定結果に基づき損失を小さくするように学習する。具体的には、音源分離システム100を用いれば、ユーザは、スペクトログラムテンプレートとその重みを見ることで、入力された信号に対する音源分離に用いられる周波数パターンの情報とその時間変化をそれぞれ把握することができる。なお、周波数パターンとは、周波数に応じたエネルギーの分布を表す情報である。そのため、音源分離システム100を用いればユーザは、どのようにして音源が分離されたのかについて少なくとも周波数パターンの時間変化を知ることができ、周波数パターンの時間変化を学習済みモデルの解釈に役立てることができる。このように、音源分離システム100は、学習済みモデルの解釈を容易にする。
The sound
また、このように構成された実施形態の音源分離システム100は、スペクトログラムテンプレートとテンプレート重みとの値が非負値であるように学習を行う。このような場合、スペクトログラムテンプレートの値とテンプレート重みの値とが負の値であるということが無くなるので、スペクトログラムテンプレートの表す物理的な意味やテンプレート重みの表す物理的な意味の解釈を容易にする。そのため、このように構成された音源分離システム100は学習済みモデルの解釈を容易にする。
Further, the sound
(変形例)
なお、式(10)の右辺の分子の値を音源dの振幅スペクトログラムと解釈する場合、式(10)の右辺を全音源dについて和をとった値は、学習用スペクトログラムXを良く近似しているという条件(以下「正則化条件」という。)が満たされることが望ましい。このような正則化条件は、以下の式(16)で表される損失を小さくするという条件である。
(Modification example)
When the value of the molecule on the right side of the equation (10) is interpreted as the amplitude spectrogram of the sound source d, the value obtained by summing the right side of the equation (10) for all the sound sources d is a good approximation of the spectrogram X for learning. It is desirable that the condition of being present (hereinafter referred to as "regularization condition") is satisfied. Such a regularization condition is a condition that the loss represented by the following equation (16) is reduced.
式(16)の右辺第1項は式(3)の左辺の値である。式(17)においてD(A||B)は、AとBとが一致するときに0を出力し、XとYとの違いが大きくなるほど大きい値を出力する非負値関数である。そのためD(A||B)は、例えば|A-B|2である。式(16)においてλは正則化の強さを表す非負の定数である。 The first term on the right side of the equation (16) is the value on the left side of the equation (3). In equation (17), D (A || B) is a non-negative function that outputs 0 when A and B match, and outputs a larger value as the difference between X and Y increases. Therefore, D (A || B) is, for example, | AB | 2 . In equation (16), λ is a non-negative constant that represents the strength of regularization.
式(17)は、式(10)の右辺を全音源dについて和をとった値と学習用スペクトログラムXの間の誤差を表す項(正則化項)である。音源分離モデル学習装置1は、式(16)で表される損失を小さくするように学習することで、式(10)の右辺を全音源dについて和をとった値と学習用スペクトログラムXとの違いを小さくすることができる。具体的には、損失取得部120が式(3)で表される損失に代えて式(16)で表される損失を取得すれば、音源分離モデル学習装置1は式(10)の右辺を全音源dについて和をとった値と学習用スペクトログラムXとの違いを小さくすることができる。
Equation (17) is a term (regularization term) representing an error between the value obtained by summing the right side of equation (10) for all sound sources d and the spectrogram X for learning. The sound source separation
なお、音源分離装置2は、必ずしもスペクトログラム取得部202を備える必要は無い。このような場合、音源分離装置2には分離対象スペクトログラムがそのまま入力される。
The sound
なお、音源分離モデル学習装置1及び音源分離装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。音源分離モデル学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。なお、テンプレート更新部130は、支配音源情報推定部113が備えてもよい。
The sound source separation
なお、非混合音信号生成部204は分離部の一例である。なお、構成情報推定部112は、重み推定部の一例である。なお、スペクトログラムテンプレートは非負の値である方が非負の値でない場合よりも学習済みモデルの解釈を容易にするが、必ずしも非負の値である必要は無い。また、テンプレート重みについても、非負の値である方が非負の値でない場合よりも学習済みモデルの解釈を容易にするが、必ずしも非負の値である必要は無い。
The non-mixed sound
なお、音源分離モデル学習装置1と音源分離装置2の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
All or part of each function of the sound source separation
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 As described above, the embodiment of the present invention has been described in detail with reference to the drawings, but the specific configuration is not limited to this embodiment, and the design and the like within a range not deviating from the gist of the present invention are also included.
100…音源分離システム、 1…音源分離モデル学習装置、 2…音源分離装置、 10…制御部、 11…入力部、 12…インタフェース部、 13…記憶部、 14…出力部、 101…被管理部、 102…管理部、 110…音源分離ニューラルネットワーク、 111…入力情報取得部、 112…構成情報推定部、 113…支配音源情報推定部、 120…損失取得部、 130…テンプレート更新部、 140…学習用データ取得部、 20…制御部、 21…入力部、 22…インタフェース部、 23…記憶部、 24…出力部、 201…分離対象取得部、 202…スペクトログラム取得部、 203…分離情報取得部、 204…非混合音信号生成部、 205…音信号出力制御部、 206…インタフェース制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ 100 ... Sound source separation system, 1 ... Sound source separation model learning device, 2 ... Sound source separation device, 10 ... Control unit, 11 ... Input unit, 12 ... Interface unit, 13 ... Storage unit, 14 ... Output unit, 101 ... Managed unit , 102 ... Management unit, 110 ... Sound source separation neural network, 111 ... Input information acquisition unit, 112 ... Configuration information estimation unit, 113 ... Dominant sound source information estimation unit, 120 ... Loss acquisition unit, 130 ... Template update unit, 140 ... Learning Data acquisition unit, 20 ... Control unit, 21 ... Input unit, 22 ... Interface unit, 23 ... Storage unit, 24 ... Output unit, 201 ... Separation target acquisition unit, 202 ... Spectrogram acquisition unit, 203 ... Separation information acquisition unit, 204 ... non-mixed sound signal generation unit, 205 ... sound signal output control unit, 206 ... interface control unit, 91 ... processor, 92 ... memory, 93 ... processor, 94 ... memory
Claims (8)
前記スペクトログラムの時間軸方向に区分された1つの区間に属する時間周波数点における1又は複数の値であって前記スペクトログラムに関する1又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定部と、
前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定部と、
前記推定結果と前記支配音源情報との違いを取得する損失取得部と、
を備え、
前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、
前記重み推定部は前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する、
音源分離モデル学習装置。 A learning data acquisition unit that acquires a spectrogram of a mixed signal in which a plurality of sounds are mixed and dominant sound source information indicating whether or not the target sound source is dominant for each time frequency point of the spectrogram.
Used for estimating the composite product using a template, which is information representing one or more values related to the spectrogram, which is one or more values at a time frequency point belonging to one section divided in the time axis direction of the spectrogram. A weight estimation unit that estimates weights, and a weight estimation unit
The dominant sound source information estimation unit that acquires the estimation result of the dominant sound source information based on the composite product,
A loss acquisition unit that acquires the difference between the estimation result and the dominant sound source information,
Equipped with
The template and the weight used for estimating the synthetic product indicate the estimation result regarding the spectrogram of the target sound source.
The weight estimation unit learns a machine learning model that estimates the weight so as to reduce the difference.
Sound source separation model learning device.
を備える請求項1に記載の音源分離モデル学習装置。 Template update section that updates the template based on the difference,
The sound source separation model learning apparatus according to claim 1.
請求項1又は2に記載の音源分離モデル学習装置。 The value of the template is a non-negative value,
The sound source separation model learning apparatus according to claim 1 or 2.
請求項1から3のいずれか一項に記載の音源分離モデル学習装置。 The weight estimation unit acquires a non-negative value as the value of the weight.
The sound source separation model learning device according to any one of claims 1 to 3.
を備える請求項1から4のいずれか一項に記載の音源分離モデル学習装置。 An output control unit that outputs the template and the weight to the output unit that outputs the template and the weight.
The sound source separation model learning apparatus according to any one of claims 1 to 4.
複数の音が混合された混合信号のスペクトログラムと前記スペクトログラムの各時間周波数点について目的の音源が支配的か否かを示す支配音源情報とを取得する学習用データ取得部と、前記スペクトログラムの時間軸方向に区分された1つの区間に属する時間周波数点における1又は複数の値であって前記スペクトログラムに関する1又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定部と、前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定部と、前記推定結果と前記支配音源情報との違いを取得する損失取得部と、前記テンプレート及び前記重みを出力する出力部と、を備え、前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、前記重み推定部は前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する音源分離モデル学習装置によって学習された前記テンプレート及び前記モデルを用いて分離対象の混合信号が含む複数の音源の音の信号を分離する分離部と、
を備える音源分離装置。 An spectrogram acquisition unit that acquires a spectrogram of a mixed signal in which multiple sounds are mixed,
A learning data acquisition unit that acquires a spectrogram of a mixed signal in which a plurality of sounds are mixed and dominant sound source information indicating whether or not the target sound source is dominant for each time frequency point of the spectrogram, and a time axis of the spectrogram. A weight for estimating the weight used for estimating the composite product using a template, which is information representing one or more values related to the spectrogram, which is one or more values at a time frequency point belonging to one interval divided in a direction. The estimation unit, the dominant sound source information estimation unit that acquires the estimation result of the dominant sound source information based on the synthetic product, the loss acquisition unit that acquires the difference between the estimation result and the dominant sound source information, the template, and the weight. The template and the weight used for estimating the combined product are provided with an output unit for outputting the above, and the weight estimation unit indicates the estimation result regarding the spectrogram of the target sound source, and the weight estimation unit is said to reduce the difference. A sound source separation model for learning a machine learning model for estimating weights A separation unit that separates sound signals of a plurality of sound sources including a mixed signal to be separated using the template learned by the learning device and the model.
A sound source separator equipped with.
前記スペクトログラムの時間軸方向に区分された1つの区間に属する時間周波数点における1又は複数の値であって前記スペクトログラムに関する1又は複数の値を表す情報であるテンプレートを用いた合成積の推定に用いる重みを推定する重み推定ステップと、
前記合成積に基づき前記支配音源情報の推定結果を取得する支配音源情報推定ステップと、
前記推定結果と前記支配音源情報との違いを取得する損失取得ステップと、
を有し、
前記合成積の推定に用いられる前記テンプレートと前記重みとは前記目的の音源のスペクトログラムに関する推定結果を示し、
前記重み推定ステップでは前記違いを小さくするように前記重みを推定する機械学習のモデルを学習する、
音源分離モデル学習方法。 A learning data acquisition step for acquiring a spectrogram of a mixed signal in which a plurality of sounds are mixed and dominant sound source information indicating whether or not the target sound source is dominant for each time frequency point of the spectrogram.
Used for estimating the composite product using a template, which is information representing one or more values related to the spectrogram, which is one or more values at a time frequency point belonging to one section divided in the time axis direction of the spectrogram. The weight estimation step for estimating the weight and the weight estimation step
The dominant sound source information estimation step for acquiring the estimation result of the dominant sound source information based on the synthetic product,
A loss acquisition step for acquiring the difference between the estimation result and the dominant sound source information,
Have,
The template and the weight used for estimating the synthetic product indicate the estimation result regarding the spectrogram of the target sound source.
In the weight estimation step, a machine learning model for estimating the weight is learned so as to reduce the difference.
Sound source separation model learning method.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2020/019997 WO2021234873A1 (en) | 2020-05-20 | 2020-05-20 | Sound source separation model learning device, sound source separation device, sound source separation model learning method, and program |
| JP2022524772A JP7376833B2 (en) | 2020-05-20 | 2020-05-20 | Sound source separation model learning device, sound source separation device, sound source separation model learning method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2020/019997 WO2021234873A1 (en) | 2020-05-20 | 2020-05-20 | Sound source separation model learning device, sound source separation device, sound source separation model learning method, and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2021234873A1 true WO2021234873A1 (en) | 2021-11-25 |
Family
ID=78708280
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2020/019997 Ceased WO2021234873A1 (en) | 2020-05-20 | 2020-05-20 | Sound source separation model learning device, sound source separation device, sound source separation model learning method, and program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7376833B2 (en) |
| WO (1) | WO2021234873A1 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018502319A (en) * | 2015-07-07 | 2018-01-25 | 三菱電機株式会社 | Method for distinguishing one or more components of a signal |
| WO2018042791A1 (en) * | 2016-09-01 | 2018-03-08 | ソニー株式会社 | Information processing device, information processing method, and recording media |
| JP2019144511A (en) * | 2018-02-23 | 2019-08-29 | 日本電信電話株式会社 | Acoustic signal model learning apparatus, acoustic signal analyzing apparatus, method, and program |
-
2020
- 2020-05-20 JP JP2022524772A patent/JP7376833B2/en active Active
- 2020-05-20 WO PCT/JP2020/019997 patent/WO2021234873A1/en not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018502319A (en) * | 2015-07-07 | 2018-01-25 | 三菱電機株式会社 | Method for distinguishing one or more components of a signal |
| WO2018042791A1 (en) * | 2016-09-01 | 2018-03-08 | ソニー株式会社 | Information processing device, information processing method, and recording media |
| JP2019144511A (en) * | 2018-02-23 | 2019-08-29 | 日本電信電話株式会社 | Acoustic signal model learning apparatus, acoustic signal analyzing apparatus, method, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2021234873A1 (en) | 2021-11-25 |
| JP7376833B2 (en) | 2023-11-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP3292515B1 (en) | Method for distinguishing one or more components of signal | |
| Becker et al. | Interpreting and explaining deep neural networks for classification of audio signals | |
| CN1151218A (en) | Training methods for neural networks for speech recognition | |
| US6224636B1 (en) | Speech recognition using nonparametric speech models | |
| Vignolo et al. | Genetic wavelet packets for speech recognition | |
| JP6976804B2 (en) | Sound source separation method and sound source separation device | |
| WO2018159403A1 (en) | Learning device, speech synthesis system, and speech synthesis method | |
| Mansour et al. | Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms | |
| Avci | An expert system for speaker identification using adaptive wavelet sure entropy | |
| WO2019171457A1 (en) | Sound source separation device, sound source separation method, and non-transitory computer-readable medium storing program | |
| JP2020034870A (en) | Signal analysis device, method, and program | |
| Sunny et al. | Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms | |
| Laroche et al. | Drum extraction in single channel audio signals using multi-layer non negative matrix factor deconvolution | |
| JP6099032B2 (en) | Signal processing apparatus, signal processing method, and computer program | |
| Khamsehashari et al. | Voice Privacy-leveraging multi-scale blocks with ECAPA-TDNN SE-Res2NeXt extension for speaker anonymization | |
| Bakhshi et al. | Recognition of emotion from speech using evolutionary cepstral coefficients | |
| Roy et al. | Pathological voice classification using deep learning | |
| CN112967734B (en) | Music data identification method, device, equipment and storage medium based on multiple sound parts | |
| JP7376833B2 (en) | Sound source separation model learning device, sound source separation device, sound source separation model learning method and program | |
| JP7423056B2 (en) | Reasoners and how to learn them | |
| WO2022101967A1 (en) | Voice signal conversion model learning device, voice signal conversion device, voice signal conversion model learning method, and program | |
| JPH10509526A (en) | Decision Tree Classifier Designed Using Hidden Markov Model | |
| Grais et al. | Initialization of nonnegative matrix factorization dictionaries for single channel source separation | |
| Roy et al. | A hybrid VQ-GMM approach for identifying Indian languages | |
| JP7567730B2 (en) | SOUND SOURCE SEPARATION LEARNING APPARATUS, SOUND SOURCE SEPARATION LEARNING METHOD, AND SOUND SOURCE SEPARATION LEARNING PROGRAM |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20936721 Country of ref document: EP Kind code of ref document: A1 |
|
| ENP | Entry into the national phase |
Ref document number: 2022524772 Country of ref document: JP Kind code of ref document: A |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 20936721 Country of ref document: EP Kind code of ref document: A1 |