[go: up one dir, main page]

KR102883210B1 - Listenable heatmap analysis method and appratus for explaining neural network model - Google Patents

Listenable heatmap analysis method and appratus for explaining neural network model

Info

Publication number
KR102883210B1
KR102883210B1 KR1020200055741A KR20200055741A KR102883210B1 KR 102883210 B1 KR102883210 B1 KR 102883210B1 KR 1020200055741 A KR1020200055741 A KR 1020200055741A KR 20200055741 A KR20200055741 A KR 20200055741A KR 102883210 B1 KR102883210 B1 KR 102883210B1
Authority
KR
South Korea
Prior art keywords
heatmap
frequency data
time
contribution
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020200055741A
Other languages
Korean (ko)
Other versions
KR20210137665A (en
Inventor
서상원
박수영
임우택
정영호
이태진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020200055741A priority Critical patent/KR102883210B1/en
Publication of KR20210137665A publication Critical patent/KR20210137665A/en
Application granted granted Critical
Publication of KR102883210B1 publication Critical patent/KR102883210B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

신경망 모델의 분석을 위한 히트맵 청각화 방법 및 장치가 개시된다. 본 발명의 일실시예에 따른 신경망 모델의 분석 방법은 분석 대상 오디오 데이터를 복수의 픽셀로 구성되는 오디오 스펙트로그램(spectrogram)과 위상 정보를 포함하는 시간-주파수 데이터로 변환하는 단계, 오디오 스펙트로그램을 분석하는 신경망 모델에 상기 오디오 스펙트로그램을 입력하여 분석 결과를 획득하고, 상기 분석 결과에 대한 상기 각 픽셀의 기여도에 따라 상기 각 픽셀의 색을 결정하여 상기 오디오 스펙트로그램에 대응하는 히트맵(heatmap) 이미지를 생성하고, 상기 히트맵 이미지를 상기 시간-주파수 데이터에 대응하는 크기로 조정 및 설정된 임계값에 따라 기여도가 높은 픽셀과 낮은 픽셀을 이진화하여 히트맵 마스크를 생성하는 단계, 상기 기여도가 낮은 픽셀 영역을 상기 시간-주파수 데이터에서 마스킹하여 마스킹된 시간-주파수 데이터를 생성하고, 상기 마스킹된 시간-주파수 데이터로부터 상기 신경망 모델의 분석 결과에 기여한 소리를 청취할 수 있는 오디오 데이터를 복원하는 단계를 포함할 수 있다. A heatmap auditoryization method and device for analyzing a neural network model are disclosed. According to an embodiment of the present invention, a method for analyzing a neural network model may include the steps of: converting target audio data to be analyzed into an audio spectrogram composed of a plurality of pixels and time-frequency data including phase information; inputting the audio spectrogram into a neural network model that analyzes the audio spectrogram to obtain an analysis result; determining the color of each pixel according to the contribution of each pixel to the analysis result to generate a heatmap image corresponding to the audio spectrogram; adjusting the heatmap image to a size corresponding to the time-frequency data and binarizing pixels with high and low contributions according to a set threshold to generate a heatmap mask; masking a pixel area with low contribution from the time-frequency data to generate masked time-frequency data; and restoring audio data capable of audibly representing sounds that have contributed to the analysis result of the neural network model from the masked time-frequency data.

Description

신경망 모델의 분석을 위한 히트맵 청각화 방법 및 장치{LISTENABLE HEATMAP ANALYSIS METHOD AND APPRATUS FOR EXPLAINING NEURAL NETWORK MODEL} LISTENABLE HEATMAP ANALYSIS METHOD AND APPRATUS FOR EXPLAINING NEURAL NETWORK MODEL

본 발명은 신경망 모델 분석을 위한 히트맵 청각화 방법 및 장치에 관한 것으로, 보다 구체적으로는 신경망 모델의 오디오 데이터에 대한 분석 결과에서 오디오 데이터의 기여도를 나타내는 히트맵(heatmap) 영역을 오디오 데이터로 변환함으로써 신경망 모델의 출력 값에 영향을 준 소리를 청각적으로 분석할 수 있는 방법 및 장치이다. The present invention relates to a method and device for audibly analyzing a heatmap for analyzing a neural network model, and more specifically, to a method and device for audibly analyzing sounds that have influenced the output value of a neural network model by converting a heatmap region representing the contribution of audio data in an analysis result for audio data of a neural network model into audio data.

최근, 인공지능 기술 중 신경망(neural network)에 대한 기술의 발전에 따라 이미지 및 비디오 분야에서 인간과 유사한 수준의 인식과 분류 성능을 가지는 신경망 모델이 연구되고 있다. 이러한 신경망 모델은 오디오 데이터 처리 분야에서도 적극적으로 활용되고 있다. 하지만, 신경망 모델을 효과적으로 연구하고 활용하기 위해서는 모델의 예측 결과를 사람이 이해할 수 있도록 분석하는 기술이 필수적이다. 신경망 모델을 분석하는 기술이 없을 경우, 자율 주행 차량 등의 높은 신뢰도가 요구되는 분야에서 신경망 모델을 믿고 활용하기 어려우며, 문제가 발생했을 경우에도 원인을 분석하고 개선해 내기 어려워진다.Recent advancements in neural network technology, a key area of artificial intelligence, have led to research into neural network models capable of human-level recognition and classification performance in image and video applications. These models are also being actively utilized in audio data processing. However, effective research and utilization of neural network models requires the ability to analyze their predictions in a human-readable manner. Without this analysis technology, it becomes difficult to trust and utilize neural network models in areas requiring high reliability, such as autonomous vehicles. Furthermore, even when problems arise, root cause analysis and remediation become challenging.

이미지 도메인에서는 신경망 모델의 예측 근거를 히트맵(heatmap)으로 시각화 하는 다양한 방법이 제안되었다. 그리고, 히트맵을 이용하는 신경망 모델의 분석 방법은 오디오 영역에서도 시도되었다. In the image domain, various methods have been proposed to visualize the predictive basis of neural network models as heatmaps. Furthermore, methods for analyzing neural network models using heatmaps have also been attempted in the audio domain.

하지만, 오디오 도메인에서 이러한 시각적 분석은 이미지 도메인에서와 달리 실제로 신경망 모델의 예측에 영향을 준 소리가 구체적으로 무엇인지 특정하기 어렵다. 따라서 본 발명에서는 신경망 모델이 어떤 소리에 근거하여 예측을 수행하였는지 청취할 수 있는 히트맵 청각화 방법에 대해 제안한다.However, in the audio domain, unlike in the image domain, such visual analysis makes it difficult to pinpoint the specific sounds that actually influenced the neural network model's predictions. Therefore, the present invention proposes a heatmap audibility method that allows audible analysis of the sounds that the neural network model used to make predictions.

본 발명은 오디오 데이터 처리 분야에서 신경망 모델을 효과적으로 연구하고 활용하기 위해 신경망 모델의 분석 결과를 이용한 히트맵에서 모델 예측에 기여도가 높은 영역을 오디오 데이터로 변환함으로써 신경망 모델의 분석 결과에 기여한 소리를 청취할 수 있는 방법 및 장치를 제공한다. The present invention provides a method and device for listening to sounds that have contributed to the analysis results of a neural network model by converting an area with a high contribution to model prediction in a heat map using the analysis results of a neural network model into audio data in order to effectively study and utilize a neural network model in the field of audio data processing.

또한, 본 발명은 신경망 모델의 분석 결과에 기여한 오디오 데이터를 추출하여 청취함으로써 신경망 모델의 분석 결과가 정확한 것인지 알 수 있으므로 신경망 모델의 신뢰도를 판단할 수 있는 방법 및 장치를 제공한다. In addition, the present invention provides a method and device capable of judging the reliability of a neural network model by extracting and listening to audio data that contributed to the analysis results of a neural network model, thereby determining whether the analysis results of the neural network model are accurate.

본 발명의 일실시예에 따른 신경망 모델의 분석 방법은 원본 오디오 데이터를 복수의 픽셀로 구성되는 오디오 스펙트로그램(spectrogram)과 위상 정보를 포함한 시간-주파수 데이터로 변환하는 단계; 신경망 모델에 상기 오디오 스펙트로그램을 입력하여 분석 결과를 획득하고, 상기 분석 결과에 대한 상기 각 픽셀의 기여도에 따라 상기 각 픽셀의 색을 결정하여 상기 오디오 스펙트로그램에 대응하는 히트맵(heatmap) 이미지를 생성하고, 상기 히트맵 이미지를 상기 시간-주파수 데이터에 대응하는 크기로 조정 및 임계값을 기준으로 상기 기여도가 높은 픽셀과 낮은 픽셀로 이진화하여 히트맵 마스크를 생성하는 단계; 상기 기여도가 낮은 픽셀 영역을 상기 시간-주파수 데이터에서 마스킹하여 마스킹된 시간-주파수 데이터를 생성하고, 상기 마스킹된 시간-주파수 데이터로부터 상기 신경망 모델의 분석 결과에 기여한 소리를 청취할 수 있는 오디오 데이터를 복원하는 단계를 포함할 수 있다. According to an embodiment of the present invention, a method for analyzing a neural network model may include the steps of: converting original audio data into an audio spectrogram composed of a plurality of pixels and time-frequency data including phase information; inputting the audio spectrogram into a neural network model to obtain an analysis result; determining a color of each pixel according to a contribution of each pixel to the analysis result to generate a heatmap image corresponding to the audio spectrogram; adjusting the heatmap image to a size corresponding to the time-frequency data and binarizing it into pixels with high contribution and pixels with low contribution based on a threshold value to generate a heatmap mask; masking a pixel area with low contribution from the time-frequency data to generate masked time-frequency data, and restoring audio data capable of hearing a sound that has contributed to the analysis result of the neural network model from the masked time-frequency data.

상기 오디오 스펙트로그램으로 변환하는 단계에서는, 상기 원본 오디오 데이터를 상기 신경망 모델의 입력 형태에 해당하는 오디오 스펙트로그램으로 변환하며, 오디오 스펙트로그램으로 변환하는 과정에서 상기 위상 정보를 포함한 시간-주파수 데이터를 얻을 수 있다.In the step of converting into the above audio spectrogram, the original audio data is converted into an audio spectrogram corresponding to the input form of the neural network model, and in the process of converting into the audio spectrogram, time-frequency data including the phase information can be obtained.

상기 히트맵 마스크를 생성하는 단계는, 상기 분석 결과에 대한 각 픽셀의 기여도를 색으로 설정함으로써 히트맵 이미지를 생성할 수 있으며, 상기 기여도를 계산하는 상세 방법은 역전파(backpropagation)하여 얻어진 구배(gradient)를 활용하는 방법 또는 상기 신경망 모델의 특정 계층의 피쳐맵(feature map)들을 가중합(weighted sum)하는 방법이 있으며, 상기 히트맵 이미지를 상기 시간-주파수 데이터에 대응하는 크기로 조정 및 각 픽셀 값을 임계값을 기준으로 이진화 하여 기여도가 높은 영역과 낮은 영역으로 구분된 히트맵 마스크를 생성할 수 있다.The step of generating the above heatmap mask can generate a heatmap image by setting the contribution of each pixel to the analysis result as a color, and a detailed method of calculating the contribution includes a method of utilizing a gradient obtained by backpropagation or a method of weighted summing feature maps of a specific layer of the neural network model, and a heatmap mask divided into a high contribution area and a low contribution area can be generated by adjusting the heatmap image to a size corresponding to the time-frequency data and binarizing each pixel value based on a threshold value.

상기 오디오 데이터를 복원하는 단계는, 상기 히트맵 마스크와 상기 시간-주파수 데이터의 비트 연산을 통해 상기 시간-주파수 데이터에서 기여도가 낮은 영역을 마스킹하여 마스킹된 시간-주파수 데이터를 생성하고, 상기 마스킹된 시간-주파수 데이터로부터 상기 신경망 모델의 분석 결과에 기여한 소리를 청취할 수 있는 오디오 데이터를 복원할 수 있다.The step of restoring the above audio data may include generating masked time-frequency data by masking an area with low contribution in the time-frequency data through a bit operation of the heat map mask and the time-frequency data, and restoring audio data capable of hearing sounds that contributed to the analysis results of the neural network model from the masked time-frequency data.

본 발명의 일실시예에 따른 음향 장면 분류 모델의 분석 방법은 원본 오디오 데이터를 복수의 픽셀로 구성되는 멜 스펙트로그램과 위상 정보를 포함한 시간-주파수 데이터로 변환하는 단계; 음향 장면 분류 모델에 상기 멜 스펙트로그램을 입력하여 음향 장면 분류 결과를 획득하고, 상기 분류 결과에 대한 각 픽셀의 기여도에 따라 상기 각 픽셀의 색을 결정하여 상기 오디오 스펙트로그램에 대응하는 히트맵(heatmap) 이미지를 생성하고, 상기 히트맵 이미지를 상기 시간-주파수 데이터에 대응하는 크기로 조정 및 임계값을 기준으로 각 픽셀 값을 이진화 하여 히트맵 마스크를 생성하는 단계; 상기 히트맵 마스크로 상기 시간-주파수 데이터를 마스킹하고, 상기 마스킹된 시간-주파수 데이터를 오디오 데이터로 복원하여 상기 음향 장면 분류 모델의 음향 장면 분류에 기여한 소리를 청취할 수 있는 오디오 데이터를 획득하는 단계를 포함할 수 있다.A method for analyzing an acoustic scene classification model according to an embodiment of the present invention may include the steps of: converting original audio data into a mel spectrogram composed of a plurality of pixels and time-frequency data including phase information; inputting the mel spectrogram into an acoustic scene classification model to obtain an acoustic scene classification result; determining a color of each pixel according to a contribution of each pixel to the classification result to generate a heatmap image corresponding to the audio spectrogram; adjusting the heatmap image to a size corresponding to the time-frequency data and binarizing each pixel value based on a threshold value to generate a heatmap mask; masking the time-frequency data with the heatmap mask and restoring the masked time-frequency data into audio data to obtain audio data capable of hearing sounds that have contributed to the acoustic scene classification of the acoustic scene classification model.

상기 오디오 스펙트로그램으로 변환하는 단계에서는, 상기 원본 오디오 데이터를 음향 장면 분류 모델의 입력에 해당하는 멜 스펙트로그램으로 변환하며, 멜 스펙트로그램으로 변환하는 과정에서 상기 위상 정보를 포함한 시간-주파수 데이터를 얻을 수 있다.In the step of converting to the above audio spectrogram, the original audio data is converted to a mel spectrogram corresponding to the input of an acoustic scene classification model, and time-frequency data including the phase information can be obtained in the process of converting to the mel spectrogram.

상기 히트맵 마스크를 생성하는 단계는, 상기 음향 장면 분류 모델의 특정 계층의 피쳐맵들을 가중합(weighted sum)하여 히트맵 이미지를 생성할 수 있고, 상기 시간-주파수 데이터에 대응하는 크기로 조정 및 임계값을 기준으로 각 픽셀 값을 이진화하여 음향 장면 분류에 기여도가 높은 영역과 낮은 영역으로 구분된 히트맵 마스크를 생성할 수 있다.The step of generating the above heat map mask can generate a heat map image by weighting feature maps of a specific layer of the above acoustic scene classification model, and can generate a heat map mask divided into areas with high and low contribution to acoustic scene classification by adjusting the size corresponding to the time-frequency data and binarizing each pixel value based on a threshold value.

상기 오디오 데이터를 획득하는 단계는, 상기 히트맵 마스크와 상기 시간-주파수 데이터의 비트 연산을 통해 상기 시간-주파수 데이터에서 기여도나 낮은 영역을 마스킹하여 마스킹된 시간-주파수 데이터를 생성하고, 상기 마스킹된 시간-주파수 데이터로부터 상기 음향 장면 분류에 기여한 소리를 청취할 수 있는 오디오 데이터를 획득할 수 있다.The step of obtaining the above audio data may include generating masked time-frequency data by masking a contribution or low area in the time-frequency data through a bit operation of the heat map mask and the time-frequency data, and obtaining audio data capable of hearing sounds that contributed to the acoustic scene classification from the masked time-frequency data.

본 발명의 일실시예에 따른 신경망 모델의 분석 방법을 수행하는 신경망 모델의 히트맵 청각화 장치에 있어서, 상기 히트맵 청각화 장치는 시간-주파수 데이터 및 오디오 스펙트로그램 생성 과정, 히트맵(heatmap) 이미지 생성 과정, 그리고 시간-주파수 데이터 마스킹 및 신호 복원 과정을 수행한다.In a heatmap auditory device of a neural network model that performs a method for analyzing a neural network model according to an embodiment of the present invention, the heatmap auditory device performs a process of generating time-frequency data and an audio spectrogram, a process of generating a heatmap image, and a process of masking time-frequency data and restoring a signal.

상기 시간-주파수 데이터 및 오디오 스펙트로그램 생성 과정에서 프로세서는, 히트맵 청각화 장치에 입력된 원본 오디오 데이터를 푸리에 변환(Fourier Transform)으로 복수의 픽셀로 구성되는 복소수 도메인의 시간-주파수 데이터로 변환하여 시간-주파수 데이터 마스킹 및 신호 복원 과정에서 처리하고, 동시에 상기 원본 오디오 데이터를 복수의 픽셀로 구성되는 신경망 모델의 오디오 스펙트로그램으로 변환하여 히트맵 이미지 생성 과정에서 처리한다.In the above time-frequency data and audio spectrogram generation process, the processor converts the original audio data input to the heatmap auditory device into time-frequency data in a complex domain consisting of multiple pixels through Fourier transform and processes the same in the time-frequency data masking and signal restoration process, and simultaneously converts the original audio data into an audio spectrogram of a neural network model consisting of multiple pixels and processes the same in the heatmap image generation process.

상기 히트맵 이미지 생성 과정에서 프로세서는, 미리 훈련된 신경망 모델을 활용하여 상기 오디오 스펙트로그램을 분석해 생성된 분석 결과에 대한 각 픽셀의 기여도에 따라 이진화 된 값을 갖는 히트맵(heatmap) 이미지를 생성하고, 생성된 히트맵의 크기가 상기 시간-주파수 데이터와 대응하도록 조정하고,In the process of generating the above heatmap image, the processor analyzes the audio spectrogram using a pre-trained neural network model, generates a heatmap image having a binarized value according to the contribution of each pixel to the generated analysis result, and adjusts the size of the generated heatmap to correspond to the time-frequency data.

상기 시간-주파수 데이터 마스킹 및 신호 복원 과정에서 프로세서는, 상기 히트맵 이미지에서 상기 기여도가 가장 높은 픽셀들이 인접한 영역을 제외한 영역을 상기 시간-주파수 데이터에서 마스킹하고, 상기 마스킹된 시간-주파수 데이터를 역 푸리에 변환(inverse Fourier Transform)으로 오디오 데이터로 복원하여 상기 신경망 모델의 분석 결과에 기여한 소리를 청취할 수 있는 마스킹된 오디오 데이터를 획득할 수 있다.In the above time-frequency data masking and signal restoration process, the processor masks an area in the time-frequency data except an area adjacent to pixels with the highest contribution in the heat map image, and restores the masked time-frequency data into audio data using an inverse Fourier transform, thereby obtaining masked audio data that can hear sounds that contributed to the analysis results of the neural network model.

상기 히트맵 이미지 생성 과정의 신경망 모델은, 오디오 스펙트로그램 도메인의 다양한 오디오 피쳐를 입력으로 활용할 수 있으며, 적어도 하나 이상의 가중치로 구성되는 복수의 계층을 포함하고, 오디오 스펙트로그램을 분석할 수 있다.The neural network model of the above heatmap image generation process can utilize various audio features in the audio spectrogram domain as input, includes multiple layers each consisting of at least one weight, and can analyze the audio spectrogram.

본 발명의 일실시예에 따른 음향 장면 분류 모델의 분석 방법을 수행하는 신경망 모델의 히트맵 청각화 장치에 있어서, 상기 히트맵 청각화 장치는 시간-주파수 데이터 및 오디오 스펙트로그램 생성 과정, 히트맵(heatmap) 이미지 생성 과정, 그리고 시간-주파수 데이터 마스킹 및 신호 복원 과정을 수행한다.In a heatmap auditory device of a neural network model that performs a method for analyzing an acoustic scene classification model according to an embodiment of the present invention, the heatmap auditory device performs a process of generating time-frequency data and an audio spectrogram, a process of generating a heatmap image, and a process of masking time-frequency data and restoring a signal.

상기 시간-주파수 데이터 및 오디오 스펙트로그램 생성 과정에서 프로세서는 입력된 원본 오디오 데이터를 푸리에 변환하여 복수의 픽셀로 구성되는 시간-주파수 데이터로 변환하여 시간-주파수 데이터 마스킹 및 신호 복원 과정에서 처리하고, 동시에 상기 원본 오디오 데이터를 복수의 픽셀로 구성되는 음향 장면 분류 모델의 입력 형태인 멜 스펙트로그램으로 변환하여 히트맵 이미지 생성 과정에서 처리한다.In the above time-frequency data and audio spectrogram generation process, the processor converts the input original audio data into time-frequency data composed of multiple pixels by Fourier transforming the input original audio data and processes it in the time-frequency data masking and signal restoration process, and at the same time, converts the original audio data into a mel spectrogram, which is an input form of an acoustic scene classification model composed of multiple pixels, and processes it in the heatmap image generation process.

상기 히트맵 이미지 생성 과정에서 프로세서는, 미리 훈련된 음향 장면 분류 모델을 포함하며 상기 멜 스펙트로그램을 분석해 생성된 음향 장면 분류 결과에 대한 각 픽셀의 기여도를 특정 계층의 피쳐맵들을 가중합하여 얻어내고, 상기 픽셀 별 기여도에 따라 이진화 된 값을 갖는 히트맵(heatmap) 이미지를 생성하고, 생성된 히트맵의 크기가 상기 시간-주파수 데이터와 대응하도록 리사이즈하고,In the process of generating the above heatmap image, the processor includes a pre-trained acoustic scene classification model, analyzes the mel spectrogram, obtains the contribution of each pixel to the generated acoustic scene classification result by weighting feature maps of a specific layer, generates a heatmap image having a binarized value according to the contribution of each pixel, and resizes the size of the generated heatmap to correspond to the time-frequency data.

상기 시간-주파수 데이터 마스킹 및 신호 복원 과정에서 프로세서는 상기 히트맵 이미지에서 상기 기여도가 가장 높은 픽셀들이 인접한 영역을 제외한 영역을 상기 시간-주파수 데이터에서 마스킹하고, 상기 마스킹된 시간-주파수 데이터를 역 푸리에 변환으로 오디오 데이터로 복원하여 상기 음향 장면 분류 모델의 음향 장면 분류에 기여한 소리를 청취할 수 있는 오디오 데이터를 획득할 수 있다.In the above time-frequency data masking and signal restoration process, the processor masks an area in the time-frequency data except an area adjacent to pixels with the highest contribution in the heat map image, and restores the masked time-frequency data into audio data by inverse Fourier transform, thereby obtaining audio data that can hear sounds that contributed to the acoustic scene classification of the acoustic scene classification model.

상기 히트맵 이미지 생성 과정의 음향 장면 분류 모델은, 오디오 스펙트로그램 도메인의 다양한 오디오 피쳐를 모델 입력으로 활용할 수 있으며, 적어도 하나 이상의 가중치로 구성되는 복수의 계층을 포함하고, 오디오 스펙트로그램을 분석하여 음향 장면 분류를 수행할 수 있다.The acoustic scene classification model of the above heat map image generation process can utilize various audio features of the audio spectrogram domain as model input, includes multiple layers composed of at least one weight, and can perform acoustic scene classification by analyzing the audio spectrogram.

본 발명의 일실시예에 따르면, 오디오 데이터 처리 분야에서 신경망 모델을 효과적으로 연구하고 활용하기 위해 신경망 모델의 분석 결과를 이용한 히트맵 이미지를 생성함으로써 신경망 모델의 분석 결과에 기여한 오디오 데이터를 추출할 수 있다.According to one embodiment of the present invention, in order to effectively study and utilize a neural network model in the field of audio data processing, a heat map image is generated using the analysis results of a neural network model, thereby extracting audio data that contributed to the analysis results of the neural network model.

또한, 본 발명의 일실시예에 따르면, 신경망 모델의 분석 결과에 기여한 오디오 데이터를 추출함으로써 신경망 모델의 분석 결과가 정확하게 추출된 것인지 청취할 수 있으므로 신경망 모델의 신뢰도를 판단할 수 있다.In addition, according to one embodiment of the present invention, by extracting audio data that contributed to the analysis results of the neural network model, it is possible to hear whether the analysis results of the neural network model were extracted accurately, thereby determining the reliability of the neural network model.

도 1은 본 발명의 일실시예에 따른 신경망 모델의 히트맵 청각화 장치의 입출력 대상을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 오디오 데이터로부터 마스킹된 오디오 데이터를 생성하는 과정에 대한 예시를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 멜 스펙트로그램과 히트맵 이미지의 일례를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 스펙트로그램으로 시각화 된 시간-주파수 데이터, 히트맵 마스크 및 마스킹된 스펙트로그램의 일례를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 신경망 모델의 분석 방법의 플로우 차트를 도시한 도면이다.
FIG. 1 is a diagram illustrating input and output targets of a heat map auditory device of a neural network model according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of a process for generating masked audio data from audio data according to one embodiment of the present invention.
FIG. 3 is a diagram illustrating an example of a Mel spectrogram and a heat map image according to one embodiment of the present invention.
FIG. 4 is a diagram illustrating an example of time-frequency data visualized as a spectrogram, a heatmap mask, and a masked spectrogram according to one embodiment of the present invention.
FIG. 5 is a diagram illustrating a flow chart of a method for analyzing a neural network model according to an embodiment of the present invention.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.Hereinafter, embodiments are described in detail with reference to the attached drawings. However, the embodiments may be modified in various ways, and the scope of the patent application is not limited or restricted by these embodiments. It should be understood that all modifications, equivalents, or alternatives to the embodiments are included within the scope of the patent application.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the examples are for illustrative purposes only and should not be construed as limiting. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, terms such as "comprise" or "have" are intended to indicate the presence of a feature, number, step, operation, component, part, or combination thereof described in the specification, but should be understood to not preclude the presence or addition of one or more other features, numbers, steps, operations, components, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by a person of ordinary skill in the art to which the embodiments pertain. Terms defined in commonly used dictionaries should be interpreted as having a meaning consistent with their meaning in the context of the relevant technology, and shall not be interpreted in an idealized or overly formal sense unless explicitly defined herein.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In addition, when describing with reference to the attached drawings, identical components will be assigned the same reference numerals regardless of the drawing numbers, and redundant descriptions thereof will be omitted. When describing embodiments, if a detailed description of a related known technology is judged to unnecessarily obscure the gist of the embodiment, the detailed description will be omitted.

도 1은 본 발명의 일실시예에 따른 신경망 모델의 히트맵 청각화 장치의 입출력 대상을 도시한 도면이다.FIG. 1 is a diagram illustrating input and output targets of a heat map auditory device of a neural network model according to an embodiment of the present invention.

본 발명은 오디오 데이터를 분석하는 신경망 모델의 신뢰도를 측정하기 위해 신경망 모델의 분석 결과를 나타내는 히트맵에서 분석 결과에 영향을 준 오디오 데이터를 청각화하는 히트맵 청각화 방법 및 히트맵 청각화 장치(101)를 개시한다. 본 발명의 히트맵 청각화 장치(101)는 프로세서에 대응하고, 프로세서는 히트맵 청각화 방법을 수행한다.The present invention discloses a heatmap auralization method and a heatmap auralization device (101) for auralizing audio data that influences analysis results in a heatmap representing analysis results of a neural network model to measure the reliability of a neural network model that analyzes audio data. The heatmap auralization device (101) of the present invention corresponds to a processor, and the processor performs the heatmap auralization method.

이를 위해, 본 발명의 히트맵 청각화 장치(101)는 오디오 데이터를 입력 받아 위상 정보를 포함한 시간-주파수 데이터와 오디오 스펙트로그램(spectrogram)을 생성한다. To this end, the heatmap auditory device (101) of the present invention receives audio data and generates time-frequency data including phase information and an audio spectrogram.

구체적으로, 시간-주파수 데이터는 오디오 데이터를 푸리에 변환한 복소수 도메인의 2차원 데이터이며, 각 주파수 축의 시간에 따른 변화를 나타낸다. 스펙트로그램은 오디오 데이터나 파동 데이터를 시각화한 2차원 평면의 이미지로서, 파형(waveform)과 스펙트럼(spectrum)의 특징이 조합된 이미지이다. Specifically, time-frequency data is a two-dimensional data in the complex domain obtained by Fourier transforming audio data, representing changes in each frequency axis over time. A spectrogram is a two-dimensional flat image that visualizes audio or wave data, combining the characteristics of the waveform and spectrum.

오디오 스펙트로그램의 형태는 히트맵 생성 장치(101)에 포함된 신경망 모델에 따라 결정되며, 주로 활용되는 형태는 시간-주파수 데이터의 진폭(magnitude)을 취한 스펙트로그램(spectrogram), 스펙트로그램의 주파수 축을 멜 스케일로 표현한 멜 스펙트로그램(Mel spectrogram) 등이 있다. 멜 스펙트로그램은 저음역에 민감한 인간의 청각 모델을 반영한 멜 스케일로 주파수 축을 압축한 스펙트로그램으로, 주파수 축으로 비선형 압축된 스펙트로그램 이미지이다.The form of the audio spectrogram is determined by the neural network model included in the heatmap generation device (101), and the mainly utilized forms include a spectrogram that takes the amplitude of time-frequency data, and a Mel spectrogram that expresses the frequency axis of the spectrogram in a Mel scale. A Mel spectrogram is a spectrogram that compresses the frequency axis in a Mel scale that reflects a human hearing model that is sensitive to low-frequency ranges, and is a spectrogram image that is nonlinearly compressed along the frequency axis.

본 발명에서 이용되는 신경망 모델은, 적어도 하나 이상의 파라미터로 구성되는 복수의 계층을 포함할 수 있고 오디오 스펙트로그램 또는 2차원 오디오 피쳐를 수신하여 분석 결과를 출력한다. 일례로, 신경망 모델은 딥러닝 기술로 구현될 수 있으며, CNN(Convolutional Neural Network) 등과 같이 복수의 계층을 포함하는 신경망 모델일 수 있다. The neural network model utilized in the present invention may include multiple layers, each composed of at least one parameter, and receives an audio spectrogram or two-dimensional audio feature and outputs analysis results. For example, the neural network model may be implemented using deep learning technology and may be a neural network model comprising multiple layers, such as a convolutional neural network (CNN).

오디오 데이터를 분석하는 신경망 모델은 다양한 오디오 스펙트로그램에서 음향 이벤트나 음향 장면을 인식하는 등 오디오 데이터의 분석을 수행하는 다양한 종류의 신경망 모델일 수 있다. Neural network models that analyze audio data can be various types of neural network models that perform analysis of audio data, such as recognizing acoustic events or acoustic scenes from various audio spectrograms.

본 발명에서 신경망 모델은 사전에 훈련된 상태로 히트맵 생성 장치(101)에 포함되며, 오디오 스펙트로그램을 분석하여 히트맵(heatmap) 이미지를 생성하는 데 이용된다.In the present invention, a neural network model is included in a heatmap generation device (101) in a pre-trained state and is used to generate a heatmap image by analyzing an audio spectrogram.

히트맵 이미지를 생성하는 방법은 크게 두 가지로 나뉘며, 신경망 모델의 예측 결과로 부터 역전파(backpropagation)된 구배(gradient)를 활용하는 방법과 신경망 모델의 특정 계층의 피쳐맵(feature map)들을 가중합(weighted sum)하는 방법이 있다.There are two main ways to create a heatmap image: one is to utilize the gradient backpropagated from the prediction results of the neural network model, and the other is to weight the feature maps of a specific layer of the neural network model.

구체적으로, 역전파 방법은 신경망 모델에 입력되는 이미지의 각 픽셀 별 기여도를 예측 결과 클래스에 대한 구배로 구할 수 있다. 각 픽셀에 대한 기여도로 구성된 히트맵()은 아래 수학식 1과 같이 입력 이미지()와 클래스 에 대한 예측 점수()로 나타낼 수 있다. Specifically, the backpropagation method can obtain the contribution of each pixel of the image input to the neural network model as a gradient for the predicted result class. Each pixel Heatmap consisting of contributions to ) is the input image (as shown in the mathematical expression 1 below) ) and class Prediction score for ( ) can be expressed as.

모델의 특정 계층의 피쳐맵을 가중합 하는 방법은 역전파 방법과 달리 신경망 모델의 forward 전파 과정에서 생성되는 피쳐맵을 활용하여 히트맵을 구성한다. Unlike the backpropagation method, the method of weighting the feature maps of a specific layer of the model constructs a heatmap by utilizing the feature maps generated during the forward propagation process of the neural network model.

Grad-CAM(Gradient-weighted Class Activation Mapping)으로 구성한 클래스 에 대한 히트맵()은 아래 수학식 2와 같이 특정 계층의 번째 피쳐맵()과 가중치()로 표현할 수 있으며, 이때 가중치는 예측 점수(에 대한 특정 계층의 피쳐맵(의 구배를 피쳐맵 픽셀 수()로 나누어 얻는다.Classes constructed using Grad-CAM (Gradient-weighted Class Activation Mapping) Heatmap for ( ) is a specific layer as shown in the mathematical expression 2 below. The th feature map ( ) and weights ( ) can be expressed as, where the weight is the predicted score ( Feature map of a specific layer for The gradient of the feature map pixel count ( ) is obtained by dividing by .

히트맵 생성 장치(101)는 위와 같은 방법으로 신경망 모델의 분석 결과에 대한 히트맵(heatmap) 이미지를 생성하고, 히트맵 이미지가 위상 정보를 포함한 시간-주파수 데이터와 대응할 수 있도록 크기를 조정하고, 히트맵 이미지의 각 픽셀을 임계값을 기준으로 이진화 한다.The heatmap generation device (101) generates a heatmap image for the analysis results of the neural network model in the above manner, adjusts the size of the heatmap image so that it can correspond to time-frequency data including phase information, and binarizes each pixel of the heatmap image based on a threshold value.

히트맵 이미지의 크기는, 생성 방법에 따라 신경망 모델에 입력되는 오디오 스펙트로그램과 같거나, 특정 계층의 피쳐맵과 같다. 따라서 히트맵 생성 장치(101)는 시간-주파수 데이터와 히트맵 이미지의 크기가 대응되도록 히트맵 이미지의 크기를 조정(리사이징)할 수 있다. The size of the heatmap image is the same as the audio spectrogram input to the neural network model or the feature map of a specific layer, depending on the generation method. Accordingly, the heatmap generation device (101) can adjust (resize) the size of the heatmap image so that the size of the time-frequency data corresponds to the size of the heatmap image.

히트맵 이미지의 리사이징은 선형보간법(linear interpolation)이 이용될 수 있으나, 오디오 스펙트로그램을 추출하는 과정에서 멜 주파수 압축과 같이 비선형 변형이 적용된 경우에는 멜 필터 뱅크의 전치 행렬, 또는 non-negative least square 추정을 활용한 크기 조정이 필요하다.Resizing of heatmap images can be done using linear interpolation, but when nonlinear transformations such as Mel frequency compression are applied during the process of extracting audio spectrograms, resizing using the transpose matrix of the Mel filter bank or non-negative least square estimation is required.

히트맵 이미지는 오디오 스펙트로그램의 각 픽셀들의 분석 결과에 대한 기여도에 따른 값을 가지는 이미지이다. 예를 들어, 분석 결과에 기여도가 높은 픽셀일수록 큰 값을 가질 수 있다. A heatmap image is an image that contains values based on the contribution of each pixel in the audio spectrogram to the analysis results. For example, pixels with a high contribution to the analysis results may have a higher value.

본 발명에서는 기여도가 높은 영역의 청취를 용이하게 하기 위해 이 값을 임계값()과 스케일 보정값()에 대해 아래 수학식 3과 같은 시그모이드(sigmoid) 함수로 이진화 된 히트맵 이미지()를 활용할 것을 제안한다. In the present invention, in order to facilitate listening to the area with high contribution, this value is set as a threshold ( ) and scale correction value ( ) for the binarized heatmap image using the sigmoid function as in the mathematical expression 3 below. ) is proposed to be utilized.

히트맵 생성 장치(101)는 히트맵 이미지와 오디오 스펙트로그램을 이용해 생성한 히트맵 마스크와 시간-주파수 데이터를 이용하여 마스킹된 시간-주파수 데이터를 얻어내고, 마스킹된 시간-주파수 데이터를 역 푸리에 변환하여 오디오 데이터를 복원함으로써 신경망 모델에 영향을 준 소리를 청취할 수 있는 마스킹된 오디오 데이터를 획득할 수 있다.A heat map generation device (101) obtains masked time-frequency data using a heat map mask and time-frequency data generated using a heat map image and an audio spectrogram, and performs an inverse Fourier transform on the masked time-frequency data to restore audio data, thereby obtaining masked audio data that can hear sounds that have affected a neural network model.

히트맵 청각화 장치는 히트맵 이미지의 각 픽셀 값을 이진화하고, 시간-주파수 데이터(221)에 대응하는 크기로 조정하여 분석 결과에 기여한 픽셀들을 강조하는 히트맵 마스크를 생성할 수 있다. 히트맵 마스크에서 임계값 이상의 기여도를 나타내는 픽셀들로 구성된 영역은 픽셀 값이 1인 영역이고, 나머지는 0으로 이진화된다.The heatmap audio device can generate a heatmap mask that emphasizes pixels that contribute to the analysis result by binarizing each pixel value of the heatmap image and adjusting the size corresponding to the time-frequency data (221). In the heatmap mask, an area composed of pixels that exhibit a contribution greater than a threshold value is an area with a pixel value of 1, and the rest are binarized to 0.

마스킹된 시간-주파수 데이터(는 기여도가 높은 영역에 해당하지 않는 영역을 마스킹하여 얻을 수 있으며, 아래 수학식 4와 같이 시간-주파수 데이터()와 이진화된 히트맵() 간의 요소별 곱연산(element-wise multiplication)으로 연산 된다.Masked time-frequency data ( can be obtained by masking the areas that do not correspond to the areas with high contribution, and the time-frequency data (as in mathematical expression 4 below) ) and binarized heatmap ( ) is calculated by element-wise multiplication.

마스킹된 시간-주파수 데이터는 진폭과 주파수를 포함하고 있으며, 역 푸리에 변환을 통해 오디오 데이터로 복원될 수 있다.Masked time-frequency data contains amplitude and frequency and can be restored to audio data through inverse Fourier transform.

도 2는 본 발명의 일실시예에 따른 원본 오디오 데이터으로부터 마스킹 된 오디오 데이터를 추출하는 과정에 대한 예시를 도시한 도면이다. FIG. 2 is a diagram illustrating an example of a process for extracting masked audio data from original audio data according to one embodiment of the present invention.

히트맵 청각화 장치는 오디오 데이터(201)를 입력 받아 위상 정보를 포함한 시간-주파수 데이터(221)와 신경망 모델에 입력되는 오디오 스펙트로그램(211)을 생성한다. 그리고, 히트맵 청각화 장치는 학습된 신경망 모델(212)에 오디오 스펙트로그램(211)을 입력하여 분석 결과를 나타내는 히트맵(213)을 획득할 수 있다. 신경망 모델(212)의 종류에 따라 분석 결과는 오디오 데이터에 포함되는 음향 이벤트나, 음향 장면, 또는 음악 장르를 분류한 결과일 수 있다.A heatmap auditory device receives audio data (201) as input and generates time-frequency data (221) including phase information and an audio spectrogram (211) that is input to a neural network model. Then, the heatmap auditory device can input the audio spectrogram (211) to a trained neural network model (212) to obtain a heatmap (213) representing the analysis result. Depending on the type of neural network model (212), the analysis result may be a result of classifying an acoustic event, an acoustic scene, or a music genre included in the audio data.

히트맵 청각화 장치는 오디오 스펙트로그램(211)에서 각 픽셀의 분석 결과에 대한 기여도에 따라 각 픽셀의 색을 결정함으로써 오디오 스펙트로그램(211)에 대응하는 히트맵 이미지(213)를 생성할 수 있다. 일례로, 히트맵 청각화 장치는 신경망 모델의 특정 계층에서 생성되는 피쳐맵들을 가중합하여, 오디오 스펙트로그램(211)에 대응하는 히트맵 이미지(213)를 생성할 수 있다.The heatmap auditory device can generate a heatmap image (213) corresponding to the audio spectrogram (211) by determining the color of each pixel based on its contribution to the analysis result of each pixel in the audio spectrogram (211). For example, the heatmap auditory device can generate a heatmap image (213) corresponding to the audio spectrogram (211) by weighting feature maps generated in a specific layer of a neural network model.

그리고, 히트맵 청각화 장치는 히트맵 이미지(213)의 각 픽셀 값을 이진화하고, 시간-주파수 데이터(221)에 대응하는 크기로 조정하여 히트맵 마스크(214)를 생성할 수 있다. 도 2에서 210은 히트맵 마스크(214)의 생성 과정을 도시한 것이다. In addition, the heatmap audio device can generate a heatmap mask (214) by binarizing each pixel value of the heatmap image (213) and adjusting it to a size corresponding to time-frequency data (221). 210 in FIG. 2 illustrates the process of generating the heatmap mask (214).

구체적으로, 히트맵 청각화 장치는 신경망 모델(212)로부터 출력되는 특정 클래스에 대한 분석 결과에 기여한 픽셀들을 강조하는 히트맵 마스크(214)를 생성할 수 있다.Specifically, the heatmap auditory device can generate a heatmap mask (214) that emphasizes pixels that contributed to the analysis results for a specific class output from the neural network model (212).

히트맵 청각화 장치는 히트맵 이미지(213)를 시간-주파수 데이터에 대응하는 크기로 조정한다. 히트맵 이미지(213)의 크기는, 생성 방법에 따라 다르나 시간-주파수 데이터보다 작은 형태로 생성된다. 히트맵의 크기를 늘리는 방법으로는 선형보간법(linear interpolation)이 이용된다. 다만, 오디오 스펙트로그램을 추출하는 과정에서 비선형 변형이 적용된 경우에는 이를 고려하여 크기 조정이 필요하다.The heatmap audio device adjusts the heatmap image (213) to a size corresponding to the time-frequency data. The size of the heatmap image (213) varies depending on the generation method, but is usually generated in a smaller form than the time-frequency data. Linear interpolation is used to increase the size of the heatmap. However, if nonlinear transformation is applied during the audio spectrogram extraction process, this must be taken into account when adjusting the size.

일례로, 오디오 스펙트로그램을 추출하는 과정에서 멜 주파수 압축이 적용된 경우에는, 이를 고려하여 크기를 복원해야 한다.For example, if Mel frequency compression is applied during the process of extracting the audio spectrogram, the size must be restored taking this into account.

히트맵 청각화 장치는 임계값을 기준으로 히트맵 이미지(213)의 픽셀들을 이진화하여 기여도가 높은 픽셀 영역과 낮은 영역으로 구분되는 히트맵 마스크를 생성한다. 히트맵 청각화 장치는 히트맵 마스크에서 기여도가 높은 영역을 이용하여 시간-주파수 데이터(221)에서 신경망 모델(212)에 영향을 준 오디오 데이터(222)를 추출할 수 있다. A heatmap audibility device binarizes pixels of a heatmap image (213) based on a threshold value to generate a heatmap mask that is divided into high-contribution pixel areas and low-contribution pixel areas. The heatmap audibility device can extract audio data (222) that influences a neural network model (212) from time-frequency data (221) by using the high-contribution areas in the heatmap mask.

도 2에서 220은 히트맵 마스크(214)를 이용하여 시간-주파수 데이터(221)에서 신경망 모델(212)에 영향을 준 오디오 데이터를 추출하고, 소리로 청취할 수 있는 마스킹된 오디오 데이터(223)를 얻는 과정을 도시한 것이다.In FIG. 2, 220 illustrates a process of extracting audio data that has influenced a neural network model (212) from time-frequency data (221) using a heat map mask (214) and obtaining masked audio data (223) that can be heard as sound.

히트맵 청각화 장치는 시그모이드 함수(Sigmoid function), 단위 계단 함수(Unit step function) 등의 활성화 함수를 이용하여 임계값에 따라 기여도가 높은 픽셀과 낮은 픽셀을 구분할 수 있다.The heatmap auditory device can distinguish between high-contribution pixels and low-contribution pixels based on a threshold using activation functions such as the sigmoid function and the unit step function.

히트맵 청각화 장치는 기여도가 높은 영역을 제외한 나머지 영역을 마스킹할 수 있다. 구체적으로, 히트맵 청각화 장치는 기여도가 높은 영역과 낮은 영역으로 이진화 함으로써 마스킹을 수행할 수 있다. A heatmap auditory device can mask regions other than high-contribution regions. Specifically, the heatmap auditory device can perform masking by binarizing regions with high and low contributions.

일례로, 히트맵 청각화 장치는 기여도가 높은 픽셀을 1에 가까운 값으로, 나머지 영역을 0으로 이진화 하여 히트맵 마스크를 생성할 수 있다.For example, a heatmap auditory device can generate a heatmap mask by binarizing pixels with high contribution to values closer to 1 and the remaining areas to 0.

히트맵 청각화 장치는 기여도가 높은 픽셀 영역에 따라 시간-주파수 데이터(221)를 마스킹할 수 있다. 히트맵 청각화 장치는 히트맵 마스크(214)와 시간-주파수 데이터(221)를 비트 연산하여 마스킹된 시간-주파수 데이터(222)를 생성할 수 있다. The heatmap auditory device can mask time-frequency data (221) according to pixel areas with high contribution. The heatmap auditory device can perform a bitwise operation on the heatmap mask (214) and time-frequency data (221) to generate masked time-frequency data (222).

일례로, 히트맵 청각화 장치는 시간-주파수 데이터(221)에서 히트맵 마스크(214)의 기여도가 높은 영역에 대응하는 영역에 대해서는 픽셀을 변경하지 않고, 나머지 영역에 대해서는 마스킹하여, 시간-주파수 데이터(221)에서 히트맵 마스크(214)의 기여도가 높은 영역(215)에 대응하는 영역(223)를 획득할 수 있다.For example, the heatmap auditory device can obtain an area (223) corresponding to an area (215) with a high contribution to the heatmap mask (214) in the time-frequency data (221) by not changing pixels in an area corresponding to an area with a high contribution to the heatmap mask (214) in the time-frequency data (221) and masking the remaining areas.

예를 들어, 기여도가 높은 영역이 1로, 나머지 영역이 0으로 히트맵 마스크(214)에 대해서, 히트맵 청각화 장치는 히트맵 마스크(214)의 각 픽셀과 시간-주파수 데이터(221)에서 그 픽셀에 대응하는 픽셀 간의 AND 연산을 수행하여 시간-주파수 데이터(221)에서 기여도가 임계값 보다 높은 영역에 대응하는 영역(223)을 추출할 수 있다.For example, for a heatmap mask (214) in which a region with a high contribution is 1 and the remaining regions are 0, a heatmap auditory device can perform an AND operation between each pixel of the heatmap mask (214) and the pixel corresponding to that pixel in the time-frequency data (221) to extract a region (223) corresponding to a region with a contribution higher than a threshold value in the time-frequency data (221).

그리고, 히트맵 청각화 장치는 시간-주파수 데이터(221)에서 기여도가 임계값 보다 낮은 영역을 0으로 마스킹할 수 있다. 마스킹된 시간-주파수 데이터(222)에서 마스킹된 영역은 히트맵 마스크(214)에서 0으로 매핑된 영역과 대응한다.In addition, the heatmap auditory device can mask areas in the time-frequency data (221) whose contribution is lower than a threshold value to 0. The masked areas in the masked time-frequency data (222) correspond to areas mapped to 0 in the heatmap mask (214).

히트맵 청각화 장치는 마스킹된 시간-주파수 데이터(222)를 변환하여 신경망 모델(212)의 분석 결과에 기여한 오디오 데이터(224)를 획득할 수 있다. 히트맵 청각화 장치는 마스킹된 시간-주파수 데이터(222)를 역 푸리에 변환(inverse Fourier transform)하여 오디오 데이터(224)로 변환할 수 있다. 만약 시간-주파수 데이터가 위상 정보가 손실된 상태라면, 히트맵 청각화 장치는 위상 정보를 복원하기 위한 방법으로 Griffin-Lim 알고리즘(GLA) 등을 이용할 수 있다.The heatmap auditory device can obtain audio data (224) that contributes to the analysis results of the neural network model (212) by transforming the masked time-frequency data (222). The heatmap auditory device can convert the masked time-frequency data (222) into audio data (224) by performing an inverse Fourier transform. If the time-frequency data has lost phase information, the heatmap auditory device can use the Griffin-Lim algorithm (GLA) or the like as a method to restore the phase information.

음향 장면 분류 모델을 분석하는 경우, 히트맵 청각화 장치는 신경망 모델에 오디오 스펙트로그램을 입력하여 오디오 데이터에 대한 음향 장면 분류 결과를 획득하고, 분류 결과에 기여한 픽셀들을 강조하는 히트맵 이미지를 생성한다. When analyzing an acoustic scene classification model, a heatmap auditory device inputs an audio spectrogram into a neural network model to obtain an acoustic scene classification result for audio data, and generates a heatmap image that emphasizes pixels that contributed to the classification result.

히트맵 청각화 장치는 음향 장면 분류 모델의 특정 계층에서 생성되는 피쳐맵들을 가중하여, 오디오 스펙트로그램에 대응하는 히트맵 이미지를 생성할 수 있다. 히트맵 이미지를 생성하는 구체적인 과정은 210에서 과정과 동일하다. A heatmap auditory device can generate a heatmap image corresponding to an audio spectrogram by weighting feature maps generated from a specific layer of an acoustic scene classification model. The specific process for generating the heatmap image is identical to the process described in 210.

그리고, 히트맵 청각화 장치는 시간-주파수 데이터에 히트맵 마스크를 마스킹할 수 있다. 히트맵 청각화 장치는 마스킹된 결과에 기초하여 상기 음향 장면 분류 모델의 음향 장면 분류에 기여한 소리를 청취할 수 있는 오디오 데이터를 획득할 수 있다. In addition, the heatmap auditory device can mask the time-frequency data with a heatmap mask. Based on the masked result, the heatmap auditory device can obtain audio data that can audibly identify sounds that contributed to the acoustic scene classification of the acoustic scene classification model.

도 3은 본 발명의 일실시예에 따른 멜 스펙트로그램과 히트맵 이미지의 일례를 도시한 도면이다.FIG. 3 is a diagram illustrating an example of a Mel spectrogram and a heat map image according to one embodiment of the present invention.

도 3은 신경망 모델 오디오 스펙트로그램에 대응하는 멜 스펙트로그램(301)과 히트맵 이미지(302)의 일례를 도시한 것이다. 각각의 가로축은 시간을 나타내고, 세로 축은 주파수를 의미한다. 다만, 멜 스펙트로그램(301)에서 픽셀의 색은 진폭의 차이를 나타내나, 히트맵 이미지(302) 에서 픽셀의 색은 각 픽셀의 분석 결과에 대한 기여도를 나타낸다. Fig. 3 illustrates an example of a Mel Spectrogram (301) and a heat map image (302) corresponding to a neural network model audio spectrogram. Each horizontal axis represents time, and the vertical axis represents frequency. However, while the color of a pixel in the Mel Spectrogram (301) represents a difference in amplitude, the color of a pixel in the heat map image (302) represents the contribution of each pixel to the analysis result.

히트맵 이미지(302) 에서 픽셀의 값이 클수록 기여도가 크고, 픽셀의 값이 작을수록 기여도가 작은 것을 의미한다. 그리고, 도 3의 히트맵 이미지(302)에서 픽셀의 값을 클수록 붉은 계열의 색을 나타내며, 픽셀의 값일수록 푸른 계열의 색을 나타낸다.In the heat map image (302), a larger pixel value indicates a larger contribution, and a smaller pixel value indicates a smaller contribution. In addition, in the heat map image (302) of Fig. 3, a larger pixel value indicates a redder color, and a smaller pixel value indicates a bluer color.

도 4는 본 발명의 일실시예에 따른 스펙트로그램으로 시각화 된 시간-주파수 데이터, 히트맵 마스크 및 로그 스펙트로그램으로 시각화 된 마스킹된 시간-주파수 데이터의 일례를 도시한 도면이다.FIG. 4 is a diagram illustrating an example of time-frequency data visualized as a spectrogram, masked time-frequency data visualized as a heatmap mask, and log spectrogram according to one embodiment of the present invention.

도 4는 로그 스펙트로그램으로 시각화 된 시간-주파수 데이터(401), 히트맵 마스크(402), 히트맵 마스크(402)에 따라 마스킹된 시간-주파수 데이터(403)의 일례를 도시한 것이다.FIG. 4 illustrates an example of time-frequency data (401) visualized as a log spectrogram, a heatmap mask (402), and time-frequency data (403) masked according to the heatmap mask (402).

시간-주파수 데이터는 복소수 영역의 정보이기에, 이를 도식화하기 위해 로그 스펙트로그램으로 변환한 이미지(401)를 대신 일례로 활용한다. 마찬가지로 마스킹된 시간-주파수 데이터의 경우도 복소수 영역의 정보이기에, 이를 도식화하기 위해 로그 스펙트로그램으로 변환한 이미지(403)를 활용한다.Since time-frequency data is information in the complex domain, an image (401) converted to a log spectrogram is used as an example for diagramming it. Similarly, since masked time-frequency data is also information in the complex domain, an image (403) converted to a log spectrogram is used for diagramming it.

히트맵 청각화 장치는 도 3에서 획득한 히트맵 이미지를 시간-주파수 데이터에 대응할 수 있는 크기로 리사이즈하고, 임계값을 기준으로 기여도가 높은 영역과 나머지 영역을 이진화할 수 있다. The heatmap auditory device can resize the heatmap image obtained in Fig. 3 to a size that corresponds to time-frequency data, and binarize a region with a high contribution and the remaining region based on a threshold value.

히트맵 청각화 장치는 미리 설정된 임계값을 기준으로 기여도가 높고 낮음을 이진화 하는 시그모이드 함수(Sigmoid function), 단위 계단 함수(Unit step function) 등의 활성화 함수를 이용하여 기여도가 높은 영역과 나머지 영역을 이진화 할 수 있다. The heatmap audio device can binarize high contribution areas and remaining areas using activation functions such as the sigmoid function and unit step function that binarize high and low contribution areas based on a preset threshold.

예를 들어, 히트맵 청각화 장치는 기여도가 임계값 미만인 픽셀들은 0으로 설정하여 검은색으로 변경하고, 기여도 기준 이상인 픽셀들은 0 보다 큰 값을 갖도록 하여 히트맵 마스크를 생성 한다. For example, a heatmap audio device creates a heatmap mask by setting pixels with contributions below a threshold to 0 and turning them black, and by setting pixels with contributions above the threshold to have values greater than 0.

그리고, 히트맵 청각화 장치는 시간-주파수 데이터(401)에 히트맵 마스크(402)를 마스킹하여 마스킹된 시간-주파수 데이터(403)를 획득할 수 있다. In addition, the heatmap auditory device can obtain masked time-frequency data (403) by masking the time-frequency data (401) with a heatmap mask (402).

구체적으로, 히트맵 이미지가 0과 1로 이진화된 경우, 히트맵 청각화 장치는 시간-주파수 데이터(401) 및 히트맵 마스크(402)에서 동일한 시간 및 주파수를 가지는 픽셀들의 AND 연산을 수행함으로써 시간-주파수 데이터(401)에서 기여도가 낮은 영역을 0으로 마스킹할 수 있다. Specifically, when the heatmap image is binarized into 0 and 1, the heatmap audio device can mask areas with low contribution in the time-frequency data (401) to 0 by performing an AND operation on pixels having the same time and frequency in the time-frequency data (401) and the heatmap mask (402).

히트맵 청각화 장치는 마스킹된 시간-주파수 데이터(403)를 역 푸리에 변환하여 신경망 모델의 분석 결과에 영향을 준 소리를 청취할 수 있는 마스킹된 오디오 데이터를 획득할 수 있다.The heatmap auditory device can obtain masked audio data that can hear sounds that have influenced the analysis results of the neural network model by inverse Fourier transforming the masked time-frequency data (403).

도 5는 본 발명의 일실시예에 따른 신경망 모델의 분석 방법의 플로우 차트를 도시한 도면이다. FIG. 5 is a diagram illustrating a flow chart of a method for analyzing a neural network model according to an embodiment of the present invention.

단계(501)에서, 히트맵 청각화 장치는, 분석 대상 오디오 데이터에서 오디오 스펙트로그램을 추출하여 히트맵 생성 장치로 전달하며, 스펙트로그램 추출 과정에서 생성된 위상 정보를 포함한 시간-주파수 데이터를 보존하여 활성화 영역 마스킹 및 신호 복원 장치로 전달한다. In step (501), the heatmap auditory device extracts an audio spectrogram from the audio data to be analyzed and transmits it to the heatmap generation device, and preserves time-frequency data including phase information generated in the spectrogram extraction process and transmits it to the activation area masking and signal restoration device.

단계(502)에서, 히트맵 청각화 장치의는, 오디오 스펙트로그램을 분석하고 오디오 스펙트로그램에 대응하는 히트맵 이미지를 생성한다. 구체적으로, 히트맵 청각화 장치는 신경망 모델에서 분석 결과를 출력하는 계층의 클래스 별 분석 결과에 대한 픽셀 별 기여도를 나타내는 히트맵 이미지를 생성할 수 있다.In step (502), the heatmap auditory device analyzes the audio spectrogram and generates a heatmap image corresponding to the audio spectrogram. Specifically, the heatmap auditory device can generate a heatmap image representing the pixel-by-pixel contribution to the class-specific analysis results of a layer that outputs the analysis results in a neural network model.

단계(503)에서, 히트맵 청각화 장치는, 히트맵 이미지가 시간-주파수 데이터에 대응할 수 있도록 크기를 리사이즈하고, 각 픽셀 값을 미리 설정된 임계값을 기준으로 이진화 할 수 있다.In step (503), the heatmap auditory device can resize the heatmap image so that it can correspond to time-frequency data and binarize each pixel value based on a preset threshold.

일례로, 히트맵 청각화 장치는, 시그모이드 함수(Sigmoid function), 단위 계단 함수(Unit step function) 등의 활성화 함수를 이용하여 분석 결과에 대한 기여도가 임계값보다 높은 영역을 1로, 기여도가 임계값보다 낮은 영역으로 0으로 이진화 하여 히트맵 마스크를 생성할 수 있다. For example, a heatmap auditory device can generate a heatmap mask by using an activation function such as a sigmoid function or a unit step function to binarize an area whose contribution to the analysis result is higher than a threshold value into 1 and an area whose contribution is lower than the threshold value into 0.

단계(504)에서, 히트맵 청각화 장치는, 히트맵 마스크에 따라 시간-주파수 데이터를 마스킹한다. 히트맵 청각화 장치는 기여도가 높은 영역을 제외한 나머지 영역을 마스킹할 수 있다. 구체적으로, 히트맵 청각화 장치는 기여도가 임계값보다 낮은 영역의 시간-주파수 데이터를 마스킹하여 기여도가 임계값보다 높은 영역만 포함한 마스킹된 시간-주파수 데이터를 생성 할 수 있다. In step (504), the heatmap auditory device masks the time-frequency data according to the heatmap mask. The heatmap auditory device can mask the remaining areas except for areas with high contribution. Specifically, the heatmap auditory device can mask the time-frequency data of areas with contributions lower than a threshold value, thereby generating masked time-frequency data that includes only areas with contributions higher than the threshold value.

단계(505)에서, 히트맵 청각화 장치의 활성화 영역 마스킹 및 신호 복원 장치는, 마스킹된 시간-주파수 데이터를 역 푸리에 변환하여 신경망 모델의 분석 결과에 기여한 소리를 청취할 수 있는 오디오 데이터를 획득한다. In step (505), the activation area masking and signal restoration device of the heat map auditory device performs an inverse Fourier transform on the masked time-frequency data to obtain audio data that can hear sounds that contributed to the analysis results of the neural network model.

한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.Meanwhile, the method according to the present invention can be written as a program that can be executed on a computer and implemented in various recording media such as a magnetic storage medium, an optical reading medium, and a digital storage medium.

본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.Implementations of the various technologies described herein may be implemented as digital electronic circuitry, or as computer hardware, firmware, software, or combinations thereof. Implementations may be implemented as a computer program product, i.e., a computer program tangibly embodied in an information carrier, e.g., a machine-readable storage medium (computer-readable medium) or a radio signal, for processing by the operation of a data processing device, e.g., a programmable processor, a computer, or multiple computers, or for controlling the operation thereof. A computer program, such as the computer program(s) described above, may be written in any form of programming language, including compiled or interpreted languages, and may be deployed in any form, including as a standalone program or as a module, component, subroutine, or other unit suitable for use in a computing environment. A computer program may be deployed to be processed on one computer or multiple computers at a single site, or to be distributed across multiple sites and interconnected by a communications network.

컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.Processors suitable for processing a computer program include, for example, both general-purpose and special-purpose microprocessors, and any one or more processors of any type of digital computer. Typically, a processor will receive instructions and data from read-only memory or random-access memory, or both. Components of a computer may include at least one processor for executing instructions and one or more memory devices for storing instructions and data. Typically, a computer may include, or be coupled to receive data from, transmit data to, or both, one or more mass storage devices, such as magnetic, magneto-optical, or optical disks, for storing data. Information carriers suitable for embodying computer program instructions and data include, for example, semiconductor memory devices, magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as compact disk read only memory (CD-ROM), digital video disks (DVD), magneto-optical media such as floptical disks, read only memory (ROM), random access memory (RAM), flash memory, erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), etc. The processor and memory may be supplemented by, or included in, special purpose logic circuitry.

또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.Additionally, the computer-readable medium may be any available medium that can be accessed by a computer, and may include both computer storage media and transmission media.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.While this specification contains details of a number of specific implementations, these should not be construed as limitations on the scope of any invention or what may be claimed, but rather as descriptions of features that may be unique to particular embodiments of particular inventions. Certain features described herein in the context of individual embodiments may also be implemented in combination in a single embodiment. Conversely, various features described in the context of a single embodiment may also be implemented in multiple embodiments, either individually or in any suitable subcombination. Furthermore, although features may operate in a particular combination and may initially be described as being claimed as such, one or more features from a claimed combination may in some cases be excluded from that combination, and the claimed combination may be modified into a subcombination or variation of a subcombination.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.Likewise, while operations are depicted in the drawings in a particular order, this should not be construed as requiring that those operations be performed in the particular or sequential order depicted to achieve desired results, or that all depicted operations be performed. In certain instances, multitasking and parallel processing may be advantageous. Furthermore, the separation of the various device components of the embodiments described above should not be construed as requiring such separation in all embodiments, and it should be understood that the program components and devices described may generally be integrated together in a single software product or packaged into multiple software products.

한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.Meanwhile, the embodiments of the present invention disclosed in this specification and drawings are merely specific examples presented to aid understanding and are not intended to limit the scope of the present invention. It will be apparent to those skilled in the art that other modifications based on the technical concepts of the present invention are possible in addition to the embodiments disclosed herein.

101: 히트맵 청각화 장치101: Heatmap Auditory Device

Claims (20)

프로세서를 포함하는 히트맵 청각화 장치가 수행하는 히트맵 청각화 방법에 있어서,
오디오 데이터를 복수의 픽셀로 구성되는 오디오 스펙트로그램(spectrogram)과 위상 정보를 포함한 시간-주파수 데이터로 변환하는 단계;
오디오 스펙트로그램을 분석하는 신경망 모델에 상기 오디오 스펙트로그램을 입력하여 분석 결과를 획득하는 단계;
상기 분석 결과에 대한 상기 각 픽셀의 기여도를 나타내는 히트맵(heatmap) 이미지를 생성하는 단계;
상기 히트맵 이미지에서 상기 기여도가 임계값보다 높은 픽셀로 구성된 영역에 따라 상기 시간-주파수 데이터를 마스킹하는 단계; 및
상기 마스킹된 시간-주파수 데이터로부터 상기 신경망 모델의 분석 결과에 기여한 소리를 청취할 수 있는 오디오 데이터를 복원하는 단계
를 포함하는 히트맵 청각화 방법.
In a heatmap auditory method performed by a heatmap auditory device including a processor,
A step of converting audio data into an audio spectrogram composed of a plurality of pixels and time-frequency data including phase information;
A step of obtaining analysis results by inputting the audio spectrogram into a neural network model that analyzes the audio spectrogram;
A step of generating a heatmap image representing the contribution of each pixel to the analysis results;
A step of masking the time-frequency data according to an area composed of pixels whose contribution is higher than a threshold value in the heat map image; and
A step of restoring audio data capable of hearing sounds that contributed to the analysis results of the neural network model from the above masked time-frequency data.
A heatmap auditory method including:
제1항에 있어서,
상기 히트맵 이미지를 생성하는 단계는,
상기 분석 결과에 대한 기여도에 따라 상기 히트맵 이미지를 구성하는 픽셀의 색을 결정함으로써 히트맵 이미지를 생성하는, 히트맵 청각화 방법.
In the first paragraph,
The steps for generating the above heatmap image are:
A heatmap auditoryization method for generating a heatmap image by determining the color of pixels constituting the heatmap image according to their contribution to the above analysis results.
제1항에 있어서,
상기 히트맵 이미지를 상기 시간-주파수 데이터에 대응하는 크기로 조정하고, 임계값을 기준으로 상기 기여도가 높은 픽셀 영역과 낮은 픽셀 영역으로 이진화하여 히트맵 마스크를 생성하는 단계
를 더 포함하고,
상기 마스킹하는 단계는,
상기 히트맵 마스크에서 상기 임계값을 기준으로 상기 기여도가 높은 픽셀로 구성되는 영역에 따라 상기 시간-주파수 데이터를 마스킹하는 히트맵 청각화 방법.
In the first paragraph,
A step of adjusting the heatmap image to a size corresponding to the time-frequency data and generating a heatmap mask by binarizing it into a high contribution pixel area and a low contribution pixel area based on a threshold value.
Including more,
The above masking step is,
A heatmap auditoryization method for masking the time-frequency data according to an area composed of pixels with high contribution based on the threshold value in the heatmap mask.
제3항에 있어서,
상기 마스킹하는 단계는,
상기 히트맵 마스크와 상기 시간-주파수 데이터의 비트 연산을 통해 상기 히트맵 마스크의 기여도가 임계값보다 낮은 픽셀에 대응하는 영역을 상기 시간-주파수 데이터에서 마스킹하여 마스킹된 시간-주파수 데이터를 생성하는, 히트맵 청각화 방법.
In the third paragraph,
The above masking step is,
A heatmap auditoryization method that generates masked time-frequency data by masking an area corresponding to a pixel whose contribution of the heatmap mask is lower than a threshold value from the time-frequency data through a bit operation of the heatmap mask and the time-frequency data.
프로세서를 포함하는 히트맵 청각화 장치가 수행하는 히트맵 청각화 방법에 있어서,
오디오 데이터를 복수의 픽셀로 구성되는 멜 스펙트로그램과 위상 정보를 포함한 시간-주파수 데이터로 변환하는 단계;
오디오 스펙트로그램을 통해 음향 장면을 분류하는 음향 장면 분류 모델에 상기 멜 스펙트로그램을 입력하여 상기 멜 스펙트로그램에 대한 음향 장면을 획득하는 단계;
상기 획득한 음향 장면에 대한 각 픽셀의 기여도를 나타내는 히트맵(heatmap) 이미지를 생성하는 단계;
상기 히트맵 이미지에서 상기 기여도가 임계값보다 높은 픽셀로 구성된 영역에 따라 상기 시간-주파수 데이터를 마스킹하는 단계; 및
상기 마스킹된 시간-주파수 데이터로부터 상기 음향 장면 분류 모델의 음향 장면 분류에 기여한 소리를 청취할 수 있는 오디오 데이터를 복원하는 단계
를 포함하는 히트맵 청각화 방법.
In a heatmap auditory method performed by a heatmap auditory device including a processor,
A step of converting audio data into a mel spectrogram composed of a plurality of pixels and time-frequency data including phase information;
A step of obtaining an acoustic scene for the mel spectrogram by inputting the mel spectrogram into an acoustic scene classification model that classifies an acoustic scene through an audio spectrogram;
A step of generating a heatmap image representing the contribution of each pixel to the acquired acoustic scene;
A step of masking the time-frequency data according to an area composed of pixels whose contribution is higher than a threshold value in the heat map image; and
A step of restoring audio data capable of hearing sounds that contributed to the acoustic scene classification of the acoustic scene classification model from the above-mentioned masked time-frequency data.
A heatmap auditory method including:
제5항에 있어서,
상기 히트맵 이미지를 생성하는 단계는,
상기 음향 장면 분류에 대한 기여도를 색에 따라 상기 히트맵 이미지를 구성하는 픽셀의 색을 결정함으로써 히트맵 이미지를 생성하는, 히트맵 청각화 방법.
In paragraph 5,
The steps for generating the above heatmap image are:
A heatmap auditoryization method for generating a heatmap image by determining the color of pixels constituting the heatmap image according to their contribution to the above acoustic scene classification.
제5항에 있어서,
상기 히트맵 이미지를 상기 시간-주파수 데이터에 대응하는 크기로 조정하고, 임계값을 기준으로 상기 기여도가 높은 픽셀 영역과 낮은 픽셀 영역으로 이진화하여 히트맵 마스크를 생성하는 단계
를 더 포함하고,
상기 마스킹하는 단계는,
상기 히트맵 마스크에서 상기 임계값을 기준으로 상기 기여도가 높은 픽셀로 구성되는 영역에 따라 상기 시간-주파수 데이터를 마스킹하는 히트맵 청각화 방법.
In paragraph 5,
A step of adjusting the heatmap image to a size corresponding to the time-frequency data and generating a heatmap mask by binarizing it into a high contribution pixel area and a low contribution pixel area based on a threshold value.
Including more,
The above masking step is,
A heatmap auditoryization method for masking the time-frequency data according to an area composed of pixels with high contribution based on the threshold value in the heatmap mask.
제7항에 있어서,
상기 마스킹하는 단계는,
상기 히트맵 마스크와 상기 시간-주파수 데이터의 비트 연산을 통해 상기 히트맵 마스크의 기여도가 임계값보다 낮은 픽셀에 대응하는 영역을 상기 시간-주파수 데이터에서 마스킹하여 마스킹된 시간-주파수 데이터를 생성하는, 히트맵 청각화 방법.
In paragraph 7,
The above masking step is,
A heatmap auditoryization method that generates masked time-frequency data by masking an area corresponding to a pixel whose contribution of the heatmap mask is lower than a threshold value from the time-frequency data through a bit operation of the heatmap mask and the time-frequency data.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020200055741A 2020-05-11 2020-05-11 Listenable heatmap analysis method and appratus for explaining neural network model Active KR102883210B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200055741A KR102883210B1 (en) 2020-05-11 2020-05-11 Listenable heatmap analysis method and appratus for explaining neural network model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200055741A KR102883210B1 (en) 2020-05-11 2020-05-11 Listenable heatmap analysis method and appratus for explaining neural network model

Publications (2)

Publication Number Publication Date
KR20210137665A KR20210137665A (en) 2021-11-18
KR102883210B1 true KR102883210B1 (en) 2025-11-07

Family

ID=78717421

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200055741A Active KR102883210B1 (en) 2020-05-11 2020-05-11 Listenable heatmap analysis method and appratus for explaining neural network model

Country Status (1)

Country Link
KR (1) KR102883210B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102494422B1 (en) 2022-06-24 2023-02-06 주식회사 액션파워 Method for detecting spoken voice in audio data including ars voice

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060140413A1 (en) 1999-11-11 2006-06-29 Sony Corporation Method and apparatus for classifying signals, method and apparatus for generating descriptors and method and apparatus for retrieving signals
KR102018346B1 (en) 2018-05-11 2019-10-14 국방과학연구소 Method for classifying sounds and system therefor
US20200058316A1 (en) 2012-05-04 2020-02-20 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060140413A1 (en) 1999-11-11 2006-06-29 Sony Corporation Method and apparatus for classifying signals, method and apparatus for generating descriptors and method and apparatus for retrieving signals
US20200058316A1 (en) 2012-05-04 2020-02-20 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
KR102018346B1 (en) 2018-05-11 2019-10-14 국방과학연구소 Method for classifying sounds and system therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Becker et al. "Interpreting and explaining deep neural networks for classification of audio signals." arXiv preprint arXiv:1807.03418 1 (2018).

Also Published As

Publication number Publication date
KR20210137665A (en) 2021-11-18

Similar Documents

Publication Publication Date Title
US10540988B2 (en) Method and apparatus for sound event detection robust to frequency change
US10679643B2 (en) Automatic audio captioning
US11282535B2 (en) Electronic device and a controlling method thereof
Ghasemzadeh et al. Audio steganalysis based on reversed psychoacoustic model of human hearing
CN114596879B (en) False voice detection method and device, electronic equipment and storage medium
CN113454717B (en) Speech recognition device and method
US20230274758A1 (en) Method and electronic device
CN112767927A (en) Method, device, terminal and storage medium for extracting voice features
KR20210131067A (en) Method and appratus for training acoustic scene recognition model and method and appratus for reconition of acoustic scene using acoustic scene recognition model
Wani et al. Deepfakes audio detection leveraging audio spectrogram and convolutional neural networks
CN117765936A (en) Method for generating underwater sound target recognition model and underwater sound target recognition method
Bach et al. Classifying marine mammals signal using cubic splines interpolation combining with triple loss variational auto-encoder
KR102883210B1 (en) Listenable heatmap analysis method and appratus for explaining neural network model
Madhusudhana et al. Extensive data engineering to the rescue: building a multi-species katydid detector from unbalanced, atypical training datasets
CN111260023A (en) Bit Interpretation for Convolutional Neural Network Input Layers
CN113688655B (en) Method, device, computer equipment and storage medium for identifying interference signals
AL-Shakarchy et al. Audio verification in forensic investigation using light deep neural network
US20230343312A1 (en) Music Enhancement Systems
CN113113048B (en) Speech emotion recognition method and device, computer equipment and medium
Lü et al. Dual-feature fusion learning: An acoustic signal recognition method for marine mammals
CN112346056A (en) Discriminative feature fusion extraction method and identification method of multi-pulse radar signal
Changapur et al. Bioacoustics Monitoring to Improve Conservation Efforts for Endangered Species
Ma et al. Efficient multiscale attention feature infusion for enhancing MAC protocol identification in underwater acoustic networks
Shehab et al. Classifying Bird Songs Based on Chroma and Spectrogram Feature Extraction
Bao et al. A dual-label-reversed ensemble transfer learning strategy for underwater target detection

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

P22-X000 Classification modified

St.27 status event code: A-2-2-P10-P22-nap-X000

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601