[go: up one dir, main page]

KR20250112644A - The method of real-time detection of audio spoofing in phone call and the apparatus thereof - Google Patents

The method of real-time detection of audio spoofing in phone call and the apparatus thereof

Info

Publication number
KR20250112644A
KR20250112644A KR1020240007705A KR20240007705A KR20250112644A KR 20250112644 A KR20250112644 A KR 20250112644A KR 1020240007705 A KR1020240007705 A KR 1020240007705A KR 20240007705 A KR20240007705 A KR 20240007705A KR 20250112644 A KR20250112644 A KR 20250112644A
Authority
KR
South Korea
Prior art keywords
voice
call
party
data
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
KR1020240007705A
Other languages
Korean (ko)
Inventor
김철규
김찬진
Original Assignee
주식회사 시그마브레인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 시그마브레인 filed Critical 주식회사 시그마브레인
Priority to KR1020240007705A priority Critical patent/KR20250112644A/en
Publication of KR20250112644A publication Critical patent/KR20250112644A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42034Calling party identification service
    • H04M3/42042Notifying the called party of information on the calling party
    • H04M3/42051Notifying the called party of information on the calling party where the notification is included in the ringing tone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42034Calling party identification service
    • H04M3/42059Making use of the calling party identifier

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 휴대 통신 장치의 음성 보안 강화를 위한 방법 및 그 장치에 관한 발명으로서, 좀더 구체적으로는 휴대 통신 장치에 저장된 전화 번호별로 상대의 음성 특징을 휴대 통신 장치 내에 저장하고, 해당 전화번호와의 통화시의 상대 음성과 기존에 저장된 음성의 특성을 비교하여, 통화 상대방의 신원을 확인하는 것에 관한 것이다.
이를 위하여 본 발명에서는 상대의 통화 번호를 확인하고, 해당 번호에 대한 음성 특성 데이터가 저장되었는지 확인 및 필요시 추가 저장 등의 데이터베이스를 관리하는 관리부, 음성 입력 신호를 받아들이는 입력부와 입력된 음성 신호의 전처리 또는 음성 신호의 특징을 추출하는 전처리부와 전처리부에서 받은 신호를 사용하여 기존 해당 번호의 음성 특징과의 일치 여부를 학습 및 비교하는 비교부, 학습된 특성을 저장하는 데이터 베이스 부로 구성되며, 통화 시의 음성과 기존 음성의 특성 신호 차이가 일정 수준 이상이 되면, 상대의 신원을 의심할 수 있도록 경고를 주게 된다. 이를 통해 도용되거나 발신 번호가 도용된 통화에서 음성의 스푸핑 (spoofing)을 방지할 수 있다.
The present invention relates to a method and a device for enhancing voice security of a mobile communication device, and more specifically, to storing voice characteristics of a counterparty for each phone number stored in the mobile communication device, and comparing the characteristics of the counterparty's voice when calling the corresponding phone number with the characteristics of a previously stored voice, thereby verifying the identity of the counterparty.
To this end, the present invention comprises a management unit that manages a database for checking the other party's call number, checking whether voice characteristic data for the corresponding number is stored, and additionally storing it if necessary, an input unit that receives a voice input signal, a preprocessing unit that preprocesses the input voice signal or extracts the characteristics of the voice signal, a comparison unit that learns and compares whether the signal received from the preprocessing unit matches the voice characteristics of the existing corresponding number, and a database unit that stores the learned characteristics. If the difference in characteristic signals between the voice during a call and the existing voice exceeds a certain level, a warning is given so that the other party's identity can be suspected. Through this, voice spoofing can be prevented in calls where the voice is stolen or the caller number is stolen.

Description

음성 통화의 실시간 스푸핑 (spoofing) 탐지 기술 및 이를 이용한 음성 통화 장치 { The method of real-time detection of audio spoofing in phone call and the apparatus thereof } {The method of real-time detection of audio spoofing in phone call and the apparatus thereof}

본 발명은 인공지능을 기반으로, 휴대 전화 등 개인 통화 장치에서 가짜 음성으로 듣는 사람에게 말하는 사람의 신분을 속이는 것을 방지하기 위한 방법에 관한 것으로, 실시간 스푸핑 탐지를 가능하게 하는 구동 방법 및 이를 이용한 장치에 대한 기술이다.The present invention relates to a method for preventing a person from deceiving the listener about the identity of a speaker by using a fake voice on a personal calling device such as a mobile phone, based on artificial intelligence, and is a technology for an operating method that enables real-time spoofing detection and a device using the same.

사회 생활에서 걸려온 전화의 상대방의 신원 식별은 매우 중요한 문제이다. 일차적으로는 상대방의 호출 번호를 사용하여 판단하는데, 이를 속이는 방법과 발신 전화 번호를 속이는 것을 탐색하는 방법도 점차 정교해지고 있다. 일반적으로 이와 같은 스푸핑을 방지하는 수단은, 전화를 받는 쪽의 시스템이나 또는 전화를 받는 휴대용 기기에 구현할 수도 있고, 반대로 전화를 거는 장치에 스푸핑 방지 수단을 구현할 수도 있다. 일례로 한국 공개특허 제 10-2022-0133235의 '심층 잔차 신경망을 이용한 강력한 스푸핑 검출 시스템'에서는 스푸핑 대응을 위한 컴퓨터 구현 방법을 제시하고 있다. 이와 같은 방식에서는 강력한 컴퓨팅 파워에 기반하여 상대적으로 방대한 규모의 딥러닝 모델들을 활용할 수 있으나 휴대전화 등 개인별 구비 장치에 이러한 딥러닝 모델을 구현하기에는 시스템의 복잡도 증가 및 이와 같은 데이터 처리에 따른 지연 시간 증가에 따라 자연스러운 전화상의 대화에 지장을 초래하기도 한다.In social life, identifying the identity of the other party on the phone is a very important issue. Primarily, it is determined using the other party's call number, but methods for deceiving this and detecting deceiving the caller number are becoming increasingly sophisticated. In general, means for preventing such spoofing can be implemented in the system of the person receiving the call or the portable device receiving the call, or conversely, spoofing prevention means can be implemented in the device making the call. For example, Korean Patent Publication No. 10-2022-0133235, 'Powerful spoofing detection system using deep residual neural network', presents a computer implementation method for responding to spoofing. In this method, relatively large-scale deep learning models can be utilized based on powerful computing power, but implementing such deep learning models on personal devices such as mobile phones can cause disruption in natural phone conversations due to increased system complexity and increased delay time due to such data processing.

따라서 개인용 휴대 통화 장치에서 스푸핑을 방지하기 위한 비교적 단순하지만 효과적인 장치가 요구되고 있다. 속이고자 하는 사람의 음성을 합성하는 방법에는 텍스트 입력을 음성으로 변화하거나, 다른 사람이 말한 것을 특정 사람의 음성의 특색을 갖도록 음성 변조를 하는데, 문헌 1에서 보여주는 바와 같이 합성된 음성에는, 원래 음성과는 다른 특색이 남아 있는데, 이를 이용하여 합성된 음성임을 구별할 수 있다. 문헌 2에서는 음성의 특색을 추출한 후 이를 기계 학습(machine learning)을 통해, 합성한 음성임의 구분 가능성을 보여줬다.Therefore, a relatively simple but effective device is required to prevent spoofing in personal mobile communication devices. Methods for synthesizing the voice of a person to be deceived include changing text input into voice, or modulating the voice of someone else to have the characteristics of a specific person's voice, and as shown in Document 1, the synthesized voice retains characteristics that are different from the original voice, and this can be used to distinguish it as a synthesized voice. Document 2 showed the possibility of distinguishing a synthesized voice by extracting the characteristics of the voice and then applying this to machine learning.

KR 1020220133235 AKR 1020220133235 A

[문헌1] Frank, John and Schonherr, Lea. Wavefake: a data set to facilitate audio deepfake detection, Thirty-fifth Conference on Neural Information Processing Systems (NeurIPS 2021), 2021.[Document 1] Frank, John and Schonherr, Lea. Wavefake: a data set to facilitate audio deepfake detection, Thirty-fifth Conference on Neural Information Processing Systems (NeurIPS 2021), 2021. [문헌2] Farkhund Iqbal, Ahmed Abbasi, Abdul Rehman Javed, Zunera Jalil, and Jamal Al-Karaki. Deepfake Audio Detection via Feature Engineering and Machine Learning, Woodstock’22: Symposium on the irreproducible science, June 07-11, 2022, Woodstock, NY[Document 2] Farkhund Iqbal, Ahmed Abbasi, Abdul Rehman Javed, Zunera Jalil, and Jamal Al-Karaki. Deepfake Audio Detection via Feature Engineering and Machine Learning, Woodstock’22: Symposium on the irreproducible science, June 07-11, 2022, Woodstock, NY

개인용 휴대기기를 통한 대화에서 상대방이 보이지 않는 상태에서, 다른 사람의 목소리를 흉내내어 듣는 사람에게 자신을 신분을 속임으로써 여러 가지 이득을 취하려는 시도는 점차 고도화되고 있다. 이중에서 특히 친구나 지인 등 기존의 통화 이력이 있는 전화 번호에서 오는 전화 상대방에 대한 신뢰는 상대적으로 높으며, 이를 악용하여, 어떤 사람 A가 다른 사람 B의 휴대전화를 훔치거나, 아니면 자신의 전화 번호 대신 B의 전화 번호가, C의 전화상에 발신번호로 표시되도록 하는 방식으로, C를 속이려는 시도가 성공한다면, C가 속을 가능성은 더욱 높아진다. 본 발명은 C의 전화기 상에서, B의 발신 전화 번호로 걸려오는 전화의 상대방의 음성이, 실제 B의 것인지, 아니면 B의 음성을 흉내내는 합성 음성인지 확인하여, C가 전화 상대의 신분을 착각하는 것을 방지하는 기술 및 이러한 기술을 구비한 장치를 구현하는 것을 목적으로 한다.In conversations using personal mobile devices, attempts to deceive the listener by imitating another person's voice when the other person is not visible are becoming increasingly sophisticated. In particular, trust in the other party's phone number, such as a friend or acquaintance, with whom one has previously made calls is relatively high, and if a person A successfully attempts to deceive C by stealing another person B's mobile phone or by having B's phone number appear as the caller ID on C's phone instead of his own, the likelihood of C being deceived increases even more. The purpose of the present invention is to implement a technology for preventing C from mistaking the identity of the other party's phone number by verifying on C's phone whether the voice of the other party's phone number receiving a call from B's phone number is actually B's or a synthetic voice imitating B's voice, and a device equipped with such a technology.

이와 같은 과제를 달성하기 위하여 본 발명은 다음과 같은 구성을 포함한다.To achieve this task, the present invention includes the following configuration.

즉, 본 발명의 한 가지 실시 예에 따른 휴대 전화 시스템은, 상대의 전화 번호를 확인하여, 관련된 데이터베이스를 검색, 처리, 저장 등을 진행하고, 음성 통화 중 또는 통화 완료 후 데이터를 포함한 관리 역할을 맡는 프로세서와, 상대의 전화번호별 음성 데이터 및 특성 및 이를 활용한 인공 신경망의 가중치 등의 데이터를 저장하는 데이터베이스 부, 대화 상대의 음성을 입력 받는 입력부, 입력부에서 적절한 음성 데이터를 샘플링하고, 상기 샘플링된 음성 데이터에 전처리를 수행하는 전처리부, 상기 전처리부에서 전처리가 수행된 음성 데이터의 특성을 학습하는 학습부와 기존에 저장된 음성 데이터가 동일인의 음성인지 확인하는 비교부를 포함하는 것을 특징으로 한다. 상기 학습부에는 음성 특색을 학습하여 동일인의 음성 여부를 판단할 수 있게 하는 수치를 제공할 수 있는 인공 신경망을 포함할 수 있다.That is, a mobile phone system according to one embodiment of the present invention is characterized by including a processor that verifies the other party's phone number, searches, processes, and stores a related database, and takes on a management role including data during a voice call or after the call is completed, a database unit that stores data such as voice data and characteristics for each other's phone number and the weights of an artificial neural network utilizing the same, an input unit that receives the voice of the other party, a preprocessing unit that samples appropriate voice data from the input unit and performs preprocessing on the sampled voice data, a learning unit that learns characteristics of voice data on which preprocessing has been performed in the preprocessing unit, and a comparison unit that verifies whether previously stored voice data is the voice of the same person. The learning unit may include an artificial neural network that learns voice characteristics and provides a numerical value that can determine whether the voice is the voice of the same person.

휴대 전화 시스템의 사용 초기에, 상대 전화 번호에 대한 음성 특성의 데이터가 저장되지 않은 경우에는, 상대 음성의 샘플링 및 저장 음성 특성 추출 및 인공 신경망 학습을 진행하며, 통화상대자의 신원에 대한 검사를 진행하지 않는다. 이러한 인공 신경망의 학습은 일반적으로 많은 시간과 컴퓨팅 리소스를 필요로 하여, 통화 중에 진행할 수도 있으나, 통화 중에는 상대의 음성을 샘플링하고, 통화 후에 이 샘플링된 음성의 전처리와 전처리된 데이트를 활용한 인공 신경망 학습을 진행할 수도 있다. 상대 전화 번호의 음성 데이터에 대한 특성 확보 및 인공 신경망 학습이 완료된 후에는, 기존에 저장된 데이터와 통화 중 입력부에 입력된 음성 데이터의 비교를 통해 두 음성 특징을 비교하여, 스푸핑(spoofing) 여부를 실시간으로 판단할 수 있다. 스푸핑으로 판단되면 빛이나 소리 등의 경고 장치를 통해 상대방의 신원에 대해 주의하도록 함으로써 장치의 보안성을 높이게 된다.In the early days of using the mobile phone system, if the voice characteristic data for the other party's phone number is not stored, sampling and storing the other party's voice, extracting voice characteristics, and learning an artificial neural network are performed, and the identity of the other party is not verified. Such learning of an artificial neural network generally requires a lot of time and computing resources, so it can be performed during a call, but during a call, the other party's voice is sampled, and after the call, preprocessing of the sampled voice and artificial neural network learning using the preprocessed data can be performed. After acquiring the characteristics of the voice data of the other party's phone number and learning the artificial neural network are completed, the previously stored data and the voice data input into the input unit during the call are compared to compare the two voice characteristics, and whether or not there is spoofing can be determined in real time. If spoofing is determined, the security of the device is enhanced by using a warning device such as light or sound to warn the other party about their identity.

본 발명에 따르면 원래의 소유자 A의 개인 통화 장치를 습득하거나, 그 소유자 A의 전화 번호로 위조된 통화에서, 원래의 소유자 음성을 모방하거나 합성하는 등의 고도화된 음성 스푸핑 상황에서, 통화 상대방 B의 개인 통화 장치에 저장된 A의 음성 또는 음성 특성을 활용하여 대According to the present invention, in an advanced voice spoofing situation, such as acquiring the personal calling device of the original owner A or imitating or synthesizing the original owner's voice in a forged call with the owner A's telephone number, the voice or voice characteristics of A stored in the personal calling device of the call counterpart B are utilized to make a countermeasure.

화 상대자의 신원을 검증함으로써, B가 이 같은 스푸핑에 속지 않도록 하는 효과를 가져올 수 있다.By verifying the identity of the other party, it can have the effect of preventing B from being fooled by such spoofing.

도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 출원에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명의 한 가지 실시 예에 따라 제공된 통화 장치의 구성도이다.
도 2는 본 발명이 적용된 통화 장치로 통화 시, 음성 신호의 처리의 흐름 개략도이다.
도 3은 본 발명의 한 가지 실시예에서 인공 지능 모델의 학습 중의 신호 처리 흐름을 나타낸 모식도이다.
The drawings are intended to better understand the present solution and are not intended to limit the present application.
FIG. 1 is a block diagram of a calling device provided according to one embodiment of the present invention.
Figure 2 is a schematic diagram of the flow of processing a voice signal when making a call using a calling device to which the present invention is applied.
FIG. 3 is a schematic diagram showing a signal processing flow during learning of an artificial intelligence model in one embodiment of the present invention.

본 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 출원의 범위를 한정하려는 의도도 아님을 이해해야 할 것이다. 본 출원의 다른 특징은 아래 명세서에 의해 쉽게 이해될 것이다.It should be understood that the material described in this section is not intended to identify key or critical features of the embodiments of the present application, nor is it intended to limit the scope of the present application. Other features of the present application will be readily understood by the specification below.

도면들에 도시된 실시 예들에 대해서, 명세서에서 사용되는 특정 용어는 동일한 것을 기술하는데 이용되지만, 그에 의해 본 발명의 범주를 제한하고자 하는 것은 아니다. 본 개시에 속하는 관련 분야의 당업자들에게 발생할 수 있는, 본 명세서에서 예시된 신규한 특징들의 대안 및 추가적인 수정과, 본 명세서에서 예시한 발명의 원리들의 추가적인 응용은 본 발명의 범주 내에 속하는 것으로 간주되어야 한다.With respect to the embodiments illustrated in the drawings, specific terms used in the specification are used to describe the same, but are not intended to limit the scope of the present invention thereby. Alternatives and additional modifications of the novel features illustrated in the present specification, and additional applications of the principles of the invention illustrated in the present specification, which may occur to those skilled in the art to which the present disclosure pertains, should be considered to be within the scope of the present invention.

개인간 음성 통화에서 전화를 건 사람의 식별은 상대에게 단순한 혼란부터 여러 가지 범죄에 악용될 수 있다. 특히 어떤 사람 A의 휴대 통화 기기가 다른 사람 B에게 넘어가는 경우, B가 A의 휴대 통신 기기를 사용해서 다른 사람 C에게 전화를 걸어 통화를 시도하게 되면, C의 입장에서는 상대의 식별을 전화기 상의 음성에만 의존할 수밖에 없다. 또 한 가지 예로 발신 번호 조작을 통해서 A가 C에게 전화를 걸지만, C의 전화번호 상에 B의 발신 번호가 나타나는 경우에는 C는 통화 상대가 B라고 믿기 쉬우며, 특히 통화상의 음성이 B의 음성과 유사한 경우 상대가 B라고 믿기 쉽다. 이와 같은 상황을 방지하기 위해서 C의 휴대 기기에 통화 상대의 음성이 휴대 전화기에 나타난 전화 번호의 소유자의 음성인지를 확인하게 되면, 휴대 통화 기기의 보안이 강화된다. 또 한가지 예로, C의 휴대 전화 상에 일종의 피싱 (phishing) 소프트웨어를 설치해서 B의 전화로 발신하고자 할 때, 또 다른 번호 D로 전화를 걸게 만들고, 이에 응답하는 사람의 음성이 B와 유사하다면, C는 상대방이 B라고 믿기 쉽게 된다.In a personal voice call, the identification of the caller can be used for various crimes, from simple confusion to the other party. In particular, if a person A's mobile phone is transferred to another person B, and B attempts to call another person C using A's mobile phone, C has no choice but to rely solely on the voice on the phone to identify the other party. Another example is when A calls C through a caller ID manipulation, but B's caller ID appears on C's phone number, C is likely to believe that the other party is B, and especially if the voice on the call is similar to B's voice, C is likely to believe that the other party is B. To prevent this situation, if C's mobile device verifies that the voice of the other party is the voice of the owner of the phone number displayed on the mobile phone, the security of the mobile phone device is strengthened. Another example is when C installs a type of phishing software on his mobile phone to make him call another number, D, when he tries to call B's phone, and if the voice of the person answering is similar to B, C is likely to believe that the other party is B.

따라서 본 발명에서는 통화 상대방의 휴대 전화 번호를 기준으로 상대의 음성 특성을 저장하고, 통화 중 상대의 음성을 기존 저장된 번호와 비교하여 상대의 신원을 확인하는 것을 그 특징으로 한다.Therefore, the present invention is characterized by storing the voice characteristics of the other party based on the other party's mobile phone number, and comparing the other party's voice during the call with the previously stored number to confirm the other party's identity.

즉, 본 발명의 한 가지 실시 예에 따른 휴대 전화 시스템은, 상대의 전화 번호를 확인하여, 관련된 데이터베이스를 검색, 처리, 저장 등을 진행하고, 음성 통화 중 또는 통화 완료 후 데이터를 포함한 관리 역할을 맡는 프로세서 (10)와, 상대의 전화번호별 음성 데이터 및 특성 및 이를 활용한 인공 신경망의 가중치 등의 데이터를 저장하는 데이터베이스 부 (70), 대화 상대의 음성을 입력 받는 입력부 (20), 입력부에서 적절한 음성 데이터를 샘플링하고, 상기 샘플링That is, a mobile phone system according to one embodiment of the present invention comprises a processor (10) that checks the other party's phone number, searches, processes, stores, etc. a related database, and takes on a management role including data during a voice call or after the call is completed, a database unit (70) that stores data such as voice data and characteristics by the other party's phone number and the weights of an artificial neural network utilizing the same, an input unit (20) that receives the other party's voice, and samples appropriate voice data from the input unit, and the sampling unit

된 음성 데이터에 전처리를 수행하는 전처리부 (30), 상기 전처리부에서 전처리가 수행된 음성 데이터의 특성을 학습하는 학습부 (40)와 기존에 저장된 음성 데이터가 동일인의 음성인지 확인하는 비교부 (50)를 포함하는 것을 특징으로 한다. 상기 비교부에는 음성 특색을 학습하여 동일인의 음성 여부를 판단하는 인공 신경망을 포함할 수 있다.The present invention is characterized by including a preprocessing unit (30) that performs preprocessing on voice data, a learning unit (40) that learns the characteristics of voice data on which preprocessing has been performed in the preprocessing unit, and a comparison unit (50) that verifies whether previously stored voice data is the voice of the same person. The comparison unit may include an artificial neural network that learns voice characteristics to determine whether the voice is the voice of the same person.

휴대 전화 시스템의 사용 초기에, 상대 전화 번호에 대한 음성 특성의 데이터가 저장되지 않은 경우에는, 상대 음성의 샘플링 및 저장 음성 특성 추출 및 인공 신경망 학습을 진행하며, 통화상대자의 신원에 대한 검사를 진행하지 않는다. 이러한 인공 신경망의 학습은 일반적으로 많은 시간과 컴퓨팅 리소스를 필요로 하여, 통화 중에 진행할 수도 있으나, 통화 중에는 상대의 음성을 샘플링하고, 통화 후에 이 샘플링된 음성의 전처리와 전처리된 데이트를 활용한 인공 신경망 학습을 진행할 수도 있다. 상대 전화 번호의 음성 데이터에 대한 특성 확보 및 인공 신경망 학습이 완료된 후에는, 기존에 저장된 데이터와 통화 중 입력부에 입력된 음성 데이터의 비교를 통해 두 음성 특징을 비교하여, 스푸핑(spoofing) 여부를 실시간으로 판단할 수 있다. 스푸핑으로 판단되면 빛이나 소리 등의 경고 장치 (60)를 통해 상대방의 신원에 대해 주의하도록 함으로써 장치의 보안성을 높이게 된다In the early stage of using the mobile phone system, if the voice characteristic data for the other party's phone number is not stored, sampling and storing the other party's voice, extracting voice characteristics, and learning an artificial neural network are performed, and the identity of the other party is not checked. Such learning of an artificial neural network generally requires a lot of time and computing resources, so it can be performed during a call, but the other party's voice can be sampled during the call, and preprocessing of the sampled voice and learning of an artificial neural network using the preprocessed data can be performed after the call. After acquiring the characteristics of the voice data of the other party's phone number and learning the artificial neural network are completed, the previously stored data and the voice data input into the input section during the call are compared to compare the two voice characteristics, and it is possible to determine in real time whether there is spoofing. If spoofing is determined, the security of the device is enhanced by making the other party aware of the identity of the other party through a warning device (60) such as light or sound.

도 2에 본 발명의 실시예 중 한 가지를 나타내었다. 전화를 받게 되는 경우 (S110), 전화 번호를 확인하여 (S120), 그 해당 번호의 음성 특성이 참조 데이터로 확보되었는지를 데이터 베이스를 확인하고 (S130), 참조 데이터가 있는 경우에는 그 데이터를 기준으로, 상대방의 음성 신호가 같은 사람의 음성인지를 확인하게 된다. 구체적으로는 상대방의 음성 신호의 일부를 샘플링하고 (S150) 전처리를 통해 pitch나, MFCC 등의 기본 음성 데이터 특징을 추출할 수 있으며 (S160), 이를 활용해서 기존에 저장된 음성 특성과의 차이를 확인하여 (S170), 동일인의 음성이 아닌 경우 경고를 주게 된다 (S180). 경고는 주로 빛을 깜빡이거나 경고 소리를 통하여 상대의 신원을 의심할 수 있게 하는데, 경고의 수단이 빛과 소리에 한정되지는 않는다. 음성 신호의 샘플링 (S150 또는 S190)은 1~2초의 짧은 시간을 수행할 수도 있고, 상대방의 음성이 지속되는 모든 구간의 소리를 샘플링하는 것도 가능하다. 음성의 전처리 (S160 또는 S210) 에는 푸리에 변환 (Fourier transform)이나, 짧은 시간 푸리에 변환 (short time Fourier transform, STFT), Mel-spectrogram 등을 진행할 수도 있고, 피치 (pitch), 센트로이드 (centroid) 등의 오디오 특성을 추출 등도 가능하다. 기존에 저장된 음성 데이터와 통화 중 샘플링한 음성 특색의 일치 여부를 판단하는(S170) 방법은 매우 다양할 수 있는데, 발명의 한 가지 예에서는 상기 전처리 과정을 거친 오디오 데이터의 특성의 분포가 기존 저장된 오디오 데이터의 통계적 분포 상에서의 위치를 기준으로 판단할 수 있으며, 또 다른 발명의 실시 예에서는 상기 전처리를 거친 데이터를 SVP (support vector machine) 등의 기계 학습의 (machine learning) 분류기 (classifier) 판정을 통해, 저장된 음성과 특성이 일치하는지 확인할 수도 있다. 또 다른 발명의 실시예에서는, 오토 인코더와 같은 딥러닝 (deep learning) 모델을 활용하여 기존 음성 데이터와 유사 여부를 판별할 수도 있다. 오토 인코더는 입력된 신호를 인코더를 통해서 새로운 잠재 공간 (latent dimension)에서, 일종의 압축된 신호로 바꾸고, 이를 디코더를 통해서 다시 입력된 신호와 유사한 신호를 구성할 수 있도록 학습시킬 수 있는 인공 신경망이다. 인공 신경망의 학습을 통해 학습된 신호의 재현에는 매우 뛰어난 특성을 지닌다. 하지만 학습되지 않았던 유형의 신호가 들어오는 경우 원래의 신호를 잘 재현하지 못한다. 이를 이용해 전처리를 거친 데이터를 오토인코더를 거쳐 나온 신호와의 차이를 확인해서, 오토인코더의 입력과 출력 신호의 차이가 일정 수준 이상인 경우 상대의 신원을 의심할 수 있도록 경고를 보낸다. 본 발명에 사용되는 오토인코더는 단순 오토인코더에 한정되지 않고, 오토인코One embodiment of the present invention is shown in Fig. 2. When receiving a call (S110), the phone number is confirmed (S120), the database is checked to see if the voice characteristics of the corresponding number are secured as reference data (S130), and if there is reference data, it is checked whether the voice signal of the other party is the voice of the same person based on the data. Specifically, a part of the voice signal of the other party is sampled (S150), and basic voice data features such as pitch or MFCC can be extracted through preprocessing (S160), and the difference from the previously stored voice characteristics is checked (S170), and if it is not the voice of the same person, a warning is given (S180). The warning is mainly used to make the other party suspect the identity by blinking a light or making a warning sound, but the means of warning are not limited to light and sound. The sampling of the voice signal (S150 or S190) can be performed for a short time of 1 to 2 seconds, or it is also possible to sample the sound of the entire section where the other party's voice continues. For voice preprocessing (S160 or S210), Fourier transform, short time Fourier transform (STFT), Mel spectrogram, etc. can be performed, and audio characteristics such as pitch and centroid can also be extracted. The method for determining whether existing stored voice data matches the voice characteristics sampled during a call (S170) can be very diverse. In one example of the invention, the distribution of characteristics of audio data that has undergone the above-described preprocessing process can be determined based on the location on the statistical distribution of existing stored audio data, and in another embodiment of the invention, it can be confirmed whether the characteristics of the preprocessed data match the stored voice through a machine learning classifier such as a support vector machine (SVP). In another embodiment of the invention, it can be determined whether it is similar to existing voice data by utilizing a deep learning model such as an autoencoder. An autoencoder is an artificial neural network that can learn to change an input signal into a kind of compressed signal in a new latent dimension through an encoder, and to construct a signal similar to the input signal again through a decoder. It has excellent characteristics in reproducing signals learned through artificial neural network learning. However, when a signal of a type that has not been learned is input, it cannot reproduce the original signal well. Using this, the difference between the signal from the autoencoder and the data that has undergone preprocessing is checked, and if the difference between the input and output signals of the autoencoder is above a certain level, a warning is sent so that the identity of the other party can be suspected. The autoencoder used in the present invention is not limited to a simple autoencoder, but is an autoencoder.

더의 변형인 variational AE, cyclic VAE, GAN (generative adversarial network) 등이 사용될 수 있다.Variations of this, such as variational AE, cyclic VAE, and GAN (generative adversarial network), can be used.

이와 같이 상대의 음성 특색이 저장되어 있는 경우에는, 상대 음성의 샘플링, 전처리 및 기존 저장된 음성 특성과의 비교 등 상대적으로 간단한 프로세스가 진행되어, 상대와의 음성 통화 중, 백그라운드 처리 방식으로, 실시간으로 상대방의 신원확인이 가능하다.In this way, when the other party's voice characteristics are stored, a relatively simple process such as sampling the other party's voice, preprocessing, and comparison with previously stored voice characteristics is performed, so that the other party's identity can be verified in real time as a background process during a voice call with the other party.

상대방의 음성 특성이 데이터 베이스에 저장되어 있지 않거나, 일부 특성이 저장되어 있지만, 특성 비교에 충분하지 않을 경우에는, 음성 통화 중 상대의 신원 확인을 진행하지 않고, 샘플링을 진행한다 (S190). 이 샘플링된 데이터는 통화 후에 전처리와 특성 추출 (S210), 그리고 통계적 특성 분석, 또는 기계 학습 모델 또는 인공 신경망 등의 학습 (S220) 은 전화가 끝난 후에도 계속될 수 있다. 학습의 완료 여부는 상기 전처리된 음성 특성 데이터의 통계 특성 확인 또는 기계학습 또는 인경 신경망의 손실 함수 결과 등을 확인하여 결정할 수 있으며, 학습이 완료되면 그 결과를 데이터 베이스에 저장하고 (S240), 학습이 충분하지 않은 경우에는 통화 중 샘플링한 추가 데이터 (S190)를 활용하여 상기 과정을 (S210~S230) 반복할 수 있다. 또한 학습이 완료되지 않고, 샘플링한 데이터가 충분하지 않은 경우, 상기 S210~S230의 중간 결과를 저장하고, 차기의 통화에서 샘플링한 음성 데이터로 추가 학습 여부를 진행할 수 있다. 중간 결과 저장 부분은 도 2에 표시하지 않았지만, 데이터베이스에 학습 미완료 상태로 저장하고 향후 차기 통화시 학습 미완료 상황을 일 수 있게 할 수 있다.If the voice characteristics of the other party are not stored in the database, or some characteristics are stored but are not sufficient for characteristic comparison, the identity of the other party is not verified during the voice call, and sampling is performed (S190). The sampled data can be subjected to preprocessing and feature extraction (S210), and statistical feature analysis, or learning of a machine learning model or an artificial neural network (S220) after the call ends. Whether the learning is complete can be determined by checking the statistical features of the preprocessed voice feature data, or the loss function result of a machine learning or artificial neural network, and if the learning is complete, the result is stored in the database (S240). If the learning is not sufficient, the process (S210 to S230) can be repeated using additional data (S190) sampled during the call. In addition, if the learning is not complete and the sampled data is not sufficient, the intermediate results of S210 to S230 can be stored, and additional learning can be performed using voice data sampled in the next call. The intermediate result storage part is not shown in Figure 2, but it can be stored in the database as an incomplete learning state and can be used to retrieve the incomplete learning state during the next call in the future.

도 3에 발명의 한 가지 예인 오토 인코더를 사용한 경우의 학습의 완료 과정을 나타내었다. 오토인코더의 입력으로 전처리된 음성 및 특성 데이터 (510)가 사용되며 오토인코더의 출력이 입력과의 차이가 임계값 이하가 될 때까지 (540) 학습을 반복하여 오토 인코더 내부의 가중치를 결정하게 되며, 전화 번호별로 인공 신경망의 가중치가 데이터베이스에 저장된다.The learning completion process in the case of using an autoencoder, which is an example of the invention, is shown in Fig. 3. Preprocessed voice and feature data (510) are used as inputs to the autoencoder, and learning is repeated until the difference between the output of the autoencoder and the input becomes less than or equal to a threshold value (540), thereby determining the weights inside the autoencoder, and the weights of the artificial neural network for each phone number are stored in a database.

발명의 또 한 가지 예에서는 어텐션 기반의 인공 신경망을 활용할 수 있으며, 이 경우에는 음성의 전처리과정에 임베딩을 포함할 수 있으며, 기존 데이터 베이스 상의 음성과 통화 중 확보한 음성에 대한 임베딩의 거리 등으로 음성의 동일인 여부를 판단할 수 있다.Another example of the invention may utilize an attention-based artificial neural network, in which case embedding may be included in the preprocessing of the voice, and the distance between the voice in the existing database and the embedding of the voice acquired during the call may be used to determine whether the voice is the same person.

도 2의 S100 안에 표시된 프로세스는 모두 상대와의 통화 중 진행되며, S100 밖에 있는 과정은 통화 중 또는 통화가 끝난 후 진행될 수 있다.All processes shown in S100 of Fig. 2 are carried out during a call with the other party, and processes outside S100 can be carried out during a call or after the call ends.

이러한 음성 특성을 활용한 상대의 신원 확인은 상대에게 미리 지정한 특정한 패턴이나 글자를 말하도록 하는 별도의 과정이 필요하지 않다. 또한 상기 설명은 상대가 전화를 걸어오는 경우에 대해 설명하였으나, 장치의 소유자가 상대에게 전화를 거는 과정에 대해서도 동일하게 진행할 수 있다.The use of these voice characteristics to verify the identity of the other party does not require a separate process of having the other party speak a specific pattern or letter that has been designated in advance. In addition, the above description was made for the case where the other party calls, but the same process can be carried out for the owner of the device calling the other party.

장치의 사용 초기에는 오토 인코더 120의 학습이 필요하며, 이에 관한 과정이 도3의 모식도에 나타나 있다.In the initial use of the device, training of the autoencoder 120 is required, and the process for this is schematically shown in Fig. 3.

10 : 프로세서 20 : 입력부
30 : 전처리부 40 : 학습부
50 : 비교부 60 : 경고장치
70 : 데이터베이스 80 : 버스
10: Processor 20: Input
30: Preprocessing section 40: Learning section
50 : Comparison section 60 : Warning device
70 : Database 80 : Bus

Claims (8)

개인 간 음성 통화 장치에서 스푸핑을 방지하기 위한 방법으로서, 상대의 발신 번호별로 음성 특성을 추출하여 저장 관리하며, 통화 중 샘플링한 상대의 음성 데이터와 기존의 저장된 음성 데이터의 특성을 비교하여 상대의 신원을 확인하는 방법 및 이를 활용한 통화 장치
A method for preventing spoofing in a personal voice call device, comprising: extracting and storing voice characteristics by the caller's number; comparing the characteristics of the caller's voice data sampled during a call with existing stored voice data to verify the identity of the caller; and a call device utilizing the same.
청구항 1의 구성에서 입력 음성 신호를 수신하는 입력부; 및
음성 신호의 전처리를 수행하거나 특징을 추출하는 전처리부; 및
전처리부의 출력 데이터로부터 음성 특성의 개인별 할당할 수 있도록 하는 학습부; 및
기존 저장된 입력된 음성 특성 데이터와 통화중 샘플링한 데이터로부터 계산한 음성 데이터의 비교를 담당하는 위한 비교부; 및
두 개의 음성 데이터 특성이 동일인의 음성이 의심되는 경우 이를 알려 주는 경보장치; 및
이 모든 프로세스를 관리하는 프로세서로 구성된 장치
An input unit for receiving an input voice signal in the configuration of claim 1; and
A preprocessing unit that performs preprocessing of a voice signal or extracts features; and
A learning unit that enables individual allocation of voice characteristics from the output data of the preprocessing unit; and
A comparison unit for comparing voice data calculated from data sampled during a call with previously stored input voice characteristic data; and
An alarm device that notifies when two voice data characteristics are suspected to be the voices of the same person; and
A device consisting of a processor that manages all these processes.
청구항 1의 장치 구성에서 대화 상대방의 전화 번호에 해당하는 음성 데이터가 확보되지 않은 경우, 상대의 음성 특성에 의한 신원 확인을 하지 않고, 상대방의 음성을 샘플링하고, 상기 샘플링된 음성 데이터를 통화 중 또는 통화가 끝난 후 상기 샘플링된 음성 데이터의 전처리와 학습을 진행하는 방법을 사용하는 장치A device that uses a method of sampling the voice of the other party without verifying the identity by the voice characteristics of the other party in the case where voice data corresponding to the telephone number of the other party is not secured in the device configuration of claim 1, and performing preprocessing and learning of the sampled voice data during or after the call 청구항 2에서 전처리된 음성 데이터의 통계 특성을 추출하고, 이를 데이터베이스에 보관하고, 상기 통계 분포를 기반으로 통화 중 상대의 음성 데이터가 동일인의 것인지 확인하는 방법과 이를 사용하는 장치A method for extracting statistical characteristics of preprocessed voice data in claim 2, storing the same in a database, and confirming that the voice data of the other party during a call is from the same person based on the statistical distribution, and a device using the same 청구항 2에서 전처리된 음성 데이터의 기계 학습을 통해 상대의 음성 특성을 학습하는 구현 방법과 이를 사용하는 장치An implementation method for learning the voice characteristics of a counterpart through machine learning of preprocessed voice data in claim 2 and a device using the same 청구항 2에서 전처리된 음성 데이터를 인공 지능망의 학습을 통해 상대의 음성 특성을 학습하는 구현 방법과 이를 사용하는 장치An implementation method for learning the voice characteristics of a counterpart through learning of an artificial intelligence network using preprocessed voice data in claim 2, and a device using the same 청구항 6에서 오토인코더 방식의 인공 신경망을 사용하는 방법과 이를 사용하는 장치Method for using an artificial neural network of the autoencoder type in claim 6 and device for using the same 청구항 2에서 통화 상대방의 신원이 의심스러운 경우, 실시간으로 경고를 주는 방법으로서, 빛 또는 소리를 통해 이를 알려 주는 방법과 이를 사용하는 장치
In claim 2, a method of giving a real-time warning when the identity of the other party to a call is suspicious, a method of notifying this through light or sound and a device using the same
KR1020240007705A 2024-01-17 2024-01-17 The method of real-time detection of audio spoofing in phone call and the apparatus thereof Pending KR20250112644A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020240007705A KR20250112644A (en) 2024-01-17 2024-01-17 The method of real-time detection of audio spoofing in phone call and the apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020240007705A KR20250112644A (en) 2024-01-17 2024-01-17 The method of real-time detection of audio spoofing in phone call and the apparatus thereof

Publications (1)

Publication Number Publication Date
KR20250112644A true KR20250112644A (en) 2025-07-24

Family

ID=96583561

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020240007705A Pending KR20250112644A (en) 2024-01-17 2024-01-17 The method of real-time detection of audio spoofing in phone call and the apparatus thereof

Country Status (1)

Country Link
KR (1) KR20250112644A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220133235A (en) 2020-01-27 2022-10-04 핀드롭 시큐리티 인코포레이티드 Powerful Spoof Detection System Using Deep Residual Neural Network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220133235A (en) 2020-01-27 2022-10-04 핀드롭 시큐리티 인코포레이티드 Powerful Spoof Detection System Using Deep Residual Neural Network

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
[문헌1] Frank, John and Schonherr, Lea. Wavefake: a data set to facilitate audio deepfake detection, Thirty-fifth Conference on Neural Information Processing Systems (NeurIPS 2021), 2021.
[문헌2] Farkhund Iqbal, Ahmed Abbasi, Abdul Rehman Javed, Zunera Jalil, and Jamal Al-Karaki. Deepfake Audio Detection via Feature Engineering and Machine Learning, Woodstock’22: Symposium on the irreproducible science, June 07-11, 2022, Woodstock, NY

Similar Documents

Publication Publication Date Title
US12417772B2 (en) Robust spoofing detection system using deep residual neural networks
CN102572839B (en) A kind of method and system controlling voice communication
KR102199831B1 (en) Voice phishing prevention system, voice phishing prevention method and recording medium
US20250373724A1 (en) Detecting synthetic sounds in call audio
JP2020053967A (en) System and method for detecting fraudulent attempts at communication
US20230206925A1 (en) System and method for spoofing detection
KR20200081950A (en) Voice phishing detecting method, voice phishing detecting apparatus and recording medium
CN106850931A (en) The method and mobile intelligent terminal of Barassment preventing telephone
CN110769425B (en) Method and device for judging abnormal call object, computer equipment and storage medium
WO2022107242A1 (en) Processing device, processing method, and program
KR20250112644A (en) The method of real-time detection of audio spoofing in phone call and the apparatus thereof
CN113452847A (en) Crank call identification method and related device
CN111914063A (en) Suspicious behavior detection method and device, electronic equipment and readable storage medium
CN117155673A (en) Login verification method and device based on digital human video, electronic equipment and medium
Kwong et al. Privacy Pro: Spam Calls Detection Using Voice Signature Analysis and Behavior-Based Filtering
CN116320161A (en) Telecom fraud identification method and device
CN112398793B (en) Social engineering interaction method, device and storage medium
CN114023331A (en) Performance testing method, device, device and storage medium of voiceprint recognition system
CN112735426A (en) Voice verification method and system, computer device and storage medium
CN113948092B (en) Voiceprint-based target person identification method, voiceprint-based target person identification system, voiceprint-based target person identification device and storage medium
CN119652667B (en) Network information threat countermeasure method and system
EP4533448B1 (en) Computer-implemented method for call security
US20250029614A1 (en) Centralized synthetic speech detection system using watermarking
JP7334780B2 (en) Communication terminal, information processing device, information processing system, information processing method and program
KR20250108450A (en) The method and apparatus for real time detection of fake voice spoofing using the deep learning of the autoencoder type model

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501