[go: up one dir, main page]

JP7012917B2 - 情報処理装置、検出方法、及び検出プログラム - Google Patents

情報処理装置、検出方法、及び検出プログラム Download PDF

Info

Publication number
JP7012917B2
JP7012917B2 JP2021559189A JP2021559189A JP7012917B2 JP 7012917 B2 JP7012917 B2 JP 7012917B2 JP 2021559189 A JP2021559189 A JP 2021559189A JP 2021559189 A JP2021559189 A JP 2021559189A JP 7012917 B2 JP7012917 B2 JP 7012917B2
Authority
JP
Japan
Prior art keywords
sound signal
section
sections
value
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021559189A
Other languages
English (en)
Other versions
JPWO2021117219A1 (ja
Inventor
利行 花澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021117219A1 publication Critical patent/JPWO2021117219A1/ja
Application granted granted Critical
Publication of JP7012917B2 publication Critical patent/JP7012917B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Forklifts And Lifting Vehicles (AREA)

Description

本開示は、情報処理装置、検出方法、及び検出プログラムに関する。
音声認識の技術が知られている。例えば、音声信号の中の音声区間に対して音声認識を行う技術が提案されている(特許文献1を参照)。
特開平10-288994号公報
ところで、音信号の中から検出対象を検出したい場合がある。例えば、雑音のパワーに基づく閾値を用いて、検出対象を検出する方法が考えられる。ここで、雑音のパワーが急激に上がる場合がある。雑音のパワーが閾値を超えた場合、当該方法では、検出対象が精度良く検出できない。
本開示の目的は、検出対象を精度良く検出することである。
本開示の一態様に係る情報処理装置が提供される。情報処理装置は、音信号を取得する取得部と、前記音信号を複数の区間に分割し、前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、前記複数の区間の中で、前記変動値が予め設定された閾値以下であり、かつ前記音声度が予め設定された閾値以下である区間を特定し、前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、特定された区間における前記音信号のパワーの中から最大値を特定し、前記最大値に基づく値を検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する制御部と、を有する。
本開示によれば、検出対象を精度良く検出できる。
実施の形態1の情報処理装置が有するハードウェアの構成を示す図である。 比較例を示す図である。 実施の形態1の情報処理装置が有する機能ブロック図である。 実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態1の情報処理装置が実行する処理の具体例を示す。 実施の形態2の情報処理装置が有する機能ブロック図である。 実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態2の情報処理装置が実行する処理の具体例を示す。 実施の形態3の情報処理装置が有する機能ブロック図である。 実施の形態3の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態4の情報処理装置が有する機能ブロック図である。 実施の形態4の情報処理装置が実行する処理の例を示すフローチャート(その1)である。 実施の形態4の情報処理装置が実行する処理の例を示すフローチャート(その2)である。 実施の形態4の情報処理装置が実行する処理の具体例(その1)を示す。 実施の形態4の情報処理装置が実行する処理の具体例(その2)を示す。 実施の形態4の変形例を示すフローチャート(その1)である。 実施の形態4の変形例を示すフローチャート(その2)である。 実施の形態5の情報処理装置が有する機能ブロック図である。 実施の形態5の情報処理装置が実行する処理の例を示すフローチャート(その1)である。 実施の形態5の情報処理装置が実行する処理の例を示すフローチャート(その2)である。 実施の形態5の情報処理装置が実行する処理の具体例(その1)を示す。 実施の形態5の情報処理装置が実行する処理の具体例(その2)を示す。
以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態1.
図1は、実施の形態1の情報処理装置が有するハードウェアの構成を示す図である。情報処理装置100は、検出方法を実行する装置である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。情報処理装置100は、処理回路によって実現されてもよく、又は、ソフトウェア、ファームウェア若しくはそれらの組み合わせによって実現されてもよい。なお、処理回路は、単一回路又は複合回路でもよい。
揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)である。
図2は、比較例を示す図である。図2の上段は、音の波形のグラフを示している。図2の上段の音の音信号をパワーで示したグラフが、図2の下段である。図2の範囲900は、雑音を示している。
音信号の中から検出対象を検出したい場合がある。図2では、検出対象を音声とする。ここで、雑音のパワーは、音声のパワーより低い場合が多い。そこで、閾値を用いて、音声を検出する方法が考えられる。図2は、閾値901を示している。例えば、閾値901以上の区間が、検出対象区間として、検出される。すなわち、検出対象区間が、音声の区間として、検出される。
ここで、雑音のパワーが急激に上がる場合がある。例えば、図2は、時刻t90以降に雑音のパワーが急激に上がったことを示している。例えば、図2の範囲902は、雑音を示している。雑音のパワーが急激に上がった場合、時刻t90以降の区間が検出対象区間として検出される。図2は、雑音のパワーが閾値を超えているため、音声以外に雑音も検出対象とされることを示している。
このように、図2の方法では、検出対象が精度良く検出できない。そこで、以下、検出対象が精度良く検出できる方法を説明する。
図3は、実施の形態1の情報処理装置が有する機能ブロック図である。情報処理装置100は、取得部110、制御部120、及び出力部130を有する。
取得部110、制御部120、及び出力部130の一部又は全部は、プロセッサ101によって実現してもよい。取得部110、制御部120、及び出力部130の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、検出プログラムとも言う。例えば、検出プログラムは、記録媒体に記録されている。
取得部110は、音信号を取得する。例えば、音信号の音は、会議が行われる会議室内の音、電話の通話などである。また、例えば、音信号は、録音データに基づく信号である。
制御部120は、音信号に基づいて、時間経過に伴う音信号のパワーを算出する。言い換えれば、制御部120は、音信号に基づいて、音信号の時系列のパワーを算出する。以下、音信号のパワーは、音信号パワーと呼ぶ。なお、音信号パワーは、情報処理装置100以外の装置によって算出されてもよい。
制御部120は、音信号を複数の区間に分割する。制御部120は、音信号を均等に分割してもよいし、音信号を不均等に分割してもよい。制御部120は、音信号に基づいて、複数の区間のそれぞれの変動値を算出する。なお、変動値とは、区間時間当たりの変動量である。変動値は、区間時間当たりの音信号のパワーの変動量と考えてもよい。また、区間時間とは、1つの区間に対応する時間である。
制御部120は、複数の区間の中で、変動値が予め設定された閾値以下の区間を特定する。制御部120は、音信号に基づいて、特定された区間における音信号のパワーを算出する。すなわち、制御部120は、音信号に基づいて、特定された区間の音信号のパワーを算出する。制御部120は、特定された区間における音信号のパワーの中から最大値を特定する。制御部120は、最大値に基づく値を検出閾値に設定する。言い換えれば、制御部120は、最大値以上の値を検出閾値に設定する。例えば、制御部120は、予め決められた値を最大値に加算した値を検出閾値に設定する。制御部120は、音信号パワーの中で検出閾値以上の区間を検出対象区間として検出する。
出力部130は、検出対象区間を示す情報を出力する。例えば、出力部130は、検出対象区間を示す情報をディスプレイに出力する。また、例えば、出力部130は、情報処理装置100に接続可能な外部装置に検出対象区間を示す情報を出力する。また、例えば、出力部130は、印刷装置を介して、紙媒体に検出対象区間を示す情報を出力する。
次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
図4は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。
(ステップS11)取得部110は、音信号を取得する。
(ステップS12)制御部120は、音信号をフレーム単位に分割し、フレーム毎にパワーを算出する。なお、例えば、フレームは、10msecである。
つまり、ステップS12の処理では、音信号パワーが算出される。これにより、例えば、音信号パワーが、グラフで表現できる。
(ステップS13)制御部120は、音信号を複数の区間に分割する。例えば、制御部120は、グラフで表現される音信号パワーを複数の区間に分割してもよい。なお、ステップS12の複数のフレームは、1つの区間に属する。
(ステップS14)制御部120は、音信号に基づいて、区間毎に変動値を算出する。また、制御部120は、音信号に基づいて、区間毎に分散値を算出してもよい。
分散値の算出を説明する。まず、区間における音信号のパワーmが、式(1)により、算出される。Pは、パワーである。iは、フレーム番号である。また、iは、1~Nの値である。
Figure 0007012917000001
そして、分散値vは、式(2)を用いて算出される。
Figure 0007012917000002
(ステップS15)制御部120は、変動値が予め設定された閾値以下の区間を特定する。分散値が算出された場合、制御部120は、分散値が予め設定された閾値以下の区間を特定する。
(ステップS16)制御部120は、特定した区間における音信号のパワーを、式(1)を用いて算出する。
(ステップS17)制御部120は、区間毎に算出されたパワーの中で最大値のパワーを特定する。制御部120は、当該最大値以上の値を検出閾値に設定する。
(ステップS18)制御部120は、音信号パワーの中で検出閾値以上の区間を、音声区間として検出する。
(ステップS19)出力部130は、音声区間を示す情報を出力する。例えば、出力部130は、音声区間の開始時刻と終了時刻を出力する。
図5は、実施の形態1の情報処理装置が実行する処理の具体例を示す。図5は、制御部120によって算出された音信号パワー11のグラフを示している。例えば、図5のグラフの縦軸は、dBである。図5のグラフの横軸は、時間である。図5は、時刻t1以降に雑音のパワーが急激に上がったことを示している。
また、図5のグラフは、音声度12を示している。音声度については、実施の形態2で説明する。
例えば、制御部120は、音信号パワー11を複数の区間に分割する。制御部120は、区間毎に変動値を算出する。制御部120は、変動値が予め設定された閾値以下の区間を特定する。例えば、制御部120は、変動値が予め設定された閾値以下の区間13a~13eを特定する。これにより、例えば、区間14は、除外される。なお、区間14は、音声区間である。よって、制御部120は、音声区間以外の区間を特定する。すなわち、制御部120は、雑音区間を特定する。ここで、以下の説明では、区間13a~13eが特定されたものとする。
制御部120は、区間13a~13eのパワーを、式(1)を用いて算出する。制御部120は、区間13a~13eのパワーの中で最大値のパワーを特定する。制御部120は、当該最大値以上の値を検出閾値に設定する。図5は、検出閾値15を示している。
制御部120は、音信号パワー11の中で検出閾値15以上の区間を、音声区間として検出する。例えば、制御部120は、区間14を検出する。出力部130は、音声区間を示す情報を出力する。
実施の形態1によれば、情報処理装置100は、雑音のパワーが急激に上がった場合でも、検出閾値を雑音のパワー以上に設定する。そのため、情報処理装置100は、雑音区間を検出対象区間として、検出しない。例えば、情報処理装置100は、区間13a~13eを検出しない。そして、情報処理装置100は、音声区間を検出する。よって、情報処理装置100は、検出対象である音声を精度良く検出できる。
実施の形態2.
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。実施の形態2の説明では、図1,3を参照する。
図6は、実施の形態2の情報処理装置が有する機能ブロック図である。図3に示される構成と同じ図6の構成は、図3に示される符号と同じ符号を付している。
情報処理装置100aは、制御部120aを有する。制御部120aについては、後で説明する。
図7は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。
(ステップS21)取得部110は、音信号を取得する。
(ステップS22)制御部120aは、音信号をフレーム単位に分割し、フレーム毎にパワーを算出する。言い換えれば、制御部120aは、音信号パワーを算出する。
(ステップS23)制御部120aは、音信号をフレーム単位に分割し、フレーム毎に音声度を算出する。音声度は、音声らしさの度合いである。例えば、制御部120aは、GMM(Gaussian mixture model)、DNN(Deep Neural Network)などを用いて、音声度を算出する。
(ステップS24)制御部120aは、音信号を複数の区間に分割する。例えば、制御部120aは、音信号パワーを複数の区間に分割してもよい。
(ステップS25)制御部120aは、音信号に基づいて、区間毎に変動値と音声度を算出する。例えば、制御部120aは、複数の区間のうちの第1の区間の変動値と音声度を算出する。このように、制御部120aは、同じ区間の変動値と音声度を算出する。
ここで、区間の音声度の算出について説明する。例えば、制御部120aは、1つの区間に属する複数のフレームのそれぞれの音声度の平均値を、当該区間の音声度として、算出する。制御部120aは、同様に、区間毎に音声度を算出する。
このように、制御部120aは、複数の区間のそれぞれの音声度を音信号に基づいて算出する。詳細には、制御部120aは、複数の区間のそれぞれの音声度を、GMM、DNNなどの予め決められた方法と音信号とに基づいて算出する。
(ステップS26)制御部120aは、複数の区間の中で、変動値が予め設定された閾値以下であり、かつ音声度が音声度閾値以下である区間を特定する。なお、音声度閾値は、予め設定された閾値である。
(ステップS27)制御部120aは、特定した区間における音信号のパワーを、式(1)を用いて算出する。
(ステップS28)制御部120aは、区間毎に算出されたパワーの中で最大値のパワーを特定する。制御部120aは、当該最大値以上の値を検出閾値に設定する。
(ステップS29)制御部120aは、音信号の中で検出閾値以上の区間を、音声区間として検出する。
(ステップS30)出力部130は、音声区間を示す情報を出力する。
図8は、実施の形態2の情報処理装置が実行する処理の具体例を示す。図8は、制御部120aによって算出された音信号パワー21のグラフを示している。また、図8は、制御部120aによって算出された音声度22のグラフを示している。このように、図8では、音信号パワー21のグラフと音声度22のグラフとが混在している状態を示している。音信号パワー21のグラフと音声度22のグラフとは、分かれていてもよい。図8の横軸は、時間を示す。
ここで、例えば、図8の縦軸が示す0に対応する音声度は、音声らしさの度合いが50%くらいであることを意味する。よって、例えば、0よりも大きい値に対応する音声度の区間は、音声区間と考えてもよい。また、例えば、0よりも小さい値に対応する音声度の区間は、雑音区間と考えてもよい。
制御部120aは、音信号パワー21を複数の区間に分割する。制御部120aは、区間毎に変動値を算出する。また、制御部120aは、区間毎に音声度を算出する。
制御部120aは、変動値が予め設定された閾値以下であり、かつ音声度が音声度閾値以下である区間を特定する。ここで、音声度が音声度閾値以下である区間を、説明する。図8は、音声度閾値23を示している。例えば、音声度が音声度閾値23以下である区間は、区間24a~24eである。例えば、変動値が当該閾値以下であり、かつ音声度が音声度閾値23以下である区間は、区間25a~25eである。以下の説明では、区間25a~25eが特定されたものとする。
制御部120aは、区間25a~25eのパワーを、式(1)を用いて算出する。制御部120aは、区間25a~25eのパワーの中で最大値のパワーを特定する。制御部120aは、当該最大値以上の値を検出閾値に設定する。図8は、検出閾値26を示している。
制御部120aは、音信号パワー21の中で検出閾値26以上の区間を、音声区間として検出する。出力部130は、音声区間を示す情報を出力する。
実施の形態2によれば、情報処理装置100aは、音声度を用いることで、“あー”などの音声の音信号パワーが一定の区間を誤って雑音区間とみなすことを防止できる。
実施の形態3.
次に、実施の形態3を説明する。実施の形態3では、実施の形態1,2と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1,2と共通する事項の説明を省略する。実施の形態3の説明では、図1,3,7を参照する。
図9は、実施の形態3の情報処理装置が有する機能ブロック図である。図3に示される構成と同じ図9の構成は、図3に示される符号と同じ符号を付している。
情報処理装置100bは、制御部120bを有する。制御部120bについては、後で説明する。
図10は、実施の形態3の情報処理装置が実行する処理の例を示すフローチャートである。
図10の処理では、ステップS26a,26b,27a,28aが実行される点が、図7の処理と異なる。そのため、図10では、ステップS26a,26b,27a,28aを説明する。図10における他のステップについては、図7のステップ番号と同じ番号を付することによって、処理の説明を省略する。なお、ステップS21~25とステップS29,30は、制御部120bによって実行される。
(ステップS26a)制御部120bは、複数の区間の中で、変動値が予め設定された閾値以下である区間を特定する。
(ステップS26b)制御部120bは、特定した区間の音声度を小さい順に並べる。なお、特定した区間の音声度は、ステップS25で算出されている。
制御部120bは、小さい順に、予め設定された個数の区間を選択する。以下、予め設定された個数は、N個と表現する。なお、Nは、正の整数である。
このように、制御部120bは、小さい順に上位N個の区間を選択する。
(ステップS27a)制御部120bは、音信号に基づいて、上位N個の区間における音信号のパワーを算出する。具体的には、制御部120bは、上位N個の区間における音信号のパワーを、式(1)を用いて算出する。
(ステップS28a)制御部120bは、上位N個の区間における音信号のパワーの中で最大値を特定する。制御部120bは、当該最大値以上の値を検出閾値に設定する。
ここで、実施の形態2のように音声度閾値が設定され、1以上の区間が検出される。しかし、音声度閾値の値又は音声度によっては、1以上の区間が検出されない場合が考えられる。このような場合、実施の形態3が有効である。実施の形態3によれば、N個の区間が選択される。そして、情報処理装置100bは、ステップS29で音声区間を検出する。これにより、情報処理装置100bは、検出対象である音声を精度良く検出できる。
実施の形態4.
次に、実施の形態4を説明する。実施の形態4では、実施の形態1と相違する事項を主に説明する。そして、実施の形態4では、実施の形態1と共通する事項の説明を省略する。実施の形態4の説明では、図1,3を参照する。
図11は、実施の形態4の情報処理装置が有する機能ブロック図である。図3に示される構成と同じ図11の構成は、図3に示される符号と同じ符号を付している。
情報処理装置100cは、制御部120cを有する。制御部120cについては、後で説明する。
図12は、実施の形態4の情報処理装置が実行する処理の例を示すフローチャート(その1)である。
(ステップS31)取得部110は、音信号を取得する。
(ステップS32)制御部120cは、音信号をフレーム単位に分割し、フレーム毎にパワーを算出する。言い換えれば、制御部120cは、音信号パワーを算出する。
(ステップS33)制御部120cは、音信号を複数の区間に分割する。例えば、制御部120cは、音信号パワーを複数の区間に分割してもよい。
(ステップS34)制御部120cは、音信号に基づいて、区間毎に変動値を算出する。
(ステップS35)制御部120cは、複数の区間の中で、変動値が予め設定された閾値以下である区間を特定する。
(ステップS36)制御部120cは、特定した区間における音信号のパワーを、式(1)を用いて算出する。そして、制御部120cは、処理をステップS41に進める。
図13は、実施の形態4の情報処理装置が実行する処理の例を示すフローチャート(その2)である。
(ステップS41)制御部120cは、ステップS35で特定した区間の中から1つの区間を選択する。
(ステップS42)制御部120cは、選択した区間における音信号のパワー以上を仮検出閾値に設定する。なお、選択した区間における音信号のパワーは、ステップS36で算出されている。
(ステップS43)制御部120cは、音信号パワーの中で仮検出閾値以上の区間の数を検出する。
(ステップS44)制御部120cは、ステップS35で特定した全ての区間を選択したか否かを判定する。全ての区間を選択した場合、制御部120cは、処理をステップS45に進める。選択していない区間がある場合、制御部120cは、処理をステップS41に進める。
このように、制御部120cは、ステップS35で特定した区間毎に、区間における音信号のパワーに基づく値を仮検出閾値に設定し、音信号パワーの中で仮検出閾値以上の区間の数を検出する。
(ステップS45)制御部120cは、ステップS35で特定した区間毎に設定された仮検出閾値の中から、ステップS43で検出された区間の数が最大であるときの仮検出閾値を検出閾値として検出する。
(ステップS46)制御部120cは、ステップS45で検出された仮検出閾値を用いて検出されたときの区間を、音声区間として検出する。言い換えれば、制御部120cは、検出閾値を用いて検出されたときの区間を、音声区間として検出する。
(ステップS47)出力部130は、音声区間を示す情報を出力する。
図14は、実施の形態4の情報処理装置が実行する処理の具体例(その1)を示す。図14は、制御部120cによって算出された音信号パワー31のグラフを示している。図14は、制御部120cがステップS35で特定した区間32a~32eを示している。
制御部120cは、区間32a~32eの中から区間32aを選択する。制御部120cは、区間32aのパワー以上を仮検出閾値に設定する。図14は、設定された仮検出閾値33を示している。制御部120cは、音信号パワー31の中で、仮検出閾値33以上の区間を検出する。例えば、制御部120cは、区間A1~A3を検出する。すなわち、制御部120cは、3つの区間を検出する。
図15は、実施の形態4の情報処理装置が実行する処理の具体例(その2)を示す。次に、制御部120cは、区間32bを選択する。制御部120cは、区間32bのパワー以上を仮検出閾値に設定する。図15は、設定された仮検出閾値34を示している。制御部120cは、音信号パワー31の中で、仮検出閾値34以上の区間を検出する。例えば、制御部120cは、区間B1~B21を検出する。すなわち、制御部120cは、21の区間を検出する。
制御部120cは、区間32c~32eも同様の処理を実行する。
制御部120cは、ステップS43で検出された区間の数が最大であるときの仮検出閾値を検出する。制御部120cは、ステップS45で検出された仮検出閾値を用いて検出されたときの区間を、音声区間として検出する。
実施の形態4によれば、情報処理装置100cは、複数の仮検出閾値を用いて音声区間を検出する。言い換えれば、情報処理装置100cは、仮検出閾値を変動させて音声区間を検出する。例えば、実施の形態1のように、検出閾値を一意に決めるよりも仮検出閾値を変動させた方が、音声区間を検出する精度を高めることができる。
なお、検出した区間数が一番多いものを最終的な検出結果とする理由は、ノイズパワー(すなわち、雑音のパワー)が不適切な場合、実際の音声区間数よりも検出される区間数が減少するからである。すなわち、ノイズパワーが不適切に低い場合、複数の音声区間がまとめて1区間として検出されるので検出数が少なくなる。一方、ノイズパワーが不適切に高い場合、パワーの小さい音声区間が検出漏れになるため、やはり検出数が少なくなる。
実施の形態4の変形例.
次に、実施の形態4の変形例を説明する。
図16は、実施の形態4の変形例を示すフローチャート(その1)である。図16の処理では、ステップS32a,34a,35a,36aが実行される点が、図12の処理と異なる。そのため、図16では、ステップS32a,34a,35a,36aを説明する。図16における他のステップについては、図12のステップ番号と同じ番号を付することによって、処理の説明を省略する。
(ステップS32a)制御部120cは、音信号をフレーム単位に分割し、フレーム毎に音声度を算出する。
(ステップS34a)制御部120cは、音信号に基づいて、区間毎に変動値と音声度を算出する。
(ステップS35a)制御部120cは、特定した区間の音声度を小さい順に並べる。制御部120cは、小さい順に上位N個の区間を選択する。
(ステップS36a)制御部120bは、音信号に基づいて、上位N個の区間における音信号のパワーを算出する。具体的には、制御部120bは、上位N個の区間における音信号のパワーを、式(1)を用いて算出する。そして、制御部120bは、処理をステップS41aに進める。
図17は、実施の形態4の変形例を示すフローチャート(その2)である。図17の処理では、ステップS41a,42a,44aが実行される点が、図13の処理と異なる。そのため、図17では、ステップS41a,42a,44aを説明する。図17における他のステップについては、図13のステップ番号と同じ番号を付することによって、処理の説明を省略する。
(ステップS41a)制御部120cは、上位N個の区間の中から1つの区間を選択する。
(ステップS42a)制御部120cは、選択した区間における音信号のパワー以上を仮検出閾値に設定する。なお、選択した区間における音信号のパワーは、ステップS36aで算出されている。
(ステップS44a)制御部120cは、上位N個の区間を選択したか否かを判定する。上位N個の区間を選択した場合、制御部120cは、処理をステップS45に進める。選択していない区間がある場合、制御部120cは、処理をステップS41aに進める。
このように、制御部120cは、上位N個の区間毎に、区間における音信号のパワーに基づく値を仮検出閾値に設定し、音信号パワーの中で仮検出閾値以上の区間の数を検出する。
実施の形態4の変形例によれば、情報処理装置100cは、音声区間を検出する精度を高めることができる。
実施の形態5.
次に、実施の形態5を説明する。実施の形態5では、実施の形態1と相違する事項を主に説明する。そして、実施の形態5では、実施の形態1と共通する事項の説明を省略する。実施の形態5の説明では、図1,3を参照する。
実施の形態1~4では、音声区間を検出対象区間として検出する場合を説明した。実施の形態5では、非定常雑音区間を検出対象区間として検出する場合を説明する。
図18は、実施の形態5の情報処理装置が有する機能ブロック図である。図3に示される構成と同じ図18の構成は、図3に示される符号と同じ符号を付している。
情報処理装置100dは、制御部120dと出力部130dを有する。制御部120dと出力部130dについては、後で説明する。
図19は、実施の形態5の情報処理装置が実行する処理の例を示すフローチャート(その1)である。
(ステップS51)取得部110は、音信号を取得する。
(ステップS52)制御部120dは、音信号をフレーム単位に分割し、フレーム毎にパワーを算出する。言い換えれば、制御部120dは、音信号パワーを算出する。
(ステップS53)制御部120dは、音信号をフレーム単位に分割し、フレーム毎に音声度を算出する。言い換えれば、制御部120aは、時間経過に伴う音声度を、GMM、DNNなどの予め決められた方法と音信号とに基づいて算出する。ここで、時間経過に伴う音声度は、時系列の音声度と表現してもよい。
(ステップS54)制御部120dは、音声度が音声度閾値以上の区間を特定する。これにより、制御部120dは、音声区間を特定する。なお、音声区間が特定されない場合、制御部120dは、音声度閾値を下げてもよい。
(ステップS55)制御部120dは、特定した区間以外の区間を特定する。これにより、制御部120dは、非定常雑音区間候補を特定する。
また、制御部120dは、ステップS54とステップS55に変えて、次の処理を実行してもよい。制御部120dは、音声度が音声度閾値未満の区間を特定する。これにより、制御部120dは、非定常雑音区間候補を特定する。そして、制御部120dは、処理をステップS61に進める。
図20は、実施の形態5の情報処理装置が実行する処理の例を示すフローチャート(その2)である。以下の説明では、1つの非定常雑音区間候補が特定されたものとする。また、複数の非定常雑音区間候補が特定された場合、図20の処理が非定常雑音区間候補の数だけ繰り返される。
(ステップS61)制御部120dは、1つの非定常雑音区間候補を複数の区間に分割する。なお、制御部120dは、非定常雑音区間候補を均等に分割してもよいし、非定常雑音区間候補を不均等に分割してもよい。
(ステップS62)制御部120dは、音信号に基づいて、複数の区間のそれぞれの変動値を算出する。
(ステップS63)制御部120dは、複数の区間の中で、変動値が予め設定された閾値以下である区間を特定する。
(ステップS64)制御部120dは、音信号に基づいて、特定した区間における音信号のパワーを算出する。具体的には、制御部120dは、特定した区間における音信号のパワーを、式(1)を用いて算出する。
(ステップS65)制御部120dは、特定された区間における音信号のパワーの中から最大値を特定する。制御部120dは、当該最大値以上の値を検出閾値に設定する。
(ステップS66)制御部120dは、非定常雑音区間候補内であり、かつ音信号パワーの中で検出閾値以上の区間を、非定常雑音区間として検出する。
(ステップS67)出力部130dは、検出対象区間である非定常雑音区間を示す情報を出力する。例えば、出力部130は、非定常雑音区間の開始時刻と終了時刻を出力する。
図21は、実施の形態5の情報処理装置が実行する処理の具体例(その1)を示す。図21は、制御部120dによって算出された音信号パワー41のグラフを示している。また、図21は、音声度42のグラフを示している。さらに、図12は、音声度閾値43を示している。
制御部120dは、音声度が音声度閾値43以上の区間を特定する。図21は、特定された区間である音声区間を示している。
図22は、実施の形態5の情報処理装置が実行する処理の具体例(その2)を示す。制御部120dは、特定した区間以外の区間を特定する。図22は、特定された区間である非定常雑音区間候補を示している。
例えば、制御部120dは、非定常雑音区間候補1を複数の区間に分割する。制御部120dは、区間毎に変動値を算出する。制御部120dは、変動値が予め設定された閾値以下である区間を特定する。制御部120dは、特定した区間における音信号のパワーを算出する。制御部120dは、区間毎に算出されたパワーの中で最大値のパワーを特定する。制御部120dは、当該最大値以上の値を検出閾値に設定する。制御部120dは、非定常雑音区間候補1内であり、かつ音信号パワー41の中で検出閾値以上の区間を、非定常雑音区間として検出する。
情報処理装置100dは、同様に、非定常雑音区間候補2~6の中から非定常雑音区間を検出することができる。
実施の形態5によれば、情報処理装置100dは、音声度を用いることで音声を安定して検出することができる。また、情報処理装置100dは、非定常雑音の検出に関して、音声以外の区間を対象として、非定常雑音候補区間ごとに検出閾値を設定するので、高精度に非定常雑音を検出できる。
以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
11 音信号パワー、 12 音声度、 13a~13e 区間、 14 区間、 15 検出閾値、 21 音信号パワー、 22 音声度、 23 音声度閾値、 24a~24e 区間、 25a~25e 区間、 26 検出閾値、 31 音信号パワー、 32a~32e 区間、 33 仮検出閾値、 34 仮検出閾値、 41 音信号パワー、 42 音声度、 43 音声度閾値、 100,100a,100b,100c,100d 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 取得部、 120,120a,120b,120c,120d 制御部、 130,130d 出力部、 900 範囲、 901 閾値、 902 範囲。

Claims (17)

  1. 音信号を取得する取得部と、
    前記音信号を複数の区間に分割し、前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、前記複数の区間の中で、前記変動値が予め設定された閾値以下であり、かつ前記音声度が予め設定された閾値以下である区間を特定し、前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、特定された区間における前記音信号のパワーの中から最大値を特定し、前記最大値に基づく値を検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する制御部と、
    を有する情報処理装置。
  2. 音信号を取得する取得部と、
    前記音信号を複数の区間に分割し、前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、特定された区間の前記音声度を小さい順に並べ、小さい順に予め設定された個数の区間を選択し、前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、選択された区間における前記音信号のパワーの中から最大値を特定し、前記最大値に基づく値を検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する制御部と、
    を有する情報処理装置。
  3. 音信号を取得する取得部と、
    前記音信号を複数の区間に分割し、前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、特定された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、特定された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する制御部と、
    を有する情報処理装置。
  4. 音信号を取得する取得部と、
    前記音信号を複数の区間に分割し、前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、特定された区間の前記音声度を小さい順に並べ、小さい順に予め設定された個数の区間を選択し、前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、選択された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、選択された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する制御部と、
    を有する情報処理装置。
  5. 前記制御部は、前記検出対象区間を音声区間として検出する、
    請求項1からのいずれか1項に記載の情報処理装置。
  6. 音信号を取得する取得部と、
    時間経過に伴う、かつ音声らしさの度合いである音声度を前記音信号に基づいて算出し、時間経過に伴う前記音声度の中で、前記音声度が予め設定された閾値未満の区間を、非定常雑音区間候補として、特定し、前記非定常雑音区間候補を複数の区間に分割し、前記音信号に基づいて、分割された複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、分割された複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、特定された区間における前記音信号のパワーの中から最大値を特定し、特定された最大値に基づく値を検出閾値に設定し、前記非定常雑音区間候補内であり、かつ時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を非定常雑音区間として検出する制御部と、
    を有する情報処理装置。
  7. された区間を示す情報を出力する出力部をさらに有する、
    請求項1からのいずれか1項に記載の情報処理装置。
  8. 情報処理装置が、
    音信号を取得し、
    前記音信号を複数の区間に分割し、
    前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
    前記複数の区間の中で、前記変動値が予め設定された閾値以下であり、かつ前記音声度が予め設定された閾値以下である区間を特定し、
    前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、
    特定された区間における前記音信号のパワーの中から最大値を特定し、
    前記最大値に基づく値を検出閾値に設定し、
    時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する、
    検出方法。
  9. 情報処理装置が、
    音信号を取得し、
    前記音信号を複数の区間に分割し、
    前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
    前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
    特定された区間の前記音声度を小さい順に並べ、
    小さい順に予め設定された個数の区間を選択し、
    前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、
    選択された区間における前記音信号のパワーの中から最大値を特定し、
    前記最大値に基づく値を検出閾値に設定し、
    時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する、
    検出方法。
  10. 情報処理装置が、
    音信号を取得し、
    前記音信号を複数の区間に分割し、
    前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
    前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
    特定された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、
    特定された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、
    前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する、
    検出方法。
  11. 情報処理装置が、
    音信号を取得し、
    前記音信号を複数の区間に分割し、
    前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
    前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
    前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
    特定された区間の前記音声度を小さい順に並べ、小さい順に予め設定された個数の区間を選択し、
    前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、
    選択された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、
    選択された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、
    前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する、
    検出方法。
  12. 情報処理装置が、
    音信号を取得し、
    時間経過に伴う、かつ音声らしさの度合いである音声度を前記音信号に基づいて算出し、
    時間経過に伴う前記音声度の中で、前記音声度が予め設定された閾値未満の区間を、非定常雑音区間候補として、特定し、
    前記非定常雑音区間候補を複数の区間に分割し、
    前記音信号に基づいて、分割された複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
    分割された複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
    前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、
    特定された区間における前記音信号のパワーの中から最大値を特定し、
    特定された最大値に基づく値を検出閾値に設定し、
    前記非定常雑音区間候補内であり、かつ時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を非定常雑音区間として検出する、
    検出方法。
  13. 情報処理装置に、
    音信号を取得し、
    前記音信号を複数の区間に分割し、
    前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
    前記複数の区間の中で、前記変動値が予め設定された閾値以下であり、かつ前記音声度が予め設定された閾値以下である区間を特定し、
    前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、
    特定された区間における前記音信号のパワーの中から最大値を特定し、
    前記最大値に基づく値を検出閾値に設定し、
    時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する、
    処理を実行させる検出プログラム。
  14. 情報処理装置に、
    音信号を取得し、
    前記音信号を複数の区間に分割し、
    前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
    前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
    特定された区間の前記音声度を小さい順に並べ、
    小さい順に予め設定された個数の区間を選択し、
    前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、
    選択された区間における前記音信号のパワーの中から最大値を特定し、
    前記最大値に基づく値を検出閾値に設定し、
    時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する、
    処理を実行させる検出プログラム。
  15. 情報処理装置に、
    音信号を取得し、
    前記音信号を複数の区間に分割し、
    前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
    前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
    特定された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、
    特定された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、
    前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する、
    処理を実行させる検出プログラム。
  16. 情報処理装置に、
    音信号を取得し、
    前記音信号を複数の区間に分割し、
    前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
    前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
    前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
    特定された区間の前記音声度を小さい順に並べ、小さい順に予め設定された個数の区間を選択し、
    前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、
    選択された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、
    選択された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、
    前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する、
    処理を実行させる検出プログラム。
  17. 情報処理装置に、
    音信号を取得し、
    時間経過に伴う、かつ音声らしさの度合いである音声度を前記音信号に基づいて算出し、
    時間経過に伴う前記音声度の中で、前記音声度が予め設定された閾値未満の区間を、非定常雑音区間候補として、特定し、
    前記非定常雑音区間候補を複数の区間に分割し、
    前記音信号に基づいて、分割された複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
    分割された複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
    前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、
    特定された区間における前記音信号のパワーの中から最大値を特定し、
    特定された最大値に基づく値を検出閾値に設定し、
    前記非定常雑音区間候補内であり、かつ時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を非定常雑音区間として検出する、
    処理を実行させる検出プログラム。
JP2021559189A 2019-12-13 2019-12-13 情報処理装置、検出方法、及び検出プログラム Active JP7012917B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/048921 WO2021117219A1 (ja) 2019-12-13 2019-12-13 情報処理装置、検出方法、及び検出プログラム

Publications (2)

Publication Number Publication Date
JPWO2021117219A1 JPWO2021117219A1 (ja) 2021-06-17
JP7012917B2 true JP7012917B2 (ja) 2022-01-28

Family

ID=76330100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021559189A Active JP7012917B2 (ja) 2019-12-13 2019-12-13 情報処理装置、検出方法、及び検出プログラム

Country Status (5)

Country Link
US (1) US20220262392A1 (ja)
EP (1) EP4060662B1 (ja)
JP (1) JP7012917B2 (ja)
CN (1) CN114746939B (ja)
WO (1) WO2021117219A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7653311B2 (ja) * 2021-06-21 2025-03-28 アルインコ株式会社 無線通信装置及び無線通信システム
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법
CN120677526A (zh) * 2023-02-07 2025-09-19 杜比实验室特许公司 用于语音分类器的鲁棒处理的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3812887B2 (ja) 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
WO2009078093A1 (ja) 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
WO2012036305A1 (ja) 2010-09-17 2012-03-22 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1090019A (en) * 1976-11-23 1980-11-18 Federico Vagliani Method and apparatus for detecting the presence of a speech signal on a voice channel signal
JPS62265699A (ja) * 1986-05-14 1987-11-18 富士通株式会社 単語音声認識装置
US5442712A (en) * 1992-11-25 1995-08-15 Matsushita Electric Industrial Co., Ltd. Sound amplifying apparatus with automatic howl-suppressing function
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
US6175634B1 (en) * 1995-08-28 2001-01-16 Intel Corporation Adaptive noise reduction technique for multi-point communication system
JP3607775B2 (ja) * 1996-04-15 2005-01-05 オリンパス株式会社 音声状態判別装置
JP3888727B2 (ja) 1997-04-15 2007-03-07 三菱電機株式会社 音声区間検出方法、音声認識方法、音声区間検出装置及び音声認識装置
JPH1124692A (ja) * 1997-07-01 1999-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声波の有音/休止区間判定方法およびその装置
JP2000250568A (ja) * 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
JP2001067092A (ja) * 1999-08-26 2001-03-16 Matsushita Electric Ind Co Ltd 音声検出装置
WO2005084074A2 (en) * 2004-03-01 2005-09-09 Gn Resound A/S Hearing aid with automatic switching between modes of operation
JP4791857B2 (ja) * 2006-03-02 2011-10-12 日本放送協会 発話区間検出装置及び発話区間検出プログラム
US8989403B2 (en) * 2010-03-09 2015-03-24 Mitsubishi Electric Corporation Noise suppression device
US9113269B2 (en) * 2011-12-02 2015-08-18 Panasonic Intellectual Property Corporation Of America Audio processing device, audio processing method, audio processing program and audio processing integrated circuit
JP5971047B2 (ja) * 2012-09-12 2016-08-17 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
FR3014237B1 (fr) * 2013-12-02 2016-01-08 Adeunis R F Procede de detection de la voix
CN107209508B (zh) * 2015-01-21 2018-08-28 三菱电机株式会社 信息处理装置及信息处理方法
CN106571146B (zh) * 2015-10-13 2019-10-15 阿里巴巴集团控股有限公司 噪音信号确定方法、语音去噪方法及装置
US11128954B2 (en) * 2017-05-25 2021-09-21 Samsung Electronics Co., Ltd Method and electronic device for managing loudness of audio signal
JP2021113835A (ja) * 2018-04-19 2021-08-05 ソニーグループ株式会社 音声処理装置および音声処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3812887B2 (ja) 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
WO2009078093A1 (ja) 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
WO2012036305A1 (ja) 2010-09-17 2012-03-22 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム

Also Published As

Publication number Publication date
EP4060662B1 (en) 2025-12-03
EP4060662A4 (en) 2023-03-08
JPWO2021117219A1 (ja) 2021-06-17
WO2021117219A1 (ja) 2021-06-17
CN114746939A (zh) 2022-07-12
CN114746939B (zh) 2025-09-30
US20220262392A1 (en) 2022-08-18
EP4060662A1 (en) 2022-09-21

Similar Documents

Publication Publication Date Title
JP7012917B2 (ja) 情報処理装置、検出方法、及び検出プログラム
CN106531172B (zh) 基于环境噪声变化检测的说话人语音回放鉴别方法及系统
US9484036B2 (en) Method and apparatus for detecting synthesized speech
US20190279298A1 (en) Information auditing method, apparatus, electronic device and computer readable storage medium
CA3031819C (en) Systems and methods for cluster-based voice verification
JP5732976B2 (ja) 音声区間判定装置、音声区間判定方法、及びプログラム
US20060212295A1 (en) Apparatus and method for audio analysis
US20230401338A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN112992153B (zh) 音频处理方法、声纹识别方法、装置、计算机设备
US8779271B2 (en) Tonal component detection method, tonal component detection apparatus, and program
Lee et al. Dual attention in time and frequency domain for voice activity detection
Khadem-hosseini et al. Error correction in pitch detection using a deep learning based classification
HUE034664T2 (hu) Eljárás és berendezés pitch periódus helyességének detektálására
JP4102745B2 (ja) 音声区間検出装置および方法
EP2328143B1 (en) Human voice distinguishing method and device
KR100770895B1 (ko) 음성 신호 분리 시스템 및 그 방법
US8831763B1 (en) Intelligent interest point pruning for audio matching
US20130297311A1 (en) Information processing apparatus, information processing method and information processing program
JP7380188B2 (ja) 更新プログラム、更新方法および情報処理装置
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
KR101804787B1 (ko) 음질특징을 이용한 화자인식장치 및 방법
JP6759927B2 (ja) 発話評価装置、発話評価方法、および発話評価プログラム
US20240013799A1 (en) Adaptive noise estimation
Barguil et al. Anomaly Detection Algorithm for Acoustics Phenomena
Xia Deep Neural Network Based Representation Learning and Modeling for Robust Speaker Recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211004

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220118

R150 Certificate of patent or registration of utility model

Ref document number: 7012917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250