JP7012917B2 - 情報処理装置、検出方法、及び検出プログラム - Google Patents
情報処理装置、検出方法、及び検出プログラム Download PDFInfo
- Publication number
- JP7012917B2 JP7012917B2 JP2021559189A JP2021559189A JP7012917B2 JP 7012917 B2 JP7012917 B2 JP 7012917B2 JP 2021559189 A JP2021559189 A JP 2021559189A JP 2021559189 A JP2021559189 A JP 2021559189A JP 7012917 B2 JP7012917 B2 JP 7012917B2
- Authority
- JP
- Japan
- Prior art keywords
- sound signal
- section
- sections
- value
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Forklifts And Lifting Vehicles (AREA)
Description
図1は、実施の形態1の情報処理装置が有するハードウェアの構成を示す図である。情報処理装置100は、検出方法を実行する装置である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
図4は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。
(ステップS11)取得部110は、音信号を取得する。
(ステップS12)制御部120は、音信号をフレーム単位に分割し、フレーム毎にパワーを算出する。なお、例えば、フレームは、10msecである。
つまり、ステップS12の処理では、音信号パワーが算出される。これにより、例えば、音信号パワーが、グラフで表現できる。
分散値の算出を説明する。まず、区間における音信号のパワーmが、式(1)により、算出される。Pは、パワーである。iは、フレーム番号である。また、iは、1~Nの値である。
(ステップS16)制御部120は、特定した区間における音信号のパワーを、式(1)を用いて算出する。
(ステップS17)制御部120は、区間毎に算出されたパワーの中で最大値のパワーを特定する。制御部120は、当該最大値以上の値を検出閾値に設定する。
(ステップS19)出力部130は、音声区間を示す情報を出力する。例えば、出力部130は、音声区間の開始時刻と終了時刻を出力する。
例えば、制御部120は、音信号パワー11を複数の区間に分割する。制御部120は、区間毎に変動値を算出する。制御部120は、変動値が予め設定された閾値以下の区間を特定する。例えば、制御部120は、変動値が予め設定された閾値以下の区間13a~13eを特定する。これにより、例えば、区間14は、除外される。なお、区間14は、音声区間である。よって、制御部120は、音声区間以外の区間を特定する。すなわち、制御部120は、雑音区間を特定する。ここで、以下の説明では、区間13a~13eが特定されたものとする。
制御部120は、音信号パワー11の中で検出閾値15以上の区間を、音声区間として検出する。例えば、制御部120は、区間14を検出する。出力部130は、音声区間を示す情報を出力する。
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。実施の形態2の説明では、図1,3を参照する。
情報処理装置100aは、制御部120aを有する。制御部120aについては、後で説明する。
(ステップS21)取得部110は、音信号を取得する。
(ステップS22)制御部120aは、音信号をフレーム単位に分割し、フレーム毎にパワーを算出する。言い換えれば、制御部120aは、音信号パワーを算出する。
(ステップS25)制御部120aは、音信号に基づいて、区間毎に変動値と音声度を算出する。例えば、制御部120aは、複数の区間のうちの第1の区間の変動値と音声度を算出する。このように、制御部120aは、同じ区間の変動値と音声度を算出する。
(ステップS27)制御部120aは、特定した区間における音信号のパワーを、式(1)を用いて算出する。
(ステップS29)制御部120aは、音信号の中で検出閾値以上の区間を、音声区間として検出する。
(ステップS30)出力部130は、音声区間を示す情報を出力する。
制御部120aは、音信号パワー21を複数の区間に分割する。制御部120aは、区間毎に変動値を算出する。また、制御部120aは、区間毎に音声度を算出する。
制御部120aは、音信号パワー21の中で検出閾値26以上の区間を、音声区間として検出する。出力部130は、音声区間を示す情報を出力する。
次に、実施の形態3を説明する。実施の形態3では、実施の形態1,2と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1,2と共通する事項の説明を省略する。実施の形態3の説明では、図1,3,7を参照する。
情報処理装置100bは、制御部120bを有する。制御部120bについては、後で説明する。
図10の処理では、ステップS26a,26b,27a,28aが実行される点が、図7の処理と異なる。そのため、図10では、ステップS26a,26b,27a,28aを説明する。図10における他のステップについては、図7のステップ番号と同じ番号を付することによって、処理の説明を省略する。なお、ステップS21~25とステップS29,30は、制御部120bによって実行される。
(ステップS26b)制御部120bは、特定した区間の音声度を小さい順に並べる。なお、特定した区間の音声度は、ステップS25で算出されている。
制御部120bは、小さい順に、予め設定された個数の区間を選択する。以下、予め設定された個数は、N個と表現する。なお、Nは、正の整数である。
このように、制御部120bは、小さい順に上位N個の区間を選択する。
(ステップS28a)制御部120bは、上位N個の区間における音信号のパワーの中で最大値を特定する。制御部120bは、当該最大値以上の値を検出閾値に設定する。
次に、実施の形態4を説明する。実施の形態4では、実施の形態1と相違する事項を主に説明する。そして、実施の形態4では、実施の形態1と共通する事項の説明を省略する。実施の形態4の説明では、図1,3を参照する。
情報処理装置100cは、制御部120cを有する。制御部120cについては、後で説明する。
(ステップS31)取得部110は、音信号を取得する。
(ステップS32)制御部120cは、音信号をフレーム単位に分割し、フレーム毎にパワーを算出する。言い換えれば、制御部120cは、音信号パワーを算出する。
(ステップS34)制御部120cは、音信号に基づいて、区間毎に変動値を算出する。
(ステップS36)制御部120cは、特定した区間における音信号のパワーを、式(1)を用いて算出する。そして、制御部120cは、処理をステップS41に進める。
(ステップS41)制御部120cは、ステップS35で特定した区間の中から1つの区間を選択する。
(ステップS42)制御部120cは、選択した区間における音信号のパワー以上を仮検出閾値に設定する。なお、選択した区間における音信号のパワーは、ステップS36で算出されている。
(ステップS44)制御部120cは、ステップS35で特定した全ての区間を選択したか否かを判定する。全ての区間を選択した場合、制御部120cは、処理をステップS45に進める。選択していない区間がある場合、制御部120cは、処理をステップS41に進める。
(ステップS46)制御部120cは、ステップS45で検出された仮検出閾値を用いて検出されたときの区間を、音声区間として検出する。言い換えれば、制御部120cは、検出閾値を用いて検出されたときの区間を、音声区間として検出する。
(ステップS47)出力部130は、音声区間を示す情報を出力する。
制御部120cは、ステップS43で検出された区間の数が最大であるときの仮検出閾値を検出する。制御部120cは、ステップS45で検出された仮検出閾値を用いて検出されたときの区間を、音声区間として検出する。
なお、検出した区間数が一番多いものを最終的な検出結果とする理由は、ノイズパワー(すなわち、雑音のパワー)が不適切な場合、実際の音声区間数よりも検出される区間数が減少するからである。すなわち、ノイズパワーが不適切に低い場合、複数の音声区間がまとめて1区間として検出されるので検出数が少なくなる。一方、ノイズパワーが不適切に高い場合、パワーの小さい音声区間が検出漏れになるため、やはり検出数が少なくなる。
次に、実施の形態4の変形例を説明する。
図16は、実施の形態4の変形例を示すフローチャート(その1)である。図16の処理では、ステップS32a,34a,35a,36aが実行される点が、図12の処理と異なる。そのため、図16では、ステップS32a,34a,35a,36aを説明する。図16における他のステップについては、図12のステップ番号と同じ番号を付することによって、処理の説明を省略する。
(ステップS34a)制御部120cは、音信号に基づいて、区間毎に変動値と音声度を算出する。
(ステップS35a)制御部120cは、特定した区間の音声度を小さい順に並べる。制御部120cは、小さい順に上位N個の区間を選択する。
(ステップS42a)制御部120cは、選択した区間における音信号のパワー以上を仮検出閾値に設定する。なお、選択した区間における音信号のパワーは、ステップS36aで算出されている。
このように、制御部120cは、上位N個の区間毎に、区間における音信号のパワーに基づく値を仮検出閾値に設定し、音信号パワーの中で仮検出閾値以上の区間の数を検出する。
次に、実施の形態5を説明する。実施の形態5では、実施の形態1と相違する事項を主に説明する。そして、実施の形態5では、実施の形態1と共通する事項の説明を省略する。実施の形態5の説明では、図1,3を参照する。
実施の形態1~4では、音声区間を検出対象区間として検出する場合を説明した。実施の形態5では、非定常雑音区間を検出対象区間として検出する場合を説明する。
情報処理装置100dは、制御部120dと出力部130dを有する。制御部120dと出力部130dについては、後で説明する。
(ステップS51)取得部110は、音信号を取得する。
(ステップS52)制御部120dは、音信号をフレーム単位に分割し、フレーム毎にパワーを算出する。言い換えれば、制御部120dは、音信号パワーを算出する。
(ステップS55)制御部120dは、特定した区間以外の区間を特定する。これにより、制御部120dは、非定常雑音区間候補を特定する。
(ステップS62)制御部120dは、音信号に基づいて、複数の区間のそれぞれの変動値を算出する。
(ステップS64)制御部120dは、音信号に基づいて、特定した区間における音信号のパワーを算出する。具体的には、制御部120dは、特定した区間における音信号のパワーを、式(1)を用いて算出する。
(ステップS66)制御部120dは、非定常雑音区間候補内であり、かつ音信号パワーの中で検出閾値以上の区間を、非定常雑音区間として検出する。
(ステップS67)出力部130dは、検出対象区間である非定常雑音区間を示す情報を出力する。例えば、出力部130は、非定常雑音区間の開始時刻と終了時刻を出力する。
制御部120dは、音声度が音声度閾値43以上の区間を特定する。図21は、特定された区間である音声区間を示している。
情報処理装置100dは、同様に、非定常雑音区間候補2~6の中から非定常雑音区間を検出することができる。
Claims (17)
- 音信号を取得する取得部と、
前記音信号を複数の区間に分割し、前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、前記複数の区間の中で、前記変動値が予め設定された閾値以下であり、かつ前記音声度が予め設定された閾値以下である区間を特定し、前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、特定された区間における前記音信号のパワーの中から最大値を特定し、前記最大値に基づく値を検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する制御部と、
を有する情報処理装置。 - 音信号を取得する取得部と、
前記音信号を複数の区間に分割し、前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、特定された区間の前記音声度を小さい順に並べ、小さい順に予め設定された個数の区間を選択し、前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、選択された区間における前記音信号のパワーの中から最大値を特定し、前記最大値に基づく値を検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する制御部と、
を有する情報処理装置。 - 音信号を取得する取得部と、
前記音信号を複数の区間に分割し、前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、特定された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、特定された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する制御部と、
を有する情報処理装置。 - 音信号を取得する取得部と、
前記音信号を複数の区間に分割し、前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、特定された区間の前記音声度を小さい順に並べ、小さい順に予め設定された個数の区間を選択し、前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、選択された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、選択された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する制御部と、
を有する情報処理装置。 - 前記制御部は、前記検出対象区間を音声区間として検出する、
請求項1から4のいずれか1項に記載の情報処理装置。 - 音信号を取得する取得部と、
時間経過に伴う、かつ音声らしさの度合いである音声度を前記音信号に基づいて算出し、時間経過に伴う前記音声度の中で、前記音声度が予め設定された閾値未満の区間を、非定常雑音区間候補として、特定し、前記非定常雑音区間候補を複数の区間に分割し、前記音信号に基づいて、分割された複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、分割された複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、特定された区間における前記音信号のパワーの中から最大値を特定し、特定された最大値に基づく値を検出閾値に設定し、前記非定常雑音区間候補内であり、かつ時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を非定常雑音区間として検出する制御部と、
を有する情報処理装置。 - 検出された区間を示す情報を出力する出力部をさらに有する、
請求項1から6のいずれか1項に記載の情報処理装置。 - 情報処理装置が、
音信号を取得し、
前記音信号を複数の区間に分割し、
前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
前記複数の区間の中で、前記変動値が予め設定された閾値以下であり、かつ前記音声度が予め設定された閾値以下である区間を特定し、
前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、
特定された区間における前記音信号のパワーの中から最大値を特定し、
前記最大値に基づく値を検出閾値に設定し、
時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する、
検出方法。 - 情報処理装置が、
音信号を取得し、
前記音信号を複数の区間に分割し、
前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
特定された区間の前記音声度を小さい順に並べ、
小さい順に予め設定された個数の区間を選択し、
前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、
選択された区間における前記音信号のパワーの中から最大値を特定し、
前記最大値に基づく値を検出閾値に設定し、
時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する、
検出方法。 - 情報処理装置が、
音信号を取得し、
前記音信号を複数の区間に分割し、
前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
特定された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、
特定された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、
前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する、
検出方法。 - 情報処理装置が、
音信号を取得し、
前記音信号を複数の区間に分割し、
前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
特定された区間の前記音声度を小さい順に並べ、小さい順に予め設定された個数の区間を選択し、
前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、
選択された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、
選択された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、
前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する、
検出方法。 - 情報処理装置が、
音信号を取得し、
時間経過に伴う、かつ音声らしさの度合いである音声度を前記音信号に基づいて算出し、
時間経過に伴う前記音声度の中で、前記音声度が予め設定された閾値未満の区間を、非定常雑音区間候補として、特定し、
前記非定常雑音区間候補を複数の区間に分割し、
前記音信号に基づいて、分割された複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
分割された複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、
特定された区間における前記音信号のパワーの中から最大値を特定し、
特定された最大値に基づく値を検出閾値に設定し、
前記非定常雑音区間候補内であり、かつ時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を非定常雑音区間として検出する、
検出方法。 - 情報処理装置に、
音信号を取得し、
前記音信号を複数の区間に分割し、
前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
前記複数の区間の中で、前記変動値が予め設定された閾値以下であり、かつ前記音声度が予め設定された閾値以下である区間を特定し、
前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、
特定された区間における前記音信号のパワーの中から最大値を特定し、
前記最大値に基づく値を検出閾値に設定し、
時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する、
処理を実行させる検出プログラム。 - 情報処理装置に、
音信号を取得し、
前記音信号を複数の区間に分割し、
前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
特定された区間の前記音声度を小さい順に並べ、
小さい順に予め設定された個数の区間を選択し、
前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、
選択された区間における前記音信号のパワーの中から最大値を特定し、
前記最大値に基づく値を検出閾値に設定し、
時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を検出対象区間として検出する、
処理を実行させる検出プログラム。 - 情報処理装置に、
音信号を取得し、
前記音信号を複数の区間に分割し、
前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
特定された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、
特定された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、
前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する、
処理を実行させる検出プログラム。 - 情報処理装置に、
音信号を取得し、
前記音信号を複数の区間に分割し、
前記音信号に基づいて、前記複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
前記複数の区間のそれぞれの、音声らしさの度合いである音声度を前記音信号に基づいて算出し、
前記複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
特定された区間の前記音声度を小さい順に並べ、小さい順に予め設定された個数の区間を選択し、
前記音信号に基づいて、選択された区間における前記音信号のパワーを算出し、
選択された区間毎に、区間における前記音信号のパワーに基づく値を仮検出閾値に設定し、時間経過に伴う前記音信号のパワーの中で、設定された仮検出閾値以上の区間の数を検出し、
選択された区間毎に設定された仮検出閾値の中から、区間の数が最大であるときの仮検出閾値を検出閾値として検出し、
前記検出閾値を用いて検出されたときの区間を、検出対象区間として検出する、
処理を実行させる検出プログラム。 - 情報処理装置に、
音信号を取得し、
時間経過に伴う、かつ音声らしさの度合いである音声度を前記音信号に基づいて算出し、
時間経過に伴う前記音声度の中で、前記音声度が予め設定された閾値未満の区間を、非定常雑音区間候補として、特定し、
前記非定常雑音区間候補を複数の区間に分割し、
前記音信号に基づいて、分割された複数の区間のそれぞれの、区間時間当たりの変動量である変動値を算出し、
分割された複数の区間の中で、前記変動値が予め設定された閾値以下の区間を特定し、
前記音信号に基づいて、特定された区間における前記音信号のパワーを算出し、
特定された区間における前記音信号のパワーの中から最大値を特定し、
特定された最大値に基づく値を検出閾値に設定し、
前記非定常雑音区間候補内であり、かつ時間経過に伴う前記音信号のパワーの中で前記検出閾値以上の区間を非定常雑音区間として検出する、
処理を実行させる検出プログラム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2019/048921 WO2021117219A1 (ja) | 2019-12-13 | 2019-12-13 | 情報処理装置、検出方法、及び検出プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2021117219A1 JPWO2021117219A1 (ja) | 2021-06-17 |
| JP7012917B2 true JP7012917B2 (ja) | 2022-01-28 |
Family
ID=76330100
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021559189A Active JP7012917B2 (ja) | 2019-12-13 | 2019-12-13 | 情報処理装置、検出方法、及び検出プログラム |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20220262392A1 (ja) |
| EP (1) | EP4060662B1 (ja) |
| JP (1) | JP7012917B2 (ja) |
| CN (1) | CN114746939B (ja) |
| WO (1) | WO2021117219A1 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7653311B2 (ja) * | 2021-06-21 | 2025-03-28 | アルインコ株式会社 | 無線通信装置及び無線通信システム |
| KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
| CN120677526A (zh) * | 2023-02-07 | 2025-09-19 | 杜比实验室特许公司 | 用于语音分类器的鲁棒处理的方法和系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3812887B2 (ja) | 2001-12-21 | 2006-08-23 | 富士通株式会社 | 信号処理システムおよび方法 |
| WO2009078093A1 (ja) | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 非音声区間検出方法及び非音声区間検出装置 |
| WO2012036305A1 (ja) | 2010-09-17 | 2012-03-22 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA1090019A (en) * | 1976-11-23 | 1980-11-18 | Federico Vagliani | Method and apparatus for detecting the presence of a speech signal on a voice channel signal |
| JPS62265699A (ja) * | 1986-05-14 | 1987-11-18 | 富士通株式会社 | 単語音声認識装置 |
| US5442712A (en) * | 1992-11-25 | 1995-08-15 | Matsushita Electric Industrial Co., Ltd. | Sound amplifying apparatus with automatic howl-suppressing function |
| BE1007355A3 (nl) * | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
| US6175634B1 (en) * | 1995-08-28 | 2001-01-16 | Intel Corporation | Adaptive noise reduction technique for multi-point communication system |
| JP3607775B2 (ja) * | 1996-04-15 | 2005-01-05 | オリンパス株式会社 | 音声状態判別装置 |
| JP3888727B2 (ja) | 1997-04-15 | 2007-03-07 | 三菱電機株式会社 | 音声区間検出方法、音声認識方法、音声区間検出装置及び音声認識装置 |
| JPH1124692A (ja) * | 1997-07-01 | 1999-01-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声波の有音/休止区間判定方法およびその装置 |
| JP2000250568A (ja) * | 1999-02-26 | 2000-09-14 | Kobe Steel Ltd | 音声区間検出装置 |
| JP2001067092A (ja) * | 1999-08-26 | 2001-03-16 | Matsushita Electric Ind Co Ltd | 音声検出装置 |
| WO2005084074A2 (en) * | 2004-03-01 | 2005-09-09 | Gn Resound A/S | Hearing aid with automatic switching between modes of operation |
| JP4791857B2 (ja) * | 2006-03-02 | 2011-10-12 | 日本放送協会 | 発話区間検出装置及び発話区間検出プログラム |
| US8989403B2 (en) * | 2010-03-09 | 2015-03-24 | Mitsubishi Electric Corporation | Noise suppression device |
| US9113269B2 (en) * | 2011-12-02 | 2015-08-18 | Panasonic Intellectual Property Corporation Of America | Audio processing device, audio processing method, audio processing program and audio processing integrated circuit |
| JP5971047B2 (ja) * | 2012-09-12 | 2016-08-17 | 沖電気工業株式会社 | 音声信号処理装置、方法及びプログラム |
| FR3014237B1 (fr) * | 2013-12-02 | 2016-01-08 | Adeunis R F | Procede de detection de la voix |
| CN107209508B (zh) * | 2015-01-21 | 2018-08-28 | 三菱电机株式会社 | 信息处理装置及信息处理方法 |
| CN106571146B (zh) * | 2015-10-13 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 噪音信号确定方法、语音去噪方法及装置 |
| US11128954B2 (en) * | 2017-05-25 | 2021-09-21 | Samsung Electronics Co., Ltd | Method and electronic device for managing loudness of audio signal |
| JP2021113835A (ja) * | 2018-04-19 | 2021-08-05 | ソニーグループ株式会社 | 音声処理装置および音声処理方法 |
-
2019
- 2019-12-13 EP EP19955555.8A patent/EP4060662B1/en active Active
- 2019-12-13 JP JP2021559189A patent/JP7012917B2/ja active Active
- 2019-12-13 CN CN201980102693.6A patent/CN114746939B/zh active Active
- 2019-12-13 WO PCT/JP2019/048921 patent/WO2021117219A1/ja not_active Ceased
-
2022
- 2022-05-10 US US17/740,658 patent/US20220262392A1/en not_active Abandoned
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3812887B2 (ja) | 2001-12-21 | 2006-08-23 | 富士通株式会社 | 信号処理システムおよび方法 |
| WO2009078093A1 (ja) | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 非音声区間検出方法及び非音声区間検出装置 |
| WO2012036305A1 (ja) | 2010-09-17 | 2012-03-22 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4060662B1 (en) | 2025-12-03 |
| EP4060662A4 (en) | 2023-03-08 |
| JPWO2021117219A1 (ja) | 2021-06-17 |
| WO2021117219A1 (ja) | 2021-06-17 |
| CN114746939A (zh) | 2022-07-12 |
| CN114746939B (zh) | 2025-09-30 |
| US20220262392A1 (en) | 2022-08-18 |
| EP4060662A1 (en) | 2022-09-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7012917B2 (ja) | 情報処理装置、検出方法、及び検出プログラム | |
| CN106531172B (zh) | 基于环境噪声变化检测的说话人语音回放鉴别方法及系统 | |
| US9484036B2 (en) | Method and apparatus for detecting synthesized speech | |
| US20190279298A1 (en) | Information auditing method, apparatus, electronic device and computer readable storage medium | |
| CA3031819C (en) | Systems and methods for cluster-based voice verification | |
| JP5732976B2 (ja) | 音声区間判定装置、音声区間判定方法、及びプログラム | |
| US20060212295A1 (en) | Apparatus and method for audio analysis | |
| US20230401338A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
| CN112992153B (zh) | 音频处理方法、声纹识别方法、装置、计算机设备 | |
| US8779271B2 (en) | Tonal component detection method, tonal component detection apparatus, and program | |
| Lee et al. | Dual attention in time and frequency domain for voice activity detection | |
| Khadem-hosseini et al. | Error correction in pitch detection using a deep learning based classification | |
| HUE034664T2 (hu) | Eljárás és berendezés pitch periódus helyességének detektálására | |
| JP4102745B2 (ja) | 音声区間検出装置および方法 | |
| EP2328143B1 (en) | Human voice distinguishing method and device | |
| KR100770895B1 (ko) | 음성 신호 분리 시스템 및 그 방법 | |
| US8831763B1 (en) | Intelligent interest point pruning for audio matching | |
| US20130297311A1 (en) | Information processing apparatus, information processing method and information processing program | |
| JP7380188B2 (ja) | 更新プログラム、更新方法および情報処理装置 | |
| JP6216809B2 (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
| KR101804787B1 (ko) | 음질특징을 이용한 화자인식장치 및 방법 | |
| JP6759927B2 (ja) | 発話評価装置、発話評価方法、および発話評価プログラム | |
| US20240013799A1 (en) | Adaptive noise estimation | |
| Barguil et al. | Anomaly Detection Algorithm for Acoustics Phenomena | |
| Xia | Deep Neural Network Based Representation Learning and Modeling for Robust Speaker Recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211004 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211004 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20211004 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211221 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220118 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7012917 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |