WO2024084949A1

WO2024084949A1 - 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置

Info

Publication number: WO2024084949A1
Application number: PCT/JP2023/036004
Authority: WO
Inventors: 陽宇佐見; 智一石川; 宏幸江原; 康太中橋; 成悟榎本; 摩里子山田; 修二宮阪
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2022-10-19
Filing date: 2023-10-03
Publication date: 2024-04-25
Anticipated expiration: 2025-04-19
Also published as: KR20250091201A; EP4607963A1; CN120113259A; JPWO2024084949A1

Abstract

音響信号処理方法は、風を起こすオブジェクトの変化、及び、オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、取得されたオブジェクト情報が示す所定タイミングから、オブジェクトの変化に基づく所定時間後に風による空力音を示す空力音データを出力する出力ステップと、を含む。

Description

音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置

　本開示は、音響信号処理方法などに関する。

　特許文献１では、音響信号処理方法である立体音響計算方法に係る技術が開示されている。この音響信号処理方法では、受聴者（観測者）への音の到達時間が音源と受聴者との距離及び音速に応じて変化するように制御される。

特開２０１３－２０１５７７号公報国際公開第２０２１／１８０９３８号

　ところで、特許文献１が示す技術では、受聴者に臨場感を与えることが困難な場合がある。

　そこで、本開示は、受聴者に臨場感を与えることができる音響信号処理方法などを提供することを目的とする。

　本開示の一態様に係る音響信号処理方法は、風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力ステップと、を含む。

　また、本開示の一態様に係るコンピュータプログラムは、上記の音響信号処理方法をコンピュータに実行させる。

　また、本開示の一態様に係る音響信号処理装置は、風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得部と、取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力部と、を備える。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一態様に係る音響信号処理方法によれば、受聴者に臨場感を与えることができる。

図１は、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響（Ｉｍｍｅｒｓｉｖｅ　Ａｕｄｉｏ）再生システムを示す図である。図２は、本開示の符号化装置の一例である符号化装置の構成を示す機能ブロック図である。図３は、本開示の復号装置の一例である復号装置の構成を示す機能ブロック図である。図４は、本開示の符号化装置の別の一例である符号化装置の構成を示す機能ブロック図である。図５は、本開示の復号装置の別の一例である復号装置の構成を示す機能ブロック図である。図６は、図３又は図５におけるデコーダの一例であるデコーダの構成を示す機能ブロック図である。図７は、図３又は図５におけるデコーダの別の一例であるデコーダの構成を示す機能ブロック図である。図８は、音響信号処理装置の物理的構成の一例を示す図である。図９は、符号化装置の物理的構成の一例を示す図である。図１０は、実施の形態に係る音響信号処理装置の機能構成を示すブロック図である。図１１は、実施の形態に係る音響信号処理装置の動作例１のフローチャートである。図１２は、動作例１に係るオブジェクトである扇風機と受聴者とを示す図である。図１３Ａは、図１１が示すステップＳ４０で所定時間が決定される処理を説明する図である。図１３Ｂは、実施の形態に係る空力音データの出力の詳細な例が説明された図である。図１３Ｃは、実施の形態に係る空力音データの出力の詳細な他の例が説明された図である。図１４は、実施の形態に係る音響信号処理装置の動作例２のフローチャートである。図１５は、動作例２に係るオブジェクトである救急車と受聴者とを示す図である。図１６は、動作例２に係る所定タイミングを説明するための模式図である。図１７は、動作例２に係るステップＳ３５の詳細を説明するフローチャートである。図１８は、動作例２の他の第１例に係るステップＳ３５の詳細を説明するフローチャートである。図１９は、図６及び図７のレンダリング部がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。

　（本開示の基礎となった知見）
　従来、仮想空間において、受聴者への音の到達時間が制御される音響信号処理方法が知られている。

　特許文献１では、音響信号処理方法である立体音響計算方法に係る技術が開示されている。この音響信号処理方法では、受聴者への音の到達時間が音源と受聴者との距離及び音速に応じて変化するように制御される。より具体的には、到達時間が、当該距離が増加するに従って長くなり、音速が遅いほど長くなるように制御される。これにより、受聴者は、音を発するオブジェクトつまりは音源と受聴者自身との距離を認識することができる。

　このような制御が行われた音は、仮想現実（バーチャル・リアリティ：ＶＲ（Ｖｉｒｔｕａｌ　Ｒｅａｌｉｔｙ））、又は、拡張現実（オーグメンテッド・リアリティ：ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ））などの、ユーザ（受聴者）が存在する空間(仮想空間)において立体的な音を再生するためのアプリケーションにおいて、利用されている。このような制御が行われた音は、特に、受聴者の６ＤｏＦ（Ｄｅｇｒｅｅｓ　ｏｆ　Ｆｒｅｅｄｏｍ）の情報がセンシングされるような仮想空間において、利用される。

　ところで、特許文献１に開示される受聴者へ到達する音は、ＶＲ又はＡＲにおけるオブジェクトである車両（移動音源）の走行音であり、当該車両自身が発する音（エンジン音など）である。しかしながら、現実空間においては、例えば車両は走行すると風を起こす。この車両によって起こされた風が、受聴者に耳に到達することで、空力音が生じる。この空力音は、オブジェクト（例えば車両）による風が受聴者に達した場合に、例えば受聴者Ｌの耳の形状に応じて生じる音である。なお、風を起こすオブジェクトは、上記車両のように走行（移動）するオブジェクトに限られず、扇風機のように風を発生させるオブジェクトも含まれる。

　しかしながら、特許文献１には、空力音をどのように受聴者へ受聴させるかについての開示がない。より具体的には、特許文献１では、オブジェクトが風を起こした場合に受聴者への空力音の到達時間を制御する技術が開示されていない。特許文献１に開示される技術では、受聴者は適切なタイミングで空力音を受聴することができないため、受聴者は違和感を覚えてしまい、受聴者は臨場感を得ることが難しい。従って、受聴者に臨場感を与えることができる音響信号処理方法などが求められている。

　そこで、本開示の第１態様に係る音響信号処理方法は、風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力ステップと、を含む。

　これにより、所定タイミングから所定時間が経過したタイミングで、空力音データを出力することができる。このため、受聴者は適切なタイミングで空力音を受聴することができるので、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。

　また例えば、本開示の第２態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの変化による前記風の変化と、前記所定タイミングが、前記風の変化のタイミングであることとを示し、前記音響信号処理方法は、取得された前記オブジェクト情報が示す前記風に基づいて、前記所定時間を決定する決定ステップを含む、第１態様に係る音響信号処理方法である。

　これにより、風が変化したタイミングから、当該風に基づいて決定された所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。

　また例えば、本開示の第３態様に係る音響信号処理方法は、前記オブジェクト情報が示す前記風の変化は、前記風の風速の変化を示し、前記決定ステップでは、前記風速に基づいて、前記所定時間を決定する、第２態様に係る音響信号処理方法である。

　これにより、風速に基づいて所定時間が決定されるため、受聴者は、より適切なタイミングで空力音を受聴することができる。

　また例えば、本開示の第４態様に係る音響信号処理方法は、前記空力音は、変化後の前記風速で生じる音である、第３態様に係る音響信号処理方法である。

　これにより、仮想空間で受聴者が受聴する空力音を、現実空間で受聴者が受聴する空力音により近い音とすることができる。

　また例えば、本開示の第５態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの位置を示し、前記音響信号処理方法は、前記空力音の受聴者の位置と、取得された前記オブジェクト情報が示す前記オブジェクトの位置との距離に基づいて、前記所定時間を決定する決定ステップを含む、第１態様に係る音響信号処理方法である。

　これにより、当該距離に基づいて所定時間が決定されるため、受聴者は、より適切なタイミングで空力音を受聴することができる。

　また例えば、本開示の第６態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの位置を示し、前記決定ステップでは、前記風速、及び、前記空力音の受聴者の位置と、取得された前記オブジェクト情報が示す前記オブジェクトの位置との距離に基づいて、前記所定時間を決定する、第３又は４態様に係る音響信号処理方法である。

　これにより、風速と当該距離とに基づいて所定時間が決定されるため、受聴者は、より適切なタイミングで空力音を受聴することができる。

　また例えば、本開示の第７態様に係る音響信号処理方法は、前記オブジェクト情報は、前記所定タイミングが、前記オブジェクトに対応付けられた音データを出力する第１タイミングであることを示し、前記出力ステップでは、取得された前記オブジェクト情報が示す前記第１タイミングから前記所定時間後に前記空力音データを出力する、第１～６態様のいずれか１つの態様に係る音響信号処理方法である。

　これにより、例えばオブジェクトが音を発生させる場合に、当該音が出力された第１タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。

　また例えば、本開示の第８態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの位置と、前記所定タイミングが、前記空力音の受聴者の位置と前記オブジェクトの位置との距離が所定距離より短くなる第２タイミングであることとを示し、前記出力ステップでは、取得された前記オブジェクト情報が示す前記第２タイミングから前記所定時間後に前記空力音データを出力する、第１～６態様のいずれか１つの態様に係る音響信号処理方法である。

　これにより、当該距離が所定距離より短くなった第２タイミング、つまりは、オブジェクトが受聴者に近づいた第２タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。

　また例えば、本開示の第９態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの変化による前記風の変化が前記風の向きの変化であることと、前記所定タイミングが、前記風の向きの変化が起こった第３タイミングであることとを示し、前記出力ステップでは、取得された前記オブジェクト情報が示す第３タイミングから前記所定時間後に前記空力音データを出力する、第１～６態様のいずれか１つの態様に係る音響信号処理方法である。

　これにより、風の向きの変化が起こった第３タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。

　また例えば、本開示の第１０態様に係る音響信号処理方法は、前記オブジェクトは、前記オブジェクトに対応付けられた音データが示す音及び前記風を発生させるオブジェクトであり、前記空力音は、前記オブジェクトが発生させた前記風が前記受聴者に到達することによって生じる空力音である、第６態様に係る音響信号処理方法である。

　これにより、音及び風を発生させる扇風機などをオブジェクトとすることができ、当該オブジェクトから吹出された風による空力音を実現することができる。

　また例えば、本開示の第１１態様に係る音響信号処理方法は、前記距離をＤとし、前記風速がＳｏとなる前記オブジェクトの位置からの距離をＵとし、前記所定時間をｔとした場合、前記ｔは、下記式を満たす、第１０態様に係る音響信号処理方法である。

　ｔ＝｛（Ｄ－Ｕ）＾２｝／｛Ｓｏ×Ｕ×（ｌｏｇ（Ｄ）－ｌｏｇ（Ｕ））

　これにより、決定ステップでは、所定タイミングからオブジェクトが発生させた風が受聴者に到達するまでの時間を所定時間として決定することができる。よって、所定タイミングからこのような所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。

　また例えば、本開示の第１２態様に係る音響信号処理方法は、前記オブジェクトは、前記オブジェクトの位置の移動により前記風を発生させるオブジェクトであり、前記空力音は、前記移動により発生した前記風が前記受聴者に到達することによって生じる空力音である、第６態様に係る音響信号処理方法である。

　これにより、移動により風を発生させる車両などをオブジェクトとすることができ、当該移動により発生した風による空力音を実現することができる。

　また例えば、本開示の第１３態様に係る音響信号処理方法は、前記オブジェクト情報が示す前記所定タイミングは、時間の経過に伴う前記距離の変化量が負から正に転じたタイミングである、第１２態様に係る音響信号処理方法である。

　これにより、受聴者の位置とオブジェクトの位置との距離が最も近くなるタイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。

　また例えば、本開示の第１４態様に係る音響信号処理方法は、前記距離をＤとし、前記移動により発生した前記風の前記風速がＳｏとなる前記オブジェクトの位置からの距離をＵとし、前記所定時間をｔとした場合、前記ｔは、下記式を満たす、第１２又は１３態様に係る音響信号処理方法である。

　また例えば、本開示の第１５態様に係るコンピュータプログラムは、第１～１４態様のいずれか１つの態様に係る音響信号処理方法をコンピュータに実行させるためのコンピュータプログラムである。

　これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。

　また例えば、本開示の第１６態様に係る音響信号処理装置は、風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得部と、取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力部と、を備える。

　これにより、所定タイミングから所定時間が経過したタイミングで、空力音データを出力することができる。このため、受聴者は適切なタイミングで空力音を受聴することができるので、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理装置が実現される。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。

　また、以下の説明において、第１及び第２などの序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、各図において縮尺などは必ずしも一致していない。各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化する。

　本明細書において、垂直などの要素間の関係性を示す用語、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。

　（実施の形態）
　［本開示の音響処理技術又は符号化／復号技術を適用可能な装置例］
　＜立体音響再生システム＞
　図１は、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響（Ｉｍｍｅｒｓｉｖｅ　Ａｕｄｉｏ）再生システムＡ００００を示す図である。立体音響再生システムＡ００００は、音響信号処理装置Ａ０００１と音声提示装置Ａ０００２とを含む。

　音響信号処理装置Ａ０００１は、仮想音源が発した音声信号に対して音響処理を施して、リスナ（つまりは受聴者）に対して提示される音響処理後の音声信号を生成する。音声信号は声に限らず可聴音であればよい。音響処理とは、例えば、音源から発生した音が、当該音が発せられてからリスナが聴くまでの間に受ける一又は複数の音に関する作用を再現するために音声信号に対して施される信号処理である。音響信号処理装置Ａ０００１は、上述した音に関する作用を引き起こす要因を記述した情報に基づいて音響処理を実施する。空間情報は、例えば、音源、リスナ、周囲のオブジェクトの位置を示す情報、空間の形状を示す情報、音の伝搬に関するパラメータなどを含む。音響信号処理装置Ａ０００１は、例えば、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、スマートフォン、タブレット、又はゲームコンソールなどである。

　音響処理後の信号は、音声提示装置Ａ０００２からリスナ（ユーザ）に提示される。音声提示装置Ａ０００２は、無線又は有線の通信を介して音響信号処理装置Ａ０００１と接続されている。音響信号処理装置Ａ０００１で生成された音響処理後の音声信号は、無線又は有線の通信を介して音声提示装置Ａ０００２に伝送される。音声提示装置Ａ０００２が、例えば、右耳用のデバイス及び左耳用のデバイスなど複数のデバイスで構成されている場合、複数のデバイス間又は複数のデバイスのそれぞれと音響信号処理装置Ａ０００１とが通信することで、複数のデバイスは同期して音を提示する。音声提示装置Ａ０００２は、例えば、リスナの頭部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどである。

　なお、立体音響再生システムＡ００００は、視覚的にＶＲ又はＡＲを含むＥＲ（Ｅｘｔｅｎｄｅｄ　Ｒｅａｌｉｔｙ）体験を提供する画像提示装置又は立体映像提示装置と組み合わせて用いられてもよい。

　なお、図１は、音響信号処理装置Ａ０００１と音声提示装置Ａ０００２とが別々の装置であるシステム構成例を示しているが、本開示の音響信号処理方法又は復号方法が適用可能な立体音響再生システムＡ００００は図１の構成に限定されない。例えば、音響信号処理装置Ａ０００１が音声提示装置Ａ０００２に含まれ、音声提示装置Ａ０００２が音響処理と音の提示との両方を行ってもよい。また、音響信号処理装置Ａ０００１と音声提示装置Ａ０００２とが本開示で説明する音響処理を分担して実施してもよいし、音響信号処理装置Ａ０００１又は音声提示装置Ａ０００２にネットワークを介して接続されたサーバが本開示で説明する音響処理の一部又は全体を実施してもよい。

　なお、上記説明では、音響信号処理装置Ａ０００１と呼んでいるが、音響信号処理装置Ａ０００１が音声信号又は音響処理に用いる空間情報の少なくとも一部のデータを符号化して生成されたビットストリームを復号して音響処理を実施する場合、音響信号処理装置Ａ０００１は復号装置と呼ばれてもよい。

　＜符号化装置の例＞
　図２は、本開示の符号化装置の一例である符号化装置Ａ０１００の構成を示す機能ブロック図である。

　入力データＡ０１０１はエンコーダＡ０１０２に入力される空間情報及び／又は音声信号を含む符号化対象となるデータである。空間情報の詳細については後で説明する。

　エンコーダＡ０１０２は、入力データＡ０１０１を符号化して、符号化データＡ０１０３を生成する。符号化データＡ０１０３は、例えば、符号化処理によって生成されたビットストリームである。

　メモリＡ０１０４は、符号化データＡ０１０３を格納する。メモリＡ０１０４は、例えば、ハードディスク又はＳＳＤ（Ｓｏｌｉｄ－Ｓｔａｔｅ　Ｄｒｉｖｅ）であってもよいし、その他のメモリであってもよい。

　なお、上記説明ではメモリＡ０１０４に記憶される符号化データＡ０１０３の一例として符号化処理によって生成されたビットストリームを挙げたが、ビットストリーム以外のデータであってもよい。例えば、符号化装置Ａ０１００は、ビットストリームを所定のデータフォーマットに変換して生成された変換後のデータをメモリＡ０１０４に記憶してもよい。変換後のデータは、例えば、一又は複数のビットストリームを格納したファイル又は多重化ストリームであってもよい。ここで、ファイルは、例えばＩＳＯＢＭＦＦ（ＩＳＯ　Ｂａｓｅ　Ｍｅｄｉａ　Ｆｉｌｅ　Ｆｏｒｍａｔ）などのファイルフォーマットを有するファイルである。また、符号化データＡ０１０３は、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。エンコーダＡ０１０２で生成されたビットストリームをビットストリームとは異なるデータに変換する場合、符号化装置Ａ０１００は、図示されていない変換部を備えていてもよいし、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）で変換処理を行ってもよい。

　＜復号装置の例＞
　図３は、本開示の復号装置の一例である復号装置Ａ０１１０の構成を示す機能ブロック図である。

　メモリＡ０１１４は、例えば、符号化装置Ａ０１００で生成された符号化データＡ０１０３と同じデータを格納している。メモリＡ０１１４は、保存されているデータを読み出し、デコーダＡ０１１２の入力データＡ０１１３として入力する。入力データＡ０１１３は、例えば、復号対象となるビットストリームである。メモリＡ０１１４は、例えば、ハードディスク又はＳＳＤであってもよいし、その他のメモリであってもよい。

　なお、復号装置Ａ０１１０は、メモリＡ０１１４が記憶しているデータをそのまま入力データＡ０１１３とするのではなく、読み出したデータを変換して生成された変換後のデータを入力データＡ０１１３としてもよい。変換前のデータは、例えば、一又は複数のビットストリームを格納した多重化データであってもよい。ここで、多重化データは、例えばＩＳＯＢＭＦＦなどのファイルフォーマットを有するファイルであってもよい。また、変換前のデータは、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。メモリＡ０１１４から読み出したビットストリームとは異なるデータをビットストリームに変換する場合、復号装置Ａ０１１０は、図示されていない変換部を備えていてもよいし、ＣＰＵで変換処理を行ってもよい。

　デコーダＡ０１１２は、入力データＡ０１１３を復号して、リスナに提示される音声信号Ａ０１１１を生成する。

　＜符号化装置の別の例＞
　図４は、本開示の符号化装置の別の一例である符号化装置Ａ０１２０の構成を示す機能ブロック図である。図４では、図２の構成と同じ機能を有する構成に図２の構成と同じ符号を付しており、これらの構成については説明を省略する。

　符号化装置Ａ０１００は符号化データＡ０１０３をメモリＡ０１０４に記憶していたのに対し、符号化装置Ａ０１２０は符号化データＡ０１０３を外部に対して送信する送信部Ａ０１２１を備える点で符号化装置Ａ０１００と異なる。

　送信部Ａ０１２１は、符号化データＡ０１０３又は符号化データＡ０１０３を変換して生成した別のデータ形式のデータに基づいて送信信号Ａ０１２２を別の装置又はサーバに対して送信する。送信信号Ａ０１２２の生成に用いられるデータは、例えば、符号化装置Ａ０１００で説明したビットストリーム、多重化データ、ファイル、又はパケットである。

　＜復号装置の別の例＞
　図５は、本開示の復号装置の別の一例である復号装置Ａ０１３０の構成を示す機能ブロック図である。図５では、図３の構成と同じ機能を有する構成に図３の構成と同じ符号を付しており、これらの構成については説明を省略する。

　復号装置Ａ０１１０は入力データＡ０１１３をメモリＡ０１１４から読み出していたのに対し、復号装置Ａ０１３０は入力データＡ０１１３を外部から受信する受信部Ａ０１３１を備える点で復号装置Ａ０１１０と異なる。

　受信部Ａ０１３１は、受信信号Ａ０１３２を受信して受信データを取得し、デコーダＡ０１１２に入力される入力データＡ０１１３を出力する。受信データは、デコーダＡ０１１２に入力される入力データＡ０１１３と同じであってもよいし、入力データＡ０１１３とは異なるデータ形式のデータであってもよい。受信データが、入力データＡ０１１３と異なるデータ形式のデータの場合、受信部Ａ０１３１が受信データを入力データＡ０１１３に変換してもよいし、復号装置Ａ０１３０が備える図示されていない変換部又はＣＰＵが受信データを入力データＡ０１１３に変換してもよい。受信データは、例えば、符号化装置Ａ０１２０で説明したビットストリーム、多重化データ、ファイル、又はパケットである。

　＜デコーダの機能説明＞
　図６は、図３又は図５におけるデコーダＡ０１１２の一例であるデコーダＡ０２００の構成を示す機能ブロック図である。

　入力データＡ０１１３は符号化されたビットストリームであり、符号化された音声信号である符号化音声データと音響処理に用いるメタデータとを含んでいる。

　空間情報管理部Ａ０２０１は、入力データＡ０１１３に含まれるメタデータを取得して、メタデータを解析する。メタデータは、音空間に配置された音に作用する要素を記述した情報を含む。空間情報管理部Ａ０２０１は、メタデータを解析して得られた音響処理に必要な空間情報を管理し、レンダリング部Ａ０２０３に対して空間情報を提供する。なお、本開示では音響処理に用いる情報が空間情報と呼ばれているが、それ以外の呼び方であってもよい。当該音響処理に用いる情報は、例えば、音空間情報と呼ばれてもよいし、シーン情報と呼ばれてもよい。また、音響処理に用いる情報が経時的に変化する場合、レンダリング部Ａ０２０３に入力される空間情報は、空間状態、音空間状態、シーン状態などと呼ばれてもよい。

　また、空間情報は音空間ごと又はシーンごとに管理されていてもよい。例えば、異なる部屋を仮想空間として表現する場合、それぞれの部屋が異なる音空間のシーンとして空間情報が管理されてもよいし、同じ空間であっても表現する場面に応じて異なるシーンとして空間情報が管理されてもよい。空間情報の管理において、それぞれの空間情報を識別する識別子が付与されておいてもよい。空間情報のデータは、入力データの一形態であるビットストリームに含まれていてもよいし、ビットストリームが空間情報の識別子を含み、空間情報のデータはビットストリーム以外から取得してもよい。ビットストリームに空間情報の識別子のみが含まれる場合、レンダリング時に空間情報の識別子を用いて、音響信号処理装置Ａ０００１のメモリ又は外部のサーバに記憶された空間情報のデータが入力データとして取得されてもよい。

　なお、空間情報管理部Ａ０２０１が管理する情報は、ビットストリームに含まれる情報に限定されない。例えば、入力データＡ０１１３は、ビットストリームには含まれないデータとして、ＶＲ又はＡＲを提供するソフトウェアアプリケーション又はサーバから取得された空間の特性又は構造を示すデータを含んでいてもよい。また、例えば、入力データＡ０１１３は、ビットストリームには含まれないデータとして、リスナ又はオブジェクトの特性又は位置などを示すデータを含んでいてもよい。また、入力データＡ０１１３は、リスナの位置を示す情報として復号装置を含む端末が備えるセンサで取得された情報、又は、センサで取得された情報に基づいて推定された端末の位置を示す情報を含んでいてもよい。つまり、空間情報管理部Ａ０２０１は外部のシステム又はサーバと通信し、空間情報及びリスナの位置を取得してもよい。また、空間情報管理部Ａ０２０１が外部のシステムからクロック同期情報を取得し、レンダリング部Ａ０２０３のクロックと同期する処理を実行してもよい。なお、上記の説明における空間は、仮想的に形成された空間、つまりＶＲ空間であってもよいし、実空間（つまりは現実空間）又は実空間に対応する仮想空間、つまりＡＲ又はＭＲ（Ｍｉｘｅｄ　Ｒｅａｌｉｔｙ）であってもよい。また、仮想空間は音場又は音空間と呼ばれてもよい。また、上記の説明における位置を示す情報は、空間内における位置を示す座標値などの情報であってもよいし、所定の基準位置に対する相対位置を示す情報であってもよいし、空間内の位置の動き又は加速度を示す情報であってもよい。

　音声データデコーダＡ０２０２は、入力データＡ０１１３に含まれる符号化音声データを復号して、音声信号を取得する。

　立体音響再生システムＡ００００が取得する符号化音声データは、例えば、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）などの所定の形式で符号化されたビットストリームである。なお、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏはあくまでビットストリームに含まれる符号化音声データを生成する際に利用可能な符号化方式の一例であり、他の符号化方式で符号化されたビットストリームと符号化音声データとして含んでいてもよい。例えば、用いられる符号化方式は、ＭＰ３（ＭＰＥＧ－１　Ａｕｄｉｏ　Ｌａｙｅｒ－３）、ＡＡＣ（Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ）、ＷＭＡ（Ｗｉｎｄｏｗｓ　Ｍｅｄｉａ　Ａｕｄｉｏ）、ＡＣ３（Ａｕｄｉｏ　Ｃｏｄｅｃ―３）、Ｖｏｒｂｉｓなどの非可逆コーデックであってもよいし、ＡＬＡＣ（Ａｐｐｌｅ　Ｌｏｓｓｌｅｓｓ　Ａｕｄｉｏ　Ｃｏｄｅｃ）、ＦＬＡＣ（Ｆｒｅｅ　Ｌｏｓｓｌｅｓｓ　Ａｕｄｉｏ　Ｃｏｄｅｃ）などの可逆コーデックであってもよいし、上記以外の任意の符号化方式が用いられてもよい。例えば、ＰＣＭ（ｐｕｌｓｅ　ｃｏｄｅ　ｍｏｄｕｌａｔｉｏｎ）データが符号化音声データの一種であるとしてもよい。この場合、復号処理は、例えば、当該ＰＣＭデータの量子化ビット数がＮである場合、Ｎビットの二進数を、レンダリング部Ａ０２０３が処理できる数形式（例えば浮動小数点形式）に変換する処理としてもよい。

　レンダリング部Ａ０２０３は、音声信号と空間情報とを入力とし、空間情報を用いて音声信号に音響処理を施して、音響処理後の音声信号Ａ０１１１を出力する。

　空間情報管理部Ａ０２０１は、レンダリングを開始する前に、入力信号のメタデータを読み込み、空間情報で規定されたオブジェクト又は音などのレンダリングアイテムを検出し、レンダリング部Ａ０２０３に送信する。レンダリング開始後、空間情報管理部Ａ０２０１は、空間情報及びリスナの位置の経時的な変化を把握し、空間情報を更新して管理する。そして、空間情報管理部Ａ０２０１は、更新された空間情報をレンダリング部Ａ０２０３に送信する。レンダリング部Ａ０２０３は入力データＡ０１１３に含まれる音声信号と、空間情報管理部Ａ０２０１から受信した空間情報とに基づいて音響処理を付加した音声信号を生成し出力する。

　空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが同じスレッドで実行されてもよいし、空間情報管理部Ａ０２０１とレンダリング部Ａ０２０３とはそれぞれ独立したスレッドに配分してもよい。空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが異なるスレッドで処理される場合、スレッドの起動頻度が個々に設定されてもよいし、平行して処理が実行されてもよい。

　空間情報管理部Ａ０２０１とレンダリング部Ａ０２０３とが異なる独立したスレッドで処理を実行することで、レンダリング部Ａ０２０３に優先的に演算資源を割り当てることができるので、僅かな遅延も許容できないような出音処理の場合、例えば、１サンプル（０．０２ｍｓｅｃ）でも遅延した場合にプチっというノイズが発生するような出音処理であっても安全に実施することができる。その際、空間情報管理部Ａ０２０１には演算資源の割り当てが制限される。しかし、空間情報の更新は、音声信号の出力処理と比較して、低頻度の処理（例えば、受聴者の顔の向きの更新のような処理）である。このため、音声信号の出力処理のように必ずしも瞬間的に応答しなければならないというものではないので、演算資源の割り当てを制限しても受聴者に与える音響的な品質に大きな影響はない。

　空間情報の更新は、予め設定された時間又は期間ごとに定期的に実行されてもよいし、予め設定された条件が満たされた場合に実行されてもよい。また、空間情報の更新は、リスナ又は音空間の管理者によって手動で実行されてもよいし、外部システムの変化をトリガとして実行されてもよい。例えば、受聴者がコントローラーを操作して、自身のアバターの立ち位置を瞬間的にワープしたり、時刻を瞬時に進めたり戻したり、或いは、仮想空間の管理者が、突如、場の環境を変更するような演出を施したりした場合、空間情報管理部Ａ０２０１が配置されたスレッドは、定期的な起動に加えて、単発的な割り込み処理として起動されてもよい。

　空間情報の更新処理を実行する情報更新スレッドが担う役割は、例えば、受聴者が装着しているＶＲゴーグルの位置又は向きに基づいて、仮想空間内に配置された受聴者のアバターの位置又は向きを更新する処理、及び、仮想空間内を移動している物体の位置の更新などであり、数１０Ｈｚ程度の比較的低頻度で起動する処理スレッド内で賄われるものである。そのような、発生頻度の低い処理スレッドで直接音の性質を反映させる処理が行われるようにしてもよい。それは、オーディオ出力のためのオーディオ処理フレームの発生頻度より直接音の性質が変動する頻度が低いためである。むしろそうすることで、当該処理の演算負荷を相対的に小さくすることができるし、不必要に速い頻度で情報を更新するとパルシブなノイズが発生するリスクが生じるので、そのリスクを回避することもできる。

　図７は、図３又は図５におけるデコーダＡ０１１２の別の一例であるデコーダＡ０２１０の構成を示す機能ブロック図である。

　図７が示すデコーダＡ０２１０は、入力データＡ０１１３が、符号化音声データではなく符号化されていない音声信号を含んでいる点で図６が示すデコーダＡ０２００と異なる。入力データＡ０１１３は、メタデータを含むビットストリームと音声信号を含む。

　空間情報管理部Ａ０２１１は、図６の空間情報管理部Ａ０２０１と同じであるため説明を省略する。

　レンダリング部Ａ０２１３は、図６のレンダリング部Ａ０２０３と同じであるため説明を省略する。

　なお、上記説明では図７の構成がデコーダＡ０２１０と呼ばれているが、音響処理を実施する音響処理部と呼ばれてもよい。また、音響処理部を含む装置が復号装置ではなく音響処理装置と呼ばれてもよい。また、音響信号処理装置Ａ０００１が音響処理装置と呼ばれてもよい。

　＜音響信号処理装置の物理的構成＞
　図８は、音響信号処理装置の物理的構成の一例を示す図である。なお、図８の音響信号処理装置は、復号装置であってもよい。また、ここで説明する構成の一部は音声提示装置Ａ０００２に備えられていてもよい。また、図８に示される音響信号処理装置は、上記の音響信号処理装置Ａ０００１の一例である。

　図８の音響信号処理装置は、プロセッサと、メモリと、通信ＩＦと、センサと、スピーカとを備える。

　プロセッサは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）又はＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）であり、当該ＣＰＵ、ＤＳＰ又はＧＰＵがメモリに記憶されたプログラム実行することで本開示の音響処理又はデコード処理を実施してもよい。また、プロセッサは、本開示の音響処理を含む音声信号に対する信号処理を行う専用回路であってもよい。

　メモリは、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）又はＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）などの半導体メモリなどを含んでいてもよい。また、ＣＰＵ又はＧＰＵに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。

　通信ＩＦ（Ｉｎｔｅｒ　Ｆａｃｅ）は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＩＧＩＧ（登録商標）などの通信方式に対応した通信モジュールである。図８に示される音響信号処理装置は、通信ＩＦを介して他の通信装置と通信を行う機能を有し、復号対象のビットストリームを取得する。取得したビットストリームは、例えば、メモリに格納される。

　通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてＢｌｕｅｔｏｏｔｈ（登録商標）又はＷＩＧＩＧ（登録商標）を例に挙げたが、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、ＮＲ（Ｎｅｗ　Ｒａｄｉｏ）、又はＷｉ－Ｆｉ（登録商標）などの通信方式に対応していてもよい。また、通信ＩＦは、上記のような無線通信方式ではなく、Ｅｔｈｅｒｎｅｔ（登録商標）、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）などの有線の通信方式であってもよい。

　センサは、リスナの位置又は向きを推定するためのセンシングを行う。具体的には、センサは、リスナの頭部など身体の一部又は全体の位置、向き、動き、速度、角速度、又は加速度などのうちいずれか一つ又は複数の検出結果に基づいてリスナの位置及び／又は向きを推定し、リスナの位置及び／又は向きを示す位置情報を生成する。なお、位置情報は実空間におけるリスナの位置及び／又は向きを示す情報であってもよいし、所定の時点におけるリスナの位置及び／又は向きを基準としたリスナの位置及び／又は向きの変位を示す情報であってもよい。また、位置情報は、立体音響再生システムＡ００００又はセンサを備える外部装置との相対的な位置及び／又は向きを示す情報であってもよい。

　センサは、例えば、カメラなどの撮像装置又はＬｉＤＡＲ（Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　Ａｎｄ　Ｒａｎｇｉｎｇ）などの測距装置であってもよく、リスナの頭部の動きを撮像し、撮像された画像を処理することでリスナの頭部の動きを検知してもよい。また、センサとして例えばミリ波などの任意の周波数帯域の無線を用いて位置推定を行う装置を用いてもよい。

　なお、図８に示される音響信号処理装置は、センサを備える外部の機器から通信ＩＦを介して位置情報を取得してもよい。この場合、音響信号処理装置はセンサを含んでいなくてもよい。ここで、外部の機器とは、例えば図１で説明した音声提示装置Ａ０００２又は、リスナの頭部に装着される立体映像再生装置などである。このときセンサは、例えば、ジャイロセンサ及び加速度センサなど各種のセンサを組み合わせて構成される。

　センサは、例えば、リスナの頭部の動きの速度として、音空間内で互いに直交する３軸の少なくとも１つを回転軸とする回転の角速度を検知してもよいし、上記３軸の少なくとも１つを変位方向とする変位の加速度を検知してもよい。

　センサは、例えば、リスナの頭部の動きの量として、音空間内で互いに直交する３軸の少なくとも１つを回転軸とする回転量を検知してもよいし、上記３軸の少なくとも１つを変位方向とする変位量を検知してもよい。具体的には、センサは、リスナの位置として６ＤｏＦ（位置（ｘ、ｙ、ｚ）及び角度（ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌ））を検知する。センサは、ジャイロセンサ及び加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。

　なお、センサは、リスナの位置を検出できればよく、カメラ又はＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）受信機などにより実現されてもよい。ＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）などを用いて自己位置推定を実施して得られた位置情報を用いてもよい。例えば、センサは、音声信号再生システムがスマートフォンにより実現される場合には、スマートフォンに内蔵される。

　また、センサには、図８に示される音響信号処理装置の温度を検出する熱電対などの温度センサ、及び、音響信号処理装置が備える、又は音響信号処理装置と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。

　スピーカは、例えば、振動板と、マグネット又はボイスコイルなどの駆動機構とアンプとを有し、音響処理後の音声信号を音としてリスナに提示する。スピーカは、アンプを介して増幅させた音声信号（より具体的には、音の波形を示す波形信号）に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、音声信号に応じて振動する振動板は、音波を発生させ、音波が空気を伝搬してリスナの耳に伝達し、リスナが音を知覚する。

　なお、ここでは図８に示される音響信号処理装置がスピーカを備え、当該スピーカを介して音響処理後の音声信号を提示する場合を例に挙げて説明したが、音声信号の提示手段は上記の構成に限定されない。例えば、通信モジュールで接続された外部の音声提示装置Ａ０００２に音響処理後の音声信号が出力されてもよい。通信モジュールで行う通信は有線でも無線でもよい。また別の例として、図８に示される音響信号処理装置が音声のアナログ信号を出力する端子を備え、端子にイヤホンなどのケーブルを接続してイヤホンなどから音声信号を提示してもよい。上記の場合、音声提示装置Ａ０００２であるリスナの頭部又は体の一部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、ネックスピーカー、ウェアラブルスピーカー、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどが音声信号を再生する。

　＜符号化装置の物理的構成＞
　図９は、符号化装置の物理的構成の一例を示す図である。また、図９に示される符号化装置は、上記の符号化装置Ａ０１００及びＡ０１２０などの一例である。

　図９の符号化装置は、プロセッサと、メモリと、通信ＩＦとを備える。

　プロセッサは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）であり、当該ＣＰＵ又はＧＰＵがメモリに記憶されたプログラム実行することで本開示の符号化処理を実施してもよい。また、プロセッサは、本開示の符号化処理を含む音声信号に対する信号処理を行う専用回路であってもよい。

　通信ＩＦ（Ｉｎｔｅｒ　Ｆａｃｅ）は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＩＧＩＧ（登録商標）などの通信方式に対応した通信モジュールである。符号化装置は、通信ＩＦを介して他の通信装置と通信を行う機能を有し、符号化されたビットストリームを送信する。

　［構成］
　さらに、実施の形態に係る音響信号処理装置１００の構成について説明する。図１０は、本実施の形態に係る音響信号処理装置１００の機能構成を示すブロック図である。

　本実施の形態に係る音響信号処理装置１００は、仮想空間（音再生空間）におけるオブジェクトが起こす風による空力音を示す空力音データを出力するための装置である。本実施の形態に係る音響信号処理装置１００は、一例として仮想現実又は拡張現実（ＶＲ又はＡＲ）などの仮想空間における様々なアプリケーションに応用される装置である。

　仮想空間におけるオブジェクトは、当該仮想空間内で実行されるコンテンツ（ここでは一例として映像）を表示する表示部３００に表示される当該コンテンツに含まれるものである。また、オブジェクトは、風を起こすオブジェクトであれば、特に限定されない。

　オブジェクトは、例えば、当該オブジェクトの位置の移動により風を発生させる移動体である。移動体は、例えば、動植物、人工物又は自然物などを示すオブジェクトを含む。人工物を示すオブジェクトの例として、車両、自転車及び航空機などが挙げられる。また、人工物を示すオブジェクトの例として、野球用のバット及びテニス用のラケットなどのスポーツ用品と、机、椅子及び柱時計などの家具と、などが挙げられる。なお、オブジェクトは、一例としては、当該コンテンツ内にて移動し得るもの、及び、移動され得るもののうち少なくとも一方であるとよいがこれに限られない。

　また例えば、オブジェクトは、送風することができるオブジェクトであってもよい。このようなオブジェクトは、例えば、扇風機、サーキュレータ、うちわ及びエアコンなどである。

　本実施の形態に係る空力音について説明する。空力音は、仮想空間内において、オブジェクトが起こす風が受聴者の耳に到達することで生じる音である。

　オブジェクトが扇風機などの送風することができるオブジェクトである場合には、空力音は、オブジェクトが発生させた風が受聴者に到達することによって生じる空力音である。より具体的には、空力音は、扇風機から吹出された風が受聴者に達することで、例えば受聴者の耳の形状に応じて生じる音である。

　オブジェクトが移動体（例えば車両）である場合には、空力音は、オブジェクトの位置の移動により発生した風が受聴者に到達することによって生じる空力音であり、より具体的には、当該風が受聴者に達することで、例えば受聴者の耳の形状に応じて生じる音である。

　また、オブジェクトは、風を起こし、さらに、音を発生させるオブジェクトであってもよい。オブジェクトが発生させる音は、オブジェクトに対応付けられた音データ（以下オブジェクト音データと記載する場合がある）が示す音である。例えば、オブジェクトが扇風機である場合には、オブジェクトが発生させる音は、扇風機が有するモーターが発生させるモーター音である。また、例えば、オブジェクトが救急車である場合には、オブジェクトが発生させる音は、救急車から発されるサイレン音である。

　なお、本実施の形態においては、オブジェクトは、送風することができるオブジェクトの一例である扇風機である。

　音響信号処理装置１００は、仮想空間における空力音を示す空力音データを、ヘッドフォン２００に出力する。

　次に、ヘッドフォン２００について説明する。

　ヘッドフォン２００は、空力音を再生する装置であり、空力音を受聴者に提示する音声出力装置である。より具体的には、ヘッドフォン２００は、音響信号処理装置１００によって出力された空力音データに基づいて、空力音を再生する。これにより受聴者は、空力音を受聴することができる。なお、ヘッドフォン２００にかえて、スピーカなど他の出力チャンネルが用いられてもよい。

　図１０が示すように、ヘッドフォン２００は、頭部センサ部２０１と、出力部２０２とを備える。

　頭部センサ部２０１は、仮想空間における水平面の座標及び垂直方向の高さで定められる受聴者の位置をセンシングして、仮想空間における空力音の受聴者の位置を示す第２位置情報を音響信号処理装置１００に出力する。

　頭部センサ部２０１は、受聴者の頭部の６ＤｏＦの情報をセンシングするとよい。例えば、頭部センサ部２０１は、慣性測定ユニット（ＩＭＵ：Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）、加速度計、ジャイロスコープ、磁気センサ又はこれらの組合せであるとよい。

　出力部２０２は、音再生空間において受聴者に到達する音を再生する装置である。より具体的には、出力部２０２は、音響信号処理装置１００から出力された上記空力音を示す空力音データに基づいて、上記空力音を再生する。

　また、オブジェクトが扇風機である場合には、モーター音を示す音データが音響信号処理装置１００から出力され、出力部２０２は、出力された当該音データに基づいて、上記モーター音を再生する。同様に、オブジェクトが救急車である場合には、サイレン音を示す音データが音響信号処理装置１００から出力され、出力部２０２は、出力された当該音データに基づいて、上記サイレン音を再生する。

　続いて、表示部３００について説明する。

　表示部３００は、仮想空間におけるオブジェクトを含むコンテンツ（映像）を表示する表示装置である。表示部３００がコンテンツを表示するための処理については、後述する。表示部３００は、例えば、液晶パネル又は有機ＥＬ（Ｅｌｅｃｔｒｏ　Ｌｕｍｉｎｅｓｃｅｎｃｅ）パネルなどの表示パネルによって実現される。

　さらに、図１０が示す音響信号処理装置１００について説明する。本実施の形態においては、音響信号処理装置１００は、所定のタイミングから、所定時間後に、空力音データをヘッドフォン２００に出力する。

　図１０が示すように、音響信号処理装置１００は、取得部１１０と、決定部１２０と、出力部１３０と、記憶部１４０とを備える。

　取得部１１０は、オブジェクト情報を取得する。オブジェクト情報は、風を起こすオブジェクトの変化、当該オブジェクトの変化に関する所定タイミング、当該オブジェクトの変化による当該風の変化、及び、当該オブジェクトの位置を示す情報である。なお、以下、オブジェクト情報は、風を起こすオブジェクトの変化を示す第１変化情報と、当該オブジェクトの変化に関する所定タイミングを示すタイミング情報と、当該オブジェクトの変化による当該風の変化を示す第２変化情報と、当該オブジェクトの位置を示す第１位置情報とを含む情報として取り扱う。

　オブジェクトが音を発生させるオブジェクトである場合には、オブジェクト情報は、当該音を示す音データ（オブジェクト音データ）を含む。また、オブジェクト情報は、オブジェクトの形状を示す形状情報を含んでもよい。

　取得部１１０は、第２位置情報を取得する。第２位置情報とは、上記の通り、仮想空間における受聴者の位置を示す情報である。取得部１１０は、空力音を示す空力音データを取得する。記憶部１４０には空力音データが記憶されており、取得部１１０は記憶部１４０に記憶されている空力音データを取得する。

　取得部１１０は、例えば入力信号から、オブジェクト情報、第２位置情報及び空力音データを取得してもよいし、それ以外からオブジェクト情報、第２位置情報及び空力音データを取得してもよい。入力信号については、下記で説明する。また、以下では、オブジェクト音データ及び空力音データをまとめて音データと記載する場合がある。

　入力信号は、例えば、空間情報とセンサ情報と音データ（音声信号）とで構成される。また、上記の情報と音データとは１つの入力信号に含まれていてもよいし、複数の別々の信号に上述の情報と音データとが含まれていてもよい。入力信号は、音データとメタデータ（制御情報）とで構成されるビットストリームを含んでいてもよく、その場合メタデータに空間情報及び音データを識別する情報が含まれていてもよい。

　上記で説明した、第１変化情報、タイミング情報、第２変化情報、第１位置情報、形状情報、オブジェクト音データ、第２位置情報、及び、空力音データは、入力信号に含まれていてもよい。より具体的には、第１変化情報、タイミング情報、第２変化情報、第１位置情報及び形状情報は空間情報に含まれていてもよく、第２位置情報はセンサ情報から取得される情報に基づいて生成されてもよい。センサ情報は、頭部センサ部２０１から取得されてもよく、他の外部装置から取得されてもよい。

　空間情報は、立体音響再生システムＡ００００が作り出す音空間（三次元音場）に関する情報であって、音空間に含まれるオブジェクトに関する情報とリスナに関する情報とで構成される。オブジェクトには、音を発し音源となる音源オブジェクトと、音を発しない非発音オブジェクトとが存在する。非発音オブジェクトは、音源オブジェクトが発した音を反射する障害物オブジェクトとして機能するが、音源オブジェクトが別の音源オブジェクトが発した音を反射する障害物オブジェクトとして機能する場合もある。障害物オブジェクトは反射オブジェクトと呼ばれてもよい。

　音源オブジェクトと非発音オブジェクトとに共通して付与される情報として、位置情報、形状情報、及び、オブジェクトが音を反射する際の音量の減衰率などがある。

　位置情報は、ユークリッド空間の例えばＸ軸、Ｙ軸、Ｚ軸の３軸の座標値で表されるが、必ずしも三次元情報でなくてもよい。位置情報は、例えば、Ｘ軸、Ｙ軸の２軸の座標値で表される二次元情報であってもよい。オブジェクトの位置情報は、メッシュ又はボクセルで表現される形状の代表位置で定められる。

　形状情報は、表面の素材に関する情報を含んでいてもよい。

　減衰率は、１以下又は０以上の実数で表現してもよいし、マイナスのデシベル値で表現してもよい。実空間では反射によって音量が増幅することはないため、減衰率はマイナスのデシベル値が設定されるが、例えば、非現実空間の不気味さを演出するために、あえて１以上の減衰率、すなわち、プラスのデシベル値が設定されてもよい。また、減衰率は、複数の周波数帯域を構成する周波数帯域毎に異なる値が設定されてもよいし、周波数帯域毎に独立に値が設定されてもよい。また、減衰率がオブジェクト表面の素材の種類ごとに設定されている場合、表面の素材に関する情報に基づいて対応する減衰率の値が用いられてもよい。

　また、音源オブジェクトと非発音オブジェクトとに共通して付与される情報は、オブジェクトが生物に属するか否かを示す情報又は、オブジェクトが移動体であるか否かを示す情報などを含んでいてもよい。オブジェクトが移動体である場合、位置情報は時間とともに移動してもよく、変化した位置情報又は変化量がレンダリング部Ａ０２０３及びＡ０２１３に伝送される。

　音源オブジェクトに関する情報は、上述した音源オブジェクトと非発音オブジェクトとに共通して付与される情報に加えて、オブジェクト音データとオブジェクト音データを音空間内に放射するために必要な情報とを含む。オブジェクト音データは、音の周波数及び強弱に関する情報などを示す、リスナに知覚される音が表現されたデータである。オブジェクト音データは、典型的にはＰＣＭ信号であるが、ＭＰ３などの符号化方式を用いて圧縮されたデータであってもよい。その場合は、少なくとも当該信号が生成部（図１９で後述する生成部９０７）に到達するまでに復号化される必要があるため、レンダリング部Ａ０２０３及びＡ０２１３に図示しない復号部を含んでいてもよい。或いは、当該信号は、音声データデコーダＡ０２０２で復号化してもよい。

　１つの音源オブジェクトに対して少なくとも１つのオブジェクト音データが設定されていればよく、複数のオブジェクト音データが設定されていてもよい。また、それぞれのオブジェクト音データを識別する識別情報が付与され、音源オブジェクトに関する情報として、オブジェクト音データの識別情報がメタデータとして保持されてもよい。

　オブジェクト音データを音空間内に放射するために必要な情報として、例えば、オブジェクト音データを再生する際に基準となる基準音量の情報、音源オブジェクトの位置に関する情報、音源オブジェクトの向きに関する情報、及び、音源オブジェクトが発する音の指向性に関する情報などが含まれていてもよい。

　基準音量の情報は、例えば、オブジェクト音データを音空間に放射する際の音源位置におけるオブジェクト音データの振幅値の実効値であって、デシベル（ｄｂ）値として浮動小数点で表されてもよい。例えば基準音量が０ｄｂの場合、基準音量の情報は、オブジェクト音データが示す信号レベルの音量を増減させることなくそのままの音量で上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、－６ｄｂの場合、オブジェクト音データが示す信号レベルの音量を約半分にして上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、１つのオブジェクト音データに対して又は複数のオブジェクト音データに対してまとめて付与されてもよい。

　オブジェクト音データを音空間内に放射するために必要な情報に含まれる音量の情報として、例えば、音源の音量の時系列的な変動を示す情報が含まれていてもよい。例えば、音空間が仮想会議室であり、音源が話者である場合、音量は短い時間で断続的に遷移する。それをさらに単純に表現すれば、有音部分と無音部分とが交互に発生する、とも言える。また、音空間がコンサートホールであり、音源が演奏者である場合、音量は一定の時間長維持される。また、音空間が戦場であり、音源が爆発物である場合、爆発音の音量は一瞬だけ大となり以降は無音であり続ける。このように音源の音量の情報は、音の大きさの情報のみならず、音の大きさの遷移の情報を含むものであり、そのような情報をオブジェクト音データの性質を示す情報としてもよい。

　ここで、音の大きさの遷移の情報は、周波数特性を時系列に示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長を示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長と無音である区間の時間長との時系列を示したデータであってもよい。音の大きさの遷移の情報は、音信号の振幅が定常的であるとみなせる（概ね一定であるとみなせる）継続時間とその間の当該信号の振幅値のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間のデータであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間とその間の当該周波数特性のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、データの形式として例えば、スペクトログラムの概形を示すデータであってもよい。また、上記周波数特性の基準となる音量を上記基準音量としてもよい。基準音量の情報とオブジェクト音データの性質とを示す情報は、リスナに知覚させる直接音又は反射音の音量を算出する他、リスナに知覚させるか否か選択をするための選択処理に用いられてもよい。

　向きに関する情報は、典型的には、ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌで表現される。または、ｒｏｌｌの回転を省略し、アジマス（ｙａｗ）、エレベーション（ｐｉｔｃｈ）で表現してもよい。向き情報は時間とともに変化してもよく、変化した場合、レンダリング部Ａ０２０３及びＡ０２１３に伝送される。

　リスナに関する情報は、音空間におけるリスナの位置情報と向きとに関する情報である。位置情報はユークリッド空間のＸ軸、Ｙ軸及びＺ軸の位置で表されるが、必ずしも三次元情報でなくてもよく、二次元情報であってもよい。向きに関する情報は、典型的には、ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌで表現される。または、向きに関する情報は、ｒｏｌｌの回転を省略し、アジマス（ｙａｗ）、エレベーション（ｐｉｔｃｈ）で表現してもよい。位置情報と向き情報とは時間とともに変化してもよく、変化した場合、レンダリング部Ａ０２０３及びＡ０２１３に伝送される。

　センサ情報は、リスナが装着するセンサで検知された回転量又は変位量などとリスナの位置及び向きとを含む情報である。センサ情報はレンダリング部Ａ０２０３及びＡ０２１３に伝送され、レンダリング部Ａ０２０３及びＡ０２１３はセンサ情報に基づいてリスナの位置及び向きの情報を更新する。センサ情報は、例えば携帯端末がＧＰＳ、カメラ、又はＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）などを用いて自己位置推定を実施して得られた位置情報が用いられてもよい。またセンサ以外から、通信モジュールを通じて外部から取得した情報がセンサ情報として検出されてもよい。センサから、音響信号処理装置１００の温度を示す情報、及び、バッテリの残量を示す情報が、センサ情報として、取得されてもよい。音響信号処理装置１００又は音声提示装置Ａ０００２の演算資源（ＣＰＵ能力、メモリ資源、ＰＣ性能）を示す情報などがセンサ情報として、リアルタイムで取得されてもよい。

　本実施の形態においては、取得部１１０は、オブジェクト情報を記憶部１４０から取得するがこれに限られず、音響信号処理装置１００以外の装置（例えばクラウドサーバなどのサーバ装置５００）から取得してもよい。また、取得部１１０は、第２位置情報をヘッドフォン２００（より具体的には、頭部センサ部２０１）から取得するがこれに限られない。

　ここで、オブジェクト情報が含む情報を説明する。

　まずは、第１変化情報について説明する。

　第１変化情報は、風を起こすオブジェクトの変化を示す情報である。本実施の形態においては、オブジェクトの変化は、オブジェクトの状態の変化を意味する。ここではオブジェクトが扇風機であるため、オブジェクトの状態の変化とは、例えば以下の例が挙げられる。

　例えば、オブジェクトの状態の変化は、扇風機のＯＮとＯＦＦとが切替えられたこと（以下「ＯＮ／ＯＦＦ切替え」と記載する場合がある）である。また例えば、オブジェクトの状態の変化は、扇風機の風速を指示するスイッチが、弱から強に切替えられたこと（以下「風速切替え」と記載する場合がある）である。また例えば、オブジェクトの状態の変化は、扇風機の首振りを指示するスイッチが、首振り無しから首振り有りへ切替えられたこと（以下「風向切替え」と記載する場合がある）である。

　さらに、第２変化情報について説明する。

　第２変化情報は、オブジェクトの変化による風の変化を示す情報である。第２変化情報は、オブジェクトの変化による風の変化として、風の風速の変化、又は、風の向き（風向）の変化を示す。本実施の形態においては、第１変化情報が示すオブジェクトの状態の変化に応じて、第２変化情報が示す情報の内容が変化する。

　第１変化情報が示すオブジェクトの状態の変化が「ＯＮ／ＯＦＦ切替え」である場合に、第２変化情報は、例えば風速が０ｍ／ｓからＶ１ｍ／ｓ（Ｖ１＞０）に切替えられたことを示す。また、第１変化情報が示すオブジェクトの状態の変化が「風速切替え」である場合に、第２変化情報は、例えば風速がＶ２ｍ／ｓから例えばＶ３ｍ／ｓ（Ｖ３＞Ｖ２）に切替えられたことを示す。また、第１変化情報が示すオブジェクトの状態の変化が「風向切替え」である場合に、第２変化情報は、例えば風向が一定の状態から変化する状態に切替えられたことを示す。このように、第２変化情報は、第１変化情報に依存する情報であるとよい。

　なお、風速を示す上記Ｖ１、Ｖ２及びＶ３は、例えば、オブジェクトである扇風機が配置された位置における風速である。

　続いて、タイミング情報について説明する。

　タイミング情報は、オブジェクトの変化に関する所定タイミングを示す情報である。上記の通り、音響信号処理装置１００は、この所定のタイミングから、所定時間後に、空力音データをヘッドフォン２００に出力する。所定タイミングは、空力音データを出力するための所定時間が始まるタイミングを示す。

　タイミング情報が示す所定タイミングは、風の変化のタイミングであり、より具体的には、オブジェクトの変化による風の変化のタイミングである。例えば、所定タイミングは、オブジェクトの変化により、風速が変化したタイミング又は風向が変化したタイミングである。

　さらに、所定タイミングが、風速が変化したタイミングである場合について説明する。

　風速が変化する例として、オブジェクトである扇風機がＯＦＦからＯＮへ切替えられる例が挙げられる。このとき、例えば風速が０ｍ／ｓからＶ１ｍ／ｓに変化し、所定タイミングは、風速が変化したタイミング、つまりは風速が０ｍ／ｓからＶ１ｍ／ｓに変化したタイミングである。なお、扇風機がＯＦＦからＯＮへ切替えられたときには、上記の通り、扇風機はモーター音を発生させる。従って、この場合には、所定タイミングは、風速が変化したタイミングであり、かつ、オブジェクトである扇風機に対応付けられた音データ（オブジェクト音データ）を出力するタイミング（第１タイミング）である。換言すると、本実施の形態に係る音響信号処理装置１００（より具体的には、出力部１３０）は、所定タイミング（第１タイミング）に、扇風機に対応付けられた音データ（オブジェクト音データ）を出力する。なお、オブジェクト情報が含むタイミング情報には、所定タイミングが、風の変化のタイミングであり、かつ、第１タイミングであることが示されている。

　また、所定タイミングは、例えば音響信号処理装置１００の管理者によって指定されたタイミングであってもよい。

　さらに、第１位置情報について説明する。

　上記の通り、仮想空間におけるオブジェクトは、表示部３００に表示されるコンテンツ（映像）に含まれるものであり、本実施の形態においては、扇風機である。

　第１位置情報は、仮想空間における扇風機が、ある時点において、仮想空間内のどの位置にあるのかを示す情報である。なお、仮想空間においては、例えばユーザが扇風機を手に取って移動することで、扇風機が移動される可能性がある。このため、取得部１１０は、継続的に第１位置情報を取得する。取得部１１０は、例えば、空間情報管理部Ａ０２０１及びＡ０２１１で実行される空間情報の更新ごとに第１位置情報を取得する。

　さらに、オブジェクトに対応付けられたオブジェクト音データ、及び、空力音データを含む音データについて説明する。

　本明細書で説明されるオブジェクト音データ及び空力音データを含む音データは、ＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）データのような音信号であってもよく、また、これに限られず、音の性質を示すための情報であればよい。

　一例として仮に音信号が、音量がＸデシベルの雑音信号である場合に、当該音信号に係る音データは、当該音信号を示すＰＣＭデータそのものであってもよく、成分が雑音信号であることを示す情報及び音量がＸデシベルであることを示す情報からなるデータであってもよい。他の一例として仮に音信号が、周波数成分のＰｅａｋ／Ｄｉｐが所定の特性である雑音信号である場合に、当該音データに係る音データは、当該音信号を示すＰＣＭデータそのものであってもよく、成分が雑音信号であることを示す情報及び周波数成分のＰｅａｋ／Ｄｉｐを示す情報からなるデータであってもよい。

　なお、本明細書では、音データに基づく音信号とは、当該音データを示すＰＣＭデータであることを意味する。

　また、空力音データは、上記の通り、予め記憶部１４０に記憶されている。空力音データとは、人の耳又は人の耳を模したモデルに風が到達することで生じる音が収音されたデータである。本実施の形態においては、空力音データは、人の耳を模したモデルに風が到達することで生じる音が収音されたデータである。人の耳を模したモデルとしてダミーヘッドマイクなどが用いられ、空力音データが収音される。

　また、上記の通り、本実施の形態においては、オブジェクトの変化により、風が変化する。空力音は、変化前の風、又は、変化後の風による空力音である。なお、空力音は、変化後の風による空力音であるとよく、例えば、変化後の風速での風による空力音、又は、変化後の風向での風による空力音であるとよい。

　次に、形状情報について説明する。

　形状情報は、仮想空間におけるオブジェクトの形状を示す情報である。形状情報は、オブジェクトの形状を示し、より具体的には、オブジェクトの剛体として三次元形状を示す。オブジェクトの形状は、例えば、球体、直方体、立方体、多面体、円錐、角錐、円柱、角柱など、またこれらの組み合わせなどにより示される。なお、形状情報は、例えばメッシュデータ、又は、例えばボクセル、三次元点群もしくは三次元座標を持つ頂点からなる複数の面の集合として表現されてもよい。

　なお、第１変化情報にはオブジェクトを識別するためのオブジェクト識別情報が含まれている。また、タイミング情報にもオブジェクト識別情報が含まれ、第２変化情報にもオブジェクト識別情報が含まれ、第１位置情報にもオブジェクト識別情報が含まれ、オブジェクト音データにもオブジェクト識別情報が含まれ、形状情報にもオブジェクト識別情報が含まれている。

　このため、取得部１１０が第１変化情報、タイミング情報、第２変化情報、第１位置情報、オブジェクト音データ、及び、形状情報を別個で取得したとしても、第１変化情報、タイミング情報、第２変化情報、第１位置情報、オブジェクト音データ、及び、形状情報のそれぞれに含まれるオブジェクト識別情報が参照されることで、第１変化情報、タイミング情報、第２変化情報、第１位置情報、オブジェクト音データ、及び、形状情報のそれぞれが示すオブジェクトが識別される。例えばここでは、第１変化情報、タイミング情報、第２変化情報、第１位置情報、オブジェクト音データ、及び、形状情報のそれぞれが示すオブジェクトが、同一の扇風機であることが容易に識別することができる。つまり、取得部１１０が取得した第１変化情報、タイミング情報、第２変化情報、第１位置情報、オブジェクト音データ、及び、形状情報のそれぞれは、６つのオブジェクト識別情報が参照されることで当該第１変化情報、当該タイミング情報、当該第２変化情報、当該第１位置情報、当該オブジェクト音データ、及び、当該形状情報が扇風機に係る情報であることが明らかになる。従って、当該第１変化情報、当該タイミング情報、当該第２変化情報、当該第１位置情報、当該オブジェクト音データ、及び、当該形状情報は当該扇風機について示す情報として紐づけられる。

　続いて、第２位置情報について説明する。

　受聴者は、仮想空間において移動し得る。第２位置情報は、仮想空間における受聴者が、ある時点において、仮想空間内のどの位置に居るのかを示す情報である。なお、受聴者は仮想空間において移動することができるため、取得部１１０は継続的に第２位置情報を取得する。取得部１１０は、例えば、空間情報管理部Ａ０２０１及びＡ０２１１で実行される空間情報の更新ごとに第２位置情報を取得する。

　なお、上記の第１変化情報、タイミング情報、第２変化情報、第１位置情報、形状情報、オブジェクト音データ、第２位置情報、及び、空力音データなどは、入力信号に含まれるメタデータ、制御情報又はヘッダ情報に含まれていてもよい。オブジェクト音データ及び空力音データを含む音データが音信号（ＰＣＭデータ）の場合、音信号を識別する情報がメタデータ、制御情報又はヘッダ情報に含まれていてもよく、音信号はメタデータ、制御情報又はヘッダ情報以外に含まれていてもよい。つまり、音響信号処理装置１００（より具体的には、取得部１１０）は、入力信号に含まれるメタデータ、制御情報又はヘッダ情報を取得し、メタデータ、制御情報又はヘッダ情報に基づいて音響処理を行ってもよい。なお、音響信号処理装置１００（より具体的には、取得部１１０）は、上記の第１変化情報、タイミング情報、第２変化情報、第１位置情報、形状情報、オブジェクト音データ、第２位置情報、及び、空力音データを取得すればよく、取得先は入力信号に限定されない。オブジェクト音データ及び空力音データを含む音データとメタデータとは一つの入力信号に格納されていてもよいし、複数の入力信号に別々に格納されていてもよい。

　また、入力信号にオブジェクト音データ及び空力音データを含む音データ以外の音信号がオーディオコンテンツ情報として格納されていてもよい。オーディオコンテンツ情報は、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）（以下、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏと記載）などの符号化処理が施されているとよい。また、符号化処理に用いる技術はＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏに限られず、公知の他の技術が用いられてもよい。また、上記の第１変化情報、タイミング情報、第２変化情報、第１位置情報、形状情報、オブジェクト音データ、第２位置情報、及び、空力音データなどの情報を符号化処理対象としてもよい。

　つまり、音響信号処理装置１００は、符号化されたビットストリームに含まれる音信号及びメタデータを取得する。音響信号処理装置１００においては、オーディオコンテンツ情報が取得されて復号される。本実施の形態においては、音響信号処理装置１００は、復号装置（例えば復号装置Ａ０１１０及びＡ０１３０）が備えるデコーダ（例えばデコーダＡ０２００及びＡ０２１０）として機能し、より具体的には、当該デコーダが有するレンダリング部Ａ０２０３及びＡ０２１３として機能する。なお、本開示におけるオーディオコンテンツ情報という用語は、技術内容に即して、音信号そのものや、第１変化情報、タイミング情報、第２変化情報、第１位置情報、形状情報、オブジェクト音データ、第２位置情報、及び、空力音データを含む情報として読み替えて解釈するものとする。

　取得部１１０は、取得したオブジェクト情報及び第２位置情報を決定部１２０及び出力部１３０に出力する。

　決定部１２０は、取得部１１０によって取得されたオブジェクト情報が示す風に基づいて、所定時間を決定する。すなわち、決定部１２０は、オブジェクトが起こす風に基づいて、所定時間を決定する。

　例えば、決定部１２０は、取得されたオブジェクト情報が含む第２変化情報が示す風速と、受聴者の位置とオブジェクトの位置との距離に基づいて、所定時間を決定する。所定時間をｔ秒とすると、一例としてｔ＞０を満たすがこれに限られず、所定時間は、例えば０．１秒以上５秒以下であってもよい。決定部１２０は、例えば音響信号処理装置１００の管理者によって指定された時間を所定時間として決定することができる。また、決定部１２０は、当該距離を以下のように算出する。

　決定部１２０は、取得部１１０によって取得されたオブジェクト情報が含む第１位置情報、及び、取得された第２位置情報に基づいて、受聴者の位置とオブジェクトの位置との距離を算出する。上記の通り、取得部１１０は仮想空間における第１位置情報及び第２位置情報を空間情報管理部Ａ０２０１及びＡ０２１１で実行される空間情報の更新ごとに取得している。決定部１２０は、空間情報の更新ごとに取得された複数の第１位置情報及び複数の第２位置情報に基づいて、仮想空間において受聴者の位置とオブジェクトの位置との距離を算出する。

　決定部１２０は、所定時間を決定し、出力部１３０へ出力する。

　出力部１３０は、取得部１１０によって取得されたオブジェクト情報が示す所定タイミングから、決定部１２０によって決定された所定時間後に、取得部１１０によって取得された空力音データを出力する。ここでは、出力部１３０は、空力音データをヘッドフォン２００に出力する。これにより、ヘッドフォン２００は、出力された空力音データが示す空力音を再生することができる。つまり受聴者は、所定タイミングから所定時間後に空力音を受聴することができる。

　記憶部１４０は、取得部１１０、決定部１２０、出力部１３０が実行するコンピュータプログラムなどと、オブジェクト情報と、空力音データとが記憶される記憶装置である。

　ここで、本実施の形態に係る形状情報について再度説明する。形状情報は、仮想空間におけるオブジェクトの映像の生成のために用いられる情報であってオブジェクト（扇風機）の形状を示す情報でもある。つまり、形状情報は、表示部３００に表示されるコンテンツ（映像）を生成するためにも用いられる情報である。

　取得部１１０は、取得した形状情報を表示部３００にも出力する。表示部３００は、取得部１１０によって出力された形状情報を取得する。表示部３００は、さらに、オブジェクト（扇風機）の仮想空間における形状以外の属性（色彩など）を示す属性情報を取得する。表示部３００は、属性情報を、音響信号処理装置１００以外の装置（サーバ装置５００）から直接取得してもよく、音響信号処理装置１００から取得してもよい。表示部３００は、取得した形状情報及び属性情報に基づいて、コンテンツ（映像）を生成して、表示する。

　以下、音響信号処理装置１００によって行われる音響信号処理方法の動作例１について説明する。

　［動作例１］
　図１１は、本実施の形態に係る音響信号処理装置１００の動作例１のフローチャートである。図１２は、動作例１に係るオブジェクトである扇風機Ｆと受聴者Ｌとを示す図である。

　図１１が示すように、はじめに、取得部１１０は、オブジェクト情報を取得する（Ｓ１０）。上記の通り、オブジェクト情報は、風Ｗを起こすオブジェクトの変化を示す第１変化情報と、当該オブジェクトの変化に関する所定タイミングを示すタイミング情報と、当該オブジェクトの変化による当該風Ｗの変化を示す第２変化情報と、当該オブジェクトの位置を示す第１位置情報とを含む。また、オブジェクト情報は、モーター音を示すオブジェクト音データと、形状情報とを含む。このステップＳ１０が取得ステップに相当する。

　ここでは、第２変化情報は、オブジェクトの変化による風Ｗの変化として、風Ｗの風速の変化を示す。また、タイミング情報が示す所定タイミングは、風Ｗの変化のタイミングであり、より具体的には、オブジェクトの変化による風Ｗの変化のタイミングである。

　続いて、取得部１１０は、仮想空間における受聴者Ｌの位置を示す第２位置情報をヘッドフォン２００から取得する（Ｓ２０）。さらに、取得部１１０は、記憶部１４０に記憶されている空力音を示す空力音データを取得する（Ｓ３０）。

　次に、決定部１２０は、第２変化情報が示す風速と、受聴者Ｌの位置とオブジェクト（扇風機Ｆ）の位置との距離に基づいて、所定時間を決定する（Ｓ４０）。このステップＳ４０が決定ステップに相当する。

　さらに、出力部１３０は、所定タイミングに、扇風機Ｆに対応付けられた音データ（オブジェクト音データ）を出力する（Ｓ５０）。そして出力部１３０は、所定タイミングから所定時間後に、風Ｗによる空力音を示す空力音データを出力する（Ｓ６０）。このステップＳ６０が出力ステップに相当する。

　ここで、本動作例における所定タイミング及び所定時間について説明する。

　ここでは、所定タイミングは、風Ｗの変化のタイミングであり、オブジェクトの変化により風速が変化したタイミングである。一例として、受聴者Ｌは、表示部３００に扇風機Ｆが表示されるコンテンツを視聴している場合に、所定タイミングは、扇風機ＦがＯＦＦからＯＮへ切替えられたタイミングである。

　現実空間では、扇風機ＦがＯＦＦからＯＮへ切替えられたタイミング（つまりは所定タイミング）から、扇風機Ｆが起こす風Ｗが受聴者Ｌに到達する時間が経過したタイミングで、受聴者Ｌは空力音を受聴する。従って、決定部１２０は、所定タイミングから、扇風機Ｆが起こす風Ｗが受聴者Ｌに到達するまでの時間を、所定時間として決定するとよい。

　図１３Ａは、図１１が示すステップＳ４０で所定時間が決定される処理を説明する図である。

　受聴者Ｌの位置とオブジェクト（扇風機Ｆ）の位置との距離をＤとする。より具体的には、受聴者Ｌの耳の位置とオブジェクト（扇風機Ｆ）の位置との距離をＤとする。なお、距離Ｄは、取得部１１０によって取得されたオブジェクト情報が含む第１位置情報、及び、取得された第２位置情報に基づいて、決定部１２０によって算出されている。

　オブジェクトである扇風機Ｆが発生させる風Ｗの風速がＳｏとなるオブジェクト（扇風機Ｆ）の位置からの距離をＵとする。また、扇風機Ｆから受聴者Ｌに向かう方向をｘ軸方向とし、扇風機Ｆからｘ軸方向への距離をｘとする。風Ｗの風速Ｖは距離ｘに反比例するため、風速Ｖと距離ｘとは、以下の式を満たす。

　Ｖ　＝　Ｓｏ×（Ｕ／ｘ）

　距離Ｄの位置までの平均風速は、以下の式を満たす。

　扇風機ＦがＯＦＦからＯＮへ切替えられたタイミング（つまりは所定タイミング）から、オブジェクトである扇風機Ｆが起こす風Ｗが受聴者Ｌに到達するまでの時間（所定時間）であるｔは、距離を平均風速で割った値であり、下記式を満たす。

　ｔ　＝　｛（Ｄ－Ｕ）＾２｝／｛Ｓｏ×Ｕ×（ｌｏｇ（Ｄ）－ｌｏｇ（Ｕ））

　なお、上記式における「＾」はべき乗を求める演算子を表す。

　そして、上記の通り、ステップＳ６０では所定タイミングから、所定時間ｔが経過したタイミングで、空力音データが出力される。

　これにより、扇風機ＦがＯＦＦからＯＮへ切替えられたタイミング（つまりは所定タイミング）から、扇風機Ｆが起こす風Ｗが受聴者Ｌに到達する時間（所定時間ｔ）が経過したタイミングで、受聴者Ｌは、ヘッドフォン２００から出力された空力音を受聴することができる。従って、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。

　さらには、本動作例においては、所定タイミングは、扇風機ＦがＯＦＦからＯＮへ切替えられたタイミングであり、オブジェクトである扇風機Ｆに対応付けられたオブジェクト音データが出力される第１タイミングである。

　なお、上記動作は、下記の意味を含むことは言うまでもない。すなわち、当該意味とは、「所定タイミングから、所定時間ｔが経過したタイミングまでに、空力音データが示す空力音が、受聴者Ｌが知覚できる振幅の音となるように出力される。」ということである。それは、例えば、空力音データの出力に際して、所定時間ｔを時定数とするフィルタで実現される。具体的には、下記の様にしてもよい。

　図１３Ｂは、本実施の形態に係る空力音データの出力の詳細な例が説明された図である。図１３Ｃは、本実施の形態に係る空力音データの出力の詳細な他の例が説明された図である。

　図１３Ｂの（ａ）は、扇風機ＦのＯＮ／ＯＦＦの変化を示すトリガ信号を表す図である。図１３Ｂの（ａ）には、扇風機ＦがＯＦＦであるときは値が「０」で、扇風機ＦがＯＮであるときは値が「１」となるトリガ信号が示されている。図１３Ｂの（ｂ）は、時定数ｔが掛けられた上記トリガ信号を表す図である。すなわち、上記トリガ信号は、時定数が所定時間ｔであるＬｏｗＰａｓｓフィルタが掛けられる。図１３Ｂの（ｃ）は、上記ＬｏｗＰａｓｓフィルタの出力信号の大きさに応じて振幅が増幅された空力音データを表す図である。

　これにより、所定時間ｔが経過したタイミングで、空力音データが出力される、という動作を極めて簡単に模擬することができる。また、これにより、空力音の発生理由か消滅した際の動作（扇風機ＦがＯＮからＯＦＦに変化した際の動作）が自動的に模擬されることができる。

　ここで、ｔは、必ずしも正確に下記式に基づいて算出された値でなくてもよく、距離Ｄが大きいほどｔが大きくなるように簡便に近似した値でもよい。

　図１３Ｃの（ａ）は、図１３Ｂの（ａ）と同じく、扇風機ＦのＯＮ／ＯＦＦの変化を示すトリガ信号を表す図である。図１３Ｃの（ｂ）は、図１３Ｂの（ｂ）と同じく、時定数ｔが掛けられた上記トリガ信号を表す図であり、図１３Ｂの（ｂ）における時定数ｔより小さい時定数ｔが掛けられたトリガ信号を表している。図１３Ｃの（ｃ）は、図１３Ｃの（ｂ）が示す時定数ｔが掛けられたトリガ信号の値に応じて制御された空力音データを表す図である。

　上記の通り、所定タイミングは、扇風機ＦがＯＦＦからＯＮへ切替えられたタイミングであり、オブジェクトである扇風機Ｆに対応付けられたオブジェクト音データが出力される第１タイミングである。

　従って、ステップＳ５０の処理により、扇風機ＦがＯＦＦからＯＮへ切替えられたタイミングで、受聴者Ｌは、ヘッドフォン２００から出力された扇風機Ｆのモーター音を受聴することができる。さらに、ステップＳ６０の処理により、受聴者Ｌがモーター音を受聴してから、扇風機ＦがＯＦＦからＯＮへ切替えられたことによる風Ｗが受聴者Ｌに到達する時間が経過したタイミングで、受聴者Ｌは、ヘッドフォン２００から出力された空力音を受聴することができる。

　現実空間では、モーター音は、音速で受聴者Ｌに到達し受聴者Ｌに受聴され、空力音は、風Ｗが受聴者Ｌに到達したときに受聴者Ｌに受聴される。現実空間では音速は風速より早いことが一般的であり、本動作例においては、現実空間と同様に、受聴者Ｌは、先にモーター音を受聴し、その後空力音を受聴する。従って、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Ｌはモーター音（オブジェクトに対応付けられた音データが示す音）及び空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感をえることができる。

　なお、動作例１においては、所定タイミングとして、風速が変化したタイミングであり、かつ、オブジェクトである扇風機Ｆに対応付けられた音データ（オブジェクト音データ）を出力するタイミング（第１タイミング）が用いられたがこれに限られない。

　例えば、オブジェクト情報が、オブジェクト（扇風機Ｆ）の変化による風Ｗの向きの変化を示す場合がある。より具体的には、オブジェクト情報が、オブジェクト（扇風機Ｆ）の変化による風Ｗの変化として、風Ｗの向き（風向）の変化を示す場合である。この場合とは、例えば、第１変化情報が示すオブジェクトの状態の変化が「風向切替え」であり、第２変化情報が、風向が一定の状態から変化する状態に切替えられたことを示す場合である。

　この場合に、オブジェクト情報が含むタイミング情報は、所定タイミングが、風Ｗの向き（風向）の変化が起こった第３タイミングであることを示す。

　このように、扇風機Ｆの風向の変化が起こると、受聴者Ｌに到達する風Ｗの状態が変化するため、受聴者Ｌが受聴する空力音も変化する。このため、図１１が示すステップＳ６０において、出力部１３０は、オブジェクト情報が示す第３タイミング（所定タイミング）から所定時間後に、風Ｗによる空力音を示す空力音データを出力してもよい。

　さらに、所定タイミング及び所定時間は、動作例１に示されるものに限られない。所定タイミングがユーザ（例えば音響信号処理装置１００の管理者）によって指定されたタイミング（指定タイミング）であり、所定時間が当該管理者によって指定された時間（所定時間）であってもよい。決定部１２０は、当該ユーザによって指定されたタイミング及び時間を所定タイミング及び所定時間として決定してもよい。例えば、音響信号処理装置１００が受付部を備え、当該受付部は当該ユーザによって指定されたタイミング及び時間を受付け、決定部１２０が受付部によって受付けられたタイミング及び時間を、所定タイミング及び所定時間として決定してもよい。この場合、当該管理者は、現実空間と同様のタイミングで受聴者Ｌが空力音を受聴することができるように、指定タイミング及び時間を指定する。

　この場合においても、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。

　また、実施の形態の動作例１においては、空力音データは、予め記憶部１４０に記憶されていたがこれに限られない。例えば、決定部１２０が、空力音データを生成してもよい。例えば、決定部１２０は、雑音信号を取得して、取得された雑音信号を複数の帯域強調フィルタのそれぞれで処理することで、空力音データを生成してもよい。

　また、実施の形態の動作例１においては、決定部１２０は、第２変化情報が示す風速と、受聴者Ｌの位置とオブジェクト（扇風機Ｆ）の位置との距離に基づいて、所定時間を決定したが、これに限られない。例えば、オブジェクト情報は、当該オブジェクトの位置を示す第１位置情報を含み、決定部１２０は、空力音の受聴者Ｌの位置と、取得されたオブジェクト情報が含む第１位置情報が示すオブジェクトの位置との距離に基づいて、所定時間を決定してもよい。例えば基準となる距離に対応する所定時間が定められており、空力音の受聴者Ｌの位置とオブジェクトの位置との距離が基準となる距離より長いほど所定時間が長くなるように、空力音の受聴者Ｌの位置とオブジェクトの位置との距離が基準となる距離より短いほど所定時間が短くなるように、所定時間が決定されるとよい。

　（実施の形態の変形例）
　以下、実施の形態の変形例について説明する。以下では、実施の形態との相違点を中心に説明し、共通点の説明を省略又は簡略化する。

　［構成］
　変形例においては、実施の形態に係る音響信号処理装置１００が用いられるが、仮想空間におけるオブジェクトが異なる。本変形例に係るオブジェクトは、移動体である車両である。より具体的には、オブジェクトは、救急車である。この場合、空力音は、オブジェクトの位置の移動により発生した風Ｗが受聴者Ｌに到達することによって生じる音である。また、オブジェクトである救急車は、音を発生させるオブジェクトであり、サイレン音を発生させる。

　本変形例に係るオブジェクト情報は、風Ｗを起こすオブジェクトの変化、当該オブジェクトの変化に関する所定タイミング、当該オブジェクトの変化による当該風Ｗの変化、及び、当該オブジェクトの位置を示す情報である。なお、実施の形態と同じく、オブジェクト情報は、風Ｗを起こすオブジェクトの変化を示す第１変化情報と、当該オブジェクトの変化に関する所定タイミングを示すタイミング情報と、当該オブジェクトの変化による当該風Ｗの変化を示す第２変化情報と、当該オブジェクトの位置を示す第１位置情報とを含む情報として取り扱う。

　第１変化情報は風Ｗを起こすオブジェクトの変化を示す情報であり、本変形例においては、当該オブジェクトの変化は、当該オブジェクトの位置の変化を意味する。

　第１位置情報は、仮想空間における救急車が、ある時点において、仮想空間内のどの位置にあるのかを示す情報である。なお、仮想空間においては、例えば運転手によって操作されることで、救急車が走行しその位置が移動する可能性がある。このため、取得部１１０は、継続的に第１位置情報を取得する。

　第２変化情報は、オブジェクトの変化による風Ｗの変化を示す情報である。本実施の形態においては、第１変化情報が示すオブジェクトの位置の変化に応じて、第２変化情報が示す情報の内容が変化する。

　例えば、第１変化情報がオブジェクトの位置が変化したことを示す場合に、第２変化情報はオブジェクトの移動により発生する風Ｗの、風速が第１所定値から第２所定値へ変化したこと又は風向が第１所定方向から第２所定方向へ変化したことを示す。なお、上記第１及び第２所定値は、例えば、救急車が配置された位置における風速であり、上記第１及び第２所定方向は、例えば、救急車が配置された位置における風向である。

　より具体的な例として、第１変化情報が、救急車が受聴者Ｌに近づきその後受聴者Ｌから離れたことを示す場合について説明する。この場合、救急車の移動により発する風Ｗは、救急車が受聴者Ｌに近づく間には受聴者Ｌに向かって強く吹き、救急車が受聴者Ｌから離れる間には受聴者Ｌに向かって弱く吹く。従って、当該風Ｗの風速は、救急車が受聴者Ｌに近づく間には受聴者Ｌに向かって高い値であり、救急車が受聴者Ｌから離れる間には受聴者Ｌに向かって低い値である。このように、当該風Ｗ（より具体的には当該風Ｗの風速）が変化している。

　なお、本変形例においては、オブジェクトである救急車が起こす風Ｗの風速は、当該救急車の移動速度と同じであるとみなす。救急車の移動速度は、第１位置情報に基づいて、仮想空間において救急車の位置を時間で微分することにより算出される。

　続いて、タイミング情報について説明する。

　タイミング情報は、オブジェクトの変化に関する所定タイミングを示す情報である。タイミング情報が示す所定タイミングは、風Ｗの変化のタイミングであり、より具体的には、オブジェクトの位置の変化による風Ｗの変化のタイミングである。例えば、所定タイミングは、オブジェクトの位置の変化により風速が変化したタイミングであり、一例として、救急車が受聴者Ｌに近づきその後受聴者Ｌから離れたタイミングである。この場合、所定タイミングは、時間の経過に伴う、仮想空間における受聴者Ｌの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングである。換言すると、この所定タイミングは、仮想空間においてオブジェクトが受聴者Ｌに最も近づいたタイミングである。また例えば、所定タイミングは、オブジェクトの位置の変化により風向が変化したタイミングであってもよい。

　以下、音響信号処理装置１００によって行われる音響信号処理方法の動作例２について説明する。

　［動作例２］
　図１４は、本実施の形態に係る音響信号処理装置１００の動作例２のフローチャートである。図１５は、動作例２に係るオブジェクトである救急車Ａと受聴者Ｌとを示す図である。

　図１４が示すように、はじめに、取得部１１０は、オブジェクト情報を取得する（Ｓ１０）。上記の通り、オブジェクト情報は、風Ｗを起こすオブジェクトの変化を示す第１変化情報と、当該オブジェクトの変化に関する所定タイミングを示すタイミング情報と、当該オブジェクトの変化による当該風Ｗの変化を示す第２変化情報と、当該オブジェクトの位置を示す第１位置情報とを含む。また、オブジェクト情報は、サイレン音を示すオブジェクト音データと、形状情報とを含む。

　さらに、出力部１３０は、所定タイミングになったか否かを判断する（Ｓ３５）。所定タイミングになっていない場合（ステップＳ３５でＮｏ）に、ステップＳ３５の処理が繰り返される。

　所定タイミングになっている場合（ステップＳ３５でＹｅｓ）、決定部１２０は、第２変化情報が示す風速と、受聴者Ｌの位置とオブジェクト（救急車Ａ）の位置との距離に基づいて、所定時間を決定する（Ｓ４０）。

　そして、出力部１３０は、所定タイミングから所定時間後に、風Ｗによる空力音を示す空力音データを出力する（Ｓ６０）。

　さらに本動作例に係る所定タイミングとステップＳ３５の処理とについてより詳細に説明する。

　本動作例においては、所定タイミングは、風Ｗの変化のタイミングである。より具体的には、所定タイミングは、オブジェクトの位置の変化により風速が変化したタイミングであり、時間の経過に伴う、仮想空間における受聴者Ｌの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングである。

　図１６は、動作例２に係る所定タイミングを説明するための模式図である。

　救急車Ａは、図１６が示す（ａ）、（ｂ）及び（ｃ）の順に移動する。また、救急車Ａが（ａ）～（ｃ）まで移動する間、受聴者Ｌの位置は一定であるとする。救急車Ａが（ａ）から（ｂ）へ移動する間は、仮想空間における受聴者Ｌの位置とオブジェクトの位置との距離の変化量は、負である。救急車Ａが（ｂ）から（ｃ）へ移動する間は、仮想空間における受聴者Ｌの位置とオブジェクトの位置との距離の変化量は、正である。従って、当該距離の変化量が負から正に転じたタイミングは、図１６が示す（ｂ）の位置に救急車Ａが居るタイミングである。

　従って、ステップＳ３５では、以下図１７で示される処理が行われる。図１７は、動作例２に係るステップＳ３５の詳細を説明するフローチャートである。

　ステップＳ３０の処理が行われた後、決定部１２０は、仮想空間における受聴者Ｌの位置とオブジェクト（救急車Ａ）の位置との距離の変化量が負から正に転じたタイミング（所定タイミング）になったか否かを判断する（Ｓ３５ａ）。なお、決定部１２０は、受聴者Ｌの位置とオブジェクト（救急車Ａ）の位置との距離を算出し、算出された距離を微分することで、距離の変化量を算出する。ステップＳ３５ａでＹｅｓの場合にステップＳ４０の処理が行われ、ステップＳ３５ａでＮｏの場合にステップＳ３５の処理が繰り返される。

　さらに、本動作例に係る所定時間についてより詳細に説明する。

　現実空間では、受聴者Ｌの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングから、救急車Ａが起こす風Ｗが受聴者Ｌに到達する時間が経過したタイミングで、受聴者Ｌは空力音を受聴する。なお上記の通り、当該距離の変化量が負から正に転じたタイミングは、オブジェクトが受聴者Ｌに最も近づいたタイミングであり、所定タイミングである。従って、決定部１２０は、所定タイミングから、救急車Ａが起こす風Ｗが受聴者Ｌに到達するまでの時間を、所定時間として決定するとよい。

　本動作例においては、動作例１で説明した図１３Ａと同じ思想で所定時間が決定される。すなわち、図１５が示すように受聴者Ｌの位置とオブジェクト（救急車Ａ）の位置との距離をＤとし、より具体的には、図１６が示す（ｂ）の位置の救急車Ａの位置と受聴者Ｌの位置との距離をＤとする。

　オブジェクトである救急車Ａが発生させる風Ｗの風速がＳｏとなるオブジェクト（救急車Ａ）の位置からの距離をＵとする。また、救急車Ａから受聴者Ｌに向かう方向をｘ軸方向とし、救急車Ａからｘ軸方向への距離をｘとする。風Ｗの風速Ｖは距離ｘに反比例するため、風速Ｖと距離ｘとは、以下の式を満たす。

　Ｖ　＝　Ｓｏ×（Ｕ／ｘ）

　距離Ｄの位置までの平均風速は、以下の式を満たす。

　受聴者Ｌの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミング（つまりは所定タイミング）から、オブジェクトである救急車Ａが起こす風Ｗが受聴者Ｌに到達するまでの時間（所定時間）であるｔは、距離を平均風速で割った値であり、下記式を満たす。

　これにより、受聴者Ｌの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミング（つまりは所定タイミング）から、救急車Ａが起こす風Ｗが受聴者Ｌに到達する時間（所定時間ｔ）が経過したタイミングで、受聴者Ｌは、ヘッドフォン２００から出力された空力音を受聴することができる。従って、現実空間と同様のタイミングでつまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。

　さらに説明すると以下の通りである。現実空間においては、救急車Ａなどの車両が受聴者Ｌに最も近づいた後に、受聴者Ｌが空力音を受聴する。このため、仮想空間において、救急車Ａが受聴者Ｌに最も近づく前に、受聴者Ｌが空力音を受聴すると、受聴者Ｌは違和感を覚えてしまう。動作例２では、受聴者Ｌの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミング（つまりは、オブジェクトが受聴者Ｌに最も近づいたタイミング）を所定タイミングとする。これにより、オブジェクトである救急車Ａなどの車両が受聴者Ｌに最も近づいた後に、受聴者Ｌが空力音を受聴することができ、つまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。

　なお、救急車Ａは、音を発生させるオブジェクトであり、サイレン音を発生させる。図１６が示すように、救急車Ａの位置が変化する、つまりは救急車Ａが移動する場合には、受聴者Ｌがドップラー効果を伴ったサイレン音を受聴するように、出力部１３０は、サイレン音を示すオブジェクト音信号を出力するとよい。

　なお上記動作例２においては、所定タイミングは、受聴者Ｌの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングであったがこれに限らない。例えば、動作例２の他の第１例においては、所定タイミングは、受聴者Ｌの位置とオブジェクトの位置との距離が所定距離よりも短くなったタイミング（第２タイミング）であってもよい。所定距離とは、例えば数ｍ～数十ｍとであり、受聴者Ｌの位置とオブジェクトの位置との距離が十分に近づいたことを示す距離である。所定距離は、例えば音響信号処理装置１００の管理者によって指定された値であってもよい。

　この場合、ステップＳ３５では、以下図１８で示される処理が行われる。図１８は、動作例２の他の第１例に係るステップＳ３５の詳細を説明するフローチャートである。

　ステップＳ３０の処理が行われた後、決定部１２０は、仮想空間における受聴者Ｌの位置とオブジェクト（救急車Ａ）の位置との距離が所定距離よりも短くなったタイミング（第２タイミング）になったか否かを判断する（Ｓ３５ｂ）。上記の通り、ステップＳ３５ｂでＹｅｓの場合にステップＳ４０の処理が行われ、ステップＳ３５ｂでＮｏの場合にステップＳ３５の処理が繰り返される。

　このように、動作例２の他の第１例においても、受聴者Ｌの位置とオブジェクト（救急車Ａ）の位置との距離が十分に近づいた第２タイミングから、救急車Ａが起こす風Ｗが受聴者Ｌに到達する時間が経過したタイミングで、受聴者Ｌは、ヘッドフォン２００から出力された空力音を受聴することができる。

　さらに、動作例２の他の第２例について説明する。動作例２の他の第２例では、ステップＳ３５において、図１７及び図１８が示すステップＳ３５ａ及びＳ３５ｂの両方の処理が行われる。ステップＳ３５ａ及びＳ３５ｂの両方でＹｅｓであれば、ステップＳ４０の処理が行われ、ステップＳ３５ａ及びＳ３５ｂうち少なくとも一方がＮｏであれば、ステップＳ３５の処理が繰り返される。このような動作例２の他の第２例で示される処理が行われてもよい。

　続いて、パイプライン処理について説明する。

　上述の音響信号処理装置１００で行われる処理の一部又は全ては、例えば特許文献２で説明されているようなパイプライン処理の一部として行われてもよい。図１９は、図６及び図７のレンダリング部Ａ０２０３及びＡ０２１３がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。図１９での説明においては、図６及び図７のレンダリング部Ａ０２０３及びＡ０２１３の一例であるレンダリング部９００を用いて説明する。

　パイプライン処理とは、音響効果を付与するための処理を複数の処理に分割し、各処理を１つずつ順番に実行することを指す。分割された処理のそれぞれでは、例えば、音声信号に対する信号処理、又は信号処理に用いるパラメータの生成などが実行される。

　本実施の形態におけるレンダリング部９００は、パイプライン処理として、例えば残響効果、初期反射処理、距離減衰効果、バイノーラル処理などを施す処理を含む。ただし、上記の処理は一例であり、それ以外の処理を含んでいてもよいし、一部の処理を含んでいなくてもよい。例えば、レンダリング部９００がパイプライン処理として、回折処理又はオクルージョン処理を含んでいてもよいし、例えば残響処理が不要な場合は省略されてもよい。また、それぞれの処理をステージと表現し、それぞれの処理の結果生成される反射音などの音声信号をレンダリングアイテムと表現してもよい。パイプライン処理における各ステージの順番と、パイプライン処理に含まれるステージとは図１９に示した例に限られない。

　なお、図１９で示すすべてのステージがレンダリング部９００に備わっていなくてもよく、一部のステージが省略されたり、レンダリング部９００以外に他のステージが存在したりしてもよい。

　パイプライン処理の一例として、残響処理、初期反射処理、距離減衰処理、選択処理、生成処理、バイノーラル処理のそれぞれで行われる処理について説明する。それぞれの処理では入力信号に含まれるメタデータを解析して、反射音の生成に必要なパラメータを算出する。

　なお、図１９においては、レンダリング部９００は、残響処理部９０１、初期反射処理部９０２、距離減衰処理部９０３、選択部９０４、算出部９０６、生成部９０７及びバイノーラル処理部９０５を備える。ここでは、残響処理部９０１が残響処理ステップを、初期反射処理部９０２が初期反射処理ステップを、距離減衰処理部９０３が距離減衰処理ステップを、選択部９０４が選択処理ステップを、バイノーラル処理部９０５がバイノーラル処理ステップを行う例について説明する。

　残響処理ステップでは、残響処理部９０１が残響音を示す音声信号又は音声信号の生成に必要なパラメータを生成する。残響音とは、直接音の後に残響としてリスナに到達する残響音を含む音である。一例として、残響音は、後述する初期反射音がリスナへ到達した後の比較的後期（例えば、直接音の到達時から百数十ｍｓ程度）の段階で、初期反射音よりも多くの回数（例えば、数十回）の反射を経てリスナへ到達する残響音である。残響処理部９０１は、入力信号に含まれる音声信号及び空間情報を参照し、事前に準備してある残響音を生成するための所定の関数を用いて計算する。

　残響処理部９０１は、当該音信号に、公知の残響生成方法を適用して、残響を生成してもよい。公知の残響生成方法とは、一例として、シュレーダー法であるが、これに限られない。また、残響処理部９０１は、公知の残響生成処理を適用する際に、空間情報が示す音再生空間の形状及び音響特性を用いる。これにより、残響処理部９０１は、残響を示す音声信号を生成するためのパラメータを算出することができる。

　初期反射処理ステップでは、初期反射処理部９０２が、空間情報に基づいて、初期反射音を生成するためのパラメータを算出する。初期反射音は、音源オブジェクトから直接音がリスナへ到達した後の比較的初期（例えば、直接音の到達時から数十ｍｓ程度）の段階で、１回以上の反射を経てリスナへ到達する反射音である。初期反射処理部９０２は、例えば音信号及びメタデータを参照し、三次元音場（空間）の形状、大きさ、構造物などのオブジェクトの位置、及びオブジェクトの反射率などを用いて、音源オブジェクトからオブジェクトで反射してリスナに到達する反射音の経路（経路の長さ）を計算する。また、初期反射処理部９０２が直接音の経路（経路の長さ）も算出してもよい。当該経路を示す情報が初期反射音を生成するためのパラメータとして用いられるとともに、選択部９０４における反射音の選択処理のためのパラメータとして用いられてもよい。

　距離減衰処理ステップでは、距離減衰処理部９０３が、初期反射処理部９０２が算出した直接音の経路の長さと反射音の経路の長さとの差に基づいて、リスナに到達する音量を算出する。リスナに到達する音量は、音源の音量に対して、リスナまでの距離に比例して減衰（距離に反比例）するので、直接音の音量は、音源の音量を直接音の経路の長さで除して得ることができ、反射音の音量は、音源の音量を反射音の経路の長さで除して算出することができる。

　選択処理ステップでは、選択部９０４が、生成する音を選択する。それ以前のステップで算出されたパラメータに基づいて、選択処理が実行されてもよい。

　選択処理がパイプライン処理の一部で実行される場合、選択処理において選択されなかった音については、パイプライン処理における選択処理以降の処理を実行する対象としなくてもよい。選択されなかった音について選択処理以降の処理を実行しないことで、選択されなかった音についてバイノーラル処理のみを実行しないことを決定する場合よりも、音響信号処理装置１００の演算負荷を低減することが可能になる。

　また、本実施の形態で説明した選択処理がパイプライン処理の一部で実行される場合、選択処理の順番が、パイプライン処理における複数の処理の順番のうちより早い順番で実行されるように設定すると、より多くの選択処理以降の処理を省略できるため、より多くの演算量を削減することができる。例えば算出部９０６及び生成部９０７が処理より前の順番で選択処理が実行されると、選択しないことが決定されたオブジェクトに係る空力音についての処理を省略することができ、より音響信号処理装置１００における演算量を削減することが出来る。

　また、レンダリングアイテムを生成するパイプライン処理の一部で算出されたパラメータが、選択部９０４又は算出部９０６で用いられてもよい。

　バイノーラル処理ステップでは、バイノーラル処理部９０５が、直接音の音声信号に対して音源オブジェクトの方向からリスナに到達する音として知覚されるように、信号処理を実行する。さらにバイノーラル処理部９０５は、反射音が反射に関わる障害物オブジェクトからリスナに到達する音として知覚されるように、信号処理を実行する。音空間におけるリスナの座標及び向き（つまり、受聴点の位置及び向き）に基づいて、音源オブジェクトの位置又は障害物オブジェクトの位置から音がリスナに到達するように、ＨＲＩＲ（Ｈｅａｄ―Ｒｅｌａｔｅｄ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅｓ）　ＤＢ（Ｄａｔａ　ｂａｓｅ）を適用する処理を実行する。なお、受聴点は、例えば、リスナの頭部の動きに合わせてその位置及び方向が変化されてもよい。また、リスナの位置を示す情報がセンサから取得されてもよい。

　パイプライン処理及びバイノーラル処理に用いるプログラム、音響処理に必要な空間情報、ＨＲＩＲ　ＤＢ、及び、閾値データなどその他のパラメータは、音響信号処理装置１００に備わるメモリ又は外部から取得する。ＨＲＩＲ（Ｈｅａｄ―Ｒｅｌａｔｅｄ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅｓ）とは、１個のインパルスを発生させたときの応答特性である。言い換えれば、ＨＲＩＲとは、耳殻、人頭及び肩まで含めた周辺物によって生じる音の変化を伝達関数として表現した頭部伝達関数をフーリエ変換することで、周波数領域における表現から時間領域における表現に変換された応答特性である。ＨＲＩＲ　ＤＢは、このような情報を含むデータベースである。

　また、パイプライン処理の一例として、レンダリング部９００は図示していない処理部を含んでいてもよい。例えば、回折処理部又はオクルージョン処理部を含んでいてもよい。

　回折処理部は、三次元音場（空間）におけるリスナと音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す音声信号を生成する処理を実行する。回折音は、音源オブジェクトとリスナとの間に障害物がある場合に、当該障害物を回り込むようにして音源オブジェクトからリスナへ到達する音である。

　回折処理部は、例えば音信号及びメタデータを参照し、三次元音場（空間）における音源オブジェクトの位置、リスナの位置、並びに障害物の位置、形状、及び大きさなどを用いて、音源オブジェクトから障害物を迂回してリスナへと到達する経路を計算し、当該経路に基づいて回折音を生成する。

　オクルージョン処理部は、いずれかのステップで取得した空間情報及び障害物オブジェクトの材質などの情報に基づいて、障害物オブジェクトの向こう側に音源オブジェクトがある場合に漏れ聞こえる音声信号を生成する。

　なお、上記実施の形態では、音源オブジェクトに付与する位置情報は、仮想空間内における「点」として定義したものであり、所謂「点音源」であるとして発明の詳細を説明した。一方で、仮想空間における音源を定義する方法として、長さ、大きさ又は形状などを有する物体として、点音源でない、空間的に拡張された音源を定義する場合もある。そのような場合は、リスナと音源との距離又は音の到来方向が確定しないので、それに起因する反射音は解析が行われるまでもなく、或いは解析結果の如何にかかわらず、上記選択部９０４で「選択する」方の処理に限定してもよい。そうすることによって、反射音を選択しないことによって生じるかもしれない音質の劣化を避けることができるからである。又は、当該物体の重心など代表点が定められて、その代表点から音が発生しているとして本開示の処理を適用してもよいが、その場合は、音源の空間的な拡張の情報に応じて閾値を調整した上で本開示の処理を適用してもよい。

　続いて、ビットストリームの構造例について説明する。

　ビットストリームには、例えば、音声信号と、メタデータと、が含まれる。音声信号は、音の周波数及び強弱に関する情報などを示す、音が表現された音データである。メタデータに含まれる空間情報は、音声信号に基づく音を聞くリスナが位置する空間に関する情報である。具体的には、空間情報は、当該音の音像を、音空間（例えば、三次元音場内）における所定の位置に定位させる際の、つまり、リスナに所定方向から到達する音として知覚させる際の当該所定の位置（定位位置）に関する情報である。空間情報には、例えば、音源オブジェクト情報と、リスナの位置を示す位置情報とが含まれる。

　音源オブジェクト情報は、音声信号に基づく音を発生させる、つまり、音声信号を再生する物体を示すオブジェクトの情報であって、当該物体が配置される実空間に対応する仮想的な空間である音空間に配置される仮想的なオブジェクト（音源オブジェクト）に関する情報である。音源オブジェクト情報は、例えば、音空間に配置される音源オブジェクトの位置を示す情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報、音源オブジェクトが生物に属するか否かを示す情報、及び、音源オブジェクトが動体であるか否かを示す情報などを含む。例えば、音声信号は、音源オブジェクト情報が示す１以上の音源オブジェクトに対応している。

　ビットストリームのデータ構造の一例として、ビットストリームは、例えばメタデータ（制御情報）と音声信号とで構成される。

　音声信号とメタデータとは一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音声信号とメタデータとは一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。

　ビットストリームは音源ごとに存在してもよいし、再生時間ごとに存在してもよい。再生時間ごとにビットストリームが存在する場合、同時に複数のビットストリームが並列で処理されてもよい。

　メタデータは、ビットストリームごとに付与されてもよく、複数のビットストリームを制御する情報としてまとめて付与されてもよい。また、メタデータは、再生時間ごとに付与されてもよい。

　音声信号とメタデータとは、複数のビットストリーム又は複数のファイルに別々に格納されている場合、音声信号とメタデータとは、一つ又は一部のビットストリーム又はファイルに関連する他のビットストリーム又はファイルを示す情報に含まれていてもよいし、音声信号とメタデータとは、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリーム又はファイルを示す情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連するビットストリーム又はファイルには、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、ＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ）又はＵＲＩ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｉｄｅｎｔｉｆｉｅｒ）などである。この場合、取得部１１０は、関連する他のビットストリーム又はファイルを示す情報に基づいてビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、ビットストリーム内に別のビットストリーム又はファイルに関連するビットストリーム又はファイルを示す情報を含めていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。

　なお、全てのメタデータ又は一部のメタデータは音声信号のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。また、映像を制御するメタデータが音声信号再生システムで取得されるビットストリームに含まれる場合は、音声信号再生システムは映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。

　さらに、メタデータに含まれる情報の例について説明する。

　メタデータは、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音声信号再生システムでモデリングされる、音空間における三次元映像及び音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。勿論、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。

　音声信号再生システムは、ビットストリームに含まれるメタデータ及び、追加で取得されるインタラクティブなリスナの位置情報などを用いて、音声信号に音響処理を行うことで、仮想的な音響効果を生成する。ここでは、音響効果のうち、初期反射処理と、障害物処理と、回折処理と、遮断処理と、残響処理とを行う場合を説明するが、メタデータを用いてほかの音響処理を行ってもよい。例えば、音声信号再生システムは、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報、優先度情報をメタデータとして付加してもよい。

　また、一例として、符号化されたメタデータは、音源オブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる（つまり、所定方向から到達する音として知覚させる）際の定位位置に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がリスナへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、リスナが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人などの動物、又は機械などの動体を含み得る。また、音空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。建材又は無生物などの音を発しないオブジェクトである非発音オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。

　メタデータには、音空間の形状、音空間に存在する障害物オブジェクトの形状情報及び位置情報、音空間に存在する音源オブジェクトの形状情報及び位置情報、並びに音空間におけるリスナの位置及び向きをそれぞれ表す情報のすべて又は一部が含まれる。

　音空間は、閉空間又は開空間のいずれであってもよい。また、メタデータには、例えば床、壁、又は天井などの音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。勿論、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合は、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータが用いられてもよい。

　上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして、反射率を挙げたが反射率以外の情報を含んでいてもよい。例えば、反射率以外の情報は、音源オブジェクト及び非発音オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、反射率以外の情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。

　音源オブジェクトに関する情報として、音量、放射特性（指向性）、再生条件、ひとつのオブジェクトから発せられる音源の数及び種類、並びに、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのかイベントで発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、リスナの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。オブジェクトにおける音源領域がリスナの位置とオブジェクトの位置との相対的な関係で定められる場合、リスナが見ているオブジェクトの面を基準とし、リスナから見てオブジェクトの右側からは音Ｃ、左側からは音Ｅが発せられているようにリスナに知覚させることができる。オブジェクトにおける音源領域がオブジェクトを基準として定められる場合、リスナの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにリスナに知覚させることができる。この場合、リスナがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにリスナに知覚させることができる。

　空間に関するメタデータとして、初期反射音までの時間、残響時間、直接音と拡散音との比率などを含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをリスナに知覚させることができる。

　（効果など）
　実施の形態に係る音響信号処理方法は、風Ｗを起こすオブジェクトの変化、及び、オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、取得されたオブジェクト情報が示す所定タイミングから、オブジェクトの変化に基づく所定時間後に風Ｗによる空力音を示す空力音データを出力する出力ステップと、を含む。

　これにより、所定タイミングから所定時間が経過したタイミングで、空力音データを出力することができる。このため、受聴者Ｌは適切なタイミングで空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Ｌに臨場感を与えることができる音響信号処理方法が実現される。

　例えば、動作例１が示すように、所定タイミングは、例えば、風Ｗの変化のタイミングであり、また所定時間は、例えば、扇風機Ｆが起こす風Ｗが受聴者Ｌに到達する時間である。

　例えば、動作例２が示すように、所定タイミングは、例えば、風Ｗの変化のタイミングであり、また所定時間は、例えば、救急車Ａが起こす風Ｗが受聴者Ｌに到達する時間である。

　動作例１及び２が示す場合においては、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。このように、実施の形態に係る音響信号処理方法は、受聴者Ｌに臨場感を与えることができる。

　また例えば、所定タイミングがユーザに指定されたタイミング（指定タイミング）であり、当該ユーザによって指定された時間が所定時間であってもよい。この場合、当該ユーザは、現実空間と同様のタイミングで受聴者Ｌが空力音を受聴することができるように、指定タイミング及び時間を指定し、指定された指定タイミング及び時間を、所定タイミング及び所定時間としてもよい。この場合においても、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。

　また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの変化による風Ｗの変化と、所定タイミングが、風Ｗの変化のタイミングであることとを示す。音響信号処理方法は、取得されたオブジェクト情報が示す風Ｗに基づいて、所定時間を決定する決定ステップを含む。

　これにより、風Ｗが変化したタイミングから、当該風Ｗに基づいて決定された所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Ｌは、より適切なタイミングで空力音を受聴することができる。

　また、実施の形態に係る音響信号処理方法は、オブジェクト情報が示す風Ｗの変化は、風Ｗの風速の変化を示し、決定ステップでは、風速に基づいて、所定時間を決定する。

　これにより、風速に基づいて所定時間が決定されるため、受聴者Ｌは、より適切なタイミングで空力音を受聴することができる。

　また、実施の形態に係る音響信号処理方法は、空力音は、変化後の風速で生じる音である。

　これにより、仮想空間で受聴者Ｌが受聴する空力音を、現実空間で受聴者Ｌが受聴する空力音により近い音とすることができる。

　また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの位置を示す。音響信号処理方法は、空力音の受聴者Ｌの位置と、取得されたオブジェクト情報が示すオブジェクトの位置との距離に基づいて、所定時間を決定する決定ステップを含む。

　これにより、当該距離に基づいて所定時間が決定されるため、受聴者Ｌは、より適切なタイミングで空力音を受聴することができる。

　また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの位置を示す。決定ステップでは、風速、及び、空力音の受聴者Ｌの位置と、取得されたオブジェクト情報が示すオブジェクトの位置との距離に基づいて、所定時間を決定する。

　これにより、風速と当該距離とに基づいて所定時間が決定されるため、受聴者Ｌは、より適切なタイミングで空力音を受聴することができる。

　また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、所定タイミングが、オブジェクトに対応付けられた音データを出力する第１タイミングであることを示す。出力ステップでは、取得されたオブジェクト情報が示す第１タイミングから所定時間後に空力音データを出力する。

　これにより、例えばオブジェクトが音を発生させる場合に、当該音が出力された第１タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Ｌは、より適切なタイミングで空力音を受聴することができる。

　例えば、動作例１が示すように、オブジェクトが扇風機Ｆでありモーター音を発生させる場合に、所定タイミングは、例えば、扇風機ＦがＯＦＦからＯＮへ切替えられたタイミングである。この所定タイミングから、扇風機Ｆが起こす風Ｗが受聴者Ｌに到達する時間（所定時間）が経過したタイミングで、受聴者Ｌは、ヘッドフォン２００から出力された空力音を受聴することができる。従って、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。このように、実施の形態に係る音響信号処理方法は、受聴者Ｌに臨場感を与えることができる。

　また、実施の形態の変形例に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの位置と、所定タイミングが、空力音の受聴者Ｌの位置とオブジェクトの位置との距離が所定距離より短くなる第２タイミングであることとを示す。出力ステップでは、取得されたオブジェクト情報が示す第２タイミングから所定時間後に空力音データを出力する。

　これにより、当該距離が所定距離より短くなった第２タイミング、つまりは、オブジェクトが受聴者Ｌに近づいた第２タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Ｌは、より適切なタイミングで空力音を受聴することができる。

　例えば、動作例２が示すように、所定タイミングは、例えば、受聴者Ｌの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングである。この所定タイミングから、救急車Ａが起こす風Ｗが受聴者Ｌに到達する時間（所定時間）が経過したタイミングで、受聴者Ｌは、ヘッドフォン２００から出力された空力音を受聴することができる。従って、現実空間と同様のタイミングでつまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。このように、実施の形態の変形例に係る音響信号処理方法は、受聴者Ｌに臨場感を与えることができる。

　また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの変化による風Ｗの変化が風Ｗの向きの変化であることと、所定タイミングが、風Ｗの向きの変化が起こった第３タイミングであることとを示す。出力ステップでは、取得されたオブジェクト情報が示す第３タイミングから所定時間後に空力音データを出力する。

　これにより、風Ｗの向きの変化が起こった第３タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Ｌは、より適切なタイミングで空力音を受聴することができる。

　また、実施の形態に係る音響信号処理方法は、オブジェクトは、オブジェクトに対応付けられた音データが示す音及び風Ｗを発生させるオブジェクトであり、空力音は、オブジェクトが発生させた風Ｗが受聴者Ｌに到達することによって生じる空力音である。

　これにより、音及び風Ｗを発生させる扇風機Ｆなどをオブジェクトとすることができ、当該オブジェクトから吹出された風Ｗによる空力音を実現することができる。

　また、実施の形態に係る音響信号処理方法は、距離をＤとし、風速がＳｏとなるオブジェクトの位置からの距離をＵとする。所定時間をｔとした場合、ｔは、下記式を満たす。

　これにより、決定ステップでは、所定タイミングからオブジェクトが発生させた風Ｗが受聴者Ｌに到達するまでの時間を所定時間として決定することができる。よって、所定タイミングからこのような所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Ｌは、より適切なタイミングで空力音を受聴することができる。

　例えば、動作例１が示すように、決定ステップでは、扇風機Ｆが起こす風Ｗが受聴者Ｌに到達する時間を所定時間として決定することができる。このため、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。このように、実施の形態に係る音響信号処理方法は、受聴者Ｌに臨場感を与えることができる。

　また、実施の形態の変形例に係る音響信号処理方法は、オブジェクトは、オブジェクトの位置の移動により風Ｗを発生させるオブジェクトであり、空力音は、移動により発生した風Ｗが受聴者Ｌに到達することによって生じる空力音である。

　これにより、移動により風Ｗを発生させる車両などをオブジェクトとすることができ、当該移動により発生した風Ｗによる空力音を実現することができる。

　また、実施の形態の変形例に係る音響信号処理方法は、オブジェクト情報が示す所定タイミングは、時間の経過に伴う距離の変化量が負から正に転じたタイミングである。

　これにより、受聴者Ｌの位置とオブジェクトの位置との距離が最も近くなるタイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Ｌは、より適切なタイミングで空力音を受聴することができる。

　また、実施の形態の変形例に係る音響信号処理方法は、距離をＤとし、移動により発生した風Ｗの風速がＳｏとなるオブジェクトの位置からの距離をＵとする。所定時間をｔとした場合、ｔは、下記式を満たす。

　例えば、動作例２が示すように、決定ステップでは、救急車Ａが起こす風Ｗが受聴者Ｌに到達する時間を所定時間として決定することができる。このため、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Ｌは空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく、受聴者Ｌは臨場感を得ることができる。このように、実施の形態に係る音響信号処理方法は、受聴者Ｌに臨場感を与えることができる。

　また、実施の形態に係るコンピュータプログラムは、上記記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラムである。

　また、実施の形態に係る音響信号処理装置１００は、風Ｗを起こすオブジェクトの変化、及び、オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得部１１０と、取得されたオブジェクト情報が示す所定タイミングから、オブジェクトの変化に基づく所定時間後に風Ｗによる空力音を示す空力音データを出力する出力部１３０と、を備える。

　これにより、所定タイミングから所定時間が経過したタイミングで、空力音データを出力することができる。このため、受聴者Ｌは適切なタイミングで空力音を受聴することができるので、受聴者Ｌは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Ｌに臨場感を与えることができる音響信号処理装置１００が実現される。

　（その他の実施の形態）
　以上、本開示の態様に係る音響信号処理方法及び音響信号処理装置について、実施の形態及び変形例に基づいて説明したが、本開示は、この実施の形態及び変形例に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態及び変形例に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。

　上記実施の形態では、オブジェクトが扇風機Ｆである例を示したがこれに限られない。ここでは、風Ｗを起こすオブジェクトを例示する。

　風Ｗを起こすオブジェクトは、例えば、窓又は扉などの風Ｗが吹き込むオブジェクトであってもよい。仮想空間において、受聴者Ｌが建物の中に居りかつ当該建物の外では風Ｗが吹いている例では、窓又は扉が開くことによって風Ｗが建物の中に吹き込み、これにより、受聴者Ｌは、空力音を受聴する。この例では、窓又は扉が開いたタイミングが所定タイミングに相当し、窓又は扉の位置で風Ｗが発生する、として、本開示の技術を適用することができる。

　風Ｗを起こすオブジェクトは、例えば、風穴又は排気孔などの風Ｗが吹き出すオブジェクトであってもよい。風穴又は排気孔から吹き出す風Ｗにおいては、風Ｗが発生する位置を正確に定義することは仮想空間においては意味がなく、風穴又は排気孔の出口の位置で風Ｗが発生する、として、本開示の技術を適用することができる。この場合には、所定タイミングは、仮想空間の管理者又は音響信号処理装置１００の管理者が決定することができる。例えば、音響信号処理装置１００が備える受付部は、当該管理者によって指定されたタイミングを受付け、決定部１２０が受付部によって受付けられたタイミングを、所定タイミングとして決定してもよい。

　また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。

　（１）上記の音響信号処理装置を構成する構成要素の一部は、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記ＲＡＭ又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

　（２）上記の音響信号処理装置を構成する構成要素の一部は、１個のシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

　（３）上記の音響信号処理装置を構成する構成要素の一部は、各装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。前記ＩＣカード又は前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカード又は前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカード又は前記モジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。

　（４）また、上記の音響信号処理装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）　Ｄｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。

　また、上記の音響信号処理装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送などを経由して伝送するものとしてもよい。

　（５）本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

　（６）また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

　（７）また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワークなどを経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

　本開示は、音響信号処理方法及び音響信号処理装置に利用可能であり、特に、音響システムなどに適用可能である。

１００　音響信号処理装置
１１０　取得部
１２０　決定部
１３０　出力部
１４０　記憶部
２００　ヘッドフォン
２０１　頭部センサ部
２０２　出力部
３００　表示部
９００　レンダリング部
９０１　残響処理部
９０２　初期反射処理部
９０３　距離減衰処理部
９０４　選択部
９０５　バイノーラル処理部
９０６　算出部
９０７　生成部
Ａ　救急車
Ａ００００　立体音響再生システム
Ａ０００１　音響信号処理装置
Ａ０００２　音声提示装置
Ａ０１００　符号化装置
Ａ０１０１　入力データ
Ａ０１０２　エンコーダ
Ａ０１０３　符号化データ
Ａ０１０４　メモリ
Ａ０１１０　復号装置
Ａ０１１１　音声信号
Ａ０１１２　デコーダ
Ａ０１１３　入力データ
Ａ０１１４　メモリ
Ａ０１２０　符号化装置
Ａ０１２１　送信部
Ａ０１２２　送信信号
Ａ０１３０　復号装置
Ａ０１３１　受信部
Ａ０１３２　受信信号
Ａ０２００　デコーダ
Ａ０２０１　空間情報管理部
Ａ０２０２　音声データデコーダ
Ａ０２０３　レンダリング部
Ａ０２１０　デコーダ
Ａ０２１１　空間情報管理部
Ａ０２１３　レンダリング部
Ｆ　扇風機
Ｌ　受聴者

Claims

　風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、
　取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力ステップと、
　を含む、
　音響信号処理方法。
　前記オブジェクト情報は、
　　前記オブジェクトの変化による前記風の変化と、
　　前記所定タイミングが、前記風の変化のタイミングであることとを示し、
　前記音響信号処理方法は、取得された前記オブジェクト情報が示す前記風に基づいて、前記所定時間を決定する決定ステップを含む、
　請求項１に記載の音響信号処理方法。
　前記オブジェクト情報が示す前記風の変化は、前記風の風速の変化を示し、
　前記決定ステップでは、前記風速に基づいて、前記所定時間を決定する、
　請求項２に記載の音響信号処理方法。
　前記空力音は、変化後の前記風速で生じる音である、
　請求項３に記載の音響信号処理方法。
　前記オブジェクト情報は、前記オブジェクトの位置を示し、
　前記音響信号処理方法は、前記空力音の受聴者の位置と、取得された前記オブジェクト情報が示す前記オブジェクトの位置との距離に基づいて、前記所定時間を決定する決定ステップを含む、
　請求項１に記載の音響信号処理方法。
　前記オブジェクト情報は、前記オブジェクトの位置を示し、
　前記決定ステップでは、前記風速、及び、前記空力音の受聴者の位置と、取得された前記オブジェクト情報が示す前記オブジェクトの位置との距離に基づいて、前記所定時間を決定する、
　請求項３に記載の音響信号処理方法。
　前記オブジェクト情報は、前記所定タイミングが、前記オブジェクトに対応付けられた音データを出力する第１タイミングであることを示し、
　前記出力ステップでは、取得された前記オブジェクト情報が示す前記第１タイミングから前記所定時間後に前記空力音データを出力する、
　請求項１に記載の音響信号処理方法。
　前記オブジェクト情報は、
　　前記オブジェクトの位置と、
　　前記所定タイミングが、前記空力音の受聴者の位置と前記オブジェクトの位置との距離が所定距離より短くなる第２タイミングであることとを示し、
　前記出力ステップでは、取得された前記オブジェクト情報が示す前記第２タイミングから前記所定時間後に前記空力音データを出力する、
　請求項１に記載の音響信号処理方法。
　前記オブジェクト情報は、
　　前記オブジェクトの変化による前記風の変化が前記風の向きの変化であることと、
　　前記所定タイミングが、前記風の向きの変化が起こった第３タイミングであることとを示し、
　前記出力ステップでは、取得された前記オブジェクト情報が示す第３タイミングから前記所定時間後に前記空力音データを出力する、
　請求項１に記載の音響信号処理方法。
　前記オブジェクトは、前記オブジェクトに対応付けられた音データが示す音及び前記風を発生させるオブジェクトであり、
　前記空力音は、前記オブジェクトが発生させた前記風が前記受聴者に到達することによって生じる空力音である、
　請求項６に記載の音響信号処理方法。
　前記距離をＤとし、
　前記風速がＳｏとなる前記オブジェクトの位置からの距離をＵとし、
　前記所定時間をｔとした場合、前記ｔは、下記式を満たす、
　ｔ＝｛（Ｄ－Ｕ）＾２｝／｛Ｓｏ×Ｕ×（ｌｏｇ（Ｄ）－ｌｏｇ（Ｕ））
　請求項１０に記載の音響信号処理方法。
　前記オブジェクトは、前記オブジェクトの位置の移動により前記風を発生させるオブジェクトであり、
　前記空力音は、前記移動により発生した前記風が前記受聴者に到達することによって生じる空力音である、
　請求項６に記載の音響信号処理方法。
　前記オブジェクト情報が示す前記所定タイミングは、時間の経過に伴う前記距離の変化量が負から正に転じたタイミングである、
　請求項１２に記載の音響信号処理方法。
　前記距離をＤとし、
　前記移動により発生した前記風の前記風速がＳｏとなる前記オブジェクトの位置からの距離をＵとし、
　前記所定時間をｔとした場合、前記ｔは、下記式を満たす、
　ｔ＝｛（Ｄ－Ｕ）＾２｝／｛Ｓｏ×Ｕ×（ｌｏｇ（Ｄ）－ｌｏｇ（Ｕ））
　請求項１２に記載の音響信号処理方法。
　請求項１～１４のいずれか１項に記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラム。
　風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得部と、
　取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力部と、
　を備える、
　音響信号処理装置。