CN120835265A

CN120835265A - 音频信号处理

Info

Publication number: CN120835265A
Application number: CN202510505939.1A
Authority: CN
Inventors: T·J·皮赫拉亚库亚; J·A·勒帕宁; A·J·莱赫蒂涅米
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2024-04-23
Filing date: 2025-04-22
Publication date: 2025-10-24
Also published as: GB2640527A; EP4642051A1; US20250330764A1; GB202405677D0

Abstract

公开了涉及音频信号处理的示例实施例。例如，一种方法可以包括接收音频信号，并且从多个即M个设备接收针对空间音频信号的相应的请求，其中相应的请求指示相应的用户头部取向。该方法还可以包括确定多个即N个参考头部取向，其中N＜M，并且处理所接收的音频信号以获得分别与多个即N个参考头部取向相关联的多个空间音频信号和分别与多个空间音频信号相关联的多个元数据集。该方法还可以包括向设备中的至少一个设备发送所选择的空间音频信号和相关联的元数据，其中，该选择是基于哪个参考头部取向与来自至少一个设备的请求中指示的用户头部取向最紧密地相关联的。

Description

音频信号处理

技术领域

示例实施例涉及音频信号处理。

背景技术

空间音频是指当输出到诸如一对耳机的用户设备时使得用户能够感知音频源如同来自相对于用户位置的相应的方向的音频。例如，一个音频源可被感知为来自用户前方的位置，而一个或多个其他音频源可被感知为来自用户的左手侧和/或右手侧的位置。空间音频可以比其它音频格式更复杂地被传送、解码和渲染，并且因此已经提出了分割渲染方法，由此渲染操作可以被划分成不同的阶段，其中不同的阶段由不同的装置执行。

发明内容

针对本发明的各种实施例寻求的保护范围由独立权利要求来阐述。在本说明书中描述的不落在独立权利要求的范围内的实施例和特征(如果有的话)将被解释为有助于理解本发明的各种实施例的示例。

根据第一方面，描述了一种装置，包括：用于接收音频信号的部件；用于从多个即M个设备接收针对空间音频信号的相应的请求的部件，其中，所述相应的请求指示相应的用户头部取向；用于确定多个即N个参考头部取向的部件，其中N＜M；用于处理所接收的音频信号以获得以下项的部件：分别与所述多个即N个参考头部取向相关联的多个空间音频信号；以及分别与所述多个空间音频信号相关联的多个元数据集，其中，元数据集包括指示应当如何调整相关联的空间音频信号以考虑与相关联的参考头部取向有关的头部取向的变化的信息；以及用于向所述设备中的至少一个设备发送所选择的空间音频信号和相关联的元数据的部件，其中，所述选择是基于哪个参考头部取向与在来自所述至少一个设备的所述请求中指示的所述用户头部取向最紧密地相关联。

在一些示例实施例中，该装置还可以包括用于检测所述多个即M个设备包括大于阈值数量G的数量的部件，其中所述处理是响应于所述检测来执行的。

在一些示例实施例中，所述多个即N个参考头部取向可以包括等于所述阈值数量G的数量。

在一些示例实施例中，所述多个即N个参考头部取向可以是在接收所述相应的请求之前确定的。

在一些示例实施例中，所述多个即N个参考头部取向可以是至少部分地基于在所述相应的请求中指示的所述相应的用户头部取向来确定的。

在一些示例实施例中，所述多个即N个参考头部取向可以通过以下项来确定：将所述多个即M个用户头部取向布置到N组一个或多个用户头部取向中，其中至少一组包括两个或更多个用户头部取向；以及针对所述N组确定相应的参考头部取向，其中针对包括两个或更多个参考头部取向的所述至少一组的所述参考头部取向是基于所述两个或更多个参考头部取向中的至少一个参考头部取向来确定的。

在一些示例实施例中，针对所述至少一组的所述参考头部取向可以包括所述相应的用户头部取向中的一个相应的用户头部取向。

在一些示例实施例中，针对所述至少一组的所述参考头部取向可以包括所述相应的用户头部取向的平均。

在一些示例实施例中，所述至少一组可以包括最相似的或在相似性阈值内的两个或更多个相应的头部取向。

在一些示例实施例中，所述布置可以包括：确定与从所述多个即M个设备接收的所述相应的用户头部取向相关联的方向向量；识别第一空间分区集中的哪个空间分区对应于最大数量的方向矢量；将所识别的空间分区划分为两个或更多个空间分区；如果空间分区的数量不等于N，则重新执行识别和划分操作，直到空间分区的数量等于N。

在一些示例实施例中，针对特定设备的所选择的空间音频信号可以是与所述组的所述参考头部取向相关联的空间音频信号，来自所述特定设备的所述相应的用户头部取向被布置到所述组中。

在一些示例实施例中，所述参考头部取向可以包括针对以下中的至少一项的取向：偏航轴；偏航轴和俯仰轴；或者偏航轴、俯仰轴和滚转轴。

在一些示例实施例中，所述装置可以被以下的至少一项包括：用户设备或服务器。

在一些示例实施例中，所述多个即M个设备可以被以下的至少一项包括：耳机设备、扬声器设备或用户设备。

根据第二方面，描述了一种方法，包括：接收音频信号；从多个即M个设备接收针对空间音频信号的相应的请求，其中，所述相应的请求指示相应的用户头部取向；确定多个即N个参考头部取向，其中N<M；处理所接收的音频信号以获得以下项：分别与所述多个即N个参考头部取向相关联的多个空间音频信号；以及分别与所述多个空间音频信号相关联的多个元数据集，其中，元数据集包括指示应当如何调整相关联的空间音频信号以考虑与相关联的参考头部取向有关的头部取向的变化的信息；以及向所述设备中的至少一个设备发送所选择的空间音频信号和相关联的元数据，其中，所述选择是基于哪个参考头部取向与来自所述至少一个设备的所述请求中指示的所述用户头部取向最紧密地相关联。

在一些示例实施例中，该方法还可以包括检测所述多个即M个设备包括大于阈值数量G的数量，其中所述处理是响应于该检测来执行的。

在一些示例实施例中，所述布置可以包括：确定与从所述多个即M个设备接收的所述相应的用户头部取向相关联的方向向量；识别第一空间分区集中的哪个空间分区对应于最大数量的方向矢量；将所识别的空间分区划分为两个或更多个空间分区；并且如果空间分区的数量不等于N，则重新执行识别和划分操作，直到空间分区的数量等于N。

在一些示例实施例中，该方法可以由用户设备或服务器中的至少一项所包括的装置来执行。

在一些示例实施例中，所述多个即M个设备可以被以下中的至少一项包括：耳机设备、扬声器设备或用户设备。

根据第三方面，提供了一种包括指令集的计算机程序产品，所述指令集在装置上执行时被配置为使得所述装置执行方法，所述方法包括：接收音频信号；从多个即M个设备接收针对空间音频信号的相应的请求，其中，所述相应的请求指示相应的用户头部取向；确定多个即N个参考头部取向，其中N<M；处理所接收的音频信号以获得以下项：分别与所述多个即N个参考头部取向相关联的多个空间音频信号；以及分别与所述多个空间音频信号相关联的多个元数据集，其中，元数据集包括指示应当如何调整相关联的空间音频信号以考虑与相关联的参考头部取向有关的头部取向的变化的信息；以及向所述设备中的至少一个设备发送所选择的空间音频信号和相关联的元数据，其中，所述选择是基于哪个参考头部取向与来自所述至少一个设备的所述请求中指示的所述用户头部取向最紧密地相关联。

第三方面还可以包括关于第二方面描述的任何特征。

根据第四方面，提供了一种非暂时性计算机可读介质，包括存储在其上的用于执行方法的程序指令，所述方法包括：接收音频信号；从多个即M个设备接收针对空间音频信号的相应的请求，其中，所述相应的请求指示相应的用户头部取向；确定多个即N个参考头部取向，其中N<M；处理所接收的音频信号以获得以下项：分别与所述多个即N个参考头部取向相关联的多个空间音频信号；以及分别与所述多个空间音频信号相关联的多个元数据集，其中，元数据集包括指示应当如何调整相关联的空间音频信号以考虑与相关联的参考头部取向有关的头部取向的变化的信息；以及向所述设备中的至少一个设备发送所选择的空间音频信号和相关联的元数据，其中，所述选择是基于哪个参考头部取向与来自所述至少一个设备的所述请求中指示的所述用户头部取向最紧密地相关联。

第四方面还可以包括关于第二方面描述的任何特征。

根据第五方面，提供了一种装置，包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述计算机程序代码在由所述至少一个处理器执行时使所述装置：接收音频信号；从多个即M个设备接收针对空间音频信号的相应的请求，其中，所述相应的请求指示相应的用户头部取向；确定多个即N个参考头部取向，其中N<M；处理所接收的音频信号以获得以下项：分别与所述多个即N个参考头部取向相关联的多个空间音频信号；以及分别与所述多个空间音频信号相关联的多个元数据集，其中，元数据集包括指示应当如何调整相关联的空间音频信号以考虑与相关联的参考头部取向有关的头部取向的变化的信息；以及向所述设备中的至少一个设备发送所选择的空间音频信号和相关联的元数据，其中，所述选择是基于哪个参考头部取向与来自所述至少一个设备的所述请求中指示的所述用户头部取向最紧密地相关联。

第五方面还可以包括关于第二方面描述的任何特征。

附图说明

现在将参考附图描述示例实施例，其中：

图1示出了可以用于理解示例实施例的系统；

图2示出了对于理解示例实施例可以是有用的收听空间音频场景时的用户；

图3示出了当头部跟踪不被用于空间音频场景时的图2的用户；

图4示出了当头部跟踪被用于空间音频场景时的图2的用户；

图5示出了可以用于理解示例实施例的分割-渲染系统；

图6是示出根据一个或多个示例实施例的操作的流程图；

图7示出了根据一个或多个示例实施例的分割-渲染系统；

图8示出了根据一个或多个示例实施例的另一分割-渲染系统；

图9是示出根据一个或多个示例实施例的操作的流程图；

图10以图形方式示出根据一个或多个示例实施例的聚类操作；

图11示出了可以被配置为根据示例实施例操作的装置；以及

图12示出了用于存储计算机可读指令的非暂时性计算机可读介质，所述计算机可读指令用于使图11的装置根据示例实施例进行操作。

具体实施方式

示例实施例涉及音频信号处理。

音频信号可以包括空间音频数据。空间音频是指当输出到诸如一对耳机的用户设备时使得用户能够感知音频源如同来自相对于用户位置的相应方向的音频。例如，一个音频源可被感知为来自用户前方的位置，而一个或多个其他音频源可被感知为来自用户的左手侧和/或右手侧的位置。

空间音频数据的示例格式可以包括但不限于多通道混合、高保真度立体声响复制、参数化空间音频(例如，元数据辅助的空间音频(MASA))、基于对象的音频或其任何组合。空间音频数据可以使用编解码器来编码和解码，该编解码器可以包括但不限于3GPP浸入式视频和音频服务(IVAS)标准。

在例如音频输出设备包括头戴式设备的情况下，该头戴式设备包括一对扬声器(示例是一对耳机、耳塞式耳机、头戴式耳机或扩展现实(XR)头戴装置)，可以使用双耳渲染来渲染空间音频数据。在双耳渲染中，音频输出设备的双耳渲染模块或相关联的媒体播放器可以基于头部相关脉冲响应(HRIR)或频域等效物来使用各种算法以提供空间再现，使得用户感知音频源如同他们位于空间音频场景内。

还可以执行头部跟踪作为渲染过程的一部分。这可以涉及跟踪用户头部的位置，例如取向，并且补偿或校正双耳渲染，使得即使用户头部移动或旋转，音频源也被感知为保持静止。这可以通过提供参考或“0”取向来执行，其中从相对于参考取向的相应空间位置感知一个或多个音频源。响应于所跟踪的用户取向从参考取向到新取向的变化，可以修改空间音频场景以便补偿所跟踪的变化，使得用户的感知是一个或多个音频源在空间音频场景中保持静态，这模仿用户如何感知真实世界中的声音并且提供空间音频感知的强线索。在空间音频研究中公知的是，可靠的头部跟踪显著地提高双耳渲染的质量，并且即使在渲染另外地可能缺乏准确性的情况下也允许良好的感知质量。在一些情况下，表示空间音频场景的空间音频信号可以在渲染之前被修改，并且在一些情况下，双耳渲染本身可以被修改。

图1是可以用于理解示例实施例的系统100的框图。

系统100可以包括服务器110、媒体播放器120、网络130和音频输出设备，在该示例中，该音频输出设备包括用户150佩戴的耳机组140。

服务器110可以通过网络130连接到媒体播放器120，以便向媒体播放器120发送空间音频数据。服务器110例如可以包括因特网协议(IP)电信服务器，其向媒体播放器120发送包括语音呼叫的部分的空间音频数据。空间音频数据可以表示作为语音呼叫的参加者的一个或多个其他用户，使得当它们各自的音频数据被媒体播放器120呈现并输出到耳机组140时，将从各自的方向感知到它们各自的音频数据。或者，空间音频数据可以表示音乐轨迹或电影的音频轨迹或语音和音乐的混合。发送可以借助于任何适当的流数据协议。可替换地或附加地，服务器110可以向媒体播放器120提供表示空间音频数据的一个或多个文件以便在那里存储和处理。在媒体播放器120处，空间音频数据可以被处理并被渲染给耳机组140。在示例实施例中，该耳机组140可以包括头部跟踪传感器，用于向媒体播放器120提供头部跟踪数据，使用任何合适的方法来指示用户的头部取向或用户的头部取向的改变，以便确定空间音频数据将如何在耳机140处被渲染。可以使用一种或多种已知的头部跟踪方法，诸如通过使用耳机140内或附接到其的一个或多个惯性传感器(例如，陀螺仪和/或加速度计)，来实时或接近实时地确定用户的头部取向。替代或附加示例可以包括使用可以实时识别面部特征的一个或多个相机。

在一些示例实施例中，媒体播放器120可以包括移动电话、平板计算机、游戏控制台、膝上型计算机、个人计算机、可穿戴设备或包括或包含比特流解码器的任何设备中的一个。在一些示例实施例中，媒体播放器120可以包括该耳机组140的一部分。

网络可以是任何合适的数据通信网络，包括例如无线电接入网(RAN)和WiFi网络或短距离网络中的一个或多个，其中，RAN通过一个或多个基站进行通信，WiFi网络通过一个或多个接入点进行通信，短距离网络诸如是使用蓝牙或Zigbee协议的短距离网络。

图2、3和4是当佩戴耳机组140时用户150的代表图，其也可以用于理解示例实施例。

参考图2，示出了用户150收听包括第一到第四音频源(共同地由参考标号220指示)的所渲染的空间音频场，第一到第四音频源对应于标记为“1”、“2”、“3”和“4”的不同的相应声音。参考图3，在不使用头部跟踪渲染的情况下，相对于用户的头部指示了第一到第四音频源220的相应感知的空间位置。可以看出，用户头部的顺时针旋转不会导致空间音频场景的修改，并且第一到第四音频源220的相应感知空间位置跟随用户的移动。参照图4，在使用头部跟踪渲染的情况下，如在示例实施例的情况下，相对于用户的头部指示第一到第四音频源220的相应感知空间位置。可以看出，用户头部的顺时针旋转导致空间音频场景的修改，并且第一到第四音频源220的相应感知空间位置不跟随用户的移动而是保持静止。

空间音频数据与其它音频格式相比，发送、解码和渲染可能更复杂，因此提出了分割渲染方法，由此渲染操作可以被分成不同的阶段，其中不同的阶段由不同的装置执行。分割渲染的概念可以例如包括第一装置或预渲染装置，用于接收音频信号并且创建空间音频信号的预渲染中间格式，其可以进一步由第二装置渲染为可消费格式。如将变得清楚的，这可以提供在第二装置处的较低复杂度、当使用头部跟踪渲染时在第二装置处的较低运动到声音延迟方面的优点，并且还可以提供对于不同类型的第二装置的较宽的兼容性，第二装置可以支持预渲染的中间格式而不必能够支持如由预渲染装置接收的音频信号。

示例实施例涉及包括第一和第二类型的装置的分割渲染系统。

第一种类型的装置可以被称为预渲染装置。与第一类型的装置分离的第二类型的装置可以被称为后渲染设备或简称为设备。

预渲染装置可与多个后渲染设备通信。

例如，预渲染装置可以包括用户设备、服务器或电信室服务器。例如，后渲染设备可包括用户设备、具有头部跟踪能力的耳机组或扬声器系统中的一个或多个。可以使用所述实施例的任何组合。在该上下文中，用户设备可以包括移动电话、平板计算机、膝上型计算机、个人计算机或可穿戴设备中的一个。耳机组可包括安装在用户耳朵上或附近的耳机、可至少部分地位于用户耳朵内的耳塞式耳机、或XR头戴式装置的扬声器。预渲染装置可以经由有线或无线信道与多个后渲染设备通信。无线信道可以包括蓝牙、Zigbee或WiFi信道中的一个或多个，以给出一些非限制性示例。

图5示出了分割-渲染系统500，其包括与多个后渲染设备，特别是第一、第二和第三后渲染设备504、506、508通信的预渲染装置502。第一、第二和第三后渲染设备504、506、508可以与可以在相同或不同位置的相应的第一、第二和第三用户544、546、548相关联。预渲染装置502和第一、第二和第三后渲染设备504、506、508可以包括上述例子的任何组合。

预渲染装置502可以经由输入线510接收可以表示空间音频场景的音频信号。空间音频场景可以包括多个声源，诸如图2-4中指示的那些声源。输入线510可以例如连接到天线511，用于从远程源接收音频信号。

预渲染装置502可经配置以从第一、第二和第三后渲染设备504、506、508接收对空间音频信号的相应的请求，其中所述相应的请求指示相应的用户头部取向514、516、518。

在本文描述的示例中，用户头部取向可以指可以包括偏航、俯仰和/或滚转取向中的至少一个的头部取向。

例如，第一后渲染设备504可以经由信号线512发送对空间音频信号的请求，其指示第一用户头部取向514。第二和第三后渲染设备506、508可以传送它们自己的各自的请求，这些请求指示各自的第二和第三用户头部取向516、518。

第一、第二和第三用户头部取向514、516、518可以表示相应的参考或“0”头部取向。第一、第二和第三用户头部取向514、516、518可以例如表示相应的第一、第二和第三用户544、546、548的当前头部取向，或者替换地可以包括相应的反向方向、在时间段内的平均头部取向或与第一、第二和第三后渲染设备504、506、508相关联的默认取向。

预渲染装置502可以处理音频信号以获得分别与第一用户头部取向514、第二用户头部取向516和第三用户头部取向518相关联的第一空间音频信号、第二空间音频信号和第三空间音频信号(可替换地被称为中间空间音频信号)。

例如，预渲染装置502可以针对第一用户头部取向514、第二用户头部取向516和第三用户头部取向518中的每一个执行双耳渲染，以获得第一中间空间音频信号、第二中间空间音频信号和第三中间空间音频信号。预渲染装置502还可以获得分别与第一、第二和第三中间空间音频信号相关联的第一、第二和第三元数据集。第一、第二和第三元数据集可以包括指示如何在相应的第一、第二和第三后渲染设备504、506、508处本地修改相关联的第一、第二和第三中间空间音频信号以考虑所跟踪的用户头部位置的信息，在这种情况下是取向中的改变，其可以不同于相应的第一、第二和第三用户头部取向514、516、518。

预渲染装置502可以经由信号线524将第一中间空间音频信号以及经由信号线525将第一元数据集发送到第一后渲染设备504。

类似地，预渲染装置502可将第二中间空间音频信号和第二元数据集发送到第二后渲染设备506，且将第三中间空间音频信号和第三元数据集发送到第三后渲染设备508。

如由附图标记534、536、538所指示的，用于第一、第二和第三中间空间音频信号的双耳渲染使用与相应的第一、第二和第三用户头部取向514、516、518相对应的取向。

因此，第一后渲染设备504可以基于第一用户头部取向514渲染第一中间空间音频信号，并且第一元数据集可以用于在本地修改第一中间空间音频信号以获得其他头部取向，一旦在本地跟踪它们时，例如当用户将其头部旋转远离或朝向参考或“0”头部取向时。换句话说，第一后渲染设备504可以使用元数据和追踪的用户头部取向的变化来局部地校正双耳线索。可使用由第二和第三后渲染设备506、508接收的第二和第三元数据集将相同过程应用于第二和第三空间音频信号。这种分裂方法在3GPP TSG-SA WG4会议#127Bis-eCR文件中提及，该文件涉及IVAS标准规范TS26.253。

尽管第一、第二和第三后渲染设备504、506、508可以执行较少的处理，但是因为预渲染装置502需要获得和发送中间空间音频信号和用于所接收的第一、第二和第三用户头部取向514、516中的每一个的相关联的元数据集，所以功率和处理资源的量将随着后渲染设备的数量的增加而线性增加。而且，随着后渲染设备的数量增加，可能将存在请求或要求实质上相同的空间音频信号和相关联的元数据的多个后渲染设备，因为其相应的用户头部取向可为相同或实质上相同的。因此，预渲染装置502可以重复至少一些处理。

示例实施例可以避免或减轻这样的问题。

图6是示出根据一个或多个示例实施例的操作600的流程图。操作600可以以硬件、软件、固件或其组合来执行。例如，操作600可以由部件单独地或共同地执行，其中该部件可以包括至少一个处理器和存储指令的至少一个存储器，当由至少一个处理器执行该指令时，使得执行操作。操作600可以例如由预处理装置执行。

第一操作601可以包括接收音频信号。

第二操作602可以包括从多个即M个设备接收针对空间音频信号的相应的请求，其中，相应的请求指示相应的用户头部取向。

所述设备可以包括任何上述类型的后处理设备。

第三操作603可以包括确定多个即N个参考头部取向，其中N＜M。

第三操作603可以在第一和第二操作602、603的执行之前、期间或之后执行。

第四操作604可以包括处理所接收的音频信号以获得分别与多个即N个参考头部取向相关联的多个空间音频信号，以及分别与多个空间音频信号相关联的多个元数据集。

术语“获得”可以涉及生成多个空间音频信号。

元数据集可以包括指示应当如何调整相关联的空间音频信号以考虑头部位置从相关联的参考头部取向的改变的信息。该元数据集还可以包括参考头部取向的指示，针对该参考头部取向获得相关联的空间音频信号。

第五操作605可以包括向至少一个设备发送所选择的空间音频信号和相关联的元数据，其中，所述选择基于哪个参考头部取向与来自至少一个设备的请求中指示的用户头部取向最紧密地相关联。

通过确定多个即N个参考头部取向，其中N是小于从其接收针对空间音频信号的相应的请求的设备的数量M的数量，预处理装置所需的处理量被减少并且预处理装置可以迎合服务于潜在地大量后处理设备。

在一些示例实施例中，术语用户头部取向可以包括除了用户的当前实际头部取向之外的某物，例如用户的预测头部取向或者用户的或与用户有关的某一其他取向。例如，多个即M个设备中的一个或多个设备可以预测其相应的请求生效的传输延迟，并且替代地请求针对相应设备将接收空间音频信号时的时间实例的预测用户头部取向。

在一些示例实施例中，另一操作可以包括检测从其接收请求的多个即M个设备包括大于阈值数量G的数量。第四和第五操作604、605，并且可能地第三操作603，可响应于该检测来执行。如果多个即M个设备包括等于或小于阈值数量G的数量，则可以执行参考图5描述的过程，由此获得分别与来自多个即M个设备的M个相应的请求中指示的M个用户头部取向相关联的M个空间音频信号。

在一些示例实施例中，N可以包括高达阈值数量G的任何数量。

在一些示例实施例中，可以至少部分地基于在相应的请求中指示的相应用户头部取向来确定多个即N个参考头部取向。例如，可以在分组或聚类操作中确定多个即N个参考头部取向。可以使用任何合适的聚类算法，例如k-均值聚类，其中目的是将取向布置成N组，同时最小化组内的变化。例如，分组或聚类操作可以包括将多个即M个用户头部取向布置成一个或多个用户头部取向的N组，其中至少一个组包括两个或更多个用户头部取向，确定N组的相应参考头部取向。

可以基于所述两个或更多个参考头部取向中的至少一个来确定包括两个或更多个参考头部取向的所述至少一组的参考头部取向。例如，所述至少一组的参考头部取向可以包括相应的用户头部取向中的一个。可替代地，所述至少一组的参考头部取向可以包括相应的用户头部取向的平均。组可以包括两个或更多个相应的头部取向，所述头部取向最相似或在相似性阈值内，例如在彼此的预定角度范围内。

在一些示例实施例中，并且如将在下面进一步详细解释的，多个即N个参考头部取向可以例如在接收相应的请求之前被预先确定。

将参考以下非限制性示例实施例来理解图6的操作600。

图7说明分割-渲染系统700，其包括与第一、第二和第三后渲染设备704、706、708通信的预渲染装置702。在这种情况下，M＝3，但可以是更大的数。示出了与另一用户749相关联的另一后渲染设备709，以指示此处描述的操作可以扩展到任何数量的M个后渲染设备。

第一、第二和第三后渲染设备704、706、708可以与可以在相同或不同位置的相应的第一、第二和第三用户744、746、748相关联。

预渲染装置702可以经由输入线710接收可以表示空间音频场景的音频信号。空间音频场景可以包括多个声源，诸如图2-4中指示的那些声源。输入线710可以例如连接到天线711，用于从远程源接收音频信号。

预渲染装置702可经配置以从第一、第二和第三后渲染设备704、706、708接收对空间音频信号的相应的请求，其中所述相应的请求指示相应的第一、第二和第三用户头部取向714、716、718。

例如，第一用户头部取向714可等于280度，第二用户头部取向716可等于310度，并且第三用户头部取向718可等于45度。头部取向714、716、718可以指偏航取向，并且在其他实施例中可以指偏航、俯仰和/或滚转取向中的至少一个。

例如，第一后渲染设备704可以经由信号线712发送对空间音频信号的请求，其指示280度的第一用户头部取向714。第二和第三后渲染设备706、708可以传送它们自己的相应的请求，这些请求分别指示320和45度的相应的第二和第三用户头部取向716、718。

第一、第二和第三用户头部取向714、716、718可以表示如上文针对图5所描述的相应的参考或“0”头部取向。

预渲染装置702可以响应地确定多个即N个参考头部取向，其中N＜M。

例如，这可以响应于预渲染装置702检测到M＞G而执行，这将是例如如果G＝2的情况，因为M＝3。

预渲染装置702可以确定包括第一和第二参考头部取向751、752的两个参考取向750的集合。

在该示例中，第一和第二参考头部取向751、752可以基于将第一和第二用户头部取向714、716布置成第一组并且将第三用户头部取向718布置成第二组来确定。可以使用如上所述的任何合适的聚类算法来执行布置，例如基于第一用户头部取向714和第二用户头部取向716(其分别为280度和310度)比第三用户头部取向718(其为45度)彼此更接近。

第一参考取向751可以包括第一用户头部取向714和第二用户头部取向716中的一个或其平均。

假设后者，第一参考取向751可以包括280度和310度的平均，其为295度。

第二参考取向752可包括第三用户头部取向718，其为45度。

预渲染装置702可处理音频信号以获得分别与295度和45度(偏航取向)的第一和第二参考取向751、752分别相关联的第一和第二中间空间音频信号。

预渲染装置702还可以获得分别与第一中间空间音频信号和第二中间空间音频信号相关联的第一元数据集和第二元数据集。第一和第二元数据集可以包括针对其生成第一和第二中间空间音频信号的相应的第一和第二参考取向751、752的指示(因为这些可能不同于所请求的取向)以及用于基于用户取向相对于所述相应参考取向的所跟踪的变化来校正或补偿空间音频信号的元数据。以这种方式，与图5的情况相比，需要更少的处理，其中获得三个中间空间音频信号和三个相关联的元数据集。

然后，预渲染装置702可根据第五操作605将第一和第二中间空间音频信号中的所选择者及其相关联的元数据发送到第一、第二和第三后渲染设备704、706、708。

例如，预渲染装置702可以选择将第一中间空间音频信号及其相关联的元数据发送到第一和第二后渲染设备704、706。例如，预渲染装置702可以经由信号线724将第一中间空间音频信号并且经由信号线744将第一元数据集发送到第一后渲染设备704。该选择是基于第一和第二用户头部取向714、716(分别为280和310度)与295度的第一参考取向751最紧密地相关联来执行的。

例如，预渲染装置702可以选择将第二中间空间音频信号及其相关联的元数据发送到第三后渲染设备708。基于45度的第三用户头部取向718与第二参考取向752相同来执行该选择。

第一、第二和第三后渲染设备704、706、708然后可以渲染它们接收到的中间空间音频信号以提供渲染的音频。

第一、第二和第三后渲染设备704、706、708可以通过使用接收到的元数据集，以与针对图5所描述的相同的方式针对所跟踪的用户取向的改变来校正双耳渲染。

图8说明根据另一实施例的分割渲染系统800。

图8的系统800与图7的系统700类似，并且包括与至少第一、第二和第三后渲染设备704、706、708通信的预渲染装置802。示出了与另一用户749相关联的另一后渲染设备709，以指示此处描述的操作可以扩展到任何数量的M个后渲染设备。

在该示例中的预渲染装置802包括参考取向集850，其包括可以在接收请求之前预先确定的多个(N＝4)参考头部取向851、852、853、854。

例如，第一参考头部取向851可包括180度，第二参考头部取向852可包括0度，第三参考头部取向853可包括90度，并且第四参考头部取向854可包括270度。参考头部取向851、852、853、854可以指偏航取向，并且在其他实施例中可以指偏航、俯仰和/或滚转取向中的至少一个。

因此，预渲染装置802可以处理在输入线710上接收的音频信号以获得分别与第一、第二、第三和第四参考头部取向851、852、853、854相关联的第一、第二、第三和第四中间空间音频信号。预渲染装置802还可以如前所述地获得四个相关联的元数据集，其中，元数据集可以包括针对其生成第一、第二、第三和第四中间空间音频信号的相应的第一、第二、第三和第四参考头部取向851、852、853、854的指示以及用于基于用户取向相对于所述相应的参考取向的所跟踪的改变来校正或补偿空间音频信号的元数据。

例如，可以响应于预渲染装置802检测到M＞G而执行处理。

多个即N个参考头部取向851、852、853、854应当小于M，因此在该示例中G可以等于至少5，并且假定已经从六个或更多后渲染设备接收了请求，尽管为了便于解释仅考虑三个后渲染设备。

处理可以在从第一、第二和第三后渲染设备704、706、708接收请求之前、期间或之后执行。

响应于从第一后渲染设备704接收到第一请求，预渲染装置802可确定作为响应而发送第一、第二、第三和第四中间空间音频信号中的哪一者。

例如，如果第一请求包括280度的第一用户头部取向714，则预渲染装置802可以确定这与270度的第四参考头部取向854最紧密地相关联。因此，预渲染装置802可选择将第四中间空间音频信号发送到第一后渲染设备704。

类似地，响应于从第二后渲染设备706接收到第二请求，预渲染装置802可以确定200度的第二用户头部取向716与180度的第一参考头部取向851最紧密地相关联。因此，预渲染装置802可选择将第一中间空间音频信号发送到第二后渲染设备706。类似地，响应于从第三后渲染设备708接收到第三请求，预渲染装置802可以确定45度的第三用户头部取向718与0度的第二参考头部取向852最紧密地相关联。因此，预渲染装置802可以选择将第二中间空间音频信号发送到第三后渲染设备708。例如，预渲染装置802可以经由信号线724将第一中间空间音频信号和经由信号线744将第一元数据集发送到第一后渲染设备704。

第一、第二和第三后渲染设备704、706、708然后可以渲染它们接收到的中间空间音频信号以提供渲染的音频。第一、第二和第三后渲染设备704、706、708可以通过使用接收到的元数据集，以与针对图5所描述的相同的方式针对所跟踪的用户方向的改变来校正双耳渲染。

如前所述，由于中间空间音频信号的数量N以及相关联的元数据集小于进行请求的后渲染设备的数量M，因此在预渲染装置802处需要较少的处理。

图9是示出根据一个或多个示例实施例的操作900的流程图。操作900可以在硬件、软件、固件或其组合中执行。例如，操作900可以由部件单独地或共同地执行，其中该部件可以包括至少一个处理器和存储指令的至少一个存储器，当由至少一个处理器执行该指令时，使得执行操作。操作900可以例如由预处理装置执行。

第一操作901可以包括接收音频信号。

第二操作902可以包括从多个即M个设备接收针对空间音频信号的相应的请求，其中相应的请求指示相应的用户头部取向。

所述装置可以包括任何上述类型的后处理装置。

第三操作603可以包括确定是否M＞G，其中G是阈值数量。

如果M＞G，则第四操作904可以包括确定多个即N个参考头部取向，其中N＜M。

第五操作905可包括处理所接收的音频信号以获得分别与所述多个即N个参考头部取向相关联的多个空间音频信号，以及分别与所述多个空间音频信号相关联的多个元数据集。

术语“获得”可以涉及生成多个空间音频信号。

元数据集可以包括指示应当如何调整相关联的空间音频信号以考虑头部取向相对于相关联的参考头部取向的改变的信息。该元数据集还可以包括参考头部取向的指示，针对该参考头部取向获得相关联的空间音频信号。

第六操作906可以包括向设备中的至少一个设备发送所选择的空间音频信号和相关联的元数据，其中，所述选择基于哪个参考头部取向与来自至少一个设备的请求中指示的用户头部取向最紧密地相关联。

如果M≤G，则第七操作907可以包括处理所接收的音频信号以获得分别与多个即M个用户头部取向相关联的多个空间音频信号以及分别与多个空间音频信号相关联的多个元数据集。

第八操作908可以包括向设备中的至少一个设备发送空间音频信号和与来自至少一个设备的请求中指示的用户头部取向相关联的相关联的元数据。

关于图6描述的特征也可应用于图9。

在一些示例实施例中，术语用户头部取向可以包括除了用户的当前实际头部取向之外的某物，例如用户的预测头部取向或者用户的或与用户有关的某一其他取向。例如，多个即M个设备中的一个或多个设备可以预测其相应的请求生效的传输延迟，并且替代地请求针对相应设备将接收空间音频信号的时间实例的预测用户头部取向。

在一些示例实施例中，可以周期性地重复关于图6至图9描述的某些操作，例如，每当新的预渲染操作常规上将基于接收到的音频信号来执行时。例如，如果以20ms帧接收音频信号，则可以每20ms执行上述操作。然而，为了允许上述操作的处理时间，特别是与确定多个即N个参考头部取向相关联的分组或聚类操作的处理时间，可以以更大的间隔，例如每500ms，或者如果没有观察到所指示的用户头部取向的显著变化，则以甚至更长的周期执行分组或聚类。可以使用不同的调度来分别更新多个即N个参考头部取向的确定，该调度可以比用于分组或群集的时间表更短，并且可能每20ms帧更新一次。

一个取向可以定义为从参考取向到另一个取向的旋转。因此，取向可类似于旋转来表示，其中示例是Tait-Bryan角(偏航、俯仰、滚转)、旋转矩阵、四元数、Euler角或方向余弦矩阵。这些表示可以使用已知方法从一个转换到另一个。此外，上述示例假定单个取向轴，例如偏航、俯仰和滚转中的一个。然而，当考虑用于双耳渲染的头部取向时，在用户如何移动他们的头部方面存在限制。在正常使用中，大多数取向变化是在偏航和俯仰轴上，偏航是最重要的一个。尽管上述示例可以扩展为使用与偏航、俯仰和滚转轴中的每一个相对应的参考取向，但是从计算的观点来看的简化实现可以仅考虑一个或两个轴，例如仅偏航轴或者偏航和俯仰轴，其中滚转轴可以被设置为零。

关于将用户头部取向分组或聚类成两个或更多个组以确定相应的参考头部取向，可以使用任何合适的聚类算法。如上所述，这可以涉及k均值聚类，其中目的是将相应的用户头部取向布置成N组，同时最小化组内的变化。组的数量N可以是最多到阈值数量G的任何数量，这可以通过单独考虑偏航轴或偏航和俯仰轴中的对应矢量来执行。在一些示例实施例中，如果从其接收相应的请求的后处理设备的数量M大于G，但是低于第二阈值数量G2，则简单的分组或聚类算法可以包括找到用户头部取向对，例如具有低于预定阈值角度A1的差的取向。这样的用户头部取向对可以被安排到共同的组中，并且用于该组的参考头部取向可以包括用户头部取向之一或用户头部取向对的平均。然而，如果从其接收相应的请求的后处理装置的数量M大于G并且等于或大于第二阈值数量G2，则可以使用替换的分组或聚类方法。例如，该方法可以包括(i)确定与从多个即M个设备接收的相应的用户头部取向相关联的方向向量，(ii)识别第一空间分区集中的哪个空间分区对应于最大数量的方向向量，(iii)将所识别的空间分区划分成两个或更多个空间分区，以及(iv)如果空间分区的数量不等于N，则重新执行识别和划分操作，直到空间分区的数量等于N。因此，多个即M个用户头部取向被布置为N组，并且可以为这N组中的每一组确定参考头部取向。

图10A示出了M＝6并且N被设置为5的示例情况。

可以确定与映射到单位圆1000的M个相应用户头部取向相对应的六个向量1001-1006。在考虑两个或更多个轴的情况下，例如偏航和俯仰轴，向量1001-1006可以被映射到单位球。单位圆1000包括四个空间分区R1-R4的第一集合，在该示例中其对应于所述单位圆的象限。可以识别第一空间分区R1包括最大数量的方向矢量，即第一、第二和第三方向矢量1001、1002、1003。如果两个或更多空间分区包括相同最大数量的方向矢量，则预定规则可以确定哪个被划分，或者可替换地，如果不超过N，则可以划分每个空间分区。在这种情况下，第一空间分区可以被分成两个较小的空间分区，如图10B所示，其中第一空间分区R1被两个较小的空间分区R1A、R1B所替代。空间分区的总数现在是N＝5，因此分组或聚类过程可以停止。可以使用上述方法为五个空间分区R1A、R1B、R2、R3和R4中的每一个确定参考用户头部位置。例如，第一空间分区R1A的第一参考头部位置可包括由第一和第二向量1001、1002表示的第一和第二用户头部取向的平均。例如，第二至第五参考头部位置可包括由第三至第六向量1001-1006表示的第三至第六用户头部取向。

用于分组或聚类的其它方法可以涉及以增加量化误差级别的方式应用角度量化，直到最多剩下G个不同的取向。例如，我们可以首先用16比特量化取向，如果不够，我们可以用15比特、14比特等进行量化。在最多有G个不同取向被留下的时候，原始取向可以基于所得到的量化取向被分配到组。

在一些示例实施例中，可以使用其他实现方式。

例如，即使从其接收请求的设备的数量M不大于G，或者当G小时，例如在10以下，可以比较所有用户头部取向对，并且如果任何对在听不出的容限内，例如在彼此的5度以下，则可以将该对分组，并且可以选择它们中的一个用于参考头部取向。这可以通过比较参考头部取向对以确定是否有任何对在听不出的容限内，并且如果是这样则组合，而对于更大的组来说很平常地扩展。这样，在不牺牲感知质量的情况下，有效使用功率和计算资源。

例如，根据图8的示例，在音频信号与视频内容一起被提供和/或所有音频信号在相对窄的方向上的情况下，使用预定义的参考取向可能是有用的。例如基于其他信息，默认地为相对窄的方向分配一个预定参考取向，为非预期取向分配至少一个其他预定参考取向，这可能是更实用和有效的。

已经关于双耳渲染描述了示例实施例，但是其不限于这样的输出格式，并且可以与其他输出格式一起使用。

由于上述原因，示例实施例能够实现改进的功率和计算性能。

示例装置

图11示出了能够支持至少一些实施例的示例装置1100。示出了设备1100，其可以是上述预渲染装置702、802。设备1100中包括处理器1110，其可以包括例如单核或多核处理器，其中单核处理器包括一个处理核，而多核处理器包括多于一个处理核。处理器1110通常可以包括控制设备。处理器1110可以包括多于一个处理器。处理器1110可以是控制设备。处理核心可包括(例如)ARM Holdings制造的Cortex-A8处理核心或Advanced Micro Devices公司制造的Steamroller处理核心。处理器1110可以包括至少一个Qualcomm Snapdragon和/或Intel Atom处理器。处理器1110可以包括至少一个专用集成电路ASIC。处理器1110可以包括至少一个现场可编程门阵列FPGA。处理器1110可以是设备1100中的用于执行方法步骤的部件。处理器1110可以至少部分地由计算机指令配置以执行动作。

处理器可以包括电路，或者被构造为一个或多个电路，所述一个或多个电路被配置为根据本文描述的实施例执行本发明的方法的阶段。如在本申请中所使用的，术语“电路”可以指以下中的一个或多个或全部：(a)仅硬件电路实现，例如仅在模拟和/或数字电路中的实现，以及(b)硬件电路和软件的组合，诸如，如可应用的：(i)模拟和/或数字硬件电路与软件/固件的组合，以及(ii)硬件处理器的任何部分与软件(包括数字信号处理器)、软件和存储器，它们一起工作以使被配置成控制其功能的装置或设备执行各种功能)以及(c)硬件电路和/或处理器，诸如微处理器或微处理器的一部分，其需要软件(例如固件)来操作，但是当不需要软件来操作时，可以不存在软件。

电路的这种定义适用于本申请中该术语的所有使用，包括在任何权利要求中。作为进一步的示例，如在本申请中所使用的，术语电路还覆盖仅硬件电路或处理器(或多个处理器)或硬件电路或处理器的一部分及其(或它们的)伴随软件和/或固件的实现。术语电路还覆盖，例如并且如果适用于特定权利要求元素，用于移动设备的基带集成电路或处理器集成电路或服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。

设备1100可以包括存储器1120。存储器1120可以包括随机存取存储器和/或永久存储器。存储器1120可以包括至少一个RAM芯片。存储器1120可以包括例如固态、磁、光和/或全息存储器。存储器1120可以至少部分地可由处理器1110访问。存储器1120可以至少部分地包括在处理器1110中。存储器1120可以是用于存储信息的部件。存储器1120可以包括处理器1110被配置为执行的计算机指令。当被配置为使得处理器1110执行某些动作的计算机指令被存储在存储器1120中，并且设备1100总体上被配置为在处理器1110的指导下使用来自存储器1120的计算机指令运行时，处理器1110和/或其至少一个处理核可以被认为被配置为执行所述某些动作。存储器1120可以至少部分地包括在处理器1110中。存储器1120可以至少部分地在设备1100外部，但是可由设备1100访问。

设备1100可以包括发送器1130。设备1100可以包括接收器1140。发送器1130和接收器1140可经配置以分别根据至少一个蜂窝式或非蜂窝式标准发送和接收信息。

发送器1130可以包括多于一个的发送器。接收器1140可包括多于一个的接收器。发送器1130和/或接收器1140可被配置成根据例如以下标准来操作：全球移动通信系统GSM、宽带码分多址WCDMA、5G/NR、5G高级，即NR Rel-18、19及以上、长期演进LTE、IS-95、无线局域网WLAN、以太网、和/或全球微波互联接入WiMAX。

设备1100可以包括近场通信NFC收发器1150。NFC收发器1150可支持至少一种NFC技术，例如NFC、蓝牙、Wibree或类似技术。

设备1100可以包括用户接口UI 1160。UI 1160可以包括显示器、键盘、触摸屏、被布置为通过使设备1100振动来向用户发信号的振动器、扬声器和麦克风中的至少一个。用户能够经由UI 1160操作设备1100，例如接受呼入电话呼叫、发起电话呼叫或视频呼叫、浏览因特网、管理存储在存储器1120中或经由发送器1130和接收器1140或经由NFC收发器1150可访问的云上的数字文件、和/或玩游戏。

设备1100可以包括或被布置为接受用户身份模块1170。用户身份模块1170可以包括例如可安装在设备1100中的订户身份模块SIM卡。用户身份模块1170可以包括标识设备1100的用户的订阅的信息。用户身份模块1170可包括密码信息，该密码信息可用于验证设备1100的用户的身份和/或便于加密所传送的信息并对设备1100的用户针对经由设备1100实现的通信的计费。

处理器1110可以配备有发送器，该发送器被布置为经由设备1100内部的电引线将来自处理器1110的信息输出到包括在设备1100中的其他设备。这种发送器可以包括串行总线发送器，其被布置成例如经由至少一个电引线将信息输出到存储器1120以存储在其中。作为串行总线的替代，发送器可以包括并行总线发送器。

同样，处理器1110可以包括被布置为通过设备1100内部的电引线从设备1100中包括的其它设备在处理器1110中接收信息的接收器。这样的接收器可以包括串行总线接收器，其被布置成例如经由至少一个电引线从接收器1140接收信息以用于在处理器1110中处理。作为串行总线的替代，接收器可以包括并行总线接收器。

设备1100可以包括图11中未示出的其他设备。例如，在设备1100包括智能电话的情况下，其可以包括至少一个数字相机。一些设备1100可以包括背面相机和正面相机，其中背面相机可以旨在用于数字摄影，正面相机可以旨在用于视频电话。设备1100可以包括指纹传感器，该指纹传感器被布置为至少部分地认证设备1100的用户。在一些实施例中，设备1100缺少上述至少一个设备。例如，一些设备1100可以缺少NFC收发器1150和/或用户身份模块1170。

处理器1110、存储器1120、发送器1130、接收器1140、NFC收发器1150、UI 1160和/或用户身份模块1170可以通过多种不同方式由设备1100内部的电引线互连。例如，上述设备中的每一个可以单独地连接到设备1100内部的主总线，以允许设备交换信息。然而，如本领域技术人员将理解的，这仅是一个示例，并且根据实施例，可以选择互连上述设备中的至少两个的各种方式，而不脱离本发明的范围。

图12示出了根据一些实施例的非暂时性介质1200。非暂时性介质1200是计算机可读存储介质。它可以是例如CD、DVD、USB棒、蓝光盘等。非暂时性介质1200存储计算机程序指令，使得装置执行例如关于本说明书中的流程图及其相关特征所公开的任何前述过程的方法。

所描述的特征、结构或特性可以以任何合适的方式组合在一个或多个实施例中。在前面的描述中，提供了许多具体细节，例如长度、宽度、形状等的示例，以提供对本发明实施例的透彻理解。然而，相关领域的技术人员将认识到，可以在没有一个或多个特定细节的情况下，或者利用其他方法、组件、材料等来实践本发明。在其他情况下，众所周知的结构、材料或操作未进行详细展示或描述，以免模糊本发明的方面。

虽然上述示例在一个或多个特定应用中说明了实施例的原理，但是对于本领域的普通技术人员来说明显的是，在没有创造性能力的运用的情况下并且在不脱离本发明的原理和概念的情况下，可以在实施方式的形式、使用和细节上进行许多修改。因此，除了阐述的权利要求之外，无意让本发明受到限制。

动词“包括”和“包含”在本文中用作开放性限制，既不排除也不需要存在未叙述的特征。在从属权利要求中叙述的特征是相互自由地可组合的，除非另外明确地说明。此外，应当理解，在整个文档中使用“一”或“一个”即单数形式不排除多个。

Claims

1.一种装置，包括：

用于接收音频信号的部件；

用于从多个即M个设备接收针对空间音频信号的相应的请求的部件，其中，所述相应的请求指示相应的用户头部取向；

用于确定多个即N个参考头部取向的部件，其中N＜M；

用于处理所接收的音频信号以获得以下项的部件：

分别与所述多个即N个参考头部取向相关联的多个空间音频信号；以及

分别与所述多个空间音频信号相关联的多个元数据集，其中，元数据集包括指示应当如何调整相关联的空间音频信号以考虑与相关联的参考头部取向有关的头部取向的变化的信息；以及

用于向所述设备中的至少一个设备发送所选择的空间音频信号和相关联的元数据的部件，其中，所述选择是基于哪个参考头部取向与在来自所述至少一个设备的所述请求中指示的所述用户头部取向最紧密地相关联。

2.根据权利要求1所述的装置，还包括：

用于检测所述多个即M个设备包括大于阈值数量G的数量的部件，

其中，所述处理是响应于所述检测来执行的。

3.根据权利要求2所述的装置，其中，

所述多个即N个参考头部取向包括等于所述阈值数量G的数量。

4.根据权利要求1至3中任一项所述的装置，其中，

所述多个即N个参考头部取向是在接收所述相应的请求之前确定的。

5.根据权利要求1至3中任一项所述的装置，其中，

所述多个即N个参考头部取向是至少部分地基于在所述相应的请求中指示的所述相应的用户头部取向来确定的。

6.根据权利要求5所述的装置，其中，

所述多个即N个参考头部取向通过以下项来确定：

将所述多个即M个用户头部取向布置到N组一个或多个用户头部取向中，其中，至少一组包括两个或更多个用户头部取向；以及

针对所述N组确定相应的参考头部取向，

其中，针对包括两个或更多个参考头部取向的所述至少一组的所述参考头部取向是基于所述两个或更多个参考头部取向中的至少一个参考头部取向来确定的。

7.根据权利要求6所述的装置，其中，

针对所述至少一组的所述参考头部取向包括所述相应的用户头部取向中的一个相应的用户头部取向。

8.根据权利要求6所述的装置，其中，

针对所述至少一组的所述参考头部取向包括所述相应的用户头部取向的平均。

9.根据权利要求6至8中任一项所述的装置，其中，

所述至少一组包括最相似的或在相似性阈值内的两个或更多个相应的头部取向。

10.根据权利要求6至9中任一项所述的装置，其中，

所述布置包括：

确定与从所述多个即M个设备接收的所述相应的用户头部取向相关联的方向向量；

识别第一空间分区集中的哪个空间分区对应于最大数量的方向矢量；

将所识别的空间分区划分为两个或更多个空间分区；以及

如果空间分区的数量不等于N，则重新执行识别和划分操作，直到空间分区的数量等于N。

11.根据权利要求6至10中任一项所述的装置，其中，

针对特定设备的所选择的空间音频信号是与所述组的所述参考头部取向相关联的空间音频信号，来自所述特定设备的所述相应的用户头部取向被布置到所述组中。

12.根据前述权利要求中任一项所述的设备，其中，

所述参考头部取向包括针对以下中的至少一项的取向：

偏航轴；

偏航轴和俯仰轴；或

偏航轴、俯仰轴和滚转轴。

13.根据前述权利要求中任一项所述的装置，其中，

所述装置被以下的至少一项包括：用户设备，或服务器。

14.根据前述权利要求中任一项所述的装置，其中，

所述多个即M个设备被以下的至少一项包括：耳机设备，扬声器设备或用户设备。

15.一种方法，包括：

接收音频信号；

从多个即M个设备接收针对空间音频信号的相应的请求，其中，所述相应的请求指示相应的用户头部取向；

确定多个即N个参考头部取向，其中N<M；

处理所接收的音频信号以获得以下项：

向所述设备中的至少一个设备发送所选择的空间音频信号和相关联的元数据，其中，所述选择是基于哪个参考头部取向与在来自所述至少一个设备的所述请求中指示的所述用户头部取向最紧密地相关联。

16.根据权利要求15所述的方法，还包括：

检测所述多个即M个设备包括大于阈值数量G的数量，

其中，所述处理是响应于所述检测来执行的。

17.根据权利要求16所述的方法，其中，

18.根据权利要求15至17中任一项所述的方法，其中，

19.根据权利要求15至17中任一项所述的方法，其中，

20.根据权利要求19所述的方法，其中，

所述多个即N个参考头部取向通过以下项来确定：

针对所述N组的确定相应的参考头部取向，

21.根据权利要求20所述的方法，其中，

针对所述至少一组的参考头部取向包括所述相应的用户头部取向中的一个相应的用户头部取向。

22.根据权利要求20所述的方法，其中，

23.根据权利要求20至22中任一项所述的方法，其中，

24.根据权利要求20至23中任一项所述的方法，其中：

所述布置包括：

将所识别的空间分区划分为两个或更多个空间分区；以及

25.一种非暂时性计算机可读介质，包括存储在其上的用于执行一种方法的程序指令，所述方法包括：

接收音频信号；

确定多个即N个参考头部取向，其中N<M；

处理所接收的音频信号以获得以下项：