CN111434126B

CN111434126B - 信号处理装置和方法以及程序

Info

Publication number: CN111434126B
Application number: CN201880077702.6A
Authority: CN
Inventors: 本间弘幸; 知念徹
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-12-12
Filing date: 2018-11-28
Publication date: 2022-04-26
Anticipated expiration: 2038-11-28
Also published as: EP3726859A1; US11310619B2; CN114710740A; RU2020116581A; KR102561608B1; EP3726859A4; US20210168548A1; US20220225051A1; RU2020116581A3; JP7544182B2; JP7283392B2; US11838742B2; JPWO2019116890A1; CN111434126A; WO2019116890A1; JP2023101016A; KR20200096508A

Abstract

本技术涉及信号处理装置和方法以及程序，能够以少量的计算提高声音图像的再现性。信号处理装置设置有：渲染手法选择单元，从多个不同手法中选择用于在收听空间中定位音频信号的声音图像的渲染处理的一个或多个手法；以及渲染处理单元，通过由渲染手法选择单元选择的手法，对音频信号执行渲染处理。本技术可应用于信号处理装置。

Description

信号处理装置和方法以及程序

技术领域

本技术涉及信号处理装置和方法以及程序，并且更具体地涉及用于通过少量计算来改善声音图像的再现性的信号处理装置和方法以及程序。

背景技术

传统上，对象音频技术已经被用于电影、游戏等，并且已经开发可以处理对象音频的编码方法。具体地，例如，作为国际标准的活动图像专家组(MPEG)-H部分3：3D音频标准等是已知的(例如，参见非专利文献1)。

在这种编码方法中，将运动的声源等看作独立的音频对象，并且对象的位置信息可以与音频对象的信号数据一起被编码为元数据，如传统的两声道立体声方法或诸如5.1声道的多声道立体声方法。

通过这样做，可以在扬声器的数量或扬声器的布局不同的各种收听环境中执行再现。此外，可以在再现时容易地处理特定声源的声音，诸如调节特定声源的声音的音量或将效果添加到特定声源的声音，这些通过传统编码方法是难以实现的。

例如，在非专利文献1的标准中，称为基于三维向量的幅度摇摄(VBAP)(以下简称为VBAP)的方法被用于执行渲染处理。

该方法是通常称为摇摄的渲染手法之一，并且是通过将增益分配给存在于球面上的扬声器当中的最接近存在于球面上的音频对象的三个扬声器来执行渲染的方法，该球面上的音频对象具有位于收听位置处的原点。

此外，除了VBAP之外，还已知通过称为扬声器锚定坐标摇摄器的摇摄方法进行的渲染处理，该摇摄方法将增益分配给x轴、y轴和z轴(例如，参见非专利文献2)。

同时，作为渲染音频对象的方法，除了摇摄处理之外，还提出了使用头相关传递函数滤波器的方法(例如，参见专利文献1)。

在使用头相关传递函数来渲染移动音频对象的情况下，通常如下得头相关传递函数滤波器。

即，例如，通常对移动空间范围进行采样，并且预先准备与空间中的各个点相对应的大量头相关传递函数滤波器。此外，例如，有时在空间中以固定距离间隔测量的位置处，使用头相关传递函数，通过三维合成方法进行距离校正，来获得期望位置的头相关传递函数滤波器。

专利文献1描述了一种使用为头相关传递函数生成滤波器所需的参数，来生成任意距离的头相关传递函数滤波器的方法，该参数是通过以一定距离对球面进行采样而获得的。

引用列表

非专利文献：

非专利文献1：国际标准ISO/IEC 23008-3第一版2015-10-15“Informationtechnology High efficiency coding and media delivery in heterogeneousenvironments Part 3:3D audio”；

非专利文献2：ETSI TS 103 448v1.1.1(2016-09)。

专利文献：

专利文献1：日本专利第5752414号。

发明内容

本发明要解决的问题

然而，通过上述技术，在通过渲染定位音频对象的声音图像的情况下，难以获得具有高声音图像定位和少量计算的再现性。即，难以通过少量计算实现被感知为好像位于原始预期位置的声音图像的定位。

例如，假定收听位置是一个点，通过摇摄处理对音频对象进行渲染。在这种情况下，例如，当音频对象接近收听位置时，声波到达收听者左耳与声波到达收听者右耳之间的到达时间差不能被忽略。

然而，在执行VBAP作为摇摄处理的情况下，即使音频对象位于其上布置有扬声器的球面的内部或外部，也基于音频对象在球面上的假设来执行渲染。然后，在音频对象接近收听位置的情况下，再现时的音频对象的声音图像远超出预期。

同时，在使用头相关传递函数渲染时，即使在音频对象在收听者附近的情况下，也可以实现高声音图像定位的再现性。此外，存在多个高速计算处理，诸如快速傅立叶变换(FFT)和正交镜像滤波器(QMF)作为使用头相关传递函数的有限脉冲响应(FIR)滤波器处理。

然而，使用头相关传递函数的FIR滤波器处理的量比摇摄处理的量大得多。因此，当存在许多音频对象时，可能不适合使用头相关传递函数来渲染所有音频对象。

本技术是鉴于这样的情况而提出的，其旨在通过小的计算量提高声音图像的再现性。

解决问题的方法

根据本技术的一个方面的信号处理装置包括：渲染手法选择单元，其被配置为从多种方法中，选择用于在收听空间中定位音频信号的声音图像的渲染处理的一种或多种方法；以及渲染处理单元，其被配置为通过由渲染手法选择单元选择的方法，来执行对音频信号的渲染处理。

根据本技术的一个方面的信号处理方法或程序包括以下步骤：从彼此不同的多种方法中，选择用于在收听空间中定位音频信号的声音图像的渲染处理的一种或多种方法，以及通过选定方法对音频信号执行渲染处理。

在本技术的一个方面中，从彼此不同的多种方法中，选择定位收听空间中的音频信号的声音图像的渲染处理的一种或多种方法，并且通过选定方法来执行音频信号的渲染处理。

本发明的效果

根据本技术的一个方面，可以通过少量的计算来提高声音图像的再现性。

注意，本文描述的效果不一定是限制性的，并且可以渲染本公开中描述的任何效果。

附图说明

图1是用于说明VBAP的示图。

图2是示出信号处理装置的配置示例的示图。

图3是示出渲染处理单元的配置示例的示图。

图4是示出元数据的示例的示图。

图5是用于描述音频对象位置信息的示图。

图6是用于描述渲染手法的选择的示图。

图7是用于描述头相关传递函数处理的示图。

图8是用于描述渲染手法的选择的示图。

图9是用于描述音频输出处理的流程图。

图10是示出元数据的示例的示图。

图11是示出元数据的示例的示图。

图12是示出计算机的配置示例的示图。

具体实施方式

在下文中，将参考附图描述应用本技术的实施例。

＜第一实施例＞

＜本技术＞

在渲染音频对象的情况下，通过根据音频对象在收听空间中的位置，从彼此不同的多个渲染手法中为每个音频对象选择一种或多种方法，即使使用少量的计算，也提高了声音图像的再现性。即，本技术即使通过少量计算，也实现被感知为好像处于原始预期位置的声音图像的定位。

具体地，在本技术中，从具有彼此不同的计算量(计算负荷)和不同的声音图像定位性能的多个渲染手法中选择一种或多种渲染手法，作为在收听空间中定位音频信号的声音图像的渲染处理的方法，即渲染手法。

注意，在此将作为示例来描述要为其选择渲染手法的音频信号是音频对象的音频信号(音频对象信号)的情况。然而，示例不限于这种情况，并且要为其选择渲染手法的音频信号可以是任何音频信号，只要该音频信号用于在收听空间中定位声音图像。

如上所述，在VBAP中，将增益分配给存在于球面上的扬声器中最接近存在于球面上的音频对象的三个扬声器，该音频对象具有位于收听空间中的收听位置处的原点。

例如，如图1所示，假设收听者U11存在于三维空间的收听空间中，并且三个扬声器SP1至SP3被布置在收听者U11的前方。

此外，假定收听者U11的头部位置被设置为原点O，并且扬声器SP1至SP3位于以原点O为中心的球面上。

现在，假定音频对象存在于由球面上的扬声器SP1至SP3包围的区域TR11中，并且声音图像被定位在音频对象的位置VSP1处。

在这种情况下，在VBAP中，将音频对象的增益分配给位置VSP1周围的扬声器SP1至SP3。

具体地，假设在相对于原点O(原点)的三维坐标系中，以原点O为起点，以位置VSP1为终点的三维向量P来表示位置VSP1。

此外，如下面的表达式(1)中所述，可以由向量L₁至L₃的线性和来表示向量P，其中以原点O为起点并且扬声器SP1至SP3的位置为终点的三维向量是向量L₁至L₃。

[数学式1]

P＝g₁L₁+g₂L₂+g₃L₃…(1)

在表达式(1)中，在此计算与向量L₁至L₃相乘的系数g₁至g₃，并将这些系数g₁至g₃被设定为分别从扬声器SP1至SP3输出的声音的增益，从而能够将声音图像定位在位置VSP1。

例如，通过修改上述表达式(1)，可以获得下面的表达式(2)，其中具有系数g₁到g₃作为元素的向量是g₁₂₃＝[g₁，g₂，g₃]，以及具有向量L₁至L₃作为元素的向量是L₁₂₃＝[L₁，L₂，L₃]。

[数学式2]

通过将作为音频对象的声音的信号的音频对象信号输出到扬声器SP1至SP3，使用通过计算这样的表达式(2)而获得的系数g₁至g₃作为增益，可以将声音图像定位在位置VSP1处。

注意，由于扬声器SP1至SP3的布置位置是固定的，并且指示扬声器位置的信息是已知的，因此可以预先获得逆矩阵L₁₂₃ ^-1。因此，在VBAP中，能够以相对简单的计算即少量的计算来执行渲染。

因此，在音频对象位于距收听者U11足够远的位置处的情况下，可以通过由诸如VBAP的摇摄处理执行渲染，来以少量计算适当地定位声音图像。

然而，当音频对象位于靠近收听者U11的位置时，通过诸如VBAP的摇摄处理来表示到达收听者U11的右耳和左耳的声波之间的到达时间差是困难的，并且不能获得足够高的声音图像再现性。

因此，在本技术中，根据音频对象的位置，从摇摄处理和使用头相关传递函数滤波器(以下，也称为头相关传递函数处理)的渲染处理头相关中选择一种或多种渲染手法，并且执行渲染处理。

例如，基于作为收听者在收听空间中的位置的收听位置与音频对象的位置之间的相对位置关系来选择渲染手法。

具体地，例如，在音频对象位于布置扬声器的球面上或球面外的情况下，选择诸如VBAP的摇摄处理作为渲染手法。

相反，在音频对象位于布置扬声器的球面内的情况下，选择头相关传递函数处理作为渲染手法。

通过这样的选择，能够以少量的计算获得足够高的声音图像再现性。即，能够通过少量的计算来提高声音图像的再现性。

＜信号处理装置的配置示例＞

在下文中，将详细描述本技术。

图2是示出应用本技术的信号处理装置的实施例的配置示例的示图。

图2所示的信号处理装置11包括核心解码处理单元21和渲染处理单元22。

核心解码处理单元21接收并解码发送的输入比特流，并且将作为解码的结果获得的音频对象位置信息和音频对象信号提供给渲染处理单元22。即，核心解码处理单元21获取音频对象位置信息和音频对象信号。

在此，音频对象信号是用于再现音频对象的声音的音频信号。

此外，音频对象位置信息是由渲染处理单元22执行渲染所必需的音频对象(即，音频对象信号)的元数据。

具体地，音频对象位置信息是指示音频对象在三维空间(即收听空间)中的位置的信息。

渲染处理单元22基于从核心解码处理单元21提供的音频对象位置信息和音频对象信号生成输出音频信号，并且在后续阶段将输出音频信号提供给扬声器、记录单元等。

具体地，渲染处理单元22基于音频对象位置信息，选择摇摄处理、头相关传递函数处理、或摇摄处理和头相关传递函数处理中的任一种作为渲染手法，即，渲染处理。

然后，渲染处理单元22执行选定渲染处理，以对作为输出音频信号的输出目的地的再现装置(诸如扬声器或头戴式耳机)执行渲染，以生成输出音频信号。

注意，渲染处理单元22可以从包括摇摄处理和头相关传递函数处理的彼此不同的3种或3种以上渲染手法中选择一种或多种渲染手法。

＜渲染处理单元的配置示例＞

接下来，将描述图2所示的信号处理装置11的渲染处理单元22的更详细的配置示例。

渲染处理单元22例如被配置为如图3所示。

在图3所示的示例中，渲染处理单元22包括渲染手法选择单元51、摇摄处理单元52、头相关传递函数处理单元53和混合处理单元54。

将音频对象位置信息和音频对象信号从核心解码处理单元21提供给渲染手法选择单元51。

渲染手法选择单元51基于从核心解码处理单元21提供的音频对象位置信息，为每个音频对象选择渲染处理方法，即，用于音频对象的渲染手法。

此外，渲染手法选择单元51根据渲染手法的选择结果，将从核心解码处理单元21提供的音频对象位置信息和音频对象信号至少提供给摇摄处理单元52或头相关传递函数处理单元53。

摇摄处理单元52基于从渲染手法选择单元51提供的音频对象位置信息和音频对象信号执行摇摄处理，并且将作为摇摄处理的结果获得的摇摄处理输出信号提供给混合处理单元54。

在此，摇摄处理输出信号是用于再现音频对象的声音的每个声道的音频信号，使得音频对象的声音的声音图像被定位在由音频对象位置信息指示的收听空间中的位置处。

例如，在此，预先确定输出音频信号的输出目的地的声道配置，并且将声道配置的每个声道的音频信号生成为摇摄处理输出信号。

例如，在输出音频信号的输出目的地是包括图1所示的扬声器SP1至SP3的扬声器系统的情况下，将分别与扬声器SP1至SP3对应的声道的音频信号生成为摇摄处理输出信号。

具体地，例如，在执行VBAP作为摇摄处理的情况下，将通过将从渲染手法选择单元51提供的音频对象信号乘以作为增益的系数g₁而获得的音频信号，用作与扬声器SP1对应的声道的摇摄处理输出信号。同样，将音频对象信号分别与系数g₂和g₃相乘得到的音频信号用作分别与扬声器SP₂和SP₃对应的声道的摇摄处理输出信号。

注意，在摇摄处理单元52中，可以执行任何处理作为摇摄处理，诸如在MPEG-H部分3：3D音频标准中采用的VBAP，或者通过称为扬声器锚定坐标摇摄器的摇摄方法进行的处理。换言之，渲染手法选择单元51可以选择VBAP或扬声器锚定坐标摇摄器作为渲染手法。

头相关传递函数处理单元53基于从渲染手法选择单元51提供的音频对象位置信息和音频对象信号，执行头相关传递函数处理，并将作为头相关传递函数处理的结果获得的头相关传递函数处理输出信号提供给混合处理单元54。

在此，头相关传递函数处理输出信号是用于再现音频对象的声音的每个声道的音频信号，使得音频对象的声音的声音图像被定位在由音频对象位置信息指示的收听空间中的位置处。

即，头相关传递函数处理输出信号对应于摇摄处理输出信号。当生成音频信号时，头相关传递函数处理输出信号和摇摄处理输出信号在处理上是不同的，可以是头相关传递函数处理或摇摄处理。

上述摇摄处理单元52或头相关传递函数处理单元53用作渲染处理单元，该渲染处理单元执行由渲染手法选择单元51选择的渲染手法的渲染处理，诸如摇摄处理或头相关传递函数处理。

混合处理单元54基于从摇摄处理单元52提供的摇摄处理输出信号、或从头相关传递函数处理单元53提供的头相关传递函数处理输出信号中的至少一个，来生成输出音频信号，并将输出音频信号输出到后续级。

例如，假设一个音频对象的音频对象位置信息和音频对象信号存储在输入比特流中。

在这种情况下，当提供摇摄处理输出信号和头相关传递函数处理输出信号时，混合处理单元54执行校正处理并生成输出音频信号。在校正处理中，针对每个声道将摇摄处理输出信号和头相关传递函数处理输出信号组合(混合)以获得输出音频信号。

相反，在仅提供摇摄处理输出信号和头相关传递函数处理输出信号中的一个的情况下，混合处理单元54原样使用所提供的信号作为输出音频信号。

此外，例如，假设多个音频对象的音频对象位置信息和音频对象信号存储在输入比特流中。

在这种情况下，混合处理单元54根据需要执行校正处理，并为每个音频对象生成输出音频信号。

然后，因此，混合处理单元54执行混合处理，即将获得的音频对象的输出音频信号相加(组合)，以获得作为混合处理的结果获得的每个声道的输出音频信号作为最终输出音频信号。即，将针对音频对象获得的同一声道的输出音频信号相加，以获得该声道的最终输出音频信号。

如上所述，混合处理单元54用作输出音频信号生成单元，该输出音频信号生成单元例如执行用于根据需要组合摇摄处理输出信号和头相关传递函数处理输出信号的校正处理和混合处理，并生成输出音频信号。

＜音频对象位置信息＞

顺便说一下，上述音频对象位置信息使用例如图4所示的格式以预定的时间间隔(每预定帧数)被编码，并被存储在输入比特流中。

在图4所示的元数据中，“num_objects”表示包括在输入比特流中的音频对象的数量。

此外，“tcimsbf”是“二进制补码整数，最高有效(符号)位优先”的缩写，并且符号位指示前导二进制补码数。“uimsbf”是“无符号整数，最高有效位优先”的缩写，并且最高有效位表示前导无符号整数。

此外，“position_azimuth[i]”，“position_elevation[i]”和“position_radius[i]”中的每一个指示包括在输入比特流中的第i个音频对象的音频对象位置信息。

具体地，“position_azimuth[i]”表示音频对象在球面坐标系中的位置的方位角，并且“position_elevation[i]”表示音频对象在球面坐标系中的位置的仰角。此外，“position_radius[i]”表示到音频对象在球面坐标系中的位置的距离，即，半径。

在此，球面坐标系和三维正交坐标系之间的关系如图5所示。

在图5中，穿过原点O并且相互垂直的X轴、Y轴和Z轴是三维正交坐标系中的轴。例如，在三维正交坐标系中，使用指示X轴方向上位置的X坐标的X1、指示Y轴方向上位置的Y坐标的Y1、以及指示Z轴方向上位置的Z坐标的Z1，将音频对象OB11在空间中的位置表示为(X1，Y1，Z1)。

相反，在球面坐标系中，使用方位角position_azimuth，仰角position_elevation和半径position_radius来表示音频对象OB11在空间中的位置。

现在，假设连接原点O和收听空间中的音频对象OB11的位置的直线是直线r，并且通过将该直线r投影到XY平面上而获得的直线是直线L。

此时，将由X轴和直线L形成的角度θ定义为表示音频对象OB11的位置的方位角position_azimuth，该角度θ对应于图4所示的方位角position_azimuth[i]。

此外，由直线r和XY平面形成的角度φ是表示音频对象OB11的位置的仰角position_elevation，直线r的长度是表示音频对象OB11的半径position_radius。

即，角度φ对应于图4所示的仰角position_elevation[i]，而直线r的长度对应于图4所示的半径position_radius[i]。

例如，原点O的位置是收听包括音频对象等的声音的内容声音的收听者(用户)的位置，以及X方向上正方向(X轴方向)，即，图5中的前方向是从收听者看到的前方向，并且Y方向上正方向(Y轴方向)，即图5中的右方向是从收听者看到的左方向。

如上所述，在音频对象位置信息中，音频对象的位置由球面坐标表示。

由这样的音频对象位置信息指示的音频对象在收听空间中的位置，是在每个预定时间段中变化的物理量。在再现内容时，可以根据音频对象位置信息的改变来移动音频对象的声音图像定位位置。

＜渲染手法的选择＞

接下来，将参考图6至图8描述由渲染手法选择单元51选择渲染手法的具体示例。

注意，在图6至图8中，用相同的附图标记表示彼此对应的部分，并且适当地省略其描述。此外，在本技术中，将收听空间假设为三维空间。然而，本技术适用于收听空间是二维平面的情况。在图6至图8中，为了简单起见，将基于收听空间是二维平面的假设进行描述。

例如，如图6所示，假设作为收听内容声音的用户的收听者U21位于原点O的位置，并且用于再现内容声音的5个扬声器SP11至SP15被布置在以原点O为中心具有半径R_SP的圆的圆周上。即，从原点O到扬声器SP11至SP15中的每一个的距离是在包括原点O的水平位置上的半径R_SP。

此外，在收听空间中存在两个音频对象OBJ1和音频对象OBJ2。然后，从原点O(即收听者U21)到音频对象OBJ1的距离是R_OBJ1，并且从原点O到音频对象OBJ2的距离是R_OBJ2。

具体地，在此，由于音频对象OBJ1位于布置扬声器的圆的外部，因此距离R_OBJ1具有比半径R_SP大的值。

相反，由于音频对象OBJ2位于布置扬声器的圆的内部，因此距离R_OBJ2具有比半径R_SP小的值。

这些距离R_OBJ1和R_OBJ2是包括在音频对象OBJ1和OBJ2的相应音频对象位置信息中的半径position_radius[i]。

渲染手法选择单元51通过将预定半径R_SP与距离R_OBJ1和R_OBJ2进行比较，来选择要对音频对象OBJ1和OBJ2执行的渲染手法。

具体地，例如，在从原点O到音频对象的距离等于或大于半径R_SP的情况下，选择摇摄处理作为渲染手法。

相反，在从原点O到音频对象的距离小于半径R_SP的情况下，选择头相关传递函数处理作为渲染手法。

因此，在该示例中，对于具有等于或大于半径R_SP的距离R_OBJ1的音频对象OBJ1，选择摇摄处理，并且将音频对象OBJ1的音频对象位置信息和音频对象信号提供给摇摄处理单元52。然后，摇摄处理单元52例如对音频对象OBJ1执行诸如参照图1描述的VBAP的处理作为摇摄处理。

同时，对于距离R_OBJ2小于半径R_SP的音频对象OBJ2，选择头相关传递函数处理，并将音频对象OBJ2的音频对象位置信息和音频对象信号提供给头相关传递函数处理单元53。

然后，头相关传递函数处理单元53例如针对音频对象OBJ2，使用如图7所示的头相关传递函数执行头相关传递函数处理，并且针对音频对象OBJ2生成头相关传递函数处理输出信号。

在图7所示的示例中，首先，头相关传递函数处理单元53基于音频对象OBJ2的音频对象位置信息，读出用于右耳和左耳的头相关传递函数，更具体地，预先准备用于音频对象OBJ2在收听空间中的位置的头相关传递函数滤波器。

在此，例如，将布置扬声器SP11至SP15的圆圈内(原点O侧)的区域中的一些点设定为采样点。然后，对于这些采样点中的每一个，为右耳和左耳中每一个预先准备头相关传递函数，该函数指示从采样点到位于原点O的收听者U21的耳朵的声音的传输特性头相关，并将该头相关传递函数保持在头相关传递函数处理单元53中。

头相关传递函数处理单元53读取最接近音频对象OBJ2位置的采样点的头相关传递函数，作为音频对象OBJ2的位置处的头相关传递函数。注意，在音频对象OBJ2位置处的头相关传递函数可以通过插值处理来生成，例如从在音频对象OBJ2位置附近的一些采样点处的头相关传递函数的线性插值。

另外，例如，可以将音频对象OBJ2位置处的头相关传递函数存储在输入比特流的元数据中。在这种情况下，渲染手法选择单元51将从核心解码处理单元21提供的音频对象位置信息和头相关传递函数作为元数据，提供给头相关传递函数处理单元53。

在下文中，在音频对象位置处的头相关传递函数也被具体地称为对象位置头相关传递函数。

接下来，头相关传递函数处理单元53基于音频对象OBJ2在收听空间中的位置来选择扬声器(声道)，被呈现给收听者U21的右耳和左耳中每一个的声音的信号作为输出音频信号(头相关传递函数处理输出信号)被提供给该扬声器(声道)。在下文中，用作呈现给收听者U21的左耳或右耳的声音的输出音频信号的输出目的地的扬声器，将被具体称为选定扬声器。

在此，例如，头相关传递函数处理单元53选择位于从收听者U21观看的音频对象OBJ2的左侧、并且位于最靠近音频对象OBJ2的位置处的扬声器SP11，作为用于左耳的选定扬声器。类似地，头相关传递函数处理单元53选择位于从收听者U21观看的音频对象OBJ2的右侧、并且位于最靠近音频对象OBJ2的位置的扬声器SP13，作为用于右耳的选定扬声器。

当如上所述选择用于右耳和左耳的选定扬声器时，头相关传递函数处理单元53在选定扬声器的布置位置处获得头相关传递函数，更具体地，头相关传递函数滤波器。

具体地，例如，头相关传递函数处理单元53基于预先保存的采样位置处的头相关传递函数适当地执行内插处理，以头相关生成扬声器SP11和SP13位置处的头相关传递函数。

注意，此外，扬声器的设置位置处的头相关传递函数可以预先保存在头相关传递函数处理单元53中，或者可以将选定扬声器的设置位置处的头相关传递函数作为元数据存储在输入比特流中。

在下文中，在选定扬声器的布置位置处的头相关传递函数也被称为扬声器位置头相关传递函数。

此外，头相关传递函数处理单元53将音频对象OBJ2的音频对象信号与左耳对象位置头相关传递函数进行卷积，并将作为卷积结果而获得的信号与左耳扬声器位置头相关传递函数进行卷积以生成左耳音频信号。

类似地，头相关传递函数处理单元53将音频对象OBJ2的音频对象信号与右耳对象位置头相关传递函数进行卷积，并将作为卷积结果而获得的信号与右耳扬声器位置头相关传递函数进行卷积以生成右耳音频信号。

这些左耳音频信号和右耳音频信号是用于渲染音频对象OBJ2的声音以使得收听者U21感知该声音好像来自音频对象OBJ2的位置的信号。即，左耳音频信号和右耳音频信号是在音频对象OBJ2的位置处实施声音图像定位的音频信号。

例如，假设通过基于左耳音频信号从扬声器SP11输出声音，将再现声音O2_SP11呈现到收听者U21的左耳，同时，通过基于右耳音频信号从扬声器SP13输出声音，将再现声音O2_SP13呈现到收听者U21的右耳。在这种情况下，收听者U21感知音频对象OBJ2的声音，就好像从音频对象OBJ2的位置听到了该声音。

在图7中，再现声音O2_SP11由连接扬声器SP11和收听者U21的左耳的箭头表示，再现声音O2_SP13由连接扬声器SP13和收听者U21的右耳的箭头表示。

然而，当基于左耳音频信号从扬声器SP11实际输出声音时，声音不仅到达收听者U21的左耳而且还到达收听者U21的右耳。

在图7中，当基于左耳音频信号从扬声器SP11输出声音时，从扬声器SP11传播到收听者U21的右耳的再现声音O2_SP11-CT由连接扬声器SP11和收听者U21的右耳的箭头表示。

再现声音O2_SP11-CT是泄漏给收听者U21的右耳的再现声音O2_SP11的串扰分量。即，再现声音O2_SP11-CT是再现声音O2_SP11到达收听者U21的非目标耳(这里为右耳)的串扰分量。

类似地，当基于右耳音频信号从扬声器SP13输出声音时，声音不仅到达收听者U21的目标右耳，而且还到达收听者U21的非目标左耳。

在图7中，当基于右耳音频信号从扬声器SP13输出声音时，从扬声器SP13传播到收听者U21的左耳的再现声音O2_SP13-CT由连接扬声器SP13和收听者U21的左耳的箭头表示。再现声音O2_SP13-CT是再现声音O2_SP13的串扰分量。

由于作为串扰分量的再现声音O2_SP11-CT和再现声音O2_SP13-CT是显著损害声音图像再现性的因素，因此通常进行包括串扰校正的空间传递函数校正处理。

即，头相关传递函数处理单元53基于左耳音频信号，生成消除信号(cancelsignal)用于消除作为串扰分量的再现声音O2_SP11-CT，并且基于左耳音频信号和消除信号生成最终左耳音频信号。然后，将以这种方式获得的包括串扰消除分量和空间传递函数校正分量的最终左耳音频信号，用作与扬声器SP11对应的声道的头相关传递函数处理输出信号。

类似地，头相关传递函数处理单元53基于右耳音频信号，生成消除信号用于消除作为串扰分量的再现声音O2_SP13-CT，并且基于右耳音频信号和消除信号生成最终右耳音频信号。然后，将以这种方式获得的包括串扰消除分量和空间传递函数校正分量的最终右耳音频信号，用作与扬声器SP13对应的声道的头相关传递函数处理输出信号。

对扬声器执行渲染的包括如上所述生成左耳音频信号和右耳音频信号的串扰校正处理的处理被称为跨耳处理(transaural processing)。在例如日本专利申请公开号2016-140039等中详细描述了这种跨耳处理。

注意，本文已经描述了为右耳和左耳中的每一个选择一个扬声器作为选定扬声器的示例。然而，可以为右耳和左耳中的每一个选择两个或两个以上扬声器作为选定扬声器，而且对于每两个或两个以上选定扬声器可以生成左耳音频信号和右耳音频信号。例如，可以将构成扬声器系统的所有扬声器(例如扬声器SP11至SP15)选择为选定扬声器。

此外，例如，在输出音频信号的输出目的地是诸如右和左两声道的头戴式耳机的再现装置的情况下，可以执行双耳处理(binaural processing)作为头相关传递函数处理。该双耳处理是使用头相关传递函数，将音频对象(音频对象信号)渲染给输出单元(例如佩戴在右耳和左耳上的头戴式耳机)的渲染处理。

在这种情况下，例如，在从收听位置到音频对象的距离等于或大于预定距离的情况下，选择向左右声道分配增益的摇摄处理作为渲染手法。另一方面，在从收听位置到音频对象的距离小于预定距离的情况下，选择双耳处理作为渲染手法。

顺便说一下，已经给出了图6中的描述，使得根据从原点O(收听者U21)到音频对象的距离是否等于或大于半径R_SP，来选择摇摄处理或头相关传递函数处理作为音频对象的渲染手法。

然而，例如，音频对象可以随着时间从等于或大于半径R_SP距离的位置逐渐接近收听者U21，如图8所示。

图8示出了这样的状态，其中在预定时间从收听者U21观看时，位于大于半径R_SP的距离处的音频对象OBJ2随着时间接近收听者U21。

在此，将以原点O为中心半径R_SP的圆内的区域定义为扬声器半径区域RG11，将以原点O为中心半径R_HRTF的圆内的区域定义为HRTF区域RG12，并且将扬声器半径区域RG11中除了HRTF区域RG12之外的区域定义为过渡区域R_TS。

即，过渡区域R_TS是距原点O(收听者U21)的距离是距半径R_HRTF和半径R_SP的距离的区域。

现在，例如，假设音频对象OBJ2从扬声器半径区域RGI之外的位置向收听者U21侧逐渐移动，并且在特定定时到达过渡区域R_TS内的位置，然后进一步向HRTF区域RG12内的位置移动并且已经到达HRTF区域RG12内的位置。

在这种情况下，如果根据到音频对象OBJ2的距离是否等于或大于半径R_SP来选择渲染手法，则在音频对象OBJ2已经到达过渡区域R_TS内部的时间点突然切换渲染手法。然后，在音频对象OBJ2的声音中可能发生不连续性，这可能造成不自然的感觉。

因此，当音频对象位于过渡区域R_TS中时，摇摄处理和头相关传递函数处理均可被选择作为渲染手法，使得在切换渲染手法时不会发生不自然的感觉。

在这种情况下，当音频对象在扬声器半径区域RG11的边界上或在扬声器半径区域RG11之外时，摇摄处理被选择为渲染手法。

此外，当音频对象在过渡区域R_TS内时，即，当从收听位置到音频对象的距离等于或大于半径R_HRTF并且小于半径R_SP时，选择摇摄处理和头相关传递函数处理两者作为渲染手法。

然后，当音频对象在HRTF区域RG12内时，选择头相关传递函数处理作为渲染手法。

具体地，当音频对象在过渡区域R_TS内时，根据音频对象的位置在校正处理中改变头相关传递函数处理输出信号和摇摄处理输出信号的混合比(共混比)而，由此可以防止音频对象的声音在时间方向上发生不连续性。

此时，执行校正处理，使得当音频对象位于更靠近过渡区域R_TS中的扬声器半径区域RG11的边界位置时，最终输出音频信号变得更接近摇摄处理输出信号。

相反，执行校正处理，使得当音频对象位于更靠近过渡区域R_TS中的HRTF区域RG12的边界位置时，最终输出音频信号变得更接近头相关传递函数处理输出信号。

通过这样做，可以防止音频对象的声音在时间方向上发生不连续性，并且可以实施自然声音的再现而不会感觉到奇怪。

在此，作为校正处理的具体示例，将描述音频对象OBJ2位于过渡区域R_TS中具有距原点O的距离R₀的位置(注意，R_HRTF≤R₀＜R_SP)处的情况。

注意，在此，为了简化描述，将使用仅生成对应于扬声器SP11的声道和对应于扬声器SP13的声道的信号作为输出音频信号的情况，作为示例进行描述。

例如，与扬声器SP11对应的声道的摇摄处理输出信号(通过摇摄处理生成的信号)是O2_PAN11(R₀)，以及与扬声器SP13对应的声道的摇摄处理输出信号(通过摇摄处理生成的信号)是O2_PAN13(R₀)。

此外，与扬声器SP11对应的声道的的头相关传递函数处理输出信号(通过头相关传递函数处理生成的信号)是O2_HRTF11(R₀)，以及与扬声器SP13对应的声道的的头相关传递函数处理输出信号(通过头相关传递函数处理生成的信号)是O2_HRTF13(R₀)头相关。

在这种情况下，可以通过计算以下表达式(3)来获得与扬声器SP11对应的声道的输出音频信号O2_SP11(R₀)和与扬声器SP13对应的声道的输出音频信号O2_SP13(R₀)。即，混合处理单元54执行以下表达式(3)的计算作为校正处理。

[数学式3]

在如上所述音频对象处于过渡区域R_TS内的情况下，执行以根据到音频对象的距离R₀的比例将摇摄处理输出信号和头相关传递函数处理输出信号相加(组合)以获得输出音频信号的校正处理。换言之，根据距离R₀成比例地划分摇摄处理的输出和头相关传递函数处理的输出。

通过这样做，例如，在音频对象移动越过扬声器半径区域RG11的边界位置的情况下，即使在音频对象从扬声器半径区域RG11的外部移动到内部的情况下，也能够再现平滑声音，而没有不连续性。

注意，在以上描述中，将收听者所在的收听位置设置为原点O，并且收听位置总是位于相同位置的情况，已经作为示例进行了描述。然而，收听者可以随时间移动。在这种情况下，相对于收听者每次作为原点O的位置，简单地重新计算从原点O观看的音频对象和扬声器的相对位置。

＜音频输出处理的描述＞

接下来，将描述信号处理装置11的具体操作。换言之，在下文中，将参考图9中的流程图来描述信号处理装置11的音频输出处理。注意，这里为了简单起见，将假设在输入比特流中只存储一个音频对象数据来进行描述。

在步骤S11中，核心解码处理单元21对接收到的输入比特流进行解码，并将作为解码的结果获得的音频对象位置信息和音频对象信号提供给渲染手法选择单元51。

在步骤S12中，渲染手法选择单元51基于从核心解码处理单元21提供的音频对象位置信息，来确定是否执行摇摄处理作为对音频对象的渲染。

例如，在步骤S12中，在从收听者到由音频对象位置信息指示的音频对象的距离等于或大于参考图8描述的半径R_HRTF的情况下，确定要执行摇摄处理。即，至少选择摇摄处理作为渲染手法。

注意，作为另一操作，存在指令输入，用于由操作信号处理装置11等的用户给出是否执行摇摄处理的指令。在通过指令输入指定了执行摇摄处理(给出了其上的指令)的情况下，摇摄处理可以被确定在步骤S12中执行。在这种情况下，通过用户输入的指令等来选择要执行的渲染手法。

在步骤S12中确定为不进行摇摄处理的情况下，不执行步骤S13的处理，然后进入步骤S14。

另一方面，在步骤S12中确定为要执行摇摄处理的情况下，渲染手法选择单元51将从核心解码处理单元21提供的音频对象位置信息和音频对象信号提供给摇摄处理单元52，然后处理进行到步骤S13。

在步骤S13中，摇摄处理单元52基于从渲染手法选择单元51提供的音频对象位置信息和音频对象信号执行摇摄处理，以生成摇摄处理输出信号。

例如，在步骤S13中，执行上述VBAP等作为摇摄处理。摇摄处理单元52将摇摄处理获得的摇摄处理输出信号提供给混合处理单元54。

在已经执行了步骤S13中的处理或者在步骤S12中确定不执行摇摄处理的情况下，执行步骤S14中的处理。

在步骤S14中，渲染手法选择单元51基于从核心解码处理单元21提供的音频对象位置信息，来确定是否执行头相关传递函数处理作为对音频对象的渲染。

例如，在步骤S14中，在从收听者到由音频对象位置信息指示的音频对象的距离小于参考图8描述的半径R_SP的情况下，确定要执行头相关传递函数处理。即，至少选择头相关传递函数处理作为渲染手法。

注意，作为另一操作，存在指令输入，用于由操作信号处理装置11等的用户给出是否执行头相关传递函数处理的指令。在由指令输入指定了执行头相关传递函数处理(给出了其上的指令)的情况下，可以在步骤S14中确定要执行头相关传递函数处理。

在步骤S14中确定不执行头相关传递函数处理的情况下，不进行步骤S15至S19的处理，然后进入步骤S20。

另一方面，在步骤S14中确定要执行头相关传递函数处理的情况下，渲染手法选择单元51将从核心解码处理单元21提供的音频对象位置信息和音频对象信号提供给头相关传递函数处理单元53，然后处理进行到步骤S15。

在步骤S15中，头相关传递函数处理单元53基于从渲染手法选择单元51提供的音频对象位置信息，来获取音频对象的位置的对象位置头相关传递函数。

例如，对象位置头相关传递函数可以是预先存储的要读取的对象位置头相关传递函数，可以通过在预先存储的多个头相关传递函数之间进行内插处理来获得，或者可以从输入比特流中读取。

在步骤S16中，头相关传递函数处理单元53基于从渲染手法选择单元51提供的音频对象位置信息来选择选定扬声器，并且获取选定扬声器的位置的扬声器位置头相关传递函数。

例如，扬声器位置头相关传递函数可以是预先存储的要读取的扬声器位置头相关传递函数，可以通过在预先存储的多个头相关传递函数之间进行内插处理来获得，或者可以从输入比特流中读取。

在步骤S17中，头相关传递函数处理单元53对于右耳和左耳中的每一个，将从渲染手法选择单元51提供的音频对象信号与在步骤S15中获得的对象位置头相关传递函数进行卷积。

在步骤S18中，头相关传递函数处理单元53对于右耳和左耳中的每一个，将在步骤S17中获得的音频信号与扬声器位置头相关传递函数进行卷积。由此，获得左耳音频信号和右耳音频信号。

在步骤S19中，头相关传递函数处理单元53基于左耳音频信号和右耳音频信号生成头相关传递函数处理输出信号，并将头相关传递函数处理输出信号提供给混合处理单元54。例如，在步骤S19中，如参照图7所述，适当地生成消除信号，并且生成最终的头相关传递函数处理输出信号。

通过上述步骤S15至S19的处理，执行参照图8描述的跨耳处理作为头相关传递函数处理，并且生成头相关传递函数处理输出信号。注意，例如，在输出音频信号的输出目的地不是扬声器而是诸如头戴式耳机的再现装置的情况下，执行双耳处理等作为头相关传递函数处理，并且生成头相关传递函数处理输出信号。

在已经执行步骤S19中的处理或者在步骤S14中确定不执行头相关传递函数处理的情况下，然后执行步骤S20中的处理。

在步骤S20，混合处理单元54组合从摇摄处理单元52提供的摇摄处理输出信号和从头相关传递函数处理单元53提供的头相关传递函数处理输出信号以生成输出音频信号。

例如，在步骤S20中，执行上述表达式(3)的计算作为校正处理，并且生成输出音频信号。

另外，例如在进行步骤S13的处理而不进行步骤S15至S19的处理的情况下，或者在进行步骤S15至S19的处理而不进行步骤S13的处理的情况下，不进行校正处理。

即，例如，在仅执行摇摄处理作为渲染处理的情况下，将作为摇摄处理的结果而获得的摇摄处理输出信号原样用作输出音频信号。同时，在仅执行头相关传递函数处理作为渲染处理的情况下，将作为头相关传递函数处理的结果而获得的头相关传递函数处理输出信号原样用作输出音频信号。

注意，在此，已经描述了输入比特流中仅包括一个音频对象的数据的示例。然而，在包括多个音频对象的数据的情况下，混合处理单元54执行混合处理。即，对于每个声道将针对音频对象获得的输出音频信号相加(组合)以获得一个最终输出音频信号。

当以这种方式获得输出音频信号时，混合处理单元54将获得的输出音频信号输出到后续级，并且终止音频输出处理。

如上所述，信号处理装置11基于音频对象位置信息(即，基于从收听位置到音频对象的距离)，从多个渲染手法中选择一种或多种渲染手法。然后，信号处理装置11通过选定渲染手法执行渲染，以生成输出音频信号。

由此，能够以少量的计算提高声音图像的再现性。

即，例如，当音频对象位于远离收听位置的位置时，选择摇摄处理作为渲染手法。在这种情况下，由于音频对象位于距离收听位置足够远的位置，因此不必考虑声音到达收听者左耳和右耳的到达时间差，并且即使通过少量计算，也能够以足够的再现性来定位声音图像。

同时，例如当音频对象位于靠近收听位置的位置时，选择头相关传递函数处理作为渲染手法。在这种情况下，尽管计算量稍微增加，但是可以以足够的再现性来定位声音图像。

这样，通过根据从收听位置到音频对象的距离适当地选择摇摄处理和头相关传递函数处理，能够在抑制整体计算量的同时实施具有足够再现性的声音图像定位。换言之，能够通过少量的计算提高声音图像的再现性。

注意，在以上描述中，已经描述了当音频对象位于过渡区域R_TS内时选择摇摄处理和头相关传递函数处理作为渲染手法的示例。

然而，在到音频对象的距离等于或大于半径R_SP的情况下，可以选择摇摄处理作为渲染手法，而在到音频对象的距离小于半径R_SP的情况下，可以选择头相关传递函数处理作为渲染手法。

在这种情况下，当根据从收听位置到音频对象的距离选择头相关传递函数处理作为渲染手法时，例如，使用头相关传递函数执行头相关传递函数处理，从而可以防止不连续性的发生。

具体地，在头相关传递函数处理单元53中，随着到音频对象的距离越长(即，音频对象的位置越靠近扬声器半径区域RG11的边界位置)，简单地使右耳和左耳的头相关传递函数基本上相同。

换言之，头相关传递函数处理单元53选择用于右耳和左耳的头相关传递函数以用于头相关传递函数处理，使得随着到音频对象的距离更接近半径R_SP，左耳头相关传递函数和右耳头相关传递函数之间的相似性变得更高。

例如，头相关传递函数之间的相似性变得更高可以是左耳头相关传递函数与右耳头相关传递函数之间的差异变得更小等。在这种情况下，例如，当到音频对象的距离大约为半径R_SP时，对于左耳和右耳使用共同的头相关传递函数。

相反，随着到音频对象的距离更短(即，音频对象更接近收听位置)，头相关传递函数处理单元53将更接近通过实际测量音频对象的位置而获得的头相关传递函数，头相关用作右耳和左耳的头相关传递函数头相关头相关。

通过这样做，可以防止不连续性的发生，并且可以实施自然声音的再现而不会感到不自然。这是因为在使用头相关相同的头相关传递函数作为左耳和右耳的头相关传递函数来生成头相关传递函数处理输出信号的情况下，头相关传递函数处理输出信号变得与摇摄处理输出信号相同。

因此，通过根据从收听位置到音频对象的距离使用用于右耳和左耳的头相关传递函数，可以获得与上述式(3)的校正处理的效果类似的效果。

此外，在选择渲染手法时，可以考虑信号处理装置11的资源的可用性、音频对象的重要性等。

例如，在信号处理装置11的资源充足的情况下，渲染手法选择单元51选择头相关传递函数处理作为渲染手法，因为可以为渲染分配大量资源。相反，在信号处理装置11的资源不足的情况下，渲染手法选择单元51选择摇摄处理作为渲染手法。

此外，在要处理的音频对象的重要性等于或大于预定重要性的情况下，渲染手法选择单元51例如选择头相关传递函数处理作为渲染手法。相反，在要处理的音频对象的重要性小于预定重要性的情况下，渲染手法选择单元51选择摇摄处理作为渲染手法。

因此，以更高的再现性来定位具有高重要性的音频对象的声音图像，并且以某种再现性来定位具有低重要性的音频对象的声音图像，从而可以减少处理量。因此，能够通过整体上少量的计算来提高声音图像的再现性。

注意，在基于音频对象的重要性选择渲染手法的情况下，每个音频对象的重要性可以作为音频对象的元数据被包括在输入比特流中。此外，可以通过外部操作输入等来指定音频对象的重要性。

＜第二实施例＞

＜头相关传递函数处理＞

此外，在以上描述中，已经描述了执行跨耳处理作为头相关传递函数处理的示例。即，已经描述了在头相关传递函数处理中对扬声器执行渲染的示例。

然而，另外，例如，可以使用虚拟扬声器的概念作为头相关传递函数处理来执行对头戴式耳机再现性的渲染。

例如，与在扬声器上执行渲染的情况一样，在头戴式耳机等上渲染大量音频对象的情况下，用于执行头相关传递函数处理的计算成本变大。

即使在MPEG-H部分3：3D音频标准的头戴式耳机渲染中，所有音频对象都由VBAP在虚拟扬声器上摇摄(渲染)，然后使用来自虚拟扬声器的头相关传递函数在头戴式耳机上渲染。

如上所述，本技术可以应用于输出音频信号的输出目的地是诸如头戴式耳机的再现装置的情况，该再现装置从右左两个声道再现声音，并且音频对象一旦在虚拟扬声器上渲染，然后使用头相关传递函数在再现装置上进一步渲染。

在这种情况下，渲染手法选择单元51将图8所示的扬声器SP11至SP15看作例如虚拟扬声器，并且在渲染时简单地从多个渲染手法中选择一种或多种渲染手法作为渲染手法。

例如，在从收听位置到音频对象的距离等于或大于半径R_SP的情况下，即，在音频对象位于从收听位置看来远离虚拟扬声器的位置的位置的情况下，简单地选择摇摄处理作为渲染手法。

在这种情况下，通过摇摄处理来执行虚拟扬声器上的渲染。然后，基于通过摇摄处理获得的音频信号和对于右耳和左耳中的每一个从虚拟扬声器到收听位置的头相关传递函数，通过头相关传递函数处理进一步执行在诸如头戴式耳机的再现装置上的渲染，并且生成输出音频信号。

相反，在到音频对象的距离小于半径R_SP的情况下，简单地选择头相关传递函数处理作为渲染手法。在这种情况下，通过作为头相关传递函数处理的双耳处理直接在诸如头戴式耳机的再现装置上执行渲染，并且生成输出音频信号。

由此，能够在整体上抑制渲染的处理量的同时实施高再现性的声音图像定位。即，能够通过少量的计算来提高声音图像的再现性。

＜第三实施例＞

＜渲染手法的选择＞

此外，在选择渲染手法时，即在切换渲染手法时，可以将每次选择渲染手法所需的部分或全部参数(诸如每一帧)存储在输入比特流中并被发送。

在这种情况下，基于本技术的编码格式，即音频对象的元数据，例如如图10所示。

在图10所示的示例中，除了图4所示的上述示例之外，还在元数据中存储“radius_hrtf”和“radius_panning”。

在此，radius_hrtf是指示距收听位置(原点O)的距离的信息(参数)，用于确定是否选择头相关传递函数处理作为渲染手法。相反，radius_panning是指示距收听位置(原点O)的距离的信息(参数)，用于确定是否选择摇摄处理作为渲染手法。

因此，在图10所示的示例中，在元数据中存储每个音频对象的音频对象位置信息、距离radius_hrtf和距离radius_panning。这些信息作为元数据由核心解码处理单元21读取并提供给渲染手法选择单元51。

在这种情况下，当从收听者到音频对象的距离等于或小于距离radius_hrtf时，渲染手法选择单元51选择头相关传递函数处理作为渲染手法，而不管指示从收听者到每个扬声器的距离的半径R_SP。此外，当从收听者到音频对象的距离大于距离radius_hrtf时，渲染手法选择单元51不选择头相关传递函数处理作为渲染手法。

类似地，当从收听者到音频对象的距离等于或大于距离radius_panning时，渲染手法选择单元51选择摇摄处理作为渲染手法。此外，当从收听者到音频对象的距离小于距离radius_panning时，渲染手法选择单元51不选择摇摄处理作为渲染手法。

注意，距离radius_hrtf和距离radius_panning可以是彼此相同的距离或不同的距离。具体地，在距离radius_hrtf大于距离radius_panning的情况下，当从收听者到音频对象的距离等于或大于距离radius_panning并且等于或小于距离radius_hrtf时，选择摇摄处理和头相关传递函数处理两者作为渲染手法。

在这种情况下，混合处理单元54基于摇摄处理输出信号和头相关传递函数处理输出信号执行上述表达式(3)的计算以生成输出音频信号。即，通过校正处理，根据从收听者到音频对象的距离，按比例划分摇摄处理输出信号和头相关传递函数处理输出信号，生成输出音频信号。

＜第三实施例的第一变型例＞

＜渲染手法的选择＞

此外，每次(诸如每一帧)为输入比特流的输出侧(即，内容创建者侧)的每个音频对象选择渲染手法，并且指示选择结果的选择指令信息可以作为元数据存储在输入比特流中。

选择指示信息是指示为音频对象选择什么渲染手法的指示的信息，并且渲染手法选择单元51基于从核心解码处理单元21提供的选择指示信息来选择渲染手法。换言之，渲染手法选择单元51为音频对象信号选择由选择指示信息指定的渲染手法。

例如，在将选择指示信息存储在输入比特流中的情况下，基于本技术的编码格式，即音频对象的元数据，如图11所示。

在图11所示的示例中，除了图4所示的上述示例之外，“flg_rendering_type”还被存储在元数据中。

flg_rendering_type是指示将使用哪个渲染手法的选择指示信息。具体地，在此，选择指示信息flg_rendering_type是指示是否选择摇摄处理或头相关传递函数处理作为渲染手法的标志信息(参数)。

具体地，例如，选择指示信息flg_rendering_type的值“0”指示摇摄处理被选择为渲染手法。同时，选择指示信息flg_rendering_type的值“1”指示头相关传递函数处理被选择为渲染手法。

例如，元数据为每一帧(每次)的每个音频对象存储这种选择指示信息。

因此，在图11所示的示例中，对于每个音频对象，将音频对象位置信息和选择指示信息flg_rendering_type存储在元数据中。这些信息作为元数据由核心解码处理单元21读取并提供给渲染手法选择单元51。

在这种情况下，无论收听者到音频对象的距离如何，渲染手法选择单元51都根据选择指示信息flg_rendering_type的值来选择渲染手法。即，在选择指示信息flg_rendering_type的值为“0”时渲染手法选择单元51选择摇摄处理作为渲染手法，并且在选择指示信息flg_rendering_type的值为“1”时选择头相关传递函数处理作为渲染手法。

注意，在此，已经描述了选择指示信息flg_rendering_type的值是“0”或“1”的示例。然而，选择指示信息flg_rendering_type可以是多个值中的3种或3种以上类型中的任何一种。例如，在选择指示信息flg_rendering_type的值为“2”的情况下，可以选择摇摄处理和头相关传递函数处理作为渲染手法。

如上所述，根据本技术，例如，如第一实施例至第三实施例的第一变形例所述，即使在存在大量音频对象的情况下，也能够在抑制计算量的同时实施高再现性的声音图像表现。

具体地，本技术不仅可应用于使用真实扬声器的扬声器再现，而且还可应用于通过使用虚拟扬声器再现的头戴式耳机再现。

此外，根据本技术，通过在编码标准中(即在输入比特流中)，存储选择渲染手法所需的参数作为元数据，内容创建者侧可以控制渲染手法的选择。

＜计算机的配置示例＞

通过上述方式，可以通过硬件或软件来执行上述一系列处理。在通过软件执行系列处理的情况下，配置软件的程序安装在计算机中。在此，计算机的示例包括结合在专用硬件中的计算机，以及能够通过安装例如各种程序来执行各种功能的通用个人计算机等。

图12是示出通过程序执行上述一系列处理的计算机的硬件配置示例的框图。

在计算机中，中央处理器(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。

此外，输入/输出接口505连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接到输入/输出接口505。

输入单元506包括键盘、鼠标、麦克风、成像元件等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移动记录介质511。

在如上所述配置的计算机中，CPU 501例如将记录单元508中记录的程序加载到RAM 503中，并经由输入/输出接口505和总线504执行该程序，从而执行上述一系列处理。

计算机(CPU 501)要执行的程序例如可以作为封装介质等记录在可移动记录介质511上，并被提供。此外，可以经由诸如局域网、互联网或数字卫星广播的有线或无线传输介质来提供程序。

在计算机中，通过将可移动记录介质511附着到驱动器510，可以经由输入/输出接口505将程序安装到记录单元508。此外，程序可由通信单元509经由有线或无线传输介质接收并被安装在记录单元508中。除了上述方法之外，程序可以预先安装在ROM 502或记录单元508中。

注意，由计算机执行的程序可以是根据本说明书中描述的顺序按时间顺序处理的程序，或者可以是并行执行的程序，或者是在诸如进行调用时的必要时刻执行的程序。

此外，本技术的实施例不限于上述实施例，并且在不脱离本技术的要旨的情况下可以进行各种修改。

例如，在本技术中，可以采用由多个装置通过网络共享和协作处理一个功能的云计算的配置。

此外，在上述流程图中描述的步骤可以由一个装置执行，或者可以由多个装置共享和执行。

此外，在一个步骤中包括多个处理的情况下，该一个步骤中包括的多个处理可以由一个装置执行或者可以由多个装置共享和执行。

此外，本技术可以配置如下。

(1)

一种信号处理装置，包括：

渲染手法选择单元，被配置为从多种方法中选择用于在收听空间中定位音频信号的声音图像的一种或多种渲染处理方法；以及

渲染处理单元，被配置为通过由渲染手法选择单元选择的方法对音频信号执行渲染处理。

(2)

根据(1)的信号处理装置，其中

音频信号为音频对象的音频信号。

(3)

根据(1)或(2)的信号处理装置，其中

多种方法包括摇摄处理。

(4)

根据(1)至(3)中任一项的信号处理装置，其中

多种方法包括使用头相关传递函数的渲染处理。

(5)

根据(4)的信号处理装置，其中

使用头相关传递函数的渲染处理是跨耳处理或双耳处理。

(6)

根据(2)的信号处理装置，其中

渲染手法选择单元基于音频对象在收听空间中的位置来选择渲染处理的方法。

(7)

根据(6)的信号处理装置，其中

在从收听位置到音频对象的距离等于或大于预定第一距离的情况下，渲染手法选择单元选择摇摄处理作为渲染处理的方法。

(8)

根据(7)的信号处理装置，其中

在距离小于第一距离的情况下，渲染手法选择单元选择使用头相关传递函数的渲染处理作为渲染处理的方法。

(9)

根据(8)的信号处理装置，其中

在距离小于第一距离的情况下，渲染处理单元根据从收听位置到音频对象的距离，执行使用头相关传递函数的渲染处理。

(10)

根据(9)的信号处理装置，其中

渲染处理单元选择头相关传递函数用于渲染处理，使得随着距离变得更接近第一距离，左耳的头相关传递函数与右耳的头相关传递函数之间的差异变得更小。

(11)

根据(7)的信号处理装置，其中

在距离小于与第一距离不同的第二距离的情况下，渲染手法选择单元选择使用头相关传递函数的渲染处理作为渲染处理的方法。

(12)

根据(11)的信号处理装置，其中

在距离大于或等于第一距离且小于第二距离的情况下，渲染手法选择单元选择摇摄处理和使用头相关传递函数的渲染处理作为渲染处理的方法。

(13)

根据(12)的信号处理装置，还包括：

输出音频信号生成单元，被配置为将通过摇摄处理获得的信号和通过使用头相关传递函数的渲染处理获得的信号组合以生成输出音频信号。

(14)

根据(1)至(5)中任一项的信号处理装置，其中

渲染手法选择单元选择为音频信号指定的方法作为渲染处理的方法。

(15)

一种信号处理方法，使信号处理装置执行：

从多种方法中选择用于在收听空间中定位音频信号的声音图像的渲染处理的一种或多种方法；并且

通过选择的方法对音频信号执行渲染处理。

(16)

一种程序，使计算机执行处理，所处理包括以下步骤：

从多种方法中选择用于在收听空间中定位音频信号的声音图像的渲染处理的一种或多种方法；以及

通过选择的方法对音频信号执行渲染处理。

参考符号列表

11 信号处理装置

21 核心解码处理单元

22 渲染处理单元

51 渲染手法选择单元

52 摇摄处理单元

53 头相关传递函数处理单元

54 混合处理单元。

Claims

1.一种信号处理装置，包含：

渲染手法选择单元，被配置为从多种不同手法中选择用于在收听空间中定位音频信号的声音图像的渲染处理的一种或多种手法；以及

渲染处理单元，被配置为通过由所述渲染手法选择单元选择的手法对所述音频信号执行所述渲染处理，

在从收听位置到音频对象的距离等于或大于预定的第一距离的情况下，所述渲染手法选择单元选择基于三维向量的幅度摇摄处理作为所述渲染处理的手法，

在所述距离小于与所述第一距离不同的第二距离的情况下，所述渲染手法选择单元选择使用头相关传递函数的渲染处理作为所述渲染处理的手法，

在所述距离大于或等于所述第一距离且小于所述第二距离的情况下，所述渲染手法选择单元选择所述摇摄处理和使用所述头相关传递函数的渲染处理作为所述渲染处理的手法。

2.根据权利要求1所述的信号处理装置，其中

所述音频信号为音频对象的音频信号。

3.根据权利要求1所述的信号处理装置，其中

所述多种不同手法包括摇摄处理。

4.根据权利要求1所述的信号处理装置，其中

所述多种不同手法包括使用头相关传递函数的渲染处理。

5.根据权利要求4所述的信号处理装置，其中

使用所述头相关传递函数的渲染处理是跨耳处理或双耳处理。

6.根据权利要求1所述的信号处理装置，其中

在所述距离小于所述第一距离的情况下，所述渲染手法选择单元选择使用头相关传递函数的渲染处理作为所述渲染处理的手法。

7.根据权利要求6所述的信号处理装置，其中

在所述距离小于所述第一距离的情况下，所述渲染处理单元根据从所述收听位置到所述音频对象的所述距离，执行使用所述头相关传递函数的渲染处理。

8.根据权利要求7所述的信号处理装置，其中

所述渲染处理单元选择所述头相关传递函数用于所述渲染处理，使得随着所述距离变得更接近所述第一距离，左耳的所述头相关传递函数与右耳的所述头相关传递函数之间的差异变得更小。

9.根据权利要求1所述的信号处理装置，还包含：

输出音频信号生成单元，被配置为将通过所述摇摄处理获得的信号和通过所述使用所述头相关传递函数的渲染处理获得的信号组合以生成输出音频信号。

10.根据权利要求1所述的信号处理装置，其中

所述渲染手法选择单元选择为所述音频信号指定的手法作为所述渲染处理的手法。

11.一种信号处理方法，使信号处理装置执行：

从多种不同手法中选择用于在收听空间中定位音频信号的声音图像的渲染处理的一种或多种手法；以及

通过选择的手法对所述音频信号执行所述渲染处理，

在从收听位置到音频对象的距离等于或大于预定的第一距离的情况下，渲染手法选择单元选择基于三维向量的幅度摇摄处理作为所述渲染处理的手法，

12.一种存储程序的计算机可读存储介质，当被执行时所述程序使计算机执行处理，所述处理包含以下步骤：

通过选择的手法对所述音频信号执行所述渲染处理，