CN1677491A - 一种增强音频编解码装置及方法 - Google Patents
一种增强音频编解码装置及方法 Download PDFInfo
- Publication number
- CN1677491A CN1677491A CNA2004100461540A CN200410046154A CN1677491A CN 1677491 A CN1677491 A CN 1677491A CN A2004100461540 A CNA2004100461540 A CN A2004100461540A CN 200410046154 A CN200410046154 A CN 200410046154A CN 1677491 A CN1677491 A CN 1677491A
- Authority
- CN
- China
- Prior art keywords
- module
- inverse
- frequency
- spectrum
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 97
- 238000013139 quantization Methods 0.000 claims abstract description 179
- 239000013598 vector Substances 0.000 claims abstract description 107
- 230000005236 sound signal Effects 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000013507 mapping Methods 0.000 claims abstract description 42
- 230000000873 masking effect Effects 0.000 claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims description 156
- 238000004458 analytical method Methods 0.000 claims description 61
- 230000003595 spectral effect Effects 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 26
- 238000001914 filtration Methods 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000006835 compression Effects 0.000 abstract description 8
- 238000007906 compression Methods 0.000 abstract description 8
- 238000005070 sampling Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 17
- 230000003044 adaptive effect Effects 0.000 description 11
- 238000010168 coupling process Methods 0.000 description 8
- 230000008878 coupling Effects 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000007493 shaping process Methods 0.000 description 6
- 238000005481 NMR spectroscopy Methods 0.000 description 5
- 230000006798 recombination Effects 0.000 description 5
- 238000005215 recombination Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000007480 spreading Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101500028021 Drosophila melanogaster Immune-induced peptide 16 Proteins 0.000 description 1
- 101000848724 Homo sapiens Rap guanine nucleotide exchange factor 3 Proteins 0.000 description 1
- 206010021403 Illusion Diseases 0.000 description 1
- 102100034584 Rap guanine nucleotide exchange factor 3 Human genes 0.000 description 1
- JDZPLYBLBIKFHJ-UHFFFAOYSA-N Sulfamoyldapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1S(N)(=O)=O JDZPLYBLBIKFHJ-UHFFFAOYSA-N 0.000 description 1
- 229920000535 Tan II Polymers 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000004350 spin decoupling difference spectroscopy Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
增强音频编码装置包括心理声学分析模块、时频映射模块、频域线性预测及矢量量化模块、量化和熵编码模块及比特流复用模块;心理声学分析模块计算输入信号的掩蔽阈值并判断信号类型,时频映射模块将输入的时域音频信号转变成频域系数后,由频域线性预测及矢量量化模块进行线性预测和多级矢量量化,输出残差序列到量化和熵编码模块中进行处理,同时输出边信息到比特流复用模块;比特流复用模块对边信息和编码信号进行复用,形成音频编码的码流。本发明适用于多种采样率、声道配置的音频信号的高保真压缩编码,可以支持采样率为8kHz到192kHz之间的音频信号;可支持所有可能的声道配置;并且支持范围很宽的目标码率的音频编/解码。
Description
技术领域
本发明涉及音频编解码技术领域,具体地说,涉及一种基于感知模型的增强音频编解码装置及方法。
背景技术
为得到高保真的数字音频信号,需对数字音频信号进行音频编码或音频压缩以便于存储和传输。对音频信号进行编码的目的是用尽可能少的比特数实现音频信号的透明表示,例如原始输入的音频信号与经编码后输出的音频信号之间几乎没有差别。
在二十世纪八十年代初,CD的出现体现了用数字表示音频信号的诸多优点,例如高保真度、大动态范围和强鲁棒性。然而,这些优点都是以很高的数据速率为代价的。例如CD质量的立体声信号的数字化所要求的采样率为44.1kHz,且每个采样值需用15比特进行均匀量化,这样,没有经过压缩的数据速率就达到了1.41Mb/s,如此高的数据速率给数据的传输和存储带来极大的不便,特别是在多媒体应用和无线传输应用的场合下,更是受到带宽和成本的限制。为了保持高质量的音频信号,因此要求新的网络和无线多媒体数字音频系统必须降低数据的速率,且同时不损害音频的质量。针对上述问题,目前已提出了多种既能得到很高压缩比又能产生高保真的音频信号的音频压缩技术,典型的有国际标准化组织ISO/IEC的MPEG-1/-2/-4技术、杜比公司的AC-2/AC-3技术、索尼公司的ATRAC/MiniDisc/SDDS技术以及朗讯科技的PAC/EPAC/MPAC技术等。下面选择MPEG-2 AAC技术、杜比公司的AC-3技术进行具体的说明。
MPEG-1技术和MPEG-2 BC技术是主要用于单声道及立体声音频信号的高音质编码技术,随着对在较低码率下达到较高编码质量的多声道音频编码的需求的日益增长,由于MPEG-2 BC编码技术强调与MPEG-1技术的后向兼容性,因此无法以低于540kbps的码率实现五声道的高音质编码。针对这一不足,提出了MPEG-2 AAC技术,该技术可采用320kbps的速率对五声道信号实现较高质量的编码。
图1给出了MPEG-2 AAC编码器的方框图,该编码器包括增益控制器101、滤波器组102、时域噪声整形模块103、强度/耦合模块104、心理声学模型、二阶后向自适应预测器105、和/差立体声模块106、比特分配和量化编码模块107以及比特流复用模块108,其中比特分配和量化编码模块107进一步包括压缩比/失真处理控制器、尺度因子模块、非均匀量化器和熵编码模块。
滤波器组102采用改进的离散余弦变换(MDCT),其分辨率是信号自适应的,即对于稳态信号采用2048点MDCT变换,而对于瞬态信号则采用256点MDCT变换;这样,对于48kHz采样的信号,其最大频率分辨率为23Hz,最大时间分辨率为2.6ms。同时在滤波器组102中可以使用正弦窗和Kaiser-Bessel窗,当输入信号的谐波间隔小于140Hz时使用正弦窗,当输入信号中很强的成分间隔大于220Hz时使用Kaiser-Bessel窗。
音频信号经过增益控制器101后进入滤波器组102,根据不同的信号进行滤波,然后通过时域噪声整形模块103对滤波器组102输出的频谱系数进行处理,时域噪声整形技术是在频域上对频谱系数进行线性预测分析,然后依据上述分析控制量化噪声在时域上的形状,以此达到控制预回声的目的。
强度/耦合模块104是用于对信号强度的立体声编码,由于对于高频段(大于2kHz)的信号,听觉的方向感与有关信号强度的变化(信号包络)有关,而与信号的波形无关,即恒包络信号对听觉方向感无影响,因此可利用这一特点以及多声道间的相关信息,将若干声道合成一个共同声道进行编码,这就形成了强度/耦合技术。
二阶后向自适应预测器105用于消除稳态信号的冗余,提高编码效率。和差立体声(M/S)模块106是针对声道对进行操作,声道对是指诸如双声道信号或多声道信号中的左右声道或左右环绕声道的两个声道。M/S模块106利用声道对中两个声道之间的相关性以达到减少码率和提高编码效率的效果。比特分配和量化编码模块107是通过一个嵌套循环过程实现的,其中非均匀量化器是进行有损编码,而熵编码模块是进行无损编码,这样可以去除冗余和减少相关。嵌套循环包括内层循环和外层循环,其中内层循环调整非均匀量化器的步长直到所提供的比特用完,外层循环则利用量化噪声与掩蔽阈值的比来估计信号的编码质量。最后经过编码的信号通过比特流复用模块108形成编码的音频流输出。
在采样率可伸缩的情况下,输入信号同时进行四频段多相位滤波器组(PQF)中产生四个等带宽的频带,每个频带利用MDCT产生256个频谱系数,总共有1024个。在每个频带内都使用增益控制器101。而在解码器中可以忽略高频的PQF频带得到低采样率信号。
图2给出了对应的MPEG-2 AAC解码器的方框示意图。该解码器包括比特流解复用模块201、无损解码模块202、逆量化器203、尺度因子模块204、和/差立体声(M/S)模块205、预测模块206、强度/耦合模块207、时域噪声整形模块208、滤波器组209和增益控制模块210。编码的音频流经过比特流解复用模块201进行解复用,得到相应的数据流和控制流。上述信号通过无损解码模块202的解码后,得到尺度因子的整数表示和信号谱的量化值。逆量化器203是一组通过压扩函数实现的非均匀量化器组,用于将整数量化值转换为重建谱。由于编码器中的尺度因子模块是将当前尺度因子与前一尺度因子进行差分,然后将差分值采用Huffman编码,因此解码器中的尺度因子模块204进行Huffman解码可得到相应的差分值,再恢复出真实的尺度因子。M/S模块205在边信息的控制下将和差声道转换成左右声道。由于在编码器中采用二阶后向自适应预测器105消除稳态信号的冗余并提高编码效率,因此在解码器中通过预测模块206进行预测解码。强度/耦合模块207在边信息的控制下进行强度/耦合解码,然后输出到时域噪声整形模块208中进行时域噪声整形解码,最后通过滤波器组209进行综合滤波,滤波器组209采用逆向改进离散余弦变换(IMDCT)技术。
对于采样频率可伸缩的情况,可通过增益控制模块210忽略高频的PQF频带,以得到低采样率信号。
MPEG-2 AAC技术对于中高码率的音频信号可以达到很高的编码质量,但对低码率或甚低码率的音频信号则编码质量较差。另外,该技术编解码模块较多,实现的复杂度较高,不利于实时实现。
图3给出了采用杜比AC-3技术的编码器的结构示意图,包括暂态信号检测模块301、改进的离散余弦变换滤波器MDCT 302、频谱包络/指数编码模块303、尾数编码模块304、前向-后向自适应感知模型305、参数比特分配模块306和比特流复用模块307。
音频信号通过暂态信号检测模块301判别是稳态信号还是瞬态信号,同时通过信号自适应MDCT滤波器组302将时域数据映射到频域数据,其中512点的长窗应用于稳态信号,一对短窗应用于瞬态信号。
频谱包络/指数编码模块303根据码率和频率分辨率的要求采用三种模式对信号的指数部分进行编码,分别是D15、D25和D45编码模式。AC-3技术在频率上对频谱包络采取差分编码,因为最多需要±2增量,每个增量代表6dB的电平变化,对于第一个直流项采用绝对值编码,其余指数就采用差分编码。在D15频谱包络指数编码中,每个指数大约需要2.33比特,3个差分组在一个7比特的字长中编码,D15编码模式通过牺牲时间分辨率而提供精细的频率分辨率。由于只是对相对平稳的信号才需要精细的频率分辨率,而这样的信号在许多块上的频谱保持相对恒定,因此,对于稳态信号,D15偶尔被传送,通常是每6个声音块(一个数据帧)的频谱包络被传送一次。当信号频谱不稳定时,需要常更新频谱估计值。估计值采用较小的频率分辨率编码,通常使用D25和D45编码模式。D25编码模式提供了合适的频率分辨率和时间分辨率,每隔一个频率系数就进行差分编码,这样每个指数大约需要1.15比特。当频谱在2至3个块上都是稳定的,然后突然变化时,可以采用D25编码模式。D45编码模式是每隔三个频率系数进行差分编码,这样每个指数大约需要0.58比特。D45编码模式提供了很高的时间分辨率和较低的频率分辨率,所以一般应用在对瞬态信号的编码中。
前向-后向自适应感知模型305用于估计每帧信号的掩蔽阈值。其中前向自适应部分仅应用在编码器端,在码率的限制下,通过迭代循环估计一组最佳的感知模型参数,然后这些参数被传递到后向自适应部分以估计出每帧的掩蔽阈值。后向自适应部分同时应用在编码器端和解码器端。
参数比特分配模块306根据掩蔽准则分析音频信号的频谱包络,以确定给每个尾数分配的比特数。该模块306利用一个比特池对所有声道进行全局比特分配。在尾数编码模块304中进行编码时,从比特池中循环取出比特分配给所有的声道,根据可以获得的比特数来调整尾数的量化。为达到压缩编码的目的,AC-3编码器还采用高频耦合的技术,将被耦合信号的高频部分按照人耳临界带宽划分成18个子频段,然后选择某些声道从某个子带开始进行耦合。最后通过比特流复用模块307形成AC-3音频流输出。
图4给出了采用杜比AC-3解码的流程示意图。首先输入经过AC-3编码器编码的比特流,对比特流进行数据帧同步和误码检测,如果检测到一个数据误码,则进行误码掩盖或弱音处理。然后对比特流进行解包,获得主信息和边信息,再进行指数解码。在进行指数解码时,需要有两个边信息:一是打包的指数数目;一个是所采用的指数策略,如D15、D25或D45模式。已经解码的指数和比特分配边信息再进行比特分配,指出每个打包的尾数所用的比特数,得到一组比特分配指针,每个比特分配指针对应一个编码的尾数。比特分配指针指出用于尾数的量化器以及在码流中每个尾数占用的比特数。对单个编码的尾数值进行解量化,将其转变成一个解量化的值,占用零比特的尾数被恢复成零,或者在抖动标志的控制下用一个随机抖动值代替。然后进行解耦合的操作,解耦合是从公共耦合声道和耦合因子中恢复出被耦合声道的高频部分,包括指数和尾数。如果在编码端采用2/0模式编码时,会对某子带采用矩阵处理,那么在解码端需通过矩阵恢复将该子带的和差声道值转换成左右声道值。在码流中包含有每个音频块的动态范围控制值,将该值进行动态范围压缩,以改变系数的幅度,包括指数和尾数。将频域系数进行逆变换,转变成时域样本,然后对时域样本进行加窗处理,相邻的块进行重叠相加,重构出PCM音频信号。当解码输出的声道数小于编码比特流中的声道数时,还需要对音频信号进行下混处理,最后输出PCM流。
杜比AC-3编码技术主要针对高比特率多声道环绕声的信号,但是当5.1声道的编码比特率低于384kbps时,其编码效果较差;而且对于单声道和双声道立体声的编码效率也较低。
综上,现有的编解码技术无法全面解决从甚低码率、低码率到高码率音频信号以及单声道、双声道信号的编解码质量,实现较为复杂。
发明内容
本发明所要解决的技术问题在于提供一种增强音频编解码的装置及方法,以解决现有技术对于较低码率音频信号的编码效率低、质量差的问题。
本发明所述增强音频编码装置,包括心理声学分析模块、时频映射模块、频域线性预测及矢量量化模块、量化和熵编码模块以及比特流复用模块;所述心理声学分析模块用于计算输入音频信号的掩蔽阈值和信掩比以及判断信号的类型,并输出给所述量化和熵编码模块;所述时频映射模块用于将输入的时域音频信号转变成频域系数;所述频域线性预测及矢量量化模块用于对频域系数进行线性预测和多级矢量量化,并输出残差序列到所述量化和熵编码模块,同时输出边信息到所述比特流复用模块;所述量化和熵编码模块用于在所述心理声学分析模块输出的信掩比的控制下对频域系数/残差序列进行量化和熵编码,并输出到所述比特流复用模块;所述比特流复用模块用于将接收到的数据进行复用,形成音频编码的码流。
本发明所述增强音频解码装置,包括比特流解复用模块、熵解码模块、逆量化器组、逆频域线性预测及矢量量化模块和频率-时间映射模块;所述比特流解复用模块用于对压缩音频数据流进行解复用,并向所述熵解码模块和所述逆频域线性预测及矢量量化模块输出相应的数据信号和控制信号;所述熵解码模块用于对上述信号进行解码处理,恢复谱的量化值,输出到所述逆量化器组;所述逆量化器组用于重建逆量化谱,并输出到所述逆频域线性预测及矢量量化模块中;所述逆频域线性预测及矢量量化模块用于对逆量化谱进行逆量化处理和逆线性预测滤波,得到预测前的谱,并输出所述到频率-时间映射模块;所述频率-时间映射模块用于对谱系数进行频率-时间映射,得到低频带的时域音频信号。
本发明适用于多种采样率、声道配置的音频信号的高保真压缩编码,可以支持采样率为8kHz到192kHz之间的音频信号;可支持所有可能的声道配置;并且支持范围很宽的目标码率的音频编/解码。
附图说明
图1是MPEG-2 AAC编码器的方框图;
图2是MPEG-2 AAC解码器的方框图;
图3是采用杜比AC-3技术的编码器的结构示意图;
图4是采用杜比AC-3技术的解码流程示意图;
图5是本发明音频编码装置的结构示意图;
图6是本发明音频解码装置的结构示意图;
图7是本发明编码装置的实施例一的结构示意图;
图8是采用Harr小波基小波变换的滤波结构示意图;
图9是采用Harr小波基小波变换得到的时频划分示意图;
图10是本发明解码装置的实施例一的结构示意图;
图11是本发明编码装置的实施例二的结构示意图;
图12是本发明解码装置的实施例二的结构示意图;
图13是本发明编码装置的实施例三的结构示意图;
图14是本发明解码装置的实施例三的结构示意图。
具体实施方式
图1至图4是现有技术的几种编码器的结构示意图,已在背景技术中进行了介绍,此处不再赘述。
需要说明的是:为方便、清楚地说明本发明,下述编解码装置的具体实施例是采用对应的方式说明的,但并不表明编码装置与解码装置必须是一一对应的。
如图5所示,本发明提供的音频编码装置包括心理声学分析模块501、时频映射模块502、频域线性预测及矢量量化模块503、量化和熵编码模块504以及比特流复用模块505;其中心理声学分析模块501用于计算音频信号的掩蔽阈值和信掩比,以及判断信号的类型;时频映射模块502用于将输入的时域音频信号转变成频域系数;频域线性预测及矢量量化模块503用于对频域系数进行线性预测和多级矢量量化,输出残差序列到量化和熵编码模块504,同时将边信息输出到比特流复用模块505;量化和熵编码模块504用于在心理声学分析模块501输出的信掩比的控制下对残差系数进行量化和熵编码,并输出到比特流复用模块505;比特流复用模块505用于将接收到的数据进行复用,形成音频编码的码流。
当数字音频信号分别输入心理声学分析模块501和时频映射模块502后,一方面在心理声学分析模块501中计算该帧音频信号的掩蔽阈值和信掩比,判断该帧信号是快变类型信号还是缓变类型信号,并将信掩比作为控制信号传送给量化和熵编码模块504;另一方面时域的音频信号通过时频映射模块502转变成频域系数。上述频域系数传送至频域线性预测及矢量量化模块503中,如果频域系数的增益阈值满足给定的条件,则对频域系数进行线性预测滤波,获得的预测系数转换成线谱对频率系数LSF(Line SpectrumFrequency),再采用最佳的失真度量准则搜索计算出各级码本的码字索引,并将码字索引作为边信息传送到比特流复用模块505,而经过预测分析得到的残差序列则输出到量化和熵编码模块504。上述残差序列/频域系数在心理声学分析模块501输出的信掩比的控制下,在量化和熵编码模块504中进行量化和熵编码。经过编码后的数据与边信息输入到比特流复用模块505中,经过复用形成增强音频编码的码流。
下面对上述音频编码装置的各个组成模块进行具体详细地说明。
在本发明中,心理声学分析模块501主要用于计算输入音频信号的掩蔽阈值、感知熵和信掩比,并分析音频信号的信号类型。根据心理声学分析模块51计算出的感知熵可动态地分析当前信号帧进行透明编码所需的比特数,从而调整帧间的比特分配。心理声学分析模块501输出各个子带的信掩比到量化和熵编码模块504,对其进行控制。
时频映射模块502用于实现音频信号从时域信号到频域系数的变换,由滤波器组构成,具体可以是离散傅立叶变换(DFT)滤波器组、离散余弦变换(DCT)滤波器组、修正离散余弦变换(MDCT)滤波器组、余弦调制滤波器组、小波变换滤波器组等。
时频映射模块502输出的频域系数传送到频域线性预测及矢量量化模块503中进行线性预测和矢量量化。频域线性预测及矢量量化模块503由线性预测分析器、线性预测滤波器、转换器和矢量量化器构成。频域系数输入到线性预测分析器中进行预测分析,得到预测增益和预测系数,对满足一定条件的频域系数,输出到线性预测滤波器中进行滤波,得到残差序列;残差序列直接输出到量化和熵编码模块504中,而预测系数通过转换器转换成线谱对频率系数LSF,再进入矢量量化器中进行多级矢量量化,量化后的信号被传送到比特流复用模块505中。
对音频信号进行频域线性预测处理能够有效地抑制预回声并获得较大的编码增益。假设实信号x(t),其平方Hilbert包络e(t)表示为:
e(t)=F-1{∫C(ξ)·C*(ξ-f)dξ},
其中C(f)为对应于信号x(t)正频率成分的单边谱,即信号的Hilbert包络是与该信号谱的自相关函数有关的。而信号的功率谱密度函数与其时域波形的自相关函数的关系为:PSD(f)=F{∫x(τ)·x*(τ-t)dτ}。因此信号在时域的平方Hilbert包络与信号在频域的功率谱密度函数是互为对偶关系的。由上可知,每个一定频率范围内的部分带通信号,如果它的Hilbert包络保持恒定,那么相邻谱值的自相关也将保持恒定,这就意味着谱系数序列相对于频率而言是稳态序列,从而可以用预测编码技术来对谱值进行处理,用公用的一组预测系数来有效地表示该信号。
量化和熵编码模块504进一步包括了非线性量化器组和编码器,其中量化器可以是标量量化器或矢量量化器。矢量量化器进一步分为无记忆矢量量化器和有记忆矢量量化器两大类。对于无记忆矢量量化器,每个输入矢量是独立进行量化的,与以前的各矢量无关;有记忆矢量量化器是在量化一个矢量时考虑以前的矢量,即利用了矢量之间的相关性。主要的无记忆矢量量化器包括全搜索矢量量化器、树搜索矢量量化器、多级矢量量化器、增益/波形矢量量化器和分离均值矢量量化器;主要的有记忆矢量量化器包括预测矢量量化器和有限状态矢量量化器。
如果采用标量量化器,则非线性量化器组进一步包括M个子带量化器。在每个子带量化器中主要利用尺度因子进行量化,具体是:对M个尺度因子带中所有的频域系数进行非线性压缩,再利用尺度因子对该子带的频域系数进行量化,得到整数表示的量化谱输出到编码器,将每帧信号中的第一个尺度因子作为公共尺度因子输出到比特流复用模块505,其它尺度因子与其前一个尺度因子进行差分处理后输出到编码器。
上述步骤中的尺度因子是不断变化的值,可按照比特分配策略来调整。本发明提供了一种全局感知失真最小的比特分配策略,具体如下:
首先,初始化每个子带量化器,所有子带中的谱系数的量化值为0。此时每个子带的量化噪声等于每个子带的能量值,每个子带的噪声掩蔽比NMR等于它的信掩比SMR,量化所消耗的比特数为0,剩余比特数Bl等于目标比特数B。
其次,查找噪声掩蔽比NMR最大的子带,若最大噪声掩蔽比NMR小于等于1,则尺度因子不变,输出分配结果,比特分配过程结束;否则,将对应的子带量化器的尺度因子减小一个单位,然后计算该子带所需增加的比特数ΔBiQi)。若该子带的剩余比特数Bl≥ΔBi(Qi),则确认此次尺度因子的修改,并将剩余比特数Bl减去ΔBi(Qi),重新计算该子带的噪声掩蔽比NMR,然后继续查找噪声掩蔽比NMR最大的子带,重复执行后续步骤。如果该子带的剩余比特数Bl<ΔBi(Qi),则取消此次修改,保留上一次的尺度因子以及剩余比特数,最后输出分配结果,比特分配过程结束。
如果采用矢量量化器,则频域系数组成多个M维矢量输入到非线性量化器组中,对于每个M维矢量都根据平整因子进行谱平整,即缩小谱的动态范围,然后由矢量量化器根据主观感知距离测度准则在码书中找到与待量化矢量距离最小的码字,将对应的码字索引传递给编码器。平整因子是根据矢量量化的比特分配策略调整的,而矢量量化的比特分配则根据不同子带间感知重要度来控制。
在经过上述量化处理后,利用熵编码技术进一步去除量化后的系数以及边信息的统计冗余。熵编码是一种信源编码技术,其基本思想是:对出现概率较大的符号给予较短长度的码字,而对出现概率小的符号给予较长的码字,这样平均码字的长度最短。根据Shannon的无噪声编码定理,如果传输的N个源消息的符号是独立的,那么使用适当的变长度编码,码字的平均长度
n将满足
其中H(x)表示信源的熵,x表示符号变量。由于熵H(x)是平均码字长度的最短极限,上述公式表明此时码字的平均长度很接近于它的下限熵H(x),因此这种变长度编码技术又成为“熵编码”。熵编码主要有Huffman编码、算术编码或游程编码等方法,本发明中的熵编码均可采用上述编码方法的任一种。
经过标量量化器量化后输出的量化谱和差分处理后的尺度因子在编码器中进行熵编码,得到码书序号、尺度因子编码值和无损编码量化谱,再对码书序号进行熵编码,得到码书序号编码值,然后将尺度因子编码值、码书序号编码值和量化谱的无损编码值输出到比特流复用模块505中。
经过矢量量化器量化后得到的码字索引在编码器中进行一维或多维熵编码,得到码字索引的编码值,然后将码字索引的编码值输出到比特流复用模块505中。
比特流复用模块505收到频域线性预测及矢量量化模块503输出的边信息以及量化和熵编码模块504输出的包括公共尺度因子、尺度因子编码值、码书序号编码值和无损编码量化谱的码流或者是码字索引的编码值,对其进行复用,得到压缩音频数据流。
基于上述编码器的编码方法,具体包括:计算输入音频信号的掩蔽阈值,并分析输入信号的类型;对输入音频信号进行时频映射,获得音频信号的频域系数;对频域系数进行标准的线性预测分析,得到预测增益和预测系数;判断预测增益是否超过设定的阈值,如果超过,则根据预测系数对频域系数进行频域线性预测误差滤波,得到频域系数的预测残差序列;将预测系数转化成线谱对频率系数,并对线谱对频率系数进行多级矢量量化处理,得到边信息;对残差序列进行量化和熵编码;如果预测增益未超过设定的阈值,则对频域系数进行量化和熵编码;将边信息和编码后的音频信号进行复用,得到压缩音频码流。
对时域音频信号进行时频变换的方法有很多,如离散傅立叶变换(DFT)、离散余弦变换(DCT)、修正离散余弦变换(MDCT)、余弦调制滤波器组、小波变换等。下面以修正离散余弦变换MDCT和余弦调制滤波为例说明时频映射的过程。
对于采用修正离散余弦变换MDCT进行时频变换的情况,首先选取前一帧M个样本和当前帧M个样本的时域信号,再对这两帧共2M个样本的时域信号进行加窗操作,然后对经过加窗后的信号进行MDCT变换,从而获得M个频域系数。
MDCT分析滤波器的脉冲响应为:
则MDCT变换为:
其中:w(n)为窗函数;x(n)为MDCT变换的输入时域信号;X(k)为MDCT变换的输出频域信号。
为满足信号完全重构的条件,MDCT变换的窗函数w(n)必须满足以下两个条件:
w(2M-1-n)=w(n)且w2(n)+w2(n+M)=1。
在实际中,可选用Sine窗作为窗函数。当然,也可以通过使用双正交变换,用特定的分析滤波器和合成滤波器修改上述对窗函数的限制。
对于采用余弦调制滤波进行时频变换的情况,则首先选取前一帧M个样本和当前帧M个样本的时域信号,再对这两帧共2M个样本的时域信号进行加窗操作,然后对经过加窗后的信号进行余弦调制变换,从而获得M个频域系数。
传统的余弦调制滤波技术的冲击响应为
n=0,1,...,Nh-1
n=0,1,...,Nf-1
其中0≤k<M-1,0≤n<2KM-1,K为大于零的整数,
假设M子带余弦调制滤波器组的分析窗(分析原型滤波器)pa(n)的冲击响应长度为Na,综合窗(综合原型滤波器)ps(n)的冲击响应长度为Ns。当分析窗和综合窗相等时,即pa(n)=ps(n),且Na=Ns,由上面两式所表示的余弦调制滤波器组为正交滤波器组,此时矩阵H和F([H]n,k=hk(n),[F]n,k=fk(n))为正交变换矩阵。为获得线性相位滤波器组,进一步规定对称窗pa(2KM-1-n)=pa(n)。为保证正交和双正交系统的完全重构性,窗函数还需满足一定的条件,详见文献“Multirate Systems and Filter Banks”,P.P.Vaidynathan,Prentice Hall,Englewood Cliffs,NJ,1993。
计算输入音频信号的掩蔽阈值、信掩比和进行信号类型分析包括以下步骤:
第一步、将音频信号进行时域到频域的映射。可采用快速傅立叶变换和汉宁窗(hanning window)技术,将时域数据转换成频域系数X[k]。X[k]用幅度r[k]和相位φ[k]表示为X[k]=r[k]ejφ[k],那么每个子带的能量e[b]是该子带内所有谱线能量的和,即 其中kl和kh分别表示子带b的上下边界。
第二步、确定音频信号中的音调和非音调成分。信号的音调性是通过对每个谱线进行帧间预测来估计的,每个谱线的预测值和真实值的欧氏距离被映射为不可预测测度,高预测性的谱成分被认为是音调性很强的,而低预测性的谱成分被认为是类噪声的。
预测值的幅度rpred和相位φpred可用以下公式来表示:
rpred[k]=rt-1[k]+(rt-1[k]-rt-2[k])
φpred[k]=φt-1[k]+(φt-1[k]-φt-2[k]),
其中,t表示当前帧的系数;t-1表示前一帧的系数;t-2表示前两帧的系数。
那么,不可预测测度c[k]的计算公式为:
其中,欧氏距离dist(X[k],Xpred[k])采用下式计算:
dist(X[k],Xpred[k])=|X[k]-Xpred[k]|
=((r[k]cos(φ[k])-rpred[k]cos(φpred[k]))2+(r[k]sin(φ[k])-rpred[k]sin(φpred[k]))2)。
因此,每个子带的不可预测度c[b]是该子带内所有谱线的能量对其不可预测度的加权和,即
子带能量e[b]和不可预测度c[b]分别与扩展函数进行卷积运算,得到子带能量扩展es[b]和子带不可预测度扩展cs[b],掩模i对子带b的扩展函数表示为s[i,b]。为了消除扩展函数对能量变换的影响,需要对子带不可预测度扩展cs[b]做归一化处理,其归一化的结果用
表示为
同样,为消除扩展函数对子带能量的影响,定义归一化能量扩展
为:
其中归一化因子n[b]为:
bmax为该帧信号所分的子带数。
根据归一化不可预测度扩展
可计算子带的音调性t[b]:
当t[b]=1时,表示该子带信号为纯音调;当t[b]=0时,表示该子带信号为白噪声。
第三步、计算每个子带所需的信噪比(Signal-to-Noise Ratio,简称SNR)。将所有子带的噪声掩蔽音调(Noise-Masking-Tone,简称NMT)的值设为5dB,音调掩蔽噪声(Tone-Masking-Noise,简称TMN)的值设为18dB,若要使噪声不被感知,则每个子带所需的信噪比SNR[b]是SNR[b]=18t[b]+6(1-t[b])。
第四步、计算每个子带的掩蔽阈值以及信号的感知熵,并进行信号类型分析。根据前述步骤得到的每个子带的归一化信号能量和所需的信噪比SNR,计算每个子带的噪声能量阈值n[b]为
为了避免预回声的影响,将当前帧的噪声能量阈值n[b]与前一帧的噪声能量阈值nprev[b]进行比较,得到信号的掩蔽阈值为n[b]=min(n[b],2nprev[b]),这样可以确保掩蔽阈值不会因为在分析窗的近末端有高能量的冲击产生而出现偏差。
进一步地,考虑静止掩蔽阈值qsthr[b]的影响,选择最终的信号的掩蔽阈值为静止掩蔽阈值与上述计算的掩蔽阈值两者中的数值大者,即n[b]=max(n[b],qsthr[b])。然后采用如下公式计算感知熵,即
其中cbwidthb表示各子带所包含的谱线个数。
判断某一帧信号的感知熵是否超过指定的门限PE_SWITCH,如果超过,则该帧信号为快变类型,否则为缓变类型。由上可知,感知熵pe实质上是各子带信噪比的对数加权和,也表示在理想情况下,实现无感知失真所需要的最少比特数,它和信号类型特性没有直接的联系。但由于在计算噪声能量阈值n[b]时进行了预回声控制,使得最后计算的噪声能量阈值还要受到前一帧的噪声能量阈值的控制。当出现突然增强的信号时,随着信号能量的增强,噪声能量阈值从nprev[b]到n[b]也出现提高的趋势,而预回声控制限制了噪声能量阈值的提高程度,从而间接的提高了感知熵。从这个意义上说,感知熵可以用来进行信号类型的分析。
第五步:计算每个子带信号的信掩比(Signal-to-Mask Ratio,简称SMR)。每个子带的信掩比SMR[b]为
在获得了频域系数后,对频域系数进行线性预测和矢量量化。首先对频域系数进行标准的线性预测分析,包括计算自相关矩阵、递推执行Levinson-Durbin算法获得预测增益和预测系数。判断计算的预测增益是否超过预先设定的阈值,如果超过,则根据预测系数对频域系数进行频域线性预测误差滤波处理;否则对频域系数不作处理,执行下一步骤,对频域系数进行量化和熵编码。
线性预测可分为前向预测和后向预测两种,前向预测是指利用某一时刻之前的值预测当前值,而后向预测是指利用某一时刻之后的值预测当前值。下面以前向预测为例说明线性预测误差滤波,线性预测误差滤波器的传递函数为
其中ai表示预测系数,p为预测阶数。经过时间-频率变换后的频域系数X(k)经过滤波后,得到预测误差E(k),也称残差序列,两者之间满足关系
这样,经过频域线性预测滤波,时间-频率变换输出的频域系数X(k)就可以用残差序列E(k)和一组预测系数ai表示。然后将这组预测系数ai转换成线谱对频率系数LSF,并对其进行多级矢量量化,矢量量化选择最佳的失真度量准则(如最近邻准则),搜索计算出各级码本的码字索引,以此可确定预测系数对应的码字,将码字索引作为边信息输出。同时,对残差序列E(k)进行量化和熵编码。由线性预测分析编码原理可知,谱系数的残差序列的动态范围小于原始谱系数的动态范围,因此在量化时可以分配较少的比特数,或者对于相同比特数的条件,可以获得改进的编码增益。
在获得了子带信号的信掩比后,根据信掩比对频域系数或残差序列进行量化和熵编码,其中量化可以是标量量化或矢量量化。
标量量化包括以下步骤:对所有尺度因子带中的频域系数进行非线性压扩;再利用每个子带的尺度因子对该子带的频域系数进行量化,得到整数表示的量化谱;选择每帧信号中的第一个尺度因子作为公共尺度因子;其它尺度因子与其前一个尺度因子进行差分处理。
矢量量化包括以下步骤:将频域系数构成多个多维矢量信号;对于每个M维矢量都根据平整因子进行谱平整;根据主观感知距离测度准则在码书中查找与待量化矢量距离最小的码字,获得其码字索引。
熵编码步骤包括:对量化谱和差分处理后的尺度因子进行熵编码,得到码书序号、尺度因子编码值和无损编码量化谱;对码书序号进行熵编码,得到码书序号编码值。
或者是:对码字索引进行一维或多维熵编码,得到码字索引的编码值。
上述的熵编码方法可以采用现有的Huffman编码、算术编码或游程编码等方法中的任一种。
经过量化和熵编码处理后,得到音频编码信号,将该信号与公共尺度因子、边信息一起进行复用,得到压缩音频码流。
图6是本发明音频解码装置的结构示意图。音频解码装置包括比特流解复用模块601、熵解码模块602、逆量化器组603、逆频域线性预测及矢量量化模块604和频率-时间映射模块605。压缩音频数据流经过比特流解复用模块601的解复用后,得到相应的数据信号和控制信号,输出到熵解码模块602和逆频域线性预测及矢量量化模块604。数据信号和控制信号在熵解码模块602中进行解码处理,恢复出谱的量化值。上述量化值在逆量化器组603中重建,得到逆量化后的谱,逆量化谱输出到逆频域线性预测及矢量量化模块604中,进行逆量化处理和逆线性预测滤波,得到预测前的谱,并输出到频率-时间映射模块605中,谱系数经过频率-时间映射处理后得到时域的音频信号。
比特流解复用模块601对压缩音频数据流进行分解,得到相应的数据信号和控制信号,为其他模块提供相应的解码信息。压缩音频数据流经过解复用后,输出到熵解码模块602的信号包括公共尺度因子、尺度因子编码值、码书序号编码值和无损编码量化谱,或者是码字索引的编码值;输出到逆线性预测及矢量量化模块604的是逆频域线性预测矢量量化控制信息。
在编码装置中,如果量化和熵编码模块504中采用标量量化器,则在解码装置中,熵解码模块602收到的是比特流解复用模块601输出的公共尺度因子、尺度因子编码值、码书序号编码值和量化谱的无损编码值,然后对其进行码书序号解码、谱系数解码和尺度因子解码,重建出量化谱,并向逆量化器组603输出尺度因子的整数表示和谱的量化值。熵解码模块602采用的解码方法与编码装置中熵编码的编码方法相对应,如Huffman解码、算术解码或游程解码等。
逆量化器组603接收到谱的量化值和尺度因子的整数表示后,将谱的整数量化值逆量化为无缩放的重建谱值(逆量化谱),并向逆频域线性预测及矢量量化模块604输出逆量化谱。逆量化器组603可以是均匀量化器组,也可以是通过压扩函数实现的非均匀量化器组。在编码装置中,量化器组采用的是标量量化器,则在解码装置中,逆量化器组603也采用标量逆量化器。在标量逆量化器中,首先对谱的量化值进行非线性扩张,然后利用每个尺度因子得到对应尺度因子带中所有的谱系数(逆量化谱)。
如果量化和熵编码模块504中采用矢量量化器,则在解码装置中,熵解码模块602收到比特流解复用模块601输出的码字索引的编码值,将码字索引的编码值采用与编码时的熵编码方法对应的熵解码方法进行解码,得到对应的码字索引。
码字索引输出到逆量化器组603中,通过查询码书,得到量化值(逆量化谱),输出到频率-时间映射模块605。逆量化器组603采用逆矢量量化器。
在编码器中,采用频域线性预测矢量量化技术来抑制预回声,并获得较大的编码增益。因此在解码器中,逆量化谱和比特逆频域线性预测及矢量量化模块604包括逆矢量量化器、逆转换器和逆线性预测滤波器,其中逆矢量量化器用于对码字索引进行逆量化得到线谱对频率系数LSF;逆转换器则用于将线谱对频率系数LSF逆转换为预测系数;逆线性预测滤波器用于根据预测系数对逆量化谱进行线性预测合成过程,得到预测前的谱,并输出到频率-时间映射模块605。
逆量化谱或预测前的谱通过频率-时间映射模块605的映射处理,可以得到低频段的时域音频信号。频率-时间映射模块605可以采用逆离散余弦变换(IDCT)滤波器组、逆离散傅立叶变换(IDFT)滤波器组、逆修正离散余弦变换(IMDCT)滤波器组、逆小波变换滤波器组以及余弦调制滤波器组。
基于上述解码器的解码方法包括:对压缩音频码流进行解复用,得到数据信息和控制信息;对上述信息进行熵解码,得到谱的量化值;对谱的量化值进行逆量化处理,得到逆量化谱;判断控制信息中是否包含逆量化谱需经过逆频域线性预测矢量量化的信息,如果含有,则进行逆矢量量化处理,得到预测系数,并根据预测系数对逆量化谱进行逆线性预测滤波,得到预测前的谱;将预测前的谱进行频率-时间映射,得到低频带的时域音频信号;如果控制信息中没有包含逆量化谱需经过逆频域线性预测矢量量化的信息,则对逆量化谱进行频率-时间映射,得到低频带的时域音频信号。
如果解复用后的信息中包括码书序号编码值、公共尺度因子、尺度因子编码值和无损编码量化谱,则表明在编码装置中谱系数是采用标量量化技术进行量化,则熵解码的步骤包括:对码书序号编码值进行解码,获得所有尺度因子带的码书序号;根据码书序号对应的码书,解码所有尺度因子带的量化系数;解码所有尺度因子带的尺度因子,重建量化谱。上述过程所采用的熵解码方法对应编码方法中的熵编码方法,如游程解码方法、Huffman解码方法、算术解码方法等。
下面以采用游程解码方法解码码书序号、采用Huffman解码方法解码量化系数和采用Huffman解码方法解码尺度因子为例,说明熵解码的过程。
首先通过游程解码方法获得所有尺度因子带的码书号,解码后的码书号为某一区间的整数,如假设该区间为[0,11],那么只有位于该有效范围内的,即0至11之间的码书序号才与对应的谱系数Huffman码书相对应。对于全零子带,可选择某一码书序号对应,典型的可选0序号。
当解码得到各尺度因子带的码书号后,使用与该码书号对应的谱系数Huffman码书,对所有尺度因子带的量化系数进行解码。如果一个尺度因子带的码书号在有效范围内,本实施例如在1至11之间,那么该码书号对应一个谱系数码书,则使用该码书从量化谱中解码得到尺度因子带的量化系数的码字索引,然后从码字索引中解包得到量化系数。如果尺度因子带的码书号不在1至11之间,那么该码书号不对应任何谱系数码书,该尺度因子带的量化系数也就不用解码,直接将该子带的量化系数全部置为零。
尺度因子用于在逆量化谱系数基础上重构谱值。如果尺度因子带的码书号处于有效范围内,则每一个码书号都对应一个尺度因子。在对上述尺度因子进行解码时,首先读取第一个尺度因子所占用的码流,然后对其它尺度因子进行Huffman解码,依次得到各尺度因子与前一尺度因子之间的差值,将该差值与前一尺度因子值相加,得到各尺度因子。如果当前子带的量化系数全部为零,那么该子带的尺度因子不需要解码。
经过上述熵解码过程后,得到谱的量化值和尺度因子的整数表示,然后对谱的量化值进行逆量化处理,获得逆量化谱。逆量化处理包括:对谱的量化值进行非线性扩张;根据每个尺度因子得到对应尺度因子带中的所有谱系数(逆量化谱)。
如果解复用后的信息中包括码字索引的编码值,则表明编码装置中采用矢量量化技术对谱系数进行量化,则熵解码的步骤包括:采用与编码装置中熵编码方法对应的熵解码方法对码字索引的编码值进行解码,得到码字索引。然后对码字索引进行逆量化处理,获得逆量化谱。
对逆量化谱进行逆频域线性预测矢量量化。首先根据控制信息判断该帧信号是否经过频域线性预测矢量量化,如果是,则从控制信息中获得预测系数矢量量化后的码字索引;再根据码字索引得到量化的线谱对频率系数LSF,并以此计算出预测系数;然后将逆量化谱进行线性预测合成,得到预测前的谱。
线性预测误差滤波处理所采用的传递函数A(z)为:
其中:ai是预测系数;p为预测阶数。因此残差序列E(k)与预测前的谱X(k)满足:
这样,残差序列E(k)和计算出的预测系数ai经过频域线性预测合成过程,就可得到预测前的谱X(k),将预测前的谱X(k)进行频率-时间映射处理。
如果控制信息表明该信号帧没有经过频域线性预测矢量量化,则不进行逆频域线性预测矢量量化处理,将逆量化谱直接进行频率-时间映射处理。
对逆量化谱进行频率-时间映射处理的方法与编码方法中的时-频映射处理方法相对应,可以采用逆离散余弦变换(IDCT)、逆离散傅立叶变换(IDFT)、逆修正离散余弦变换(IMDCT)、逆小波变换等方法完成。
下面以逆修正离散余弦变换IMDCT为例说明频率-时间映射过程。频率-时间映射过程包括三个步骤:IMDCT变换、时域加窗处理和时域叠加运算。
首先对预测前的谱或逆量化谱进行IMDCT变换,得到变换后的时域信号xi,n。IMDCT变换的表达式为:
其中,n表示样本序号,且0≤n<N,N表示时域样本数,取值为2048,n0=(N/2+1)/2;i表示帧序号;k表示谱系数序号。
其次,对IMDCT变换获得的时域信号在时域进行加窗处理。为满足完全重构条件,窗函数w(n)必须满足以下两个条件:w(2M-1-n)=w(n)且w2(n)+w2(n+M)=1。
典型的窗函数有Sine窗、Kaiser-Bessel窗等。本发明采用一种固定的窗函数,其窗函数为:w(N+k)=cos(pi/2*((k+0.5)/N-0.94*sin(2*pi/N*(k+0.5))/(2*pi))),其中k=0...N-1;w(k)表示窗函数的第k个系数,有w(k)=w(2*N-1-k);N表示编码帧的样本数,取值为N=1024。另外可以利用双正交变换,采用特定的分析滤波器和合成滤波器修改上述对窗函数的限制。
最后,对上述加窗时域信号进行叠加处理,得到时域音频信号。具体是:将加窗操作后获得的信号的前N/2个样本和前一帧信号的后N/2个样本重叠相加,获得N/2个输出的时域音频样本,即timeSami,n=preSami,n+preSami-1,n+N/2,其中i表示帧序号,n表示样本序号,有
且N的取值为2048。
压缩音频数据流经过上述步骤的处理后,得到低频带的时域音频信号。
图7给出了本发明编码装置的一个实施例的结构示意图。该实施例在图5的基础上,在频域线性预测及矢量量化模块503的输出与量化和熵编码模块504的输入之间增加了多分辨率分析模块506。
对于快变类型信号,为有效克服编码过程中产生的预回声现象,提高编码质量,本发明编码装置通过多分辨率分析模块506来提高编码快变信号的时间分辨率。频域线性预测及矢量量化模块503输出的残差序列或频域系数输入到多分辨率分析模块506中,如果是快变类型信号,则进行频域小波变换或频域短修正离散余弦变换(MDCT),获得频域系数/残差系数的多分辨率表示,输出到量化和熵编码模块504中。如果是缓变类型信号,则对信号不进行处理,直接输出到量化和熵编码模块504。
多分辨率分析模块59对输入的频域数据进行时-频域的重新组织,以频率精度的降低为代价提高频域数据的时间分辨率,从而自动地适应快变类型信号的时频特性,达到抑制预回声的效果。此时频映射模块502中滤波器组的形式可以无需随时调整。多分辨率分析模块506包括频域系数变换模块和重组模块,其中频域系数变换模块用于将频域系数变换为时频平面系数;重组模块用于将时频平面系数按照一定的规则进行重组。频域系数变换模块可采用频域小波变换滤波器组、频域MDCT变换滤波器组等。
下面以频域小波变换和频域MDCT变换为例,说明多分辨率分析模块506的工作过程。
1)频域小波变换
假设时序序列x(i),i=0,1,...,2M-1,经过时频映射后获得的频域系数为为X(k),k=0、1、...、M-1。频域小波或小波包变换的小波基可以是固定的,也可以是自适应的。
下面以最简单的Harr小波基小波变换为例,说明对频域系数进行多分辨率分析的
具体实现方法。
Harr小波基的尺度系数为
小波系数为
图8示出了采用Harr小波基进行小波变换的滤波结构示意图,其中H0表示低通滤波(滤波系数为
),H1表示高通滤波(滤波系数为
),“↓2”表示2倍的下采样操作。对于MDCT系数的中低频部分X1(k),k=0,...,k1不进行小波变换,对MDCT系数的高频部分进行Harr小波变换,得到不同的时间-频率区间的系数X2(k)、X3(k)、X4(k)、X5(k)、X6(k)和X7(k),对应的时间-频率平面划分如图9所示。选择不同的小波基,可选用不同的小波变换结构进行处理,可得到其他类似的时间-频率平面划分。因此可以根据需要,任意调整信号分析时的时频平面划分,满足不同的时间和频率分辨率的分析要求。
上述时频平面系数在重组模块中按照一定的规则进行重组,例如:可先将时频平面系数在频率方向组织,每个频带中的系数在时间方向组织,然后将组织好的系数按照子窗、尺度因子带的顺序排列。
2)频域MDCT变换
设输入频域MDCT变换滤波器组的频域数据为X(k),k=0,1,...,N-1,依次对这N点频域数据进行M点的MDCT变换,使得时频域数据的频率精度有所下降,而时间精度则相应地提高了。在不同的频域范围内使用不同长度的频域MDCT变换,可以获得不同的时-频平面划分即不同的时、频精度。
上述时频平面系数在重组模块中按照一定的规则进行重组,例如:可先将时频平面系数在频率方向组织,每个频带中的系数在时间方向组织,然后将组织好的系数按照子窗、尺度因子带的顺序排列。
基于图7所示编码装置的编码方法,基本流程与基于图5所示编码装置的编码方法相同,区别在于增加了下述步骤:在对残差序列/频域系数进行量化和熵编码之前,如果是快变类型信号,则对残差序列/频域系数进行多分辨率分析;如果不是快变类型信号,则直接将残差序列/频域系数进行量化和熵编码。
多分辨率分析可采用频域小波变换法或频域MDCT变换法。频域小波分析法包括:对频域系数进行小波变换,得到时频平面系数;将上述时频平面系数按照一定的规则重组。而MDCT变换法则包括:对频域系数进行MDCT变换后,得到时频平面系数;将上述时频平面系数按照一定的规则重组。重组的方法可以包括:先将时频平面系数在频率方向组织,每个频带中的系数在时间方向组织,然后将组织好的系数按照子窗、尺度因子带的顺序排列。
图10是本发明解码装置的实施例一的结构示意图。该解码装置在图6所示解码装置的基础上,增加多分辨率综合模块606。多分辨率综合模块606位于逆量化器组603的输出与逆频域线性预测及矢量量化模块604的输入之间,用于对逆量化谱进行多分辨率综合。
在编码器中,对快变类型信号采用了多分辨率滤波技术以提高快变类型信号的频域数据的时间分辨率。相应地,在解码器中,需采用多分辨率综合模块606对快变类型信号恢复多分辨率分析前的频域系数。多分辨率综合模块606包括:系数重组模块和系数变换模块,其中系数变换模块可以采用频域逆小波变换滤波器组或频域IMDCT变换滤波器组。
基于如图10所示的解码装置的解码方法,基本流程与基于图6所示解码装置的解码方法相同,区别在于增加了下述步骤:在获得了逆量化谱后,对逆量化谱进行多分辨率综合,再判断是否需要对多分辨率综合后的逆量化谱进行逆频域线性预测矢量量化处理。
下面以频域短IMDCT变换为例说明多分辨率综合,具体包括:对逆量化谱系数进行重组;对每个系数进行多个IMDCT变换,得到多分辨率分析前的逆量化谱。下面以128个IMDCT变换(8个输入,16个输出)详细说明该过程。首先,将逆量化谱系数按照子窗、尺度因子带的顺序排列;再按照频序进行重组,这样每个子窗的128个系数按频序被组织在一起。然后,将按子窗排列的系数每8个一组按频率方向组织,每组8个系数按时序排列,这样在频率方向共有128组系数。将每组系数进行16点IMDCT变换,每组IMDCT变换后输出的16个系数重叠相加,获得8个频域数据。依次由低频向高频方向进行128次类似的操作,获得1024个频域系数。
图11是本发明编码装置的第二个实施例的示意图。该实施例在图5的基础上,增加了和差立体声(M/S)编码模块507,位于频域线性预测及矢量量化模块503的输出与量化和熵编码模块505的输入之间,心理声学分析模块501将和差声道的掩蔽阈值输出到量化和熵编码模块505。对于多声道信号,心理声学分析模块501除了计算音频信号单声道的掩蔽阈值,还要计算和差声道的掩蔽阈值。和差立体声编码模块507还可以位于量化和熵编码模块505中的量化器组与编码器之间。
和差立体声编码模块507是利用声道对中两个声道之间的相关性,将左右声道的频域系数/残差序列转换为和差声道的频域系数/残差序列,以达到提高编码效率和立体声声像效果的目的,因此只适用于信号类型一致的声道对信号。如果是单声道信号或者信号类型不一致的声道对信号,则不进行和差立体声编码处理。
基于图11所示编码装置的编码方法与基于图5所示编码装置的编码方法基本相同,区别在于增加了下述步骤:在对残差序列/频域系数进行量化和熵编码处理之前,判断音频信号是否为多声道信号,如果是多声道信号,则判断左、右声道信号的信号类型是否一致,如果信号类型一致,则判断两声道对应的尺度因子带之间是否满足和差立体声编码条件,如果满足,则对残差序列/频域系数进行和差立体声编码,得到和差声道的残差序列/频域系数;如果不满足,则不进行和差立体声编码;如果是单声道信号或信号类型不一致的多声道信号,则对频域系数不进行处理。
和差立体声编码除了可以应用在量化处理之前,还可以应用在量化之后、熵编码之前,即:在对残差序列/频域系数量化后,判断音频信号是否为多声道信号,如果是多声道信号,则判断左、右声道信号的信号类型是否一致,如果信号类型一致,则判断两声道对应的尺度因子带之间是否满足和差立体声编码条件,如果满足,则对两声道该尺度因子带中的量化谱进行和差立体声编码,得到和差声道的量化谱;如果不满足,则不进行和差立体声编码;如果是单声道信号或信号类型不一致的多声道信号,则对频域系数不进行处理。
判断尺度因子带是否可进行和差立体声编码的方法很多,本发明采用的判断方法是:通过K-L变换。具体判断过程如下:
假如左声道尺度因子带的谱系数为l(k),右声道相对应的尺度因子带的谱系数为r(k),其相关矩阵C为
其中,
N是尺度因子带的谱线数目。
对相关矩阵C进行K-L变换,得到 其中,
旋转角度a满足
当a=±π/4时,就是和差立体声处理模式。因此当旋转角度a的绝对值偏离π/4较小时,比如3π/16<|a|<5π/16,对应的尺度因子带可以进行和差立体声编码。
如果和差立体声编码应用在量化处理之前,则将左右声道在尺度因子带的残差序列/频域系数通过线性变换用和差声道的残差序列/频域系数代替:
其中,M表示和声道残差序列/频域系数;S表示差声道残差序列/频域系数;L表示左声道残差序列/频域系数;R表示为右声道残差序列/频域系数。
如果和差立体声编码应用在量化之后,则左右声道在尺度因子带的量化后的残差序列/频域系数通过线性变换用和差声道的残差序列/频域系数代替:
其中:
表示量化后的和声道残差序列/频域系数;
表示量化后的差声道残差序列/频域系数;
表示量化后的左声道残差序列/频域系数;
表示量化后的右声道残差序列/频域系数。
将和差立体声编码放在量化处理之后,不仅可以有效的去除左右声道的相关,而且由于在量化后进行,因此可以达到无损编码。
图12是本发明解码装置的实施例二的示意图。该解码装置在图6所示的解码装置的基础上,增加了和差立体声解码模块607,位于逆量化器组603的输出与逆频域线性预测及矢量量化模块604的输入之间,并接收比特流解复用模块601输出的信号类型分析结果与和差立体声控制信号,用于根据上述控制信息将和差声道的逆量化谱转换成左右声道的逆量化谱。
在和差立体声控制信号中,有一个标志位用于表明当前声道对是否需要和差立体声解码,若需要,则在每个尺度因子带上也有一个标志位表明对应尺度因子带是否需要和差立体声解码,和差立体声解码模块607根据尺度因子带的标志位,确定是否需要对逆量化谱进行和差立体声解码。如果在编码装置中进行了和差立体声编码,则在解码装置中必须对逆量化谱进行和差立体声解码操作。
和差立体声解码模块607还可以位于熵解码模块602的输出与逆量化器组603的输入之间,并接收比特流解复用模块输出的和差立体声控制信号和信号类型分析结果。
基于图12所示解码装置的解码方法基本与基于图6所示解码装置的解码方法相同,区别在于增加了下述步骤:在得到逆量化谱后,如果信号类型分析结果表明信号类型一致,则根据和差立体声控制信号判断是否需要对逆量化谱进行和差立体声解码;如果需要,则根据每个尺度因子带上的标志位判断该尺度因子带是否需要和差立体声解码,如果需要,则将该尺度因子带中的和差声道的逆量化谱转换成左右声道的逆量化谱,再进行后续处理;如果信号类型不一致或者不需要进行和差立体声解码,则对逆量化谱不进行处理,直接进行后续处理。
和差立体声解码还可以在熵解码处理之后、逆量化处理之前进行,即:当得到谱的量化值后,如果信号类型分析结果表明信号类型一致,则根据和差立体声控制信号判断是否需要对谱的量化值进行和差立体声解码;如果需要,则根据每个尺度因子带上的标志位判断该尺度因子带是否需要和差立体声解码,如果需要,则将该尺度因子带中的和差声道的谱的量化值转换成左右声道的谱的量化值,再进行后续处理;如果信号类型不一致或者不需要进行和差立体声解码,则对谱的量化值不进行处理,直接进行后续处理。如果和差立体声解码在熵解码之后、逆量化之前,则左右声道在尺度因子带的频域系数采用下列运算通过和差声道的频域系数得到:
其中:
表示量化后的和声道频域系数;表示量化后的差声道频域系数;
表示量化后的左声道频域系数;
表示量化后的右声道频域系数。
如果和差立体声解码在逆量化之后,则左右声道在子带的逆量化后的频域系数根据下面的矩阵运算通过和差声道的频域系数得到:
其中:m表示和声道频域系数;s表示差声道频域系数;l表示左声道频域系数;r表示右声道频域系数。
图13给出了本发明编码装置的第三个实施例的结构示意图。该实施例是在图7所示编码装置的基础上,增加了和差立体声编码模块507,位于多分辨率分析模块506的输出与量化和熵编码模块504的输入之间或者位于量化和熵编码模块54中的量化器组与编码器之间。在本实施例中,和差立体声编码模块507的功能及工作原理同图11,此处不再赘述。
基于图13所示编码装置的编码方法与基于图7所示编码装置的编码方法基本相同,区别在于增加了下述步骤:在对残差序列/频域系数进行多分辨率分析后,,判断音频信号是否为多声道信号,如果是多声道信号,则判断左、右声道信号的信号类型是否一致,如果信号类型一致,则判断尺度因子带是否满足编码条件,如果满足,则对残差序列/频域系数进行和差立体声编码,得到和差声道的残差序列/频域系数;如果不满足,则不进行和差立体声编码;如果是单声道信号或信号类型不一致的多声道信号,则对频域系数不进行处理。具体的流程在上面已经介绍,此处不再赘述。
图14给出了本发明解码装置的实施例三的结构示意图。该解码装置是在图10所示解码装置的基础上,增加了和差立体声解码模块607,位于逆量化器组603的输出与多分辨率综合606的输入之间或者位于熵解码模块602的输出与逆量化器组603的输入之间。本实施例中和差立体声解码模块607的功能及工作原理同图12,此处不再赘述。
基于图14所示解码装置的解码方法,与基于图10所示解码装置的解码方法基本相同,区别在于增加了下述步骤:在得到逆量化谱后,如果信号类型分析结果表明信号类型一致,则根据和差立体声控制信号判断是否需要对逆量化谱进行和差立体声解码;如果需要,则根据每个尺度因子带上的标志位判断该尺度因子带是否需要和差立体声解码,如果需要,则将该尺度因子带中的和差声道的逆量化谱转换成左右声道的逆量化谱,再进行后续处理;如果信号类型不一致或者不需要进行和差立体声解码,则对逆量化谱不进行处理,直接进行后续处理。具体的流程在上面已经介绍,此处不再赘述。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (13)
1、一种增强音频编码装置,包括心理声学分析模块、时频映射模块、量化和熵编码模块以及比特流复用模块;其特征在于,还包括频域线性预测及矢量量化模块;
所述心理声学分析模块用于计算输入音频信号的掩蔽阈值和信掩比,以及判断信号的类型,并输出到所述量化和熵编码模块;
所述时频映射模块用于将输入的时域音频信号转变成频域系数;
所述频域线性预测及矢量量化模块用于对频域系数进行线性预测和多级矢量量化,并输出残差序列到所述量化和熵编码模块,同时输出边信息到所述比特流复用模块;
所述量化和熵编码模块用于在所述心理声学分析模块输出的信掩比的控制下对频域系数/残差序列进行量化和熵编码,并输出到所述比特流复用模块;
所述比特流复用模块用于将接收到的数据进行复用,形成音频编码的码流。
2、根据权利要求1所述的增强音频编码装置,其特征在于,所述频域线性预测及矢量量化模块由线性预测分析器、线性预测滤波器、转换器和矢量量化器构成;
所述线性预测分析器,用于对频域系数进行预测分析,得到预测增益和预测系数,并将满足一定条件的频域系数输出到所述线性预测滤波器;对于不满足条件的频域系数直接输出到所述量化和熵编码模块;
所述线性预测滤波器,用于对频域系数进行滤波,得到频域系数的线性预测残差序列,并将残差序列输出到所述量化和熵编码模块,将预测系数输出到转换器;
所述转换器,用于将预测系数转换成线谱对频率系数;
所述矢量量化器,用于对线谱对频率系数进行多级矢量量化,量化后的信号被传送到所述比特流复用模块。
3、根据权利要求1或2所述的增强音频编码装置,其特征在于,还包括和差立体声编码模块,位于所述频域线性预测及矢量量化模块或所述多分辨率分析模块的输出与所述量化和熵编码模块的输入之间或者位于所述量化和熵编码模块中的量化器组与编码器之间,用于将左右声道的频域系数/残差序列转换为和差声道的频域系数/残差序列。
4、一种增强音频编码方法,其特征在于,包括以下步骤:
步骤一、计算输入音频信号的信掩比,并分析输入信号的类型;
步骤二、对输入音频信号进行时频映射,获得音频信号的频域系数;
步骤三、对频域系数进行标准的线性预测分析,得到预测增益和预测系数;判断预测增益是否超过设定的阈值,如果超过,则根据预测系数对频域系数进行频域线性预测误差滤波,得到频域系数的预测残差序列;将预测系数转化成线谱对频率系数,并对线谱对频率系数进行多级矢量量化处理,得到边信息;如果预测增益未超过设定的阈值,则对频域系数不进行处理,转至步骤四;
步骤四、对残差序列/频域系数进行量化和熵编码;
步骤五、将边信息和编码后的音频信号进行复用,得到压缩音频码流。
5、根据权利要求4所述增强音频编码方法,其特征在于,所述步骤四中量化是标量量化,具体包括:对所有尺度因子带中的频域系数进行非线性压扩;利用每个子带的尺度因子对该子带的频域系数进行量化,得到整数表示的量化谱;选择每帧信号中的第一个尺度因子作为公共尺度因子;其它尺度因子与其前一个尺度因子进行差分处理;
所述熵编码包括:对量化谱和差分处理后的尺度因子进行熵编码,得到码书序号、尺度因子编码值和无损编码量化谱;对码书序号进行熵编码,得到码书序号编码值。
6、根据权利要求4或5所述增强音频编码方法,其特征在于,所述步骤四进一步包括:对残差序列/频域系数进行量化;判断音频信号是否为多声道信号,如果是多声道信号,则判断左、右声道信号的信号类型是否一致,如果信号类型一致,则判断两声道对应的尺度因子带之间是否满足和差立体声编码条件,如果满足,则对该尺度因子带中的残差序列/频域系数进行和差立体声编码,得到和差声道的残差序列/频域系数;如果不满足,则该尺度因子带中的残差序列/频域系数不进行和差立体声编码;如果是单声道信号或信号类型不一致的多声道信号,则对残差序列/频域系数不进行处理;对残差序列/频域系数进行熵编码;其中
7、一种增强音频解码装置,包括比特流解复用模块、熵解码模块、逆量化器组和频率-时间映射模块,其特征在于,还包括逆频域线性预测及矢量量化模块;
所述比特流解复用模块用于对压缩音频数据流进行解复用,并向所述熵解码模块和所述逆频域线性预测及矢量量化模块输出相应的音频数据信号和控制信号;
所述熵解码模块用于对上述信号进行解码处理,恢复谱的量化值,输出到所述逆量化器组;
所述逆量化器组用于重建逆量化谱,并输出到所述逆频域线性预测及矢量量化模块中;
所述逆频域线性预测及矢量量化模块用于对逆量化谱进行逆量化处理和逆线性预测滤波,得到预测前的谱,并输出到所述频率-时间映射模块;
所述频率-时间映射模块用于对谱系数进行频率-时间映射,得到低频带的时域音频信号。
8、根据权利要求7所述的增强音频解码装置,其特征在于,所述逆频域线性预测及矢量量化模块包括逆矢量量化器、逆转换器和逆线性预测滤波器;所述逆矢量量化器用于对码字索引进行逆量化,得到线谱对频率系数;所述逆转换器则用于将线谱对频率系数逆转换为预测系数;所述逆线性预测滤波器用于根据预测系数将逆量化谱进行逆滤波,得到预测前的谱。
9、根据权利要求7或8所述的增强音频解码装置,其特征在于,还包括和差立体声解码模块,位于所述逆量化器组的输出与所述多分辨率综合或所述逆频域线性预测及矢量量化模块的输入之间或者位于所述熵解码模块的输出与所述逆量化器组的输入之间,接收所述比特流解复用模块输出的信号类型分析结果与和差立体声控制信号,用于根据上述控制信息将和差声道的逆量化谱转换成左右声道的逆量化谱。
10、一种增强音频解码方法,其特征在于,包括以下步骤:
步骤一、对压缩音频数据流进行解复用,得到数据信息和控制信息;
步骤二、对上述信息进行熵解码,得到谱的量化值;
步骤三、对谱的量化值进行逆量化处理,得到逆量化谱;
步骤四、判断控制信息中是否包含逆量化谱需经过逆频域线性预测矢量量化的信息,如果含有,则对逆量化谱进行逆矢量量化处理,得到预测系数,并根据预测系数对逆量化谱进行线性预测合成过程,得到预测前的谱;如果没有包含逆量化谱需经过逆频域线性预测矢量量化的信息,则不对逆量化谱进行处理,转至步骤五;
步骤五、对预测前的谱/逆量化谱进行频率-时间映射,得到时域音频信号。
11、根据权利要求10所述的增强音频解码方法,其特征在于,所述步骤四的逆矢量量化处理步骤进一步包括:从控制信息中获得预测系数矢量量化后的码字索引;再根据码字索引得到量化的线谱对频率系数,并以此计算出预测系数。
12、根据权利要求10所述的增强音频解码方法,其特征在于,所述步骤五进一步包括:对逆量化谱进行逆修正离散余弦变换,得到变换后的时域信号;对变换后的时域信号在时域进行加窗处理;对上述加窗时域信号进行叠加处理,得到时域音频信号;其中所述加窗处理中的窗函数为:
w(N+k)=cos(pi/2*((k+0.5)/N-0.94*sin(2*pi/N*(k+0.5))/(2*pi))),其中pi为圆周率,k=0...N-1;w(k)表示窗函数的第k个系数,有w(k)=w(2*N-1-k);N表示编码帧的样本数。
13、根据权利要求10至12任一所述的增强音频解码方法,其特征在于,在所述步骤二与步骤三之间,还包括:如果信号类型分析结果表明信号类型一致,则根据和差立体声控制信号判断是否需要对谱的量化值进行和差立体声解码;如果需要,则根据每个尺度因子带上的标志位判断该尺度因子带是否需要和差立体声解码,如果需要,则将该尺度因子带中的和差声道的谱的量化值转换成左右声道的谱的量化值,转至步骤三;如果信号类型不一致或者不需要进行和差立体声解码,则对谱的量化值不进行处理,转至步骤三;其中所述和差立体声解码是:
其中:
表示量化后的和声道谱的量化值;
表示量化后的差声道谱的量化值;
表示量化后的左声道谱的量化值;表示量化后的右声道谱的量化值。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CNA2004100461540A CN1677491A (zh) | 2004-04-01 | 2004-06-02 | 一种增强音频编解码装置及方法 |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN200410030943.5 | 2004-04-01 | ||
| CN200410030943 | 2004-04-01 | ||
| CNA2004100461540A CN1677491A (zh) | 2004-04-01 | 2004-06-02 | 一种增强音频编解码装置及方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN1677491A true CN1677491A (zh) | 2005-10-05 |
Family
ID=35049969
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CNA2004100461540A Pending CN1677491A (zh) | 2004-04-01 | 2004-06-02 | 一种增强音频编解码装置及方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN1677491A (zh) |
Cited By (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101667170A (zh) * | 2008-09-05 | 2010-03-10 | 索尼株式会社 | 计算、量化、音频编码的装置和方法及程序 |
| CN101740033B (zh) * | 2008-11-24 | 2011-12-28 | 华为技术有限公司 | 一种音频编码方法和音频编码器 |
| CN101536085B (zh) * | 2006-10-24 | 2012-01-25 | 弗劳恩霍夫应用研究促进协会 | 用于从音频信号中产生环境信号的设备和方法和用于从音频信号中导出多声道音频信号的设备和方法 |
| CN101267223B (zh) * | 2007-03-16 | 2012-02-15 | 索尼株式会社 | 低音增强方法、信号处理设备和音频再现系统 |
| CN102652337A (zh) * | 2009-12-10 | 2012-08-29 | 三星电子株式会社 | 用于声通信的设备和方法 |
| CN101939781B (zh) * | 2008-01-04 | 2013-01-23 | 杜比国际公司 | 音频编码器和解码器 |
| CN103618555A (zh) * | 2013-11-27 | 2014-03-05 | 北京科技大学 | 一种海洋航线监测数据的压缩方法 |
| US8712765B2 (en) | 2006-11-10 | 2014-04-29 | Panasonic Corporation | Parameter decoding apparatus and parameter decoding method |
| CN105225667A (zh) * | 2009-03-17 | 2016-01-06 | 杜比国际公司 | 编码器系统、解码器系统、编码方法和解码方法 |
| CN105791873A (zh) * | 2010-07-19 | 2016-07-20 | Sk电信有限公司 | 视频编码方法 |
| CN103618555B (zh) * | 2013-11-27 | 2016-11-30 | 北京科技大学 | 一种海洋航线监测数据的压缩方法 |
| CN106373583A (zh) * | 2016-09-28 | 2017-02-01 | 北京大学 | 基于理想软阈值掩模irm的多音频对象编、解码方法 |
| CN106486129A (zh) * | 2014-06-27 | 2017-03-08 | 华为技术有限公司 | 一种音频编码方法和装置 |
| CN107077856A (zh) * | 2014-08-28 | 2017-08-18 | 诺基亚技术有限公司 | 音频参数量化 |
| CN104769671B (zh) * | 2013-07-22 | 2017-09-26 | 弗劳恩霍夫应用研究促进协会 | 用于使用时域噪声/修补整形对编码音频信号进行编码和解码的设备及方法 |
| CN109087653A (zh) * | 2014-03-24 | 2018-12-25 | 杜比国际公司 | 对高阶高保真立体声信号应用动态范围压缩的方法和设备 |
| CN109935236A (zh) * | 2013-04-05 | 2019-06-25 | 杜比国际公司 | 音频编码器和解码器 |
| CN110489606A (zh) * | 2019-07-31 | 2019-11-22 | 云南师范大学 | 一种分组Hilbert编码和解码方法 |
| CN112119457A (zh) * | 2018-04-05 | 2020-12-22 | 瑞典爱立信有限公司 | 可截断的预测编码 |
| CN113593592A (zh) * | 2021-08-04 | 2021-11-02 | 深圳市瑞江科技有限公司 | 基于多域扩张的音频增强方法及装置 |
| WO2022267754A1 (zh) * | 2021-06-22 | 2022-12-29 | 腾讯科技(深圳)有限公司 | 语音编码、语音解码方法、装置、计算机设备和存储介质 |
| CN115691514A (zh) * | 2021-07-29 | 2023-02-03 | 华为技术有限公司 | 一种多声道信号的编解码方法和装置 |
| US12112765B2 (en) | 2015-03-09 | 2024-10-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
-
2004
- 2004-06-02 CN CNA2004100461540A patent/CN1677491A/zh active Pending
Cited By (81)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101536085B (zh) * | 2006-10-24 | 2012-01-25 | 弗劳恩霍夫应用研究促进协会 | 用于从音频信号中产生环境信号的设备和方法和用于从音频信号中导出多声道音频信号的设备和方法 |
| US8712765B2 (en) | 2006-11-10 | 2014-04-29 | Panasonic Corporation | Parameter decoding apparatus and parameter decoding method |
| CN102682774B (zh) * | 2006-11-10 | 2014-10-08 | 松下电器(美国)知识产权公司 | 参数解码方法及参数解码装置 |
| CN101267223B (zh) * | 2007-03-16 | 2012-02-15 | 索尼株式会社 | 低音增强方法、信号处理设备和音频再现系统 |
| US8924201B2 (en) | 2008-01-04 | 2014-12-30 | Dolby International Ab | Audio encoder and decoder |
| CN101939781B (zh) * | 2008-01-04 | 2013-01-23 | 杜比国际公司 | 音频编码器和解码器 |
| CN103065637A (zh) * | 2008-01-04 | 2013-04-24 | 杜比国际公司 | 音频编码器和解码器 |
| CN103065637B (zh) * | 2008-01-04 | 2015-02-04 | 杜比国际公司 | 音频编码器和解码器 |
| US8938387B2 (en) | 2008-01-04 | 2015-01-20 | Dolby Laboratories Licensing Corporation | Audio encoder and decoder |
| CN101667170A (zh) * | 2008-09-05 | 2010-03-10 | 索尼株式会社 | 计算、量化、音频编码的装置和方法及程序 |
| CN101740033B (zh) * | 2008-11-24 | 2011-12-28 | 华为技术有限公司 | 一种音频编码方法和音频编码器 |
| US12223966B2 (en) | 2009-03-17 | 2025-02-11 | Dolby International Ab | Selectable linear predictive or transform coding modes with advanced stereo coding |
| US11322161B2 (en) | 2009-03-17 | 2022-05-03 | Dolby International Ab | Audio encoder with selectable L/R or M/S coding |
| US11017785B2 (en) | 2009-03-17 | 2021-05-25 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
| CN105225667A (zh) * | 2009-03-17 | 2016-01-06 | 杜比国际公司 | 编码器系统、解码器系统、编码方法和解码方法 |
| US11133013B2 (en) | 2009-03-17 | 2021-09-28 | Dolby International Ab | Audio encoder with selectable L/R or M/S coding |
| US12334082B2 (en) | 2009-03-17 | 2025-06-17 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
| US12327565B1 (en) | 2009-03-17 | 2025-06-10 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
| US12327566B2 (en) | 2009-03-17 | 2025-06-10 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
| US12308033B1 (en) | 2009-03-17 | 2025-05-20 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
| US10297259B2 (en) | 2009-03-17 | 2019-05-21 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
| US11315576B2 (en) | 2009-03-17 | 2022-04-26 | Dolby International Ab | Selectable linear predictive or transform coding modes with advanced stereo coding |
| CN105225667B (zh) * | 2009-03-17 | 2019-04-05 | 杜比国际公司 | 编码器系统、解码器系统、编码方法和解码方法 |
| US12354612B2 (en) | 2009-03-17 | 2025-07-08 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
| CN102652337B (zh) * | 2009-12-10 | 2014-02-19 | 三星电子株式会社 | 用于声通信的设备和方法 |
| CN102652337A (zh) * | 2009-12-10 | 2012-08-29 | 三星电子株式会社 | 用于声通信的设备和方法 |
| CN105791873A (zh) * | 2010-07-19 | 2016-07-20 | Sk电信有限公司 | 视频编码方法 |
| CN109935236B (zh) * | 2013-04-05 | 2023-05-30 | 杜比国际公司 | 音频编码器和解码器 |
| US11676622B2 (en) | 2013-04-05 | 2023-06-13 | Dolby International Ab | Method, apparatus and systems for audio decoding and encoding |
| CN109935236A (zh) * | 2013-04-05 | 2019-06-25 | 杜比国际公司 | 音频编码器和解码器 |
| US12243549B2 (en) | 2013-04-05 | 2025-03-04 | Dolby International Ab | Method, apparatus and systems for audio decoding and encoding |
| US10847167B2 (en) | 2013-07-22 | 2020-11-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
| US10147430B2 (en) | 2013-07-22 | 2018-12-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
| US10347274B2 (en) | 2013-07-22 | 2019-07-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
| CN104769671B (zh) * | 2013-07-22 | 2017-09-26 | 弗劳恩霍夫应用研究促进协会 | 用于使用时域噪声/修补整形对编码音频信号进行编码和解码的设备及方法 |
| US10002621B2 (en) | 2013-07-22 | 2018-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
| US12142284B2 (en) | 2013-07-22 | 2024-11-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
| US10515652B2 (en) | 2013-07-22 | 2019-12-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
| US10573334B2 (en) | 2013-07-22 | 2020-02-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain |
| US10593345B2 (en) | 2013-07-22 | 2020-03-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for decoding an encoded audio signal with frequency tile adaption |
| US10332531B2 (en) | 2013-07-22 | 2019-06-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decoding or encoding an audio signal using energy information values for a reconstruction band |
| US11996106B2 (en) | 2013-07-22 | 2024-05-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
| US10984805B2 (en) | 2013-07-22 | 2021-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
| US10311892B2 (en) | 2013-07-22 | 2019-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding audio signal with intelligent gap filling in the spectral domain |
| US11049506B2 (en) | 2013-07-22 | 2021-06-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
| US11922956B2 (en) | 2013-07-22 | 2024-03-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain |
| US11769512B2 (en) | 2013-07-22 | 2023-09-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
| US11769513B2 (en) | 2013-07-22 | 2023-09-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decoding or encoding an audio signal using energy information values for a reconstruction band |
| US11222643B2 (en) | 2013-07-22 | 2022-01-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for decoding an encoded audio signal with frequency tile adaption |
| US11250862B2 (en) | 2013-07-22 | 2022-02-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decoding or encoding an audio signal using energy information values for a reconstruction band |
| US11257505B2 (en) | 2013-07-22 | 2022-02-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
| US11289104B2 (en) | 2013-07-22 | 2022-03-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain |
| US10276183B2 (en) | 2013-07-22 | 2019-04-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for decoding or encoding an audio signal using energy information values for a reconstruction band |
| US11735192B2 (en) | 2013-07-22 | 2023-08-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
| US10134404B2 (en) | 2013-07-22 | 2018-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
| US10332539B2 (en) | 2013-07-22 | 2019-06-25 | Fraunhofer-Gesellscheaft zur Foerderung der angewanften Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
| CN103618555A (zh) * | 2013-11-27 | 2014-03-05 | 北京科技大学 | 一种海洋航线监测数据的压缩方法 |
| CN103618555B (zh) * | 2013-11-27 | 2016-11-30 | 北京科技大学 | 一种海洋航线监测数据的压缩方法 |
| CN109087653A (zh) * | 2014-03-24 | 2018-12-25 | 杜比国际公司 | 对高阶高保真立体声信号应用动态范围压缩的方法和设备 |
| CN109087653B (zh) * | 2014-03-24 | 2023-09-15 | 杜比国际公司 | 对高阶高保真立体声信号应用动态范围压缩的方法和设备 |
| US11838738B2 (en) | 2014-03-24 | 2023-12-05 | Dolby Laboratories Licensing Corporation | Method and device for applying Dynamic Range Compression to a Higher Order Ambisonics signal |
| US12273696B2 (en) | 2014-03-24 | 2025-04-08 | Dolby Laboratories Licensing Corporation | Method and device for applying dynamic range compression to a higher order ambisonics signal |
| US12136430B2 (en) | 2014-06-27 | 2024-11-05 | Top Quality Telephony, Llc | Audio coding method and apparatus |
| CN106486129A (zh) * | 2014-06-27 | 2017-03-08 | 华为技术有限公司 | 一种音频编码方法和装置 |
| US11133016B2 (en) | 2014-06-27 | 2021-09-28 | Huawei Technologies Co., Ltd. | Audio coding method and apparatus |
| CN106486129B (zh) * | 2014-06-27 | 2019-10-25 | 华为技术有限公司 | 一种音频编码方法和装置 |
| US10460741B2 (en) | 2014-06-27 | 2019-10-29 | Huawei Technologies Co., Ltd. | Audio coding method and apparatus |
| CN107077856A (zh) * | 2014-08-28 | 2017-08-18 | 诺基亚技术有限公司 | 音频参数量化 |
| US12112765B2 (en) | 2015-03-09 | 2024-10-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
| CN106373583B (zh) * | 2016-09-28 | 2019-05-21 | 北京大学 | 基于理想软阈值掩模irm的多音频对象编、解码方法 |
| CN106373583A (zh) * | 2016-09-28 | 2017-02-01 | 北京大学 | 基于理想软阈值掩模irm的多音频对象编、解码方法 |
| CN112119457A (zh) * | 2018-04-05 | 2020-12-22 | 瑞典爱立信有限公司 | 可截断的预测编码 |
| US11978460B2 (en) | 2018-04-05 | 2024-05-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Truncateable predictive coding |
| US12469504B2 (en) | 2018-04-05 | 2025-11-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Truncateable predictive coding |
| CN110489606A (zh) * | 2019-07-31 | 2019-11-22 | 云南师范大学 | 一种分组Hilbert编码和解码方法 |
| CN110489606B (zh) * | 2019-07-31 | 2023-06-06 | 云南师范大学 | 一种分组Hilbert编码和解码方法 |
| WO2022267754A1 (zh) * | 2021-06-22 | 2022-12-29 | 腾讯科技(深圳)有限公司 | 语音编码、语音解码方法、装置、计算机设备和存储介质 |
| US12431147B2 (en) | 2021-06-22 | 2025-09-30 | Tencent Technology (Shenzhen) Company Limited | Speech coding method and apparatus, speech decoding method and apparatus, computer device, and storage medium |
| CN115691514A (zh) * | 2021-07-29 | 2023-02-03 | 华为技术有限公司 | 一种多声道信号的编解码方法和装置 |
| CN113593592B (zh) * | 2021-08-04 | 2024-03-22 | 深圳市瑞江科技有限公司 | 基于多域扩张的音频增强方法及装置 |
| CN113593592A (zh) * | 2021-08-04 | 2021-11-02 | 深圳市瑞江科技有限公司 | 基于多域扩张的音频增强方法及装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN1677490A (zh) | 一种增强音频编解码装置及方法 | |
| CN1677493A (zh) | 一种增强音频编解码装置及方法 | |
| CN1677491A (zh) | 一种增强音频编解码装置及方法 | |
| CN1258172C (zh) | 对音频信号进行编码及解码的装置和方法 | |
| CN1233163C (zh) | 多声道数字音频信号的压缩编码和解码设备及其方法 | |
| CN105913851B (zh) | 对音频/语音信号进行编码和解码的方法和设备 | |
| CN1183685C (zh) | 用于熵编码信号量化变换系数的系统和方法 | |
| CN101432802B (zh) | 使用有损编码的数据流和无损扩展数据流对源信号进行无损编码的方法以及设备 | |
| US7774205B2 (en) | Coding of sparse digital media spectral data | |
| CN101925953B (zh) | 编码装置、解码装置以及其方法 | |
| TWI497485B (zh) | 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法 | |
| CN1237506C (zh) | 音响信号编码方法及设备、音响信号解码方法及设备 | |
| WO2005096274A1 (en) | An enhanced audio encoding/decoding device and method | |
| NO340674B1 (no) | Koding av informasjonssignal | |
| CN1310210C (zh) | 使用解码信号的特征适配合成频谱分量的音频编码系统 | |
| CN1926608A (zh) | 多声道信号处理设备和方法 | |
| CN1675683A (zh) | 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法 | |
| AU2012297805A1 (en) | Encoding device and method, decoding device and method, and program | |
| CN1677492A (zh) | 一种增强音频编解码装置及方法 | |
| CN1240978A (zh) | 音频信号编码装置、解码装置及音频信号编码、解码装置 | |
| CN1993733A (zh) | 用于空间音频参数的有效编码的能量相关量化 | |
| JP2015172779A (ja) | オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置 | |
| CN1702974A (zh) | 用于对数字信号编码/解码的方法和设备 | |
| JP5629319B2 (ja) | スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法 | |
| JP4685165B2 (ja) | 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20051005 |