TWI789577B

TWI789577B - 音訊資料重建方法及系統

Info

Publication number: TWI789577B
Application number: TW109111346A
Authority: TW
Inventors: 李敬祥
Original assignee: 同響科技股份有限公司
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2023-01-11
Also published as: TW202139032A

Abstract

本發明公開一種音訊資料重建方法及系統。方法包含以下步驟：由發送端依序發送多個音訊封包至接收端；利用接收端對丟失或延遲送達音訊封包的那一幀的前幾幀的音訊封包進行快速傅立葉轉換運算；利用接收端依據前一幀的音訊封包計算門檻值；利用接收端對振幅大於門檻值的頻率片段進行線性預測；以及利用接收端外推出的頻率片段進行快速傅立葉反轉換運算，以外推丟失或延遲送達的音訊封包。

Description

音訊資料重建方法及系統

本發明涉及音訊，特別是涉及一種音訊資料重建方法及系統。

數位音訊資料常以一幀幀(frame)方式編碼後經由有線或無線網路傳送到接收端解碼後播放。而傳送過程中因為干擾或是網路壅塞造成音訊封包丟失或遲到，使得接收端因緩衝區耗盡而中斷播放。一個簡單的方法是加大緩衝區，並在緩衝區耗盡前要求重送丟失的封包，但如此將增加播放延遲，不適用於一些需要低延遲的應用。

另一種方法是利用丟失封包前後的完好封包內的音訊資料做內插(interpolation)運算，或是利用丟失封包前的完好封包內的音訊資料做外推(extrapolation)運算，以運算出的音訊資料取代丟失封包的音訊資料，如此可保持播放不中斷，也無需加大緩衝區。

目前已有多種重建丟失音訊資料的方法被提出，先將音訊資料由時域(time domain)轉換到頻域(frequency domain)，並以正弦波模型(sinusoidal model)來表示聲音，利用丟失封包前後的完好封包正弦波來內插運算出丟失封包的正弦波頻率(frequency)，振幅(amplitude)與相位(phase)，最後再做頻域到時域轉換得到重建的音訊資料。

本發明所要解決的技術問題在於，針對現有技術的不足提供一種音訊資料重建方法，包含以下步驟：由發送端將音訊資料分成多個音訊封包依序發送至接收端；利用接收端，對丟失或延遲送達音訊封包的那一幀的前幾幀的音訊封包進行快速傅立葉轉換運算，以將音訊封包從時域轉換到頻域；利用接收端，依據丟失或延遲送達音訊封包的那一幀的前一幀的音訊封包計算門檻值；利用接收端，比對丟失或延遲送達音訊封包的那一幀之前的每一幀的每一頻率片段的振幅與門檻值，以進行篩選；利用接收端，對篩選出的振幅大於門檻值的每一頻率片段的振幅和相位進行線性預測，以外推丟失或延遲送達的音訊封包；以及利用接收端，以外推出的頻率片段進行快速傅立葉反轉換運算，以將經由外推所取得的音訊封包，從頻域轉換回時域。

在一實施態樣中，所述音訊資料重建方法更包含以下步驟：利用接收端，計算外推的音訊封包的振幅和相位；利用接收端，在外推的音訊封包中，振幅不大於門檻值的頻率片段的實部和虛部，填入雜訊；以及利用接收端，進行快速傅立葉反轉換運算，以將經由外推和填入雜訊後所取得的音訊封包，從頻域轉換回時域。

在一實施態樣中，所述音訊資料重建方法更包含以下步驟：利用接收端，計算篩選出進行快速傅立葉轉換運算後的前一幀的每一頻率片段的振幅；利用接收端加總前一幀的所有頻率片段的振幅，以取得總振幅；以及利用接收端，基於總振幅計算出門檻值。

在一實施態樣中，所述音訊資料重建方法更包含以下步驟：利用接收端將總振幅除以訊雜比，以取得門檻值。

另外，本發明提供一種音訊重建系統，包含發送端以及接收端。發送端配置以將一音訊資料分成多個音訊封包，並依序發送多個音訊封包。接收端包含音訊接收模組、音訊轉換模組、音頻篩選模組以及外推運算模組。音訊接收模組連接發送端，配置以依序接收發送端發送的多個音訊封包。音訊轉換模組連接音訊接收模組，配置以對丟失或延遲送達音訊封包的那一幀的前幾幀的音訊封包進行快速傅立葉轉換運算，以將音訊封包從時域轉換到頻域。音頻篩選模組連接音訊轉換模組。音頻篩選模組配置以在經由快速傅立葉轉換運算後，依據丟失或延遲送達音訊封包的那一幀的前一幀的音訊封包計算一門檻值。音頻篩選模組配置以比對丟失或延遲送達音訊封包的那一幀之前的每一幀的每一頻率片段的振幅與門檻值，以進行篩選。外推運算模組連接音頻篩選模組以及音訊轉換模組。外推運算模組對篩選出進行快速傅立葉轉換運算的所有振幅進行線性預測，以外推丟失或延遲送達的音訊封包。音訊轉換模組以外推出的頻率片段進行快速傅立葉反轉換運算，以將經由外推所取得的音訊封包，從頻域轉換回時域。

在一實施態樣中，接收端更包含相位計算模組，連接音頻篩選模組。相位計算模組配置以計算外推的音訊封包的振幅和相位。

在一實施態樣中，接收端更包含雜訊填充模組，連接相位計算模組、外推運算模組以及音訊轉換模組。雜訊填充模組配置以在外推的音訊封包中，振幅不大於門檻值的頻率片段的實部和虛部填入雜訊。音訊轉換模組進行快速傅立葉反轉換運算，以將經由外推和填入雜訊後取得的音訊封包，從頻域轉換回時域。

在一實施態樣中，音頻篩選模組配置以計算篩選出進行快速傅立葉轉換運算後的前一幀的每一頻率片段的振幅，加總前一幀的所有頻率片段的振幅，以取得總振幅，並基於總振幅，計算出門檻值。

在一實施態樣中，音頻篩選模組配置以將總振幅除以訊雜比，以取得門檻值。

如上所述，本發明提供一種音訊資料重建方法及方法，其重建丟失或遲到的音波，主要優點如下： 1.只在接收端進行運算，發送端無需特別編碼或運算； 2.使用單純的PCM資料進行運算，跟音訊資料的壓縮方法無關； 3.運算簡單，運算量低，適合低功耗低運算能力裝置； 4.無需丟失或遲到的封包後的完好封包，只需要丟失或遲到的封包前的完好封包即可進行運算，適用於低延遲播放裝置。

為使能更進一步瞭解本發明的特徵及技術內容，請參閱以下有關本發明的詳細說明與圖式，然而所提供的圖式僅用於提供參考與說明，並非用來對本發明加以限制。

以下是通過特定的具體實施例來說明本發明的實施方式，本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用，本說明書中的各項細節也可基於不同觀點與應用，在不背離本發明的構思下進行各種修改與變更。另外，本發明的附圖僅為簡單示意說明，並非依實際尺寸的描繪，事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容，但所公開的內容並非用以限制本發明的保護範圍。另外，本文中所使用的術語“或”，應視實際情況可能包含相關聯的列出項目中的任一個或者多個的組合。

[第一實施例]

請參閱圖1，其為本發明第一實施例的音訊資料重建方法的步驟流程圖。本實施例的音訊資料重建方法可包含如圖1所示的步驟S101~S107，具體說明如下。

在步驟S101，由發送端將音訊資料分成多個音訊封包依序發送至接收端。在發送端依序發送多個音訊封包至接收端的傳輸過程中，可能會丟失或延遲送達音訊封包。在發生此情況時，利用接收端對丟失或延遲送達音訊封包的那一幀或稱為訊框(frame)的前幾幀的音訊封包進行快速傅立葉轉換(Fast Fourier Transform, FFT)運算，以將音訊封包從時域轉換到頻域。

在步驟S103，利用接收端依據丟失或延遲送達音訊封包的那一幀的前一幀的音訊封包計算門檻值，比對丟失或延遲送達音訊封包的那一幀之前的(多個幀)的每一幀的多個頻率片段中的每一頻率片段(FFT bin)的振幅與門檻值，以篩選出高於門檻值的振幅，即篩選出高能量的頻片。

在步驟S105，利用接收端對篩選出的所有頻率片段的振幅進行線性預測，以外推丟失或延遲送達的音訊封包。

在步驟S107，利用接收端進行快速傅立葉反轉換運算，以將經由外推所取得的音訊封包，從頻域轉換回時域，以取得脈衝編碼調變(pulse code modulation, PCM)音訊封包。

[第二實施例]

請參閱圖2~圖5，其中圖2為本發明第二實施例的音訊資料重建方法的步驟流程圖；圖3為本發明第二實施例的依據丟失或延遲送達音訊封包的那一幀的前一幀計算門檻值的示意圖；圖4為本發明第二實施例的丟失或延遲送達音訊封包的那一幀的前一幀執行完快速傅立葉轉換運算後的頻譜圖；圖5為本發明第二實施例的重建的幀的頻譜圖。

在發送端依序發送多個幀分別的多個音訊封包至接收端的過程中，可能受到環境因素或網路壅塞等干擾，造成部分音訊封包例如最後一幀的音訊封包丟失或延遲送達至接收端，導致接收端未接收到最後一幀的音訊封包(即丟失音訊封包)，或未在一預定時間內接收到最後一幀的音訊封包(即延遲送達音訊封包)。其結果為，接收端在依序接收並播放多個幀後，發生斷音，例如圖3所示，接收端在依序接收並播放多個幀FR1~FR7後，出現斷音區Gap。為了解決斷音的問題，本實施例的音訊資料重建方法可包含如圖2所示的步驟S201~S211，具體說明如下。

在步驟S201，在發送端依序發送多個音訊封包至接收端的傳輸過程中，利用接收端對丟失或延遲送達音訊封包的那一幀的前幾幀(例如圖3所示的幀FR7)的音訊封包進行快速傅立葉轉換(Fast Fourier Transform, FFT)運算，以將音訊封包從時域轉換到頻域，如圖4所示為丟失或延遲送達音訊封包的那一幀的前一幀執行完快速傅立葉轉換運算後的頻譜波形WAVE1。

在步驟S203，利用接收端依據丟失或延遲送達音訊封包的那一幀(例如圖3所示的斷音區Gap)的前一幀(例如圖3所示的幀FR7)的音訊封包計算門檻值。接著，利用接收端比對丟失或延遲送達音訊封包的那一幀之前的多個幀的每一幀(例如圖3所示的每個幀FR1~FR7)的每一頻率片段的振幅與門檻值(例如圖4所示的門檻值TH例如雜訊比)，以篩選出高於門檻值的頻率振幅，例如篩選出圖4所示的所有高於門檻值TH的頻率振幅，超過門檻值TH的頻率片段才需要做振幅線性預測和相位計算。

在步驟S205，利用接收端對篩選出的所有的振幅進行線性預測，以外推丟失或延遲送達的音訊封包，如圖5所示為重建的幀的頻譜波形WAVE2。

詳言之，利用接收端計算篩選出進行快速傅立葉轉換運算的前一幀(例如圖3所示在斷音區Gap前的幀FR7)的每一頻率片段的振幅，以下列方程式表示：

；其中magnitude代表頻率的振幅，real代表頻率的實部，image代表頻率的虛部。

接著，利用接收端加總前一幀的所有頻率片段的振幅，以取得總振幅。利用接收端基於總振幅，計算出門檻值，以下列方程式表示：TM=M1+M2+M3+…+Mn，其中TM代表總振幅，M1~Mn代表多個頻率片段的振幅，n代表用於計算門檻值的頻率振幅的數量，n=FFT size/2，其中FFT size代表可進行快速傅立葉轉換運算的頻率振幅的數量。

舉例而言，利用接收端將總振幅除以訊雜比，以取得門檻值，以下列方程式表示：

，其中S代表門檻值，TM代表總振幅，L代表訊雜比，此訊雜比可為任意適當值，例如1000。在利用接收端篩選出高能量的頻率片段後，剩餘篩掉的低能量雜訊視為雜訊，不作為後續步驟中外推丟失或延遲送達的音訊封包的依據。

在步驟S207，利用接收端計算外推的音訊封包的相位，例如以下列方程式計算取得：

；其中Phase代表相位，image代表頻率片段的虛部，real代表頻率片段的實部。

舉例而言，利用接收端計算外推的幀(即丟失音訊封包的那一幀，第N+1幀)的前一幀(第N幀)的相位，並計算前一幀(第N幀) 的相位與更前一幀(第N-1幀)的相位之間的相位差，最後加總計算出的相位差與前一幀(第N幀)的相位，以取得外推的幀的相位，以下列方程式表示： Phase[N+1] = Phase[N]+(Phase[N] – Phase[N-1])；其中Phase[N+1]代表外推的幀的相位，表示外推的幀的音訊封包在發送端發送的多個音訊封包中排列第N+1個傳輸，N可為大於1的任意適當整數值，而Phase[N]代表外推的幀的前一幀的相位，Phase[N-1]代表外推的幀的前一幀的更前一幀的相位。

音訊封包的音波的頻率片段的實部與虛部可依下列方程式表示：

其中real代表頻率片段的實部，image代表頻率片段的虛部，magnitude代表頻率片段的振幅，Phase代表頻率片段的相位。

在步驟S209，在外推的幀的音訊封包的音波中，振幅不大於門檻值的頻率片段的實部和虛部，填入雜訊。詳言之，在外推的幀的音波中，不大於門檻值的頻率片段的實部和虛部填入小於門檻值的雜訊值。

在步驟S211，利用接收端進行快速傅立葉反轉換運算，以將經由外推所取得的音訊封包，從頻域轉換回時域，以取得PCM音訊封包。

應理解，本發明不受限於本文實施例的舉例，可依據實際需求，適當調整本文實施例的方法的步驟執行順序和內容，或增減步驟的程序，若有需要，可適當重覆執行本文實施例舉例的一或多個步驟。

[第三實施例]

請參閱圖6和圖7，其中圖6為本發明第三實施例的音訊資料重建系統的方塊圖，而圖7為手機發送音源資料至採用第三實施例的音訊資料重建系統的耳機的使用示意圖。

本實施例的音訊資料重建系統可包含如圖6所示的發送端TX以及接收端RX。其中，接收端RX可包含音訊接收模組10、音訊轉換模組20、音頻篩選模組30以及外推運算模組40，可用以執行上述步驟S101~S109、S201~S205、S211。舉例而言，如圖7所示，發送端TX可為手機，而接收端RX可為耳機，在此僅舉例說明，本發明不以此為限。

音訊接收模組10連接發送端TX以及音訊接收模組10。發送端TX將音訊資料AU切割成多個音訊封包後，向接收端RX發送多個音訊封包。接收端RX的音訊接收模組10經由有線或無線方式(例如但不限於採用藍芽無線傳輸技術)依序接收發送端TX發送的音訊封包。

在發送端TX持續向接收端RX的音訊接收模組10依序發送多個音訊封包的過程中，音訊轉換模組20判斷有音訊封包丟失或延遲送達時，對丟失或延遲送達音訊封包的那一幀的前幾幀的音訊封包進行快速傅立葉轉換運算，以將音訊封包從時域轉換到頻域。

音頻篩選模組30連接音訊轉換模組20。在進行快速傅立葉轉換運算後，音頻篩選模組30依據丟失或延遲送達音訊封包的那一幀的前一幀的音訊封包的係數或參數計算門檻值。音頻篩選模組30接著比對丟失或延遲送達音訊封包的那一幀之前的每一幀的每一頻率片段的振幅與門檻值，以進行篩選。

外推運算模組40連接音頻篩選模組30以及音訊轉換模組20，配置以對篩選出的頻率片段的振幅進行線性預測，以外推丟失或延遲送達的音訊封包。最後，音訊轉換模組20進行快速傅立葉反轉換運算，以將經由外推所取得的音訊封包，從頻域轉換回時域。

若有需要，接收端RX可更包含相位計算模組50以及雜訊填充模組60，可分別用以執行上述步驟S207、S209。相位計算模組50連接音頻篩選模組30。雜訊填充模組60連接相位計算模組50、外推運算模組40以及音訊轉換模組20。

在外推運算模組40外推丟失或延遲送達的音訊封包後，相位計算模組50計算外推丟失或延遲送達的音訊封包的頻率片段的相位。接著，雜訊填充模組60在外推出的音訊封包中，振幅不大於門檻值的頻率片段的實部和虛部填入雜訊。

最後，音訊轉換模組20進行快速傅立葉反轉換運算，以將經由外推和填入雜訊後取得的音訊封包，從頻域轉換回時域。在接收端RX的音訊播放模組(未圖示)播放準時到達的音訊封包之後，可接著播放此外推並加入雜訊的音訊封包(取代丟失或延遲的音訊封包)。

請參閱圖8和圖9，其中圖8為出現斷音的波形圖；圖9為音訊資料透過本發明實施例的音訊資料重建系統及方法重建丟失或遲到的音波後的波形圖。

在發送端向接收端依序發送多個音訊封包的過程中，接收端接收到如圖8所示的一音訊封包的音波W1後，受到環境干擾或其他因素導致接續的下一音訊封包丟失或遲到，並且緩衝區即將耗盡。在此情況下，必須啟動音訊資料重建運算，進行音訊補償，以避免接收端在播放到音波W1後出現斷音，如圖8所示的斷音區GDP。

因此，採用本發明上述實施例的音訊資料重建系統及方法。接收端RX在接收到音波W1後，未接著接收到下一音波時，可依序執行上述步驟S201~S213，以依據音波W1外推如圖9所示的音波W2，重建在音波W1後。如此，接收端RX在播放音波W1後，可接著播放重建的音波W2，接著播放接收到的音波W3，以避免在播放過程中出現斷音。

舉例來說，接收端RX在預定時間內從發送端TX接收到的如圖8所示的完整音波W1可包含如圖3所示的幀FR1~FR7的音波，而如圖8所示的斷音區GDP可對應如圖3所示的斷音區Gap。

[實施例的有益效果]

本發明的其中一有益效果在於，本發明所提供的音訊資料重建方法及其方法，其重建丟失或遲到的音波，主要優點如下： 1.只在接收端進行運算，發送端無需特別編碼或運算； 2.使用單純的PCM資料進行運算，跟音訊資料的壓縮方法無關； 3.運算簡單，運算量低，適合低功耗低運算能力裝置； 4.無需丟失或遲到的封包後的完好封包，只需要丟失或遲到的封包前的完好封包即可進行運算，適用於低延遲播放裝置。

以上所公開的內容僅為本發明的優選可行實施例，並非因此侷限本發明的申請專利範圍，所以凡是運用本發明說明書及圖式內容所做的等效技術變化，均包含於本發明的申請專利範圍內。

S101~S107、S201~S211:步驟 FR1~FR7:幀 Gap、GDP:斷音區 TH:門檻值 TX:發送端 AU:音訊資料 RX:接收端 10:音訊接收模組 20:音訊轉換模組 30:音頻篩選模組 40:外推運算模組 50:相位計算模組 60:雜訊填充模組 W1、W2、W3:音波 WAVE1、WAVE2:頻譜波形

圖1為本發明第一實施例的音訊資料重建方法的步驟流程圖。

圖2為本發明第二實施例的音訊資料重建方法的步驟流程圖。

圖3為本發明第二實施例的依據丟失或延遲送達音訊封包的那一幀的前一幀計算門檻值的示意圖。

圖4為本發明第二實施例的丟失或延遲送達音訊封包的那一幀的前一幀執行完快速傅立葉轉換運算後的頻譜圖。

圖5為本發明第二實施例的重建的幀的頻譜圖。

圖6為本發明第三實施例的音訊資料重建系統的方塊圖。

圖7為手機發送音源資料至採用第三實施例的音訊資料重建系統的耳機的使用示意圖。

圖8為出現斷音的波形圖。

圖9為音訊資料透過本發明實施例的音訊資料重建系統及方法重建丟失或遲到的音波後的波形圖。

S201~S211:步驟

Claims

一種音訊資料重建方法，包含以下步驟：由一發送端將一音訊資料分成多個音訊封包依序發送至一接收端；利用該接收端，對丟失或延遲送達該音訊封包的那一幀的前幾幀的該音訊封包進行快速傅立葉轉換運算，以將該音訊封包從時域轉換到頻域；利用該接收端，依據丟失或延遲送達該音訊封包的那一幀的前一幀的該音訊封包計算一門檻值；利用該接收端，比對丟失或延遲送達該音訊封包的那一幀之前的每一幀的每一頻率片段的振幅與該門檻值，以進行篩選；利用該接收端，對篩選出進行快速傅立葉轉換運算的所有振幅進行線性預測，以外推丟失或延遲送達的該音訊封包；以及利用該接收端，進行快速傅立葉反轉換運算，以外推出的頻率片段進行快速傅立葉反轉換運算，以將經由外推所取得的該音訊封包，從頻域轉換回時域。
如請求項1所述的音訊資料重建方法，更包含以下步驟：利用該接收端，計算外推的該音訊封包的振幅和相位；利用該接收端，在外推的該音訊封包中，振幅不大於該門檻值的頻率片段的實部和虛部，填入雜訊；以及利用該接收端，進行快速傅立葉反轉換運算，以將經由外推和填入雜訊後所取得的該音訊封包，從頻域轉換回時域。
如請求項1所述的音訊資料重建方法，更包含以下步驟：利用該接收端，計算篩選出進行快速傅立葉轉換運算後的前一幀的每一頻率片段的振幅；利用該接收端，加總前一幀的所有頻率片段的振幅，以取得一總振幅；以及利用該接收端，基於該總振幅計算出該門檻值。
如請求項3所述的音訊資料重建方法，更包含以下步驟：利用該接收端，將該總振幅除以一訊雜比，以取得該門檻值。
一種音訊重建系統，包含：一發送端，配置以將一音訊資料分成多個音訊封包，並依序發送該多個音訊封包；以及一接收端，包含：一音訊接收模組，連接該發送端，配置以依序接收該發送端發送的該多個音訊封包；一音訊轉換模組，連接該音訊接收模組，配置以對丟失或延遲送達該音訊封包的那一幀的前幾幀的該音訊封包進行快速傅立葉轉換運算，以將該音訊封包從時域轉換到頻域；一音頻篩選模組，連接該音訊轉換模組，配置以在經由快速傅立葉轉換運算後，依據丟失或延遲送達該音訊封包的那一幀的前一幀的該音訊封包計算一門檻值，比對丟失或延遲送達該音訊封包的那一幀之前的每一幀的每一頻率片段的振幅與該門檻值，以進行篩選；及一外推運算模組，連接該音頻篩選模組以及該音訊轉換模組，配置以對篩選出進行快速傅立葉轉換運算的所有振幅進行線性預測，以外推丟失或延遲送達的該音訊封包，接著該音訊轉換模組以外推出的頻率片段進行快速傅立葉反轉換運算，以將經由外推所取得的該音訊封包，從頻域轉換回時域。
如請求項5所述的音訊重建系統，其中該接收端更包含一相位計算模組，連接該音頻篩選模組，配置以計算外推的該音訊封包的振幅和相位。
如請求項6所述的音訊重建系統，其中該接收端更包含一雜訊填充模組，連接該相位計算模組、該外推運算模組以及音訊轉換模組，配置以在外推的該音訊封包中，振幅不大於該門檻值的頻率片段的實部和虛部填入雜訊；其中該音訊轉換模組進行快速傅立葉反轉換運算，以將經由外推和填入雜訊後取得的該音訊封包，從頻域轉換回時域。
如請求項5所述的音訊重建系統，其中該音頻篩選模組配置以計算篩選出進行快速傅立葉轉換運算後的前一幀的每一頻率片段的振幅，加總前一幀的所有頻率片段的振幅，以取得一總振幅，並基於該總振幅，計算出該門檻值。
如請求項8所述的音訊重建系統，其中該音頻篩選模組配置以將該總振幅除以一訊雜比，以取得該門檻值。