TW201142818A - Complexity scalable perceptual tempo estimation - Google Patents
Complexity scalable perceptual tempo estimation Download PDFInfo
- Publication number
- TW201142818A TW201142818A TW099135450A TW99135450A TW201142818A TW 201142818 A TW201142818 A TW 201142818A TW 099135450 A TW099135450 A TW 099135450A TW 99135450 A TW99135450 A TW 99135450A TW 201142818 A TW201142818 A TW 201142818A
- Authority
- TW
- Taiwan
- Prior art keywords
- rhythm
- audio signal
- determining
- perceptual
- beat
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2230/00—General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
- G10H2230/005—Device type or category
- G10H2230/015—PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
201142818 六、發明說明: 【發明所屬之技術領域】 本文件相關於用於估算媒體訊號之節奏的方法及系統 ’諸如音訊或組合視訊/音訊訊號。本文件特別相關於由 人類聽眾所察覺之節奏的估算,及以可變計算複雜性估算 節奏的方法及系統。 【先前技術】 可攜式手持裝置,例如PDA、智慧型手機、行動電話 、以及可攜式媒體播放器,典型地包含音訊及/或視訊呈 現能力,並已變爲重要的娛樂平台。此發展係藉由將無線 或有線傳輸能力日益普及於此種裝置中而向前推進。由於 媒體傳輸及/或儲存協定的支援,諸如HE-AAC格式,媒體 內容可持續地下載並儲存在可攜式手持裝置中,從而提供 幾乎無限的媒體內容量。 然而,低複雜度演算法對行動/手持裝置係至爲重要 的’因爲有限的計算能力及能量消耗係關鍵制約。此等制 約對新興市場中的低階可攜式裝置甚至更關鍵。有鑑於可 用在典型可攜式電子裝置上的大量媒體檔案,MIR (音樂 資訊檢索)應用係可取的工具,以群集或分類媒體檔案並 因此容許可攜式電子裝置的使用者識別適當的媒體檔案, 諸如音訊、音樂、及/或視訊檔案。用於此種MIR應用的低 複雜度計算方案係可取的,否則會危及彼等在具有有限計 算及電力資源之可攜式電子裝置上的使用性。 -5- 201142818 用於各種MIR應用,像是風格及情緒分類、音樂摘要 、音訊摘錄、使用音樂相似性的自動播放列表產生及音樂 推薦系統等,的重要音樂特性係音樂節奏。因此,用於節 奏判定之具有低計算複雜性的程序會有助於所提及之用於 行動裝置的MIR應用之分散式實作的發展。 此外,雖然常藉由在活頁樂譜或樂譜上之以BPM (每 分鐘節拍)記譜的記譜節奏將音樂節奏特徵化,此値經常 不對應於知覺節奏。例如,若要求聽眾群組(包括熟練的 音樂家)對音樂片段的節奏作評註,彼等典型地給予不同 答覆,亦即,彼等典型地以不同的度量等級打節拍。針對 部分音樂片段,已察覺節奏較不含糊且所有聽眾典型地以 相同的度量等級打節拍,但針對其他音樂片段,該節奏可 係含糊不清的且不同的聽眾識別出不同節奏。換言之,知 覺實驗已顯示察覺節奏可能與記譜節奏不同。可將一段音 樂感覺成比其記譜節奏更快或更慢,其中主導察覺節拍可 係比記譜節奏更高或更低的度量等級》有鑑於MIR應用應 將最可能由使用者察覺的節奏列入考慮爲佳,自動節奏擷 取器應預測音訊訊號的最顯著知覺節奏》 已知的節奏估算方法及系統具有各種缺點。在許多情 形中,彼等受限於特定音訊編碼解碼器,例如MP3,且不 能施用至以其他編碼解碼器編碼的音軌。此外,此種節奏 估算方法典型地僅在施用至具有簡單及清楚旋律結構的西 方流行音樂時方可正確地運作。此外,該等已知節奏估算 方法未將知覺觀點列入考慮,亦即,彼等未針對最可能爲 -6 - 201142818 聽眾察覺的節奏進行估算。最後,已知的節奏估算方案典 型地僅在未壓縮PCM域、轉換域、或壓縮域之一者中運作 〇 提供克服上文提及之已知節奏估算方案的短處之節奏 估算方法及系統係可取的。特別係提供其係編碼解碼器不 可知及/或可應用至任何種類的音樂風格之節奏估算係可 取的。此外,提供估算音訊訊號的最顯著知覺節奏之節奏 估算方案係可取的。此外,可在上文提及之任何域中應用 至音訊訊號的節奏估算方案係可取的,亦即,在未壓縮 PCM域、轉換域、以及壓縮域中。提供具有低計算複雜度 的節奏估算方案也係可取的。 該等節奏估算方案可能使用在各種應用中。因爲節奏 係音樂中的基礎語意資訊,此種節奏的可靠估算將增強其 他ΜIR應用的效能,諸如以自動內容爲基的風格分類、情 緒分類、音樂相似性、音訊摘錄、及音樂摘要。此外,針 對知覺節奏的可靠估算對音樂選擇、比較、混合、以及播 放列表產生係有用統計。顯然地,知覺節奏或感覺典型地 比記譜或實體節奏更有關於自動播放列表產生器或音樂導 航器或DJ設備。此外,針對知覺節奏的可靠估算對遊戲應 用可能係有用的。例如,可將音軌節奏用於控制有關遊戲 參數’諸如遊戲的速度,且反之亦然。此可用於使用音訊 將遊戲內容個人化並提供使用者強化體驗。另外的應用領 域可係內容爲基的音訊/視訊同步,其中音樂節拍或節奏 係使用爲時序事件之固定器的主要資訊源。 201142818 應注意在本文件中,將術語「節奏」理解爲節拍法脈 衝率。此節拍法也稱爲足節拍率,亦即,當聽眾聆聽音訊 訊號,例如音樂訊號時,打在腳上的節拍率。此與界定音 樂訊號之階層結構的音樂節拍不同。 【發明內容】 根據實施樣態,描述從音訊訊號的編碼位元串流擷取 音訊訊號之節奏資訊的方法,其中該編碼位元串流包含頻 譜頻帶複製資料。該編碼位元串流可能係HE-AAC位元串 流或mp3 PRO位元串流。該音訊訊號可能包含音樂訊號且 擷取節奏資訊可能包含估算該音樂訊號的節奏。 該方法可能包含針對該音訊訊號的時間區間判定與包 含在該編碼位元串流中之頻譜頻帶複製資料量關聯的有效 負載量之步驟。顯然地,在編碼位元串流係HE-AAC位元 串流的情形中,後續步驟可能包含判定該時間區間中之包 含在該編碼位元串流的一或多個塡充元素欄位中之資料量 ’以及基於該時間區間中之包含在該編碼位元串流的該等 —或多個塡充元素欄位中之該資料量,判定該有效負載量 〇 由於該頻譜頻帶複製資料可能使用固定標頭編碼,在 @取節奏資訊之前移除此種標頭可能係有利的。特別係該 3 &可能包含判定該時間區間中之包含在該編碼位元串流 @該等一或多個塡充元素欄位中之頻譜頻帶複製標頭資料 量的步驟。此外,藉由扣除或減去該時間區間中之包含在 -8 - 201142818 該編碼仏兀串流的該等一或多個塡充元素欄位中之該頻譜 頻帶複製標頭資料量’可能判定該時間區間中之包含在該 編碼位元串流的該等一或多個塡充元素欄位中之淨資料量 。因此’已移除該標頭位元’且該有效負載量可能基於該 淨資料量判定。應注意若該頻譜頻帶複製標頭係固定長度 的’該方法可能包含計數時間區間中之頻譜頻帶複製標頭 的數量X’並從該時間區間中之包含在該編碼位元串流的 該等一或多個塡充元素欄位中之該頻譜頻帶複製標頭資料 量扣除或減去X倍的標頭長度。 在實施例中’該有效負載量對應於該時間區間中之包 含在該編碼位元串流的該等一或多個塡充元素欄位中之該 頻譜頻帶複製資料量或淨量。替代地或或另外地,可能從 該等一或多個塡充元素欄位移除其他額外資料,以判定實 際的頻譜頻帶複製資料。 該編碼位元串流可能包含複數個訊框,各訊框對應於 預定時間長度的該音訊訊號片段。例如,訊框可能包含數 微秒的音樂訊號片段。該時間區間可能對應於由編碼位元 串流之訊框所涵蓋的時間長度。例如,A A C訊框典型地包 含1 024個頻譜値,亦即,MDCT係數。該等頻譜値係音訊 訊號之特定時間實例或時間區間的頻率表示。可將時間及 頻率之間的關係表示如下:
201142818 其中fMAX係涵蓋頻率範圍,fs係取樣頻率,且t係時間 解析度,亦即,由訊框涵蓋之音訊訊號的時間區間。針對 fs = 44100Hz的取樣步驟,此對應於AAC訊框的時間解析度 t=心m = 23 2 1 9ms。因爲在實施例中,將Η E - A A C界定爲 44100//z 「雙率系統」,其中其核心編碼器(AAC)以一半的取樣頻 率運作,可實現t= ^H = 4643 99ms的最大時間解析度。
22U5U/7Z 該方法可能包含對該音訊訊號之該編碼位元串流的後 續時間區間重複上述判定步驟,從而判定有效負載量序列 的另一步驟。若編碼位元串流包含後續訊框,則此重複步 驟可能針對該編碼位元串流的特定訊框集實施,亦即,針 對編碼位元串流的所有訊框。 在另一步驟中,該方法可能識別該有效負載量序列中 的週期性。此可能藉由識別該有效負載量序列中之尖峰或 循環模式的週期性而完成。週期性的識別可能藉由在該有 效負載量序列上實施產生功率値組及對應頻率的頻譜分析 而完成。藉由判定該功率値組中的相對最大値並藉由將該 週期性選擇爲該對應頻率,可能識別該有效負載量序列中 的週期性。在實施例中,判定絕對最大値。 該頻譜分析典型地沿著該有效負載量序列的時間軸實 施。此外,該頻譜分析典型地在該有效負載量序列之複數 個次序列上實施,從而產生複數個功率値組。例如,該等 次序列可能覆蓋特定長度的音訊訊號,例如,6秒。此外 ,該等次序列可能,例如以50%,彼此重疊。就此論之, 可能得到複數個功率値組,其中各功率値組對應於該音訊 -10- 201142818 訊號的特定片段。可能藉由平均該等複數個功率値組得到 全部音訊訊號的整體功率値組。應理解術語「平均」涵蓋 各種類型的數學操作,諸如計算平均値或判定中位値。亦 即,整體功率値組可能藉由計算該等複數個功率値組的平 均功率値組或中位功率値組而得到。在實施例中,實施頻 譜分析包含實施頻率轉換,諸如傅立葉轉換或FFT。 可能將該等功率値組提交至其他處理。在實施例中, 將該功率値組乘以與彼等對應頻率之人類知覺偏好關聯的 權重。例如,此種知覺權重可能強調與更常爲人類所偵測 之節奏對應的頻率,而將與更少爲人類所偵測之節奏對應 的頻率減弱。 該方法可能包含從該已識別週期性擷取該音訊訊號之 節奏資訊的另一步驟。此可能包含判定與該功率値組之絕 對最大値對應的頻率。此種頻率可能稱爲該音訊訊號的實 體顯著節奏。 根據另一實施樣態,描述估算音訊訊號之知覺顯著節 奏的方法。知覺顯著節奏可能係當聆聽音訊訊號,例如音 樂訊號時,最常爲使用者群組察覺的節奏。其典型地與音 訊訊號的實體顯著節奏不同,可能將該實體顯著節奏界定 爲該音訊訊號,例如音樂訊號,在實體上或聽覺上的最顯 著節奏。 該方法可能包含從該音訊訊號判定調變頻譜的步驟, 其中該調變頻譜典型地包含複數個發生頻率及對應的複數 個重要性値,其中該等重要性値指示該音訊訊號中之對應 -11 - 201142818 發生頻率的相對重要性。換言之,發生頻率指示該音訊訊 號中的特定週期性’而該等對應重要性値指示該音訊訊號 中之此種週期性的顯著性。例如,週期性可能係音訊訊號 中的暫態’例如’音樂訊號中之低音鼓的聲音,其在循環 時刻發生。若此暫態係獨特的,則與其週期性對應的重要 性値典型地將係高値。 在實施例中,該音訊訊號係以沿著時間軸的PCM樣本 序列表示。針對此種情形,判定調變頻譜的步驟可能包含 下列步驟:自該PCM樣本序列選擇複數個後繼、部分地重 疊之次序列;針對該等複數個後繼次序列,判定具有頻譜 解析度的複數個後繼功率頻譜;使用梅爾頻率轉換或任何 其他知覺激發非線性頻率轉換,壓縮該等複數個後繼功率 頻譜的該頻譜解析度;及/或在該等複數個後繼壓縮功率 頻譜上沿著該時間軸實施頻譜分析,從而產生該等複數個 重要性値及彼等之對應發生頻率。 在實施例中,該音訊訊號係以沿著時間軸的後繼次頻 帶係數區塊序列表示。在MP3、AAC、HE-AAC、杜比數位 、或杜比數位加強編碼解碼器的情形中,此種次頻帶係數 可能係,例如MDCT係數》在此種情形中,判定調變頻譜 的步驟可能包含使用梅爾頻率轉換壓縮區塊中之次頻帶係 數的數量;及/或在該後繼壓縮次頻帶係數區塊序列上沿 著該時間軸實施頻譜分析,從而產生該等複數個重要性値 及彼等之對應發生頻率。 在實施例中,該音訊訊號係以包含頻譜頻帶複製資料 -12- 201142818 及沿著時間軸之複數個後繼訊框的編碼位元串流表示。例 如,該編碼位元串流可能係HE-AAC或mp3PR〇位元串流。 在此種情形中,判定調變頻譜的步驟可能包含判定與該編 碼位元串流之訊框序列中的該頻譜頻帶複製資料量關聯之 有效負載量序列;自該有效負載量序列選擇複數個後繼、 部分地重疊之次序列;及/或在該等複數個後繼次序列上 沿著該時間軸實施頻譜分析,從而產生該等複數個重要性 値及彼等之對應發生頻率。換言之,該調變頻譜可能根據 上文略述之方法判定。 此外,判定調變頻譜的步驟可能包含增強調變頻譜的 處理。此種處理可能包含將該等複數個重要性値乘以與彼 等的對應發生頻率之人類知覺偏好關聯的權重。 該方法可能包含將實體顯著節奏判定爲與該等複數個 重要性値之最大値對應的該發生頻率之另一步驟。此最大 値可能係複數個重要性値的絕對最大値。 該方法可能包含從該調變頻譜判定該音訊訊號之節拍 度量的另一步驟。在實施例中,該節拍度量指示實體顯著 節奏與對應於該等複數個重要性値之相對高値的至少另一 發生頻率之間的關係,例如該等複數個重要性値的第二高 値。該節拍度量可能係以下各者之一 :3,例如若爲3/4拍 •’或2 ’例如若爲4/4拍。該節拍度量可能係與該音訊訊號 的實體顯著節奏及至少另一顯著節奏之間的比率關聯之因 子’亦即,對應於該等複數個重要性値之相對高値的發生 頻率。槪括地說’該節拍度量可能代表音訊訊號的複數個 -13- 201142818 實體顯著節奏之間的關係,例如,在該音訊訊號的二 顯著實體節奏之間。 在實施例中,判定節拍度量包含下列步驟:針對 個非零頻率延遲判定該調變頻譜的自相關;識別自相 最大値及對應頻率延遲;及/或基於該對應頻率延遲 實體顯著節奏,判定該節拍度量。判定節拍度量也可 含下列步驟:判定該調變頻譜及分別對應於複數個節 量之複數個合成打節拍功能之間的交叉相關;及/或 產生最大交叉相關的該節拍度量。 該方法可能包含從該調變頻譜判定知覺節奏指示 步驟。可能將第一知覺節奏指示器判定爲該等複數個 性値的平均値,藉由該等複數個重要性値之最大値正 。可能將第二知覺節奏指示器判定爲該等複數個重要 的該最大重要性値。可能將第三知覺節奏指示器判定 調變頻譜之發生中心頻率。 該方法可能包含藉由依據該節拍度量修改該實體 節奏’判定該知覺顯著節奏的步驟,其中該修改步驟 知覺節奏指示器及該實體顯著節奏之間的關係列入考 在實施例中,判定知覺顯著節奏的步驟包含判定該第 覺節奏指示器是否超出第一臨界;以及僅在超出該第 界時修改該實體顯著節奏。在實施例中,判定知覺顯 奏的步驟包含判定該第二知覺節奏指示器是否低於第 界;以及若該第二知覺節奏指示器低於該第二臨界, 該實體顯著節奏。 個最 複數 關之 及該 能包 拍度 選擇 器的 重要 規化 性値 爲該 顯著 將該 慮。 -知 一臨 著節 二臨 修改 -14- 201142818 替代地或或另外地,判定知覺顯著節奏的步驟可能包 含判定該第三知覺節奏指示器與該實體顯著節奏之間的不 匹配;以及若不匹配已判定,修改該實體顯著節奏。不匹 配可能,例如藉由判定該第三知覺節奏指示器低於第三臨 界且該實體顯著節奏高於第四臨界;及/或藉由判定該第 三知覺節奏指示器高於第五臨界且該實體顯著節奏低於第 六臨界,而判定。典型地,該第三、第四、第五、及第六 臨界之至少一者與人類知覺節奏偏好關聯。此種知覺節奏 偏好可能指示在第三知覺節奏指示器與由使用者群組察覺 之音訊訊號速度的主觀感受之間的相關。 依據該節拍度量修改實體顯著節奏的步驟可能包含將 節拍等級增加至基本節拍的次一較高節拍等級;及/或將 節拍等級降低至基本節拍的次一較低節拍等級。例如,若 基本節拍爲4M拍’增加該節拍等級可能包含以因子2增加 實體顯著節奏’例如對應於四分音符的節奏,從而產生次 一較高節奏,例如對應於八分音符的節奏。以相似方式, 降低節拍等級可能包含除以2,從而從W8基礎節奏移至W4 基礎節奏。 在貫施例中’增加或減少該節拍等級包含在3 /4拍的 情形中,將該實體顯著節奏乘以或除以3 ;及/或在4/4拍的 情形中’將該實體顯著節奏乘以或除以2。 根據另一實施樣態,描述軟體程式,其適於在處理器 上執行且g在計算裝置上實行時適於實施略述於本文件中 的該等方法步驟。 -15- 201142818 根據另一實施樣態,描述儲存媒體,其包含適於在處 理器上執行且當在計算裝置上實行時適於實施略述於本文 件中之該等方法步驟的軟體程式。 根據另一實施樣態,描述電腦程式產品,其包含當在 電腦上執行時用於實施略述於本文件中之該方法的可執行 指令。 根據另一實施樣態’描述可攜式電子裝置。該裝置可 能包含儲存單元,組態成儲存音訊訊號:音訊呈現單元, 組態成呈現該音訊訊號;使用者介面,組態成接收針對該 音訊訊號上的節拍資訊之使用者請求;以及處理器,組態 成藉由在該音訊訊號上實施略述於本文件中的該等方法步 驟判定該節奏資訊。 根據另一實施樣態,描述組態成從編碼位元串流擷取 音訊訊號之節奏資訊的系統,該編碼位元串流包含該音訊 訊號的頻譜頻帶複製資料,例如HE-A AC位元串流。該系 統可能包含用於判定與包含在該音訊訊號之時間區間的該 編碼位元串流中之頻譜頻帶複製資料量關聯的有效負載量 之機構;用於對該音訊訊號之該編碼位元串流的後續時間 區間重複該判定步驟,從而判定有效負載量序列的機構; 用於識別該有效負載量序列中之週期性的機構;及/或用 於從該已識別週期性擷取該音訊訊號之節奏資訊的機構。 根據另一實施樣態,描述組態成估算音訊訊號之知覺 顯著節奏的系統。該系統可能包含用於判定該音訊訊號之 調變頻譜的機構,其中該調變頻譜包含複數個發生頻率及 -16- 201142818 對應的複數個重要性値,其中該等重要性値指示該音訊訊 號中之該等對應發生頻率的相對重要性;用於將實體顯著 節奏判定爲與該等複數個重要性値之最大値對應的該發生 頻率之機構;用於藉由分析該調變頻譜判定該音訊訊號之 節拍度量的機構;用於從該調變頻譜判定知覺節奏指示器 的機構;及/或用於藉由依據該節拍度量修改該實體顯著 節奏’判定該知覺顯著節奏的機構,其中該修改步驟將該 知覺節奏指示器及該實體顯著節奏之間的關係列入考慮。 根據另一實施樣態,描述用於產生包含音訊訊號之元 資料的編碼位元串流之方法。該方法可能包含將該音訊訊 號編碼入有效負載資料序列,從而產生編碼位元串流的步 驟。例如’可能將該音訊訊號編碼入HE-AAC、MP3、AAC 、杜比數位 '或杜比數位加強位元串流。替代地或另外地 ’該方法可能依賴已編碼位元串流,例如,該方法可能包 含接收編碼位元串流的步驟。 該方法可能包含判定與該音訊訊號之節奏關聯的元資 料並將該元資料插入該編碼位元串流之步驟。該元資料可 目巨係代表該音訊訊號之實體顯著節奏及/或知覺顯著節奏 的資料。該元資料也可能係代表來自該音訊訊號之調變頻 譜的資料’其中該調變頻譜包含複數個發生頻率及對應的 複數個重要性値’其中該等重要性値指示該音訊訊號中之 對應發生頻率的相對重要性。應注意與該音訊訊號之節奏 關聯的元資料可能依據略述於本文件中的任何方法判定。 亦即,節奏及調變頻譜可能可能依據略述於此文件中的方 -17- 201142818 法判定。 根據另一實施樣態,描述包含元資料之音訊訊號的編 碼位元串流。該編碼位元串流可能係HE-AAC、MP3、AAC 、杜比數位、或杜比數位加強位元串流。該元資料可能包 含代表至少下列一者的資料:該音訊訊號之實體顯著節奏 及/或知覺顯著節奏;或來自該音訊訊號之調變頻譜,其 中該調變頻譜包含複數個發生頻率及對應的複數個重要性 値,其中該等重要性値指示該音訊訊號中之對應發生頻率 的相對重要性。特別係該元資料可能包含代表該節奏資料 的資料以及藉由略述於本文件中之該等方法產生的調變頻 譜資料。 根據另一實施樣態,描述組態成產生包含音訊訊號的 元資料之編碼位元串流的音訊編碼器。該編碼器可能包含 用於將該音訊訊號編碼入有效負載資料序列,從而產生編 碼位元串流的機構;用於判定與該音訊訊號之節奏關聯的 元資料之機構:以及用於將該元資料插入該編碼位元串流 的機構。以與上文略述之該方法相似的方式,該編碼器可 能依據已編碼位元串流,且該編碼器可能包含用於接收編 碼位元串流的機構。 應注意根據另一實施樣態,描述用於解碼音訊訊號之 編碼位元串流的對應方法,以及組態成解碼音訊訊號之編 碼位元串流的對應解碼器。將該方法及該解碼器組態成從 編碼位元串流擷取個別元資料,該元資料顯然與節奏資訊 關聯。 -18- 201142818 應注意可能任意地組合描述於此文件中的該等實施例 及實施樣態。應特別注意槪述於系統之本文中的該等實施 樣態及特性也可應用在對應方法的本文中,且反之亦然。 此外,應注意本文件之揭示也涵蓋藉由該等相關申請專利 範圍中的反向參考所明顯給定之申請專利範圍組合之外的 其他申請專利範圍組合,亦即,申請專利範圍及彼等之技 術特性可以任何順序及任何形式組合。 【實施方式】 於下文描述的該等實施例僅用於說明用於節奏估算之 方法及系統的原理。已理解本文所描述之配置及細節的修 改及變化對熟悉本發明之人士將係明顯的。因此,其意圖 僅由待審專利之申請專利範圍的範圍所限制而不爲經由本 文實施例之描述及解釋所代表的特定細節所限制。 如在簡介段所指示的,已知的節奏估算方案受限於特 定訊號表示域,例如P C Μ域、轉換域、或壓縮域。特別係 沒有現存之用於節奏估算的解決方案,其中特性係直接從 壓縮HE·AAC位元串流計算,無須實施熵解碼。此外,現 存系統局限於主流西方流行音樂。 此外’現存方案未將人類聽眾所察覺的節奏列入考慮 ’且結果有八度誤差或雙倍/減半時間混淆。該混淆可能 由音樂中的不同樂器以具有多個彼此整體相關之週期性的 旋律演奏而引起。如將於下文所略述的,發明人洞悉節奏 的察覺不僅取決於重複率或週期性,也受其他知覺因子影 • 19- 201142818 響,使得藉由使用額外的知覺特性克服此等混淆。基於此 等額外知覺特性,已擷取節奏的校正係以知覺激發方式實 施,亦即,可降低或移除上述節奏混淆。 如已強調的,當論及「節奏」時,必須區分記譜節奏 、實體量測節奏、以及知覺節奏。實體量測節奏係從取樣 音訊訊號上的實際量測得到,而知覺節奏具有主觀性質且 典型地係從知覺聆聽實驗判定。此外,節奏係高內容相關 音樂特性,且有時非常難以自動偵測,因爲在特定音訊或 音軌中,帶有部分音樂片段的節奏並不清楚》同樣地,聽 眾的音樂經驗及彼等的焦點對節奏估算結果有顯著影響。 當比較記譜、實體量測、以及知覺節奏時,此可能在所使 用的節奏度量內導致不同。仍可能將實體及知覺節奏估算 方法組合使用,以彼此校正。此可看到當音訊訊號上的, 例如,對應於的特定每分鐘節拍(BPM)値及其倍數之全 及倍全音符已藉由實體量測偵測到時,仍將知覺節奏列爲 慢節奏。因此,假設該實體量測係可靠的,正確節奏係已 偵測之較慢者。換言之,聚焦在記譜節奏之估算的估算方 案將提供對應於全及倍全音符之含混不清的估算結果。若 與知覺節奏估算方法組合,可判定正確(知覺)節奏。 在人類節奏知覺上的大規模實驗顯示大眾傾向於察覺 於具有在120BMP之尖峰的100及140BMP之範圍中的音樂 節奏。此可用圖1所示之虛共振曲線1 0 1展示。可將此模式 用於預測大資料組的節奏散佈。然而,當比較單一音樂檔 案或軌道之打節拍實驗的結果(見參考符號102及103)與 -20- 201142818 共振曲線1 〇 1時,可看出獨立音軌的感知節奏1 0 2、1 〇 3不 必然配合模式1 〇 1。可看出,實驗對象可能以不同度量等 級1 02、1 03打節拍,彼等有時導致與模式1 0 1完全不同的 曲線。此特別對不同風格類型及不同旋律類型爲真。此種 度量含糊性導致節奏判定的高度混淆,且係非知覺驅動節 奏估算演算法之整體「不滿意」效能的可能解釋。 爲克服此混淆,建議新的知覺激發節奏校正方案,其 中基於許多聲學線索的擷取,亦即,音樂參數或特性,將 權重指定至不同的度量等級。可將此等權重用於校正已擷 取之實體計算節奏。特別係可能將此種校正用於判定知覺 顯著節奏。 在下文中’描述用於從PCM域及轉換域擷取節奏資訊 的方法。可能將調變頻譜分析用於此目的。通常,可能將 調變頻譜分析用於採集音樂特性在時間上的重複性。其可 用於估算音軌的長期統計及/或可用於定量節奏估算。基 於梅爾功率頻譜的調變頻譜可能針對未壓縮PCM (脈衝碼 調變)域中的音軌及/或轉換域中的音軌,例如,HE_AAC (效肯b先進曰訊編碼)轉換域,判定。 針對表示在PCM域中的訊號,該調變頻譜直接從該音 訊訊號的PCM樣本判定。另—方面,針對表示在轉換域中 的音訊訊號,例如,HE-AAC轉換域,可能將該訊號的次 頻帶係數用於該調變頻譜的判定。針對HE-AAC轉換域, 該調變頻譜可能在解碼時或在編碼時在已直接從HE-AAC 解碼器取得的特定數量(例如,〗〇 2 4個)之M D C T (修改 -21 - 201142818 離散餘弦轉換)係數的逐訊框基礎上判定。 當在該ΗΕ-AAC轉換域中運作時,將短及長區塊的存 在列入考慮可能係有利的。當因爲短區塊的較低頻率解析 度而可能針對MFCC (梅爾倒頻譜係數)的計算或針對在 非線性頻率尺度上計算之倒頻譜的計算將彼等跳過或拋棄 時’應在判定音訊訊號的節奏時將短區塊列入考慮。此特 別相關於包含許多尖銳節首音,且因此包含用於高品質表 不之大量短區塊的音訊及語音訊號。 當單一訊框包括八個短區塊時,提議對其實施MDCT 係數至長區塊的交錯。典型地,可能區分二種區塊,長及 短區塊。在實施例中,長區塊等於訊框尺寸(亦即,對應 於特定時間解析度的1 024個頻譜係數)。短區塊包含128 個頻譜値,以針對音訊訊號特徵在時間上的適當表示實現 八倍高的時間解析度(1 024/ 1 2 8 ),並避免預回聲假音。 因此,訊框係在以相同因子八降低頻率解析度的成本上藉 由八個短區塊形成。此方案通常稱爲「A AC區塊切換方案 J 0 此顯示於圖2中,其中將8個短區塊201至208的MDCT 係數交錯,使得8個短區塊的個別係數重組,亦即,使得8 個區塊201至208的第一MDCT係數重組,其後爲8個區塊 201至208的第二MDCT係數,依此類推。藉由執行此,將 對應的MDCT係數,亦即,對應於相同頻率的MDCT係數, 重組在一起。可能將短區塊在訊框內的交錯理解爲「人工 地」增加訊框內之頻率解析度的操作。應注意可能預期增 -22- 201142818 加頻率解析度的其他機構。 在該說明範例中,針對8個短區塊套件得到包含1 024 個MDCT係數的區塊210。由於長區塊也包含1024個MDCT 係數,針對該音訊訊號得到包含1 024個MDCT係數的完整 區塊序列。亦即,藉由從八個後續短區塊201至208形成長 區塊2 1 0,得到長區塊序列。 基於交錯MDCT係數的區塊210 (在短區塊的情形中) 並基於用於長區塊之MDCT係數的區塊,針對MDCT係數的 每個區塊計算功率頻譜。將模範功率頻譜描繪於圖6a中。 應注意人類聽覺知覺通常係響度及頻率的函數(典型 係非線性的),然而不係所有頻率均以相等響度察覺。另 —方面,MDCT係數係以針對振幅/能量及頻率二者的線性 尺度表示,其與對該等二情形係非線性的人類聽覺系統相 反。爲得到更接近人類知覺的訊號表示,可能使用從線性 至非線性尺度的轉換。在實施例中,使用以dB爲單位之在 對數尺度上針對MDCT係數的功率頻譜轉換,以將人類響 度知覺模型化。可能將此種功率頻譜轉換計算如下: MDCTdB [i] = 10 l〇g1〇 (MDCT[i)2)。 相似地’功率譜圖或功率頻譜可能針對未壓縮P C M域 中的音訊訊號計算。針對此目的,將沿著時間之特定長度 的STFT (短期傅立葉轉換)施用至該音訊訊號。隨後,實 施功率轉換。爲將人類響度知覺模型化,可能在非線性尺 -23- 201142818 度上實施轉換,例如,上述在對數尺度上的轉換。可能將 S TFT的尺寸選擇成使得所產生的時間解析度等於已轉換 HE-AAC訊框的時間解析度。然而,也可能將STFT的尺寸 設定成更大或更小値,取決於所期望的精確度及計算複雜 度。 在次一步驟中,可能施用具有梅爾濾波器庫的濾波, 以將人類頻率靈敏度的非線性模型化。針對此目的,施用 如圖3a所示之非線性頻率尺度(梅爾尺度)。尺度300對 低頻(<500Hz )係近似線性的,而對高頻係對數的。線性 頻率尺度的參考點301係界定爲1000梅爾的1000Hz音色。 將具有二倍高之察覺間距的音色界定爲2000梅爾,並將具 有一半高之察覺間距的音色界定爲5 00梅爾,依此類推。 在數學術語中,將梅爾尺度給定爲: mm = 1127.010481n(l + fHl /700) 其中fHz係以Hz爲單位的頻率且mMel係以Mel爲單位的 頻率。可能完成梅爾尺度轉換,以將人類之非線性頻率知 覺模型化,且此外,可能將權重指定給該等頻率,以將人 類之非線性頻率靈敏度模型化。此可能藉由在梅爾頻率尺 度(或任何其他非線性知覺激發頻率尺度)上使用5 0%的 重疊三角濾波器而完成,其中濾波器的濾波器權重係該濾 波器之帶寬的倒數(非線性靈敏度)。此顯示於說明模範 梅爾尺度濾波器度的圖3b中。可看出濾波器302比濾波器 -24- 201142818 3 03具有更大的帶寬。因此,濾波器3〇2的濾波器權重小於 濾波器3 03之濾波器權重。 藉由執行此’僅使用少數係數得到代表可聽頻率範圍 的梅爾功率頻譜。將模範梅爾功率頻譜顯示於圖61)中。梅 爾尺度濾波的結果係將該功率頻譜平滑化,較高頻率中的 具體細節喪失。在模範情形中,梅爾功率頻譜的頻率軸可 能僅以40個係數表示’取代HE-AAC轉換域之每訊框1024 個MDCT係數以及非壓縮PC Μ域之可能更高數量的頻譜係 數。 爲將沿著頻率之資料數更行減少至有意義的最小量, 可能引入將較高梅爾頻帶映射至單一係數的縮展函數(CP )。其後的基本原理係多數資訊及訊號功率典型地位於較 低頻率區域中。將實驗估算的縮展函數顯示於表1中,並 將對應曲線400顯示在圖4中。在模範情形中’此縮展函數 將梅爾功率係數的數量降低至12。將模範縮展梅爾功率頻 譜顯示於圖6c中。 25- 201142818 縮展梅爾頻帶索引 梅爾頻帶索引 (((…)之和) 1 i 2 2 3 3-4 4 5-6 5 7-8 6 9-10 7 11-12 8 13-14 9 15-18 10 19-23 11 24-29 12 30-40 表1 應注意可能將該縮展函數加權,以強調不同頻率範圍 。在實施例中,該加權可能確保該縮展頻率頻帶反映包含 在特定縮展頻率頻帶中之梅爾頻率頻帶的平均功率。此與 未加權縮展函數不同,其中該縮展頻率頻帶反映包含在特 定縮展頻率頻帶中之梅爾頻率頻帶的總功率。例如,該加 權可能將由縮展頻率頻帶所覆蓋之梅爾頻率頻帶的數量列 入考慮。在實施例中,該加權可能反比例於包含在特定縮 展頻率頻帶中之梅爾頻率頻帶的數量。 爲判定該調變頻譜,可能將縮展梅爾功率頻譜、或任 何其他先前判定的功率頻譜分段爲代表預定長度之音訊訊 號長度的區塊。此外,界定該等區塊的部分重疊可能係有 利的。在實施例中,選擇與該音訊訊號的六秒長度對應之 -26- 201142818 在時間軸上具有5 0 %重疊的區塊。可能將該等區塊的長度 選擇爲涵蓋該音訊訊號之長時間特徵的能力及計算複雜度 之間的取捨。將從縮展梅爾功率頻譜判定的模範調變頻譜 顯示在圖6d中。作爲旁注,應提及判定調變頻譜的方案並 未局限於梅爾濾波頻譜資料,也可用於得到基本上任何音 樂特性或頻譜表示的長期統計。 針對此種分段或區塊各者,沿著時間及頻率軸計算 FFT,以得到該響度的振幅調變頻率。典型地,將在ο-ΐ 〇 Η z 之範 圍中的 調變頻 率視爲 在節奏 估算的 情境中 ,而低 於此範圍的調變頻率典型係不相關的。可能將該功率頻譜 的尖峰及對應之FFT頻率箱判定爲該FFT分析的結果,其 針對功率頻譜資料沿著時間或訊框軸判定。此種尖峰的頻 率或頻率箱對應於音訊或音樂軌道之功率密集事件的頻率 ,且因此係該音訊或音樂軌道之節奏的指示。 爲改善該縮展梅爾功率頻譜之相關尖峰的判定,該資 料可能受其他處理,諸如知覺加權或模糊。有鑑於人類節 奏偏好隨調變頻率改變,且非常高及非常低的調變終端不 太可能發生,可能引入知覺節奏加權函數以強調具有高發 生可能性的此等節奏並抑制不太可能發生的此等節奏。將 實驗估算加權函數500顯示於圖5中。可能將此加權函數 5 〇〇沿著該音訊訊號之各分段或區塊的調變頻率軸施用至 每個縮展梅爾功率頻譜頻帶。亦即,可能將各縮展梅爾頻 帶的功率値乘以加權函數500。將模範加權調變頻譜顯示 在圖6e中。應注意若已知該音樂的風格,可適用該加權濾 -27- 201142818 波器或加權函數。例如,若已知道電子音樂受分析,該加 權函數可具有約2Hz的尖峰並受限在相當窄之範圍的外側 。換言之,該等加權函數可能取決於音樂風格。 爲另外強調訊號變化及將該調變頻譜的旋律內容發音 ,可能實施沿著調變頻率軸的絕對差計算。結果,可能增 強該調變頻譜中的尖峰線。將模範差調變頻譜顯示在圖6f 中〇 此外,可能實施沿著梅爾頻率頻帶或梅爾頻率軸及調 變頻率軸的知覺模糊。典型地,此步驟以將相鄰調變頻率 線組合成更寬之振幅相依區域的此種方式將該資料平滑化 。另外,該模糊可能減少該資料中的雜訊模式的影響,且 因此導致更好的視覺解釋性。此外,該模糊可能使調變頻 譜適應從個別音樂項打節拍實驗得到的打節拍統計圖形狀 (如圖1之1 02、1 03所示)。將模範模糊調變頻譜顯示在 圖6吕中》 最後,可能平均該音訊訊號之分段或區塊套件的聯合 頻率表示,以得到非常緊密、與音訊檔案長度無關之梅爾 頻率調變頻譜。如已於上文略述的,術語「平均」可能係 指包括平均値的計算及中位値之判定的不同數學操作。將 模範平均調變頻譜顯示在圖6h中。 應注意此種音軌調變頻譜表示的優點係能在多個度量 等級指示節奏。此外,該調變頻譜能用與用於判定已察覺 節奏之打節拍實驗相容的格式指示該多個度量等級的相對 實體顯著性。換言之,此表示良好地與圖1之實驗「打節 -28- 201142818 拍」表示102、103匹配,且因此其在估算音軌之節奏上可 能係知覺激發決定的基礎。 如已於上文提及的,對應於已處理縮展梅爾功率頻譜 之尖峰的頻率提供已分析音訊訊號之節奏的指示。此外, 應注意可能將該調變頻譜表示用於比較歌曲間旋律相似性 。此外,可能針對音訊摘錄或分段應用,將用於個別分段 或區塊的調變頻譜表示用於比較歌曲間相似性。 大致上,已描述如何從轉換域中的音訊訊號得到節奏 資訊的方法,例如,HE-AAC轉換域、及PCM域。然而, 直接從壓縮域擷取音訊訊號的節奏資訊可能係可取的。在 下文中,描述如何在表示於壓縮或元件串流域中的音訊訊 號上判定節奏估算之方法。特別聚焦於HE-AAC編碼音訊 訊號。 HE-AAC編碼使用高頻重構(HFR)或頻譜頻帶複製 (SBR )技術。該SBR編碼處理包含暫態偵測級、用於正 確表示的適應T/F (時間/頻率)網格選擇、包絡估算級、 以及其他方法,以將該訊號的低頻及高頻部分間之訊號特 徵中的不匹配校正。 已觀察到從該包絡之參數表示藉由SBR編碼器起源產 生的大部分有效負載。取決於訊號特徵,該編碼器判定適 合該音訊分段之正確表示及適合避免預回聲假音的時間-頻率解析度。典型地,針對時間中的準靜態分段選擇較高 的頻率解析度,而針對動態樂段選擇較高的時間解析度。 因此,由於長時間分段可比短時間分段更有效率地編 -29- 201142818 碼,時間-頻率解析度的選擇對SB R位元率有顯著影響。同 時,針對快速改變內容,亦即,典型地針對具有較高節奏 的音訊內容,包絡的數量且因此待針對該音訊訊號之正確 表示而傳輸的包絡係數數量比慢速改變內容更高。除了所 選擇之時間解析度的影響外,此效果另外影響SBR資料的 尺寸。事實上,已觀察到SBR位元率對基本音訊訊號之節 奏變化的靈敏度比使用在mp3編碼解碼器之情境中的霍夫 曼碼長度之尺寸的靈敏度更高。因此,已將SB R資料之位 元率中的變化識別爲有價値的資訊,其可用於直接從編碼 位元串流判定旋律成分。 圖7顯示包含fill_element欄位702的模範AAC原始資料 區塊701。將此位元串流中的^11_61611^1^欄位702用於儲存 額外的參數側資訊,諸如SBR資料。當除了 SBR外,使用 參數立體聲(PS )(亦即,在HE-AAC v2中)時, fill_element欄位702也包含PS側資訊。下列解釋係基於單 聲情形。然而,應注意所描述的方法也施用至表達任何數 量之頻道的位元串流,例如,立體聲情形。 fill_element欄位702的尺寸隨傳輸之參數側資訊量改 變。因此,可能將fill_element欄位702的尺寸用於直接從 壓縮HE-AAC串流擷取節奏資訊。如圖7所示,fill_element 欄位702包含SBR標頭703及SBR有效負載資料704。 SB R標頭703對個別音訊檔案係固定尺寸的,並重複傳 輸爲fill_element欄位702的一部分。SBR標頭703的此再傳 輸在特定頻率的有效負載資料中導致重複尖峰,且因此其 -30- 201142818 在1 /x Hz的調變頻率域中導致具有特定振幅的尖峰(χ係 SBR標頭703之傳輸的重複率)。然而’此重複傳輸之SBR 標頭703不包含任何旋律資訊且因此應移除。 此可在位元串流剖析之後直接藉由判定該長度及SBr 標頭7 〇 3的發生時間區間而完成。由於S B R標頭7 0 3的週期 性’此判定步驟典型地僅必須完成一次。若長度及發生資 訊係有效的’總SBR資料705可藉由從SBR標頭703發生時 ,在SBR標頭703傳輸時,的SBR資料705減去SBR標頭703 的長度而輕易地校正,亦即。此產生可用於節奏判定之 SBR有效負載704的尺寸。應注意當fill_eiement欄位的尺 寸僅以固定消耗而與SBR有效負載704的尺寸不同時,可能 以相似方式將藉由減去SBR標頭703之長度而校正的 fill_element欄位702之尺寸用於節奏判定。 將SBR有效負載資料704尺寸或已校正之fill_element 欄位702尺寸套件的範例提供在圖8a中。χ-軸顯示訊框數 量,而y-軸針對對應訊框指示SBR有效負載資料704的尺寸 或已校正之fill_element欄位702的尺寸。可看出SBR有效 負載資料704的尺寸在各訊框間不同》在下文中,僅參考 至SB R有效負載資料704尺寸。節奏資訊可能藉由識別SBR 有效負載資料704之尺寸中的週期性而從SBR有效負載資料 704之尺寸序列801擷取。特別係可能識別SBR有效負載資 料7 〇4之尺寸中的尖峰或重複模式之週期性。此可藉由, 例如,將FFT施用在SBR有效負載資料704之尺寸的重疊次 序列上而完成。該等次序列可能對應於特定訊號長度,例 •31 - 201142818 如6秒。後續次序列的重疊可能係50%的重疊。隨後,該等 次序列的FFT係數可能在完整音軌長度上平均。此產生該 完整音軌的平均FFT係數,可能將其表示爲圖8b所示的調 變頻譜81 1。應注意可能預期用於識別SBR有效負載資料 7 04的尺寸中之週期性的其他方法。 調變頻譜811中的尖峰812、813、814指示重複,亦即 ,具有特定發生頻率的旋律模式。也可能將發生頻率稱爲 調變頻率。應注意最大可能調變頻率受基本核心音訊編碼 解碼器的時間解析度所限制。因爲將HE-AAC界定爲具有 以一半取樣頻率運作之A AC核心編碼解碼器的雙率系統, 針對6秒長度序列(128個訊框)及取樣頻率Fs = 441〇〇Hz得 到約21.7 4Hz/2〜1 1 Hz的最大可能調變頻率。此最大可能調 變頻率與約660BPM對應,其涵蓋幾乎每段音樂的節奏。 爲了方便而仍確保正確的處理,可能將最大調變頻率限制 在10Hz,其對應於600BPM。 圖8b的調變頻譜可能用與略述於從音訊訊號之轉換域 或P CM域表示判定的調變頻譜之情境中的方式相似之$ $ 另行增強。例如,可能將使用圖5所示之加權曲線5 〇〇的知 覺加權施用至SBR有效負載資料調變頻譜811,以將人 奏偏好模型化。將所產生的知覺加權SBR有效負載資料調 變頻譜821顯示於圖8c中》可看出非常低及非常高的節奏 受抑制。特別係可看出相較於初始尖峰812及814,已分別 將低頻尖峰822及高頻尖峰824減少。另一方面,仍維持中 頻尖峰8 23。 -32- 201142818 藉由從SBR有效負載資料調變頻譜判定該調變頻譜的 最大値及其對應調變頻率’可得到最顯著實體節奏。在描 繪於圖8 c的此情形中,結果係1 7 8 6 5 9 B P Μ。然而,在本範 例中’此最顯著實體節奏未對應於最顯著知覺節奏,其約 爲8 9ΒΡΜ。結果’有必須受校正的雙重混淆,亦即,在度 量等級中的混淆。針對此目的,將於下文描述知覺節奏校 正方案。 應注意基於SBR有效負載資料之用於節奏估算的該提 議方案與該音樂輸入訊號的位元率無關。當改變HE-AAC 編碼位元串流的位元率時,該編碼器根據此特定位元率之 最高可實現輸出品質自動地設定SBR開始及停止頻率,亦 即,SBR交越頻率改變。儘管如此,該SBR有效負載仍包 含相關於該音軌中之重複暫態成份的資訊。此可在圖8d中 看出,其中SBR有效負載調變頻譜係針對不同位元率顯示 (1 6kbit/s至64kbit/s )。可看出該音訊訊號的該等重複部 分(亦即,調變頻譜中的尖峰,諸如,尖峰8 3 3 )在所有 位元率佔支配地位。也可能觀察到變動存在於不同調變頻 譜中,因爲該編碼器在降低位元率時試圖節省SBR部分中 的位元。 爲總結上文,參考至圖9。考慮三種不同的音訊訊號 表示。在壓縮域中,音訊訊號係藉由其之編碼位元串流表 示,亦即,藉由HE-AAC位元串流901。在轉換域中,將音 訊訊號表示爲次頻帶或轉換係數,例如,如MDCT係數902 。在PCM域中,藉由PCM樣本903表示音訊訊號。在以上 -33- 201142818 描述中’已略述在該等三種訊號域之任一者中判定調變頻 譜的方法。已描述基於HE-AAC位元串流901之SBR有效負 載判定調變頻譜911的方法。此外,已描述基於音訊訊號 的轉換表示902,例如,基於MDCT係數,判定調變頻譜 912的方法。此外,已描述基於音訊訊號之PCM表示903判 定調變頻譜913的方法》 可能將任何已估算調變頻譜911、912、913使用爲實 體節奏估算的基礎。針對此目的,可能實施各種增強處理 步驟’例如,使用加權曲線500的知覺加權、知覺模糊、 及/或絕對差計算。最終,判定(已增強)調變頻譜9 1 1、 912、913之最大値以及對應的調變頻率。調變頻譜911、 912、913的絕對最大値係針對已分析音訊訊號之最顯著實 體節奏的估算。其他最大値典型地對應於此最顯著實體節 奏的其他度量等級。 圖1〇提供使用上文提及的方法得到之調變頻譜911、 912、913的比較。可看出對應於個別調變頻譜之絕對最大 値的該等頻率係非常相似的。在左側,已分析爵士樂的音 軌片段。調變頻譜911、912、913已分別從該音訊訊號的 HE-AAC表示、MDCT表示、及PCM表示判定。可看出所有 三個調變頻譜提供分別對應於調變頻譜911、912、913之 最大尖峰的相似調變頻率1001、1002、1003。對具有調變 頻率1011、1012、1013之古典音樂片段(中間)及具有調 變頻率1021、1 022、1 023的重金屬搖滾樂片段(右側)得 到相似結果。 -34- 201142818 就此而言,已描述容許藉由從不同 之調變頻譜估算實體顯著節奏的方法及 法可應用至各種類型的音樂且未僅限於 外,該等不同方法可應用至不同的訊號 針對個別訊號表示以低計算複雜度實施 如可在圖6、8、及10中看出的,該 有通常對應於該音訊訊號之不同節奏度 峰。此可在,例如圖8 b中看出,其中三 以及8 1 4具有顯著強度並因此可能係該」 奏的候選者。選擇最大尖峰8 1 3提供最 上文所略述的,此最顯著實體節奏可能 奏對應。爲以自動方式估算此最顯著知 略述知覺節奏校正方案。 在實施例中,知覺節奏校正方案包 最顯著實體節奏。在圖8b之調變頻譜8] 定尖峰813及對應的調變頻率。此外,] 擷取其他參數,以協助節奏校正。 MMSCentr〇u (梅爾調變頻譜),其係根 頻譜的中心。可能將該中心參數MMSCei 號之速·度的指示器。 MMSCemnid = d' 广' —- 訊號表示形式導出 對應系統》此等方 西方流行音樂。此 表示形式,並可能 0 調變頻譜典型地具 量等級的複數個尖 個尖峰8 1 2、8 1 3、 音訊訊號之基本節 顆著實體節奏。如 不與最顯著知覺節 覺節奏,在下文中 含從調變頻譜判定 1 1的情形中,將判 可能從該調變頻譜 第一參數可能係 據方程式1之調變 Mrcid使用爲音訊訊 ⑴ -35 201142818 在上述方程式中’ D係調變頻率箱的數量且d=1,...,D 標識個別的調變頻率箱。N係沿著梅爾頻率軸之頻率箱的 總數,且n= 1,…,N標識在梅爾頻率軸上的個別頻率箱。 MMS(n,d)指示該音訊訊號之特定分段的調變頻譜,而 MMS(n,d)指示將整體音訊訊號特徵化之總合調變頻譜。 用於協助節奏校正的第二參數可能係 MMSbeatstrencth ’其係根據方程式2之調變頻譜的最大値 。典型地’此値對電子音樂爲高値且對古典音樂爲小値。 / N _ \ MMSBEATSTREN0TH = maxi ^ MMSjn, d) (2) 另一參數係mmsC0NFUS10N,其係調變頻譜根據方程式 3正規化爲1之後的平均値。若此後一參數爲低値,則此調 變頻譜上之強尖峰的指示(例如,如圖6 )。若此參數爲 高値,該調變頻譜廣泛地分佈而無顯著尖峰且有高度混淆
)CONFUSION
ND N DΣΣ / _ \ MMS(n,d) (MMS (n, d)) (3) 除了此等參數外,亦即,調變頻譜中心或引力 MMScentroid、調變節拍強度MMSBEATSTRENGTH、以及調變 節奏混淆MMSconfusion,可能導出可用於MIR應用之其他 在知覺上有意義的參數。 -36- 201142818 應注意此文件中的該等方程式已針對梅爾頻率調變頻 譜公式化,亦即,針對從表示在P C Μ域及在轉換域中之音 訊訊號判定的調變頻譜9 1 2、9 1 3。在使用從表示在壓縮域 中的音訊訊號判定之調變頻譜9 1 1的情形中,該等項 Ν Y^MMS^d) Μ M S (η,d)及 必須以提供在此文件之方程式 中的該項MSSBR(d)(基於SBR有效負載資料的調變頻譜) 置換。 基於上述參數的選擇,可能提供知覺節奏校正方案。 可能將此知覺節奏校正方案用於判定人類會從得自該調變 表示之最顯著實體節奏察覺的最顯著知覺節奏。該方法使 用得自調變頻譜的知覺激發參數,亦即,針對由調變頻譜 中心MMSCentr<)id給定之音樂速度、由調變頻譜 MMSbeatstrength中的最大値給定之節拍強度、以及由正 規化後的調變表示之平均値所給定的調變混淆因子 MMSc〇NFUSI〇N的量測。該方法可能包含下列步驟之任何一 者: 1 ·判定該音軌的基本度量,例如,4/4拍或3/4拍。 2_根據參數MMSBEatstrength折疊至關注範圍的節奏 3·根據知覺速度量測MMSCentreid的節奏校正 或者,該調變混淆因子mmsC0NFUS10N的判定可能提供 知覺節奏估算之可靠性的量測。 在第一步驟中’可能判定音軌的基本度量,以判定實 體量測節奏應藉由其而受校正的可能因子。例如,具有 3/4拍的音軌之調變頻譜中的尖峰係以基底旋律的三倍頻 -37- 201142818 率發生。因此,該節奏校正應在三的基礎上調整。在具有 4/4拍之音軌的情形中,該節奏校正應以因子2調整。此顯 示於圖11中,其中顯示具有3/4拍之爵士音軌的SBR有效負 載調變頻譜(圖11a)及在4/4拍的金屬音軌(圖lib)。 該節奏度量可能從SBR有效負載調變頻譜中的尖峰分佈判 定。在4/4拍的情形中,顯著尖峰在二的基礎上爲彼此的 倍數,然而對於3/4拍,顯著尖峰係在3之基礎上的倍數。 爲克服節奏估算誤差的此潛在來源,可能施用交叉相 關法。在實施例中,該調變頻譜的自相關可針對不同頻率 延遲Ad判定。可能該自相關給定爲
Corr(Ad) =上H MMS(n, d). MMS{n, d + Ad) (4) DN _=i 產生最大相關C〇rr(Ad)的頻率延遲Ad提供基本度量的 指示》更精確地說,若dmax係最顯著實體調變頻率,則此
Kax+Δ^) 表示式 ( 提供基本度量的指示。 在實施例中,可能將該平均調變頻譜內之該最顯著實 體節奏的合成、知覺修改倍數之間的交叉相關用於判定該 基本度量。將針對雙倍(方程式5)及三倍混淆(方程式6 )的倍數組計算如下=
Multiples double
(5)
Multiples trip,e
,1,3,6 ⑹ -38 201142818 在次一步驟中,實施不同度量之打節拍函數的合成, 其中該等打節拍函數對調變頻譜表示係等長度的,亦即, 彼等對調變頻譜軸係等長度的(方程式7): 办祕W身K若心:广-/—, 1…Z)⑺ 該合成打節拍函數SynthTabd<)ubie,Triple(ci)代表個人以 不同之基本節奏度量等級打節拍的模式。亦即,假設3/4 拍’節奏可能以其節拍的1 /6、其節拍的1 /3、其節拍、其 節拍的3倍、及其節拍的6倍打節拍。以相似方式,若假設 4/4節拍,該節奏可能以其節拍的1/4、其節拍的1/2、其節 拍、其節拍的二倍、及其節拍之4倍打節拍。 若考慮該等調變頻譜的知覺修改版本,可能也必須修 改該等合成打節拍函數,以提供共同表示。若忽略知覺節 奏擷取方案中的知覺模糊,可跳過此步驟。否則,該等合 成打節拍函數應受如方程式8所略述的知覺模糊,以使該 等合成打節拍函數適應人類節奏打節拍統計圖的形狀。
SynthTabdmMeMple{^} = SynthTabdmble,riple{^* B,\<d<,D (8) 其中B係模糊核心且*係卷積操作。模糊核心B係固定 長度的向量,其具有打節拍統計圖的尖峰形狀,例如,三 角形或窄高斯脈衝的形狀。模糊核心B的此形狀反映打節 -39- 201142818 拍統計圖之尖峰的形狀爲佳,例如,圖1的1 〇 2、1 0 3。模 糊核心Β的寬度’亦即,用於核心Β的係數數量,且因此由 核心Β所涵蓋的調變頻率範圍典型地與橫跨完整調變頻率 範圍D相同。在實施例中,模糊核心Β係具有最大振幅一之 窄高斯類脈衝。模糊核心Β可能涵蓋0.265 Hz的調變頻率範 圍(-16BPM ) ’亦即,其可能具有從該脈衝中心算起之+-8BPM的寬度。 一旦已實施該等合成打節拍函數的知覺修改(若有需 要)時,在延遲零的交叉相關係在該等打節拍函數及原始 調變頻譜之間計算。此顯示於方程式9中: D f N _ 、 double triple =Σ 卜加,奶6祕,_(4 (9) rfel \ / 最終,藉由比較得自用於「雙倍」度量的合成打節拍 函數及用於「三倍」度量之合成打節拍函數的相關結果, 判定校正因子。若使用用於雙倍混淆之打節拍函數得到的 相關等於或大於使用用於三倍混淆之打節拍函數得到的相 關,將該校正因子設定爲2,且反之亦然(方程式10): (10) 應注意在通用項中,校正因子係在調變頻譜上使用相 關技術判定。該校正因子與音樂訊號的基本度量關聯,亦 即,4/4、3/4或其他節拍。該基本節拍度量可能藉由將相 -40- 201142818 關技術施用在該音樂訊號的調變頻譜上而判定,其之一部 分已於上文略述。 使用該校正因子,可能實施實際知覺節奏校正。在實 施例中,此係以逐步方式完成。將該模範實施例的虛擬碼 提供在表2中。 第一步驟:根據節拍強度及節奏的節奏校正 if MMSBEATSTRENGTH > treshhold and Tempo < 270 keep Tempo else if Tempo >145 divide Tempo by Correction if Tempo > 220 divide Tempo by Correction end elseif Tempo < 80 multiply Tempo by Correction else keep Tempo end -41 - 201142818 第二步驟:針對節奏主題考慮速度量測 if MMSCemroid < AS {lower) and Tempo > 80 divide Tempo by Correction elseif MMSCentr〇jd is in the range of AS and Tempo >115 divide Tempo by Correction elseif MMSCen(roid is in the range of AF and Tempo < 70 multiply Tempo by Correction elseif MMSCen,roid > AF(upper) and Tempo <110 multiply Tempo by Correction else keep Tempo end end 表2 在第一步驟中*藉由使用MMSbeatstrength參數及先 前計算的校正因子將該最顯著實體節奏,在表2中稱爲「 卽奏」,映射至關注範圍。若MMSbeatstrength參數値低 於特定臨界(其取決於訊號域、音訊編碼解碼器、位元率 、以及取樣頻率),且若實體判定節奏,亦即,參數「節 奏」,相對高或相對低,使用已判定校正因子或節拍度量 •校正最顯著實體節奏。 在第二步驟中,該節奏另外根據該音樂速度校正,亦 即,根據調變頻譜中心MMSCentr()id。用於該校正的個別臨 界可能從知覺實驗判定,其中要求使用者將不同風格及節 奏的音樂內容分等,例如,分等爲四種類別:慢、略慢、 -42- 201142818 略快、以及快。此外,針對相同音訊測試項計算該調變頻 譜中心MMSCentrc)id,並對主觀分類映射。將模範分等的結 果顯示在圖1 2中。X-軸顯示四種主觀分類:慢、略慢、略 快、以及快。y-軸顯示所計算的引力’亦即’調變頻譜中 心。描繪使用壓縮域上的調變頻譜9 1 1 (圖1 2 a )、使用轉 換域上的調變頻譜912 (圖12b )、以及使用PCM域上的調 變頻譜913 (圖12c)的實驗結果。針對各分類’顯示該等 分等的平均値1 2 0 1、5 0 %的可信區間1 2 0 2、1 2 0 3、以及上 及下格1 204、1 205。跨越該等分類的高重疊度暗示相關於 以主觀方式分等節奏的高混淆等級。儘管如此,可能從此 種實驗結果擷取用於1^1^3〜1111_。^參數的臨界,其容許將音 軌指定至主觀分類:慢、略慢、略快 '以及快。將針對不 同訊號表示(PCM域、HE-AAC轉換域、具有SBR有效負載 的壓縮域)之MMSCenlr〇id參數的模範臨界値提供在表3中 主觀度量 厕一 (PCM) MMSCen,roid (HE-AAC) MMSCentroid (SBR) 慢 (S) <23 <26 30.5 略慢 (AS) 23-24.5 26-27 30.5-30.9 略快 (AF) 24.5 - 26 27-28 30.9-32 快 (F) >26 >28 >32 表3 將參數MMSCentr。id的此等臨界値使用在略述於表2中 的第二節奏校正步驟中。在第二節奏校正步驟內,識別在 -43- 201142818 節奏估算及參數MMSCentrC)id2間的巨大差異且最終將彼等 校正。例如,若估算節奏相對高且若參數MMSCentr()id指示 已察覺速度應相當低,藉由該校正因子降低估算節奏。以 相似方式,若估算節奏相對低,然而參數MMSCentr()id指示 已察覺速度應相當高,藉由該校正因子增加估算節奏。 if (confusion < threshold) perceptual tempo = ti else if ti beyond preferred tempo (80-150 BPM) zone Fold ti within preferred range: t2 if slow & t2 > 80: perceptual tempo = ti!2 if somewhat slow & t2 > 130: perceptual tempo = t2/2 if somewhat fast & t2 < 70: perceptual tempo = t2 x 2 if fast & t2 < 110: perceptual tempo = t2 x 2 else perceptual tempo = tz Ϊ4 將知覺節奏校正方案的另一實施例略述於表4中。顯 示用於校正因子2的虛擬碼,然而,該範例可相等地應用 至其他校正因子。在表4的知覺節奏校正方案中,已在第 一步驟中驗證該混淆,亦即,MMSconfusion是否超出特定 臨界。若未超出,假設實體顯著節奏h對應於知覺顯著節 奏。然而,若該混淆等級超出該臨界,則藉由將在來自參 數!^1^5£:611,,。^的音樂訊號之察覺速度上的資訊列入考慮而 校正實體顯著節奏t,。 應注意也可將替代方案用於分類音軌。例如,可將分 -44 - 201142818 類器設計成分類速度,然後產生此等知覺校正類型。在實 施例中,用於節奏校正的該等參數,亦即,顯然地係 MMSC0NFUSI0N、MMScentroid、以及 MMSbeaTSTRENGTH,可 受訓練並模型化,以將自動地將未知音樂訊號的混淆、速 度、及節拍強度分類。該等分類器可用於實施如上文略述 的相似知覺校正。藉由執行此,可減少如表3及4所表示之 固定臨界的使用,且可使該系統更有彈性。 如已於上文提及的,所提議之混淆參數mmsC0NFUSI0N 提供該估算節奏之可靠性的指示。也可將該參數使用爲用 於情緒及風格分類的M IR (音樂資訊檢索)特性。 應注意可能將上述知覺節奏校正方案另外施用至各種 實體節奏估算方法。此描繪於圖9中,其中顯示可能將該 知覺節奏校正方案施用至得自該壓縮域的實體節奏估算( 參考符號9 2 1 ),可能將其施用至得自轉換域的實體節奏 估算(參考符號922)、並可能將其施用至得自PCM域的 實體節奏估算(參考符號923 )。 將節奏估算系統1 3 0 0的模範方塊圖顯示於圖丨3中。應 注意取決於需求’可分別使用此種節奏估算系統13〇〇的不 同組件。系統1 3 0 0包含系統控制單元丨3丨〇、域剖析器丨3 〇 i 、預處理級1302、 1303、 1304、 1305、 1306、 1307,以得 到統一訊號表示、演算法1 3 1 1 ’以判定顯著節奏、以及後 處理單兀1308、1309’以知覺方式校正已擷取節奏。 s亥訊號流可能如下。在開始時,針對節奏判定及校正 從該輸入音訊檔案將任何域之輸入訊號饋送至擷取所有必 -45- 201142818 要資訊的域剖析器1 3 0 1,例如,取樣率及頻道模式。然後 將此等値儲存在根據輸入域設定計算路徑的系統控制單元 1 3 1 0中。 輸入資料的擷取及預處理在次一步驟中實施。在輸入 訊號係表示在壓縮域中的情形中,此種預處理1302包含 SBR有效負載的擷取、SBR標頭資訊的擷取、以及標頭資 訊誤差校正方案。在該轉換域中,預處理1303包含MDCT 係數的擷取、短區塊交錯、以及MDCT係數區塊序列的功 率轉換。在非壓縮域中,預處理1304包含PCM樣本的功率 頻譜計算。隨後,將該轉換資料分段爲半重疊之6秒組塊 的Κ個區塊,以採集該輸入訊號的長期特徵(分段單元 1 3 05 )。針對此目的,可能使用儲存在系統控制單元1 3 1 0 中的控制資訊。區塊數量Κ典型地取決於輸入訊號的長度 。在實施例中,若區塊,例如音軌的最終區塊,短於6秒 ,以零塡充該區塊。 包含預處理MDCT或P CM資料的分段使用縮展函數受 梅爾尺度轉換及/或尺寸縮減處理步驟(梅爾處理單元 1306)。將包含SBR有效負載資料的分段直接饋送至次一 處理區塊1 307,調變頻譜判定單元,其中沿著時間軸計算 N點FFT。此步驟導致所期望的調變頻譜。調變頻率箱的 數量N取決於該基本域的時間解析度,並可能藉由系統控 制單元I 3 1 0饋送至該演算法。在實施例中,將頻譜限制爲 1 OHz以停留在感覺節奏範圍內,且該頻譜依據人類節奏偏 好曲線5 0 0知覺加權。 -46- 201142818 爲基於未壓縮及轉換域增強頻譜中的調變尖峰,可能 在次一步驟中計算沿著調變頻率軸的絕對差(在調變頻譜 判定單元1 3 0 7內)’然後沿著梅爾尺度頻率及調變頻譜軸 二者知覺模糊,以順應打節拍統計圖的形狀。此計算處理 對未壓縮及轉換域係選擇性的,因爲沒有新資料產生,但 其典型地導致調變頻譜的視覺表示改善。 最後,可能藉由平均操作將在單元13〇7中處理的分段 組合。如已於上文略述的,平均可能包含平均値的計算或 中位値的判定。此導致來自未壓縮P C Μ資料或轉換域 MDCT資料之知覺激發梅爾尺度調變頻譜(MMS )的最終 表示’或導致已壓縮域位元串流部分之知覺激發SBR有效 負載調變頻譜(M S s b R )的最終表示。 可從該等調變頻譜參數計算,諸如調變頻譜中心、調 變頻譜節拍強度、及調變頻譜節拍混淆。可能將任何此等 參數饋送至知覺節奏校正單元1 3 09並由其使用,其校正得 自最大値計算1 3 1 1的最顯著實體節奏。系統1 3 00的輸出係 實際音樂輸入檔案的最顯著知覺節奏。 應注意可能將在本文件中針對節奏估算略述的該等方 法施用在音訊解碼器,以及音訊編碼器。在解碼已編碼檔 案時’可能將用於節奏估算之該等方法施用至壓縮域、轉 換域、以及PCM域中之音訊訊號。該等方法相等地應用在 編碼音訊訊號時。在解碼及在編碼音訊訊號時,上述方法 的複雜度可調性觀念係有效的。 也應注意當略述於本文件中的該等方法可能已略述於 -47- 201142818 完整音訊訊號上之節奏估算及校正的情境中時,該等方法 也可能施用至音訊訊號的次部,例如,Μ M S分段,從而針 對音訊訊號的次部提供節奏資訊。 作爲另一實施樣態,應注意可能以元資料形式將音訊 訊號的實體節奏及/或知覺節奏資訊寫入編碼位元串流中 。此種元資料可能由媒體播放器或由MIR應用所擷取及使 用。 此外,預期修改及壓縮調變頻譜表示(例如,調變頻 譜1001,且特別係圖10的1 002及1 003 ),並將可能修改及 /或壓縮之調變頻譜儲存爲在音訊/視訊檔案或位元串流中 的元資料。可將此資訊使用爲音訊訊號的聲學影像縮圖》 將相關於音訊訊號中之旋律內容的細節提供給使用者可能 係有用的。 在本文件中,已描述用於實體及知覺節奏之可靠估算 的複雜度可調性調變頻率法及系統。該估算可能在未壓縮 PCM域、MCDT基HE-AAC轉換域、以及HE-AAC SBR有效 負載基壓縮域中的音訊訊號上實施。此容許非常低複雜度 的節奏估算判定,甚至在音訊訊號係在壓縮域中時。使用 SBR有效負載資料,節奏估算可能直接從壓縮HE-AAC位 元串流擷取,無須實施熵解碼。所提議之方法更耐於位元 率及SBR交越頻率的改變,並可施用至單及多頻道編碼音 訊訊號。也可施用至其他SBR增強音訊編碼解碼器’諸如 mp3PRO,並可視爲係編碼解碼器不可知的。針對節奏估 算的目的,實施節奏估算的該裝置不需要能解碼SBR資料 -48 - 201142818 。此係由於節奏擷取係直接在編碼SB R資料上實施。 此外,所提議之方法及系統使用人類節奏察覺的知識 及大音樂資料集中的音樂節奏分佈。除了針對節奏估算之 音訊訊號的合適表示之評估外,描述知覺節奏加權函數以 及知覺節奏校正方案。此外,描述提供音訊訊號的知覺顯 著節奏之可靠估算的知覺節奏校正方案。 所提議之方法及系統可能使用在MIR應用的情境中, 例如,用於風格分類。由於低計算複雜度,可能將該等節 奏估算方案,特別係基於SBR有效負載的估算方法,直接 實作在可攜式電子裝置上,其典型地具有有限處理及記億 體資源。 此外,可能將知覺顯著節奏的判定用於音樂選擇、比 較、混合、播放列表產生。例如,當產生在相鄰音軌間具 有平滑旋律過渡的播放列表時,相關於該等音軌之知覺顯 著節奏的資訊可能比相關於實體顯著節奏之資訊更適合。 描述於本文件中的該等節奏估算方法及系統可能實作 爲軟體、軔體、及/或硬體。特定組件可能,例如實作爲 在數位訊號處理器或微處理器上運作之軟體。其他組件可 能,例如實作爲硬體及/或特定應用積體電路。在所描述 之方法及系統中遇到的該等訊號可能儲存在媒體中,諸如 隨機存取記憶體或光學儲存媒體。彼等可能經由網路轉移 ’諸如無線電網路、衛星網路、無線網路、或有線網路, 例如’網際網路。使用描述於本文件中之該等方法及系統 的典型裝置係用於儲存及/或演奏音訊訊號的可攜式電子 -49- 201142818 裝置或其他消費性裝備。該等方法及系統也可能使用在電 腦系統中’例如網際網路網頁伺服器、其儲存及提供用於 下載之音訊訊號,例如音樂訊號。 【圖式簡單說明】 現在將參考該等隨附圖式,經由未限制本發明範圍或 精神之說明範例描述本發明,在該等隨附圖式中: 圖1描繪大量音樂收藏對單一音樂片段之打節拍節奏 的模範共振模型; 圖2顯示用於短區塊之MDCT係數的模範交錯; 圖3 a及3b顯示模範梅爾尺度及模範梅爾尺度濾波器庫 圖4描繪模範縮展函數; 圖5描繪模範加權函數; 圖6a至6h描繪模範功率及調變頻譜; 圖7顯示模範SBR資料元素; 圖8a至8d描繪SBR有效負載尺寸序列及所產生的調變 頻譜; 圖9顯示所提議之節奏估算方案的模範槪觀; 圖1 〇顯示所提議之節奏估算方案的模範比較; 圖11a及lib顯示用於具有不同度量之音軌的模範調變 頻譜; 圖12a至12c顯示針對知覺節奏分類的模範實驗結果; -50- 201142818 圖1 3顯示節奏估算系統的模範方塊圖。 【主要元件符號說明】 1 〇 1 :共振曲線 102、103、92 1、922、92 3、100 1、1 002、1 003 :參 考符號 201、202、2 03 、 204、205、2 06、207、208、2 10: 短區塊 300 :尺度 3 0 1 :參考點 302 、 303 :濾波器 400 :對應曲線 5 0 0 :加權函數 7 0 1 : A A C原生資料區塊 702 : fill_element欄位 7 0 3: S B R 標頭 704 : SBR有效負載資料 705 :總S B R資料 8 0 1 :序列 811、911、912、913:調變頻譜 812' 813、 814、 833 :尖峰 821 :知覺加權SBR有效負載資料調變頻譜 8 2 2 :低頻尖峰 8 2 3 :中頻尖峰 -51 - 201142818 8 24 :高頻尖峰 9 0 1: Η E - A A C位元串流 902 : MDCT係數 903 : PCM樣本 1 023 :調變頻率 1011、 1012、 1013、 1021、 1022、 1 2 0 1 :平均値 1 2 0 2、1 2 0 3 :信任區間 1204 :上格 1205 :下格 1 3 00 :節奏估算系統 1 3 0 1 :域剖析器 1 3 0 7 :預處理級 1302、 1303、 1304、 1305、 1306、 1 3 0 8、1 3 0 9 :後處理級 1 3 1 0 :系統控制單元 1 3 1 1 :演算法 -52-
Claims (1)
- 201142818 七、申請專利範圍: 1. 一種用於從音訊訊號的編碼位元串流擷取該音訊 訊號之節奏資訊的方法,該編碼位元串流包含頻譜頻帶複 製資料,該方法包含: -針對該音訊訊號的時間區間判定與包含在該編碼位 元串流中之頻譜頻帶複製資料量關聯的有效負載量; -對該音訊訊號之該編碼位元串流的後續時間區間重 複該判定步驟,從而判定有效負載量序列; -識別該有效負載量序列中的週期性;以及 -從該已識別週期性擷取該音訊訊號的節奏資訊。 2 ·如申請專利範圍第1項之方法,其中判定有效負載 量包含: -判定該時間區間中之包含在該編碼位元串流的一或 多個塡充元素欄位中之資料量;以及 -基於該時間區間中之包含在該編碼位元串流的該等 + ¾多個塡充元素欄位中之該資料量,判定該有效負載量 〇 3 ·如申請專利範圍第2項之方法,其中判定有效負載 量包含: -判定該時間區間中之包含在該編碼位元串流的該等 一或多個塡充元素欄位中之頻譜頻帶複製標頭資料量; -藉由扣除該時間區間中之包含在該編碼位元串流的 等〜或多個塡充元素欄位中之該頻譜頻帶複製標頭資料 曰 m 判定該時間區間中之包含在該編碼位元串流的該等— -53- 201142818 或多個塡充元素欄位中之淨資料量;以及 -基於該淨資料量判定該有效負載量。 4 ·如申請專利範圍第3項之方法,其中該有效負載量 對應於該淨資料量。 5. 如上述申請專利範圍之任一項的方法,其中 -該編碼位元串流包含複數個訊框,各訊框對應於預 定時間長度的該音訊訊號片段;以及 -該時間區間對應於該編碼位元串流的訊框。 6. 如申請專利範圍第1項之方法,其中該重複步驟係 對該編碼位元串流的所有訊框實施。 7 ·如申請專利範圍第1項之方法,其中識別週期性包 含: -識別該有效負載量序列中的尖峰週期性。 8·如申請專利範圍第1項之方法,其中識別週期性包 含: -在該有效負載量序列上實施產生功率値組及對應頻 率的頻譜分析:以及 -藉由判定該功率値組中的相對最大値並藉由將該週 期性選擇爲該對應頻率,識別該有效負載量序列中的週期 性》 9.如申請專利範圍第8項之方法,其中實施頻譜分析 包含: -在該有效負載量序列之複數個次序列上實施產生複 數個功率値組的頻譜分析;以及 -54- 201142818 -平均該等複數個功率値組。 10. 如申請專利範圍第9項之方法,其中該等複數個 次序列部分地重疊。 11. 如申請專利範圍第8至1 0項之任一項的方法,其 中實施頻譜分析包含實施傅立葉轉換。 12. 如申請專利範圍第8項的方法,另外包含: -將該功率値組乘以與彼等對應頻率之人類知覺偏好 關聯的權重。 1 3 ·如申請專利範圍筚8項之方法,其中擷取節奏資 訊包含: -判定對應於該功率値組之絕對最大値的該頻率;其 中該頻率對應於該音訊訊號的實體顯著節奏。 14. 如申請專利範圍第1項之方法,其中該音訊訊號 包含音樂訊號,且其中擷取節奏資訊包含估算該音樂訊號 的節奏。 15. —種用於估算音訊訊號之知覺顯著節奏的方法, 該方法包含: -自該音訊訊號判定調變頻譜,其中該調變頻譜包含 複數個發生頻率及對應的複數個重要性値,其中該等重要 性値指示該音訊訊號中之該等對應發生頻率的相對重要性 » -將實體顯著節奏判定爲與該等複數個重要性値之最 大値對應的該發生頻率; -從該調變頻譜判定該音訊訊號的節拍度量; -55- 201142818 -從該調變頻譜判定知覺節奏指示器;以及 -藉由依據該節拍度量修改該實體顯著節奏,判定該 知覺顯著節奏, 其中該修改步驟將該知覺節奏指示器及該實體顯著節 奏之間的關係列入考慮。 16.如申請專利範圍第15項之方法,其中該音訊訊號 係以沿著時間軸的PCM樣本序列表示,且其中判定調變頻 譜包含: -自該PCM樣本序列選擇複數個後繼、部分地重疊之 次序列; -針對該等複數個後繼次序列,判定具有頻譜解析度 的複數個後繼功率頻譜; -使用知覺非線性轉換,壓縮該等複數個後繼功率頻 譜的該頻譜解析度;以及 -在該等複數個後繼壓縮功率頻譜上沿著該時間軸實 施頻譜分析,從而產生該等複數個重要性値及彼等之對應 發生頻率。 1 7 .如申請專利範圍第1 5項之方法,其中該音訊訊號 係以沿著時間軸的後繼MDCT係數區塊序列表示,且其中 判定調變頻譜包含: -使用知覺非線性轉換,壓縮區塊中的MDCT係數的數 量;以及 •在該後繼壓縮MDCT係數區塊序列上沿著該時間軸實 施頻譜分析,從而產生該等複數個重要性値及彼等之對應 -56- 201142818 發生頻率。 1 8.如申請專利範圍第i 5項之方法,其中該音訊訊號 係以包含頻譜頻帶複製資料及沿著時間軸之複數個後繼訊 框的編碼位元串流表示,且其中判定調變頻譜包含: -判定與該編碼位元串流之訊框序列中的該頻譜頻帶 複製資料量關聯之有效負載量序列; -自該有效負載量序列選擇複數個後繼、部分地重疊 之次序列;以及 -在該等複數個後繼次序列上沿著該時間軸實施頻譜 分析’從而產生該等複數個重要性値及彼等之對應發生頻 率。 1 9 ·如申請專利範圍第1 5項之方法,其中判定調變頻 譜包含: -將該等複數個重要性値乘以與彼等的對應發生頻率 之人類知覺偏好關聯的權重。 2 〇.如申請專利範圍第1 5項之方法,其中判定實體顯 著節奏包含: -將該實體顯著節奏判定爲與該等複數個重要性値之 該絕對最大値對應的該發生頻率。 2 1 ·如申請專利範圍第1 5項之方法,其中判定節拍度 量包含: -針對複數個非零頻率延遲判定該調變頻譜的自相關 -識別自相關之最大値及對應頻率延遲;以及 -57- I 201142818 -基於該對應頻率延遲及該實體顯著節奏,判定該節 拍度量。 2 2.如申請專利範圍第1 5項之方法,其中判定節拍度 量包含: -判定該調變頻譜及分別對應於複數個節拍度量之複 數個合成打節拍功能之間的交叉相關;以及 -選擇產生最大交叉相關的該節拍度量。 23.如申請專利範圍第15項之方法,其中該節拍度量 係以下各者之一: -3,若爲3/4拍;或 • 2,若爲4/4拍。 2 4·如申請專利範圍第1 5項之方法,其中判定知覺節 奏指示器包含: -將第一知覺節奏指示器判定爲該等複數個重要性値 的平均値,藉由該等複數個重要性値之最大値正規化。 2 5.如申請專利範圍第2 4項之方法,其中判定該知覺 顯著節奏包含: -判定該第一知覺節奏指示器是否超出第一臨界;以 及 -僅在超出該第一臨界時修改該實體顯著節奏。 2 6.如申請專利範圍第1 5項之方法,其中判定知覺節 奏指示器包含: -將第二知覺節奏指示器判定爲該等複數個重要性値 的該最大重要性値。 -58- 201142818 2 7.如申請專利範圍第2 6項之方法,其中判定該知覺 顯著節奏包含: -判定該第二知覺節奏指示器是否低於第二臨界;以 及 -若該第二知覺節奏指示器低於該第二臨界,修改該 實體顯著節奏。 28. 如申請專利範圍第15項之方法,其中判定知覺節 奏指示器包含: -將第三知覺節奏指示器判定爲該調變頻譜之發生中 心頻率。 29. 如申請專利範圍第28項之方法,其中判定該知覺 顯著節奏包含: -判定該第三知覺節奏指示器與該實體顯著節奏之間 的不匹配;以及 -若不匹配已判定,修改該實體顯著節奏。 30·如申請專利範圍第29項之方法,其中判定不匹配 包含: -判定該第三知覺節奏指示器低於第三臨界且該實體 顯著節奏高於第四臨界;或 -判定該第三知覺節奏指示器高於第五臨界且該實體 顯著節奏低於第六臨界; 其中該第三、第四、第五、及第六臨界之至少一者與 人類知覺節奏偏好關聯。 3 1 ·如申請專利範圍第1 5項之方法’其中依據該節拍 -59- 201142818 度量修改該實體顯著節奏包含: -將節拍等級增加至基本節拍的次一較高節拍等級; 或 -將節拍等級降低至基本節拍的次一較低節拍等級。 3 2 ·如申請專利範圍第3 1項之方法,其中增加或減少 該節拍等級包含: •在3/4拍的情形中,將該實體顯著節奏乘以或除以3 ; 以及 -在4/4拍的情形中,將該實體顯著節奏乘以或除以2❶ 33. —種軟體程式,適於在處理器上執行且當在計算 裝置上實行時適於實施如申請專利範圍第1至32項之任一 項的該等方法步驟。 3 4.—種儲存媒體,包含適於在處理器上執行且當在 計算裝置上實行時適於實施如申請專利範圍第1至32項之 任一項的該等方法步驟之軟體程式。 3 5 .—種電腦程式產品,包含當在電腦上執行時用於 實施如申請專利範圍第1至32項之任一項的該方法之可執 行指令。 36. —種可攜式電子裝置,包含: -儲存單元,組態成儲存音訊訊號; -音訊呈現單元,組態成呈現該音訊訊號; -使用者介面,組態成接收針對該音訊訊號上的節拍 資訊之使用者請求:以及 -處理器,組態成藉由在該音訊訊號上實施如申請專 -60- 201142818 利範圍第1至3 2項之任一項的該等方法步驟判定該節奏資 訊。 37. —種組態成從編碼位元串流擷取音訊訊號之節奏 資訊的系統,該編碼位元串流包含該音訊訊號的頻譜頻帶 複製資料,該系統包含: -用於判定與包含在該音訊訊號之時間區間的該編碼 位元串流中之頻譜頻帶複製資料量關聯的有效負載量之機 構; -用於對該音訊訊號之該編碼位元串流的後續時間區 間重複該判定步驟,從而判定有效負載量序列的機構; -用於識別該有效負載量序列中之週期性的機構;以 及 -用於從該已識別週期性擷取該音訊訊號之節奏資訊 的機構。 3 8 · —種組態成估算音訊訊號之知覺顯著節奏的系統 ,該系統包含: -用於判定該音訊訊號之調變頻譜的機構,其中該調 變頻譜包含複數個發生頻率及對應的複數個重要性値,其 中該等重要性値指示該音訊訊號中之該等對應發生頻率的 相對重要性; •用於將實體顯著節奏判定爲與該等複數個重要性値 之最大値對應的該發生頻率之機構; -用於藉由分析該調變頻譜判定該音訊訊號之節拍度 量的機構; -61 - 201142818 -用於從該調變頻譜判定知覺節奏指示器的機構;以 及 -用於藉由依據該節拍度量修改該實體顯著節奏,判 定該知覺顯著節奏的機構,其中該修改步驟將該知覺節奏 指示器及該實體顯著節奏之間的關係列入考慮。 39. —種用於產生包含音訊訊號之元資料的編碼位元 串流之方法,該方法包含: -判定與該音訊訊號之節奏關聯的元資料;以及 -將該元資料插入該編碼位元串流。 4〇·如申請專利範圍第39項之方法,其中該元資料包 含代表該音訊訊號之實體顯著節奏及/或知覺顯著節奏的 資料。 41. 如申請專利範圍第39項之方法,其中該元資料包 含代表來自該音訊訊號之調變頻譜的資料,其中該調變頻 譜包含複數個發生頻率及對應的複數個重要性値,其中該 等重要性値指示該音訊訊號中之對應發生頻率的相對重要 性。 42. 如申請專利範圍第39項的方法,另外包含: -使用HE-AAC、MP3、AAC、杜比數位、或杜比數位 加強編碼器之任一者,將該音訊訊號編碼入該編碼位元串 流之有效負載資料序列。 43. —種用於從編碼位元串流擷取與音訊訊號的節奏 關聯之資料的方法,該編碼位元串流包含該音訊訊號的元 資料,該方法包含: -62- 201142818 -識別該編碼位元串流的該元資料;以及 -從該編碼位元串流的該元資料擷取與該音訊訊號之 節奏關聯的該資料。 44. 一種包含元資料之音訊訊號的編碼位元串流,其 中該元資料包含至少代表下列一者的資料: -該音訊訊號的實體顯著節奏及/或知覺顯著節奏; -來自該音訊訊號的調變頻譜,其中該調變頻譜包含 複數個發生頻率及對應的複數個重要性値,其中該等重要 性値指示該音訊訊號中之該等對應發生頻率的相對重要性 〇 4 5. —種組態成產生包含音訊訊號的元資料之編碼位 元串流的音訊編碼器,該編碼器包含: -用於判定與該音訊訊號的節奏關聯之元資料的機構 :以及 •用於將該兀資料插入該編碼位兀串流的機構。 4 6 _ —種組態成從編碼位元串流擷取與音訊訊號之節 奏關聯的資料之音訊解碼器,該編碼位元串流包含該音訊 訊號的元資料,該解碼器包含: -用於識別該編碼位元串流之該元資料的機構;以及 -用於從該編碼位元串流之該元資料擷取與該音訊訊 號的節奏關聯之該資料的機構。 -63-
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US25652809P | 2009-10-30 | 2009-10-30 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201142818A true TW201142818A (en) | 2011-12-01 |
| TWI484473B TWI484473B (zh) | 2015-05-11 |
Family
ID=43431930
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW099135450A TWI484473B (zh) | 2009-10-30 | 2010-10-18 | 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統 |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US9466275B2 (zh) |
| EP (2) | EP2988297A1 (zh) |
| JP (2) | JP5295433B2 (zh) |
| KR (2) | KR101612768B1 (zh) |
| CN (2) | CN104157280A (zh) |
| BR (1) | BR112012011452A2 (zh) |
| RU (2) | RU2507606C2 (zh) |
| TW (1) | TWI484473B (zh) |
| WO (1) | WO2011051279A1 (zh) |
Families Citing this family (33)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101291293B1 (ko) * | 2008-03-10 | 2013-07-30 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법 |
| US8700410B2 (en) * | 2009-06-18 | 2014-04-15 | Texas Instruments Incorporated | Method and system for lossless value-location encoding |
| JP5569228B2 (ja) * | 2010-08-02 | 2014-08-13 | ソニー株式会社 | テンポ検出装置、テンポ検出方法およびプログラム |
| US8719019B2 (en) * | 2011-04-25 | 2014-05-06 | Microsoft Corporation | Speaker identification |
| CN103582913B (zh) | 2011-04-28 | 2016-05-11 | 杜比国际公司 | 有效内容分类及响度估计 |
| JP5807453B2 (ja) * | 2011-08-30 | 2015-11-10 | 富士通株式会社 | 符号化方法、符号化装置および符号化プログラム |
| JP6069341B2 (ja) * | 2011-11-30 | 2017-02-01 | ドルビー・インターナショナル・アーベー | オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体 |
| DE102012208405A1 (de) * | 2012-05-21 | 2013-11-21 | Rohde & Schwarz Gmbh & Co. Kg | Messgerät und Verfahren zur verbesserten Abbildung von Spektralverläufen |
| US9992490B2 (en) * | 2012-09-26 | 2018-06-05 | Sony Corporation | Video parameter set (VPS) syntax re-ordering for easy access of extension parameters |
| US20140162628A1 (en) * | 2012-12-07 | 2014-06-12 | Apple Inc. | Methods for Validating Radio-Frequency Test Systems Using Statistical Weights |
| US9704478B1 (en) * | 2013-12-02 | 2017-07-11 | Amazon Technologies, Inc. | Audio output masking for improved automatic speech recognition |
| WO2015093668A1 (ko) * | 2013-12-20 | 2015-06-25 | 김태홍 | 오디오 신호 처리 장치 및 방법 |
| GB2522644A (en) * | 2014-01-31 | 2015-08-05 | Nokia Technologies Oy | Audio signal analysis |
| EP3108474A1 (en) * | 2014-02-18 | 2016-12-28 | Dolby International AB | Estimating a tempo metric from an audio bit-stream |
| US20170245070A1 (en) * | 2014-08-22 | 2017-08-24 | Pioneer Corporation | Vibration signal generation apparatus and vibration signal generation method |
| CN104299621B (zh) * | 2014-10-08 | 2017-09-22 | 北京音之邦文化科技有限公司 | 一种音频文件的节奏感强度获取方法及装置 |
| KR20160102815A (ko) * | 2015-02-23 | 2016-08-31 | 한국전자통신연구원 | 잡음에 강인한 오디오 신호 처리 장치 및 방법 |
| US9372881B1 (en) | 2015-12-29 | 2016-06-21 | International Business Machines Corporation | System for identifying a correspondence between a COBOL copybook or PL/1 include file and a VSAM or sequential dataset |
| US12216516B2 (en) * | 2017-01-09 | 2025-02-04 | Inmusic Brands, Inc. | Systems and methods for displaying graphics about a control wheel's center |
| CN108989706A (zh) * | 2017-06-02 | 2018-12-11 | 北京字节跳动网络技术有限公司 | 基于音乐节奏生成特效的方法及装置 |
| WO2019053765A1 (ja) * | 2017-09-12 | 2019-03-21 | Pioneer DJ株式会社 | 楽曲解析装置および楽曲解析プログラム |
| CN108320730B (zh) | 2018-01-09 | 2020-09-29 | 广州市百果园信息技术有限公司 | 音乐分类方法及节拍点检测方法、存储设备及计算机设备 |
| US11443724B2 (en) * | 2018-07-31 | 2022-09-13 | Mediawave Intelligent Communication | Method of synchronizing electronic interactive device |
| WO2020207593A1 (en) * | 2019-04-11 | 2020-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
| CN110585730B (zh) * | 2019-09-10 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 游戏的节奏感测试方法、装置以及相关设备 |
| CN110688518B (zh) * | 2019-10-12 | 2024-05-24 | 广州酷狗计算机科技有限公司 | 节奏点的确定方法、装置、设备及存储介质 |
| CN110853677B (zh) * | 2019-11-20 | 2022-04-26 | 北京雷石天地电子技术有限公司 | 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质 |
| JP7516802B2 (ja) | 2020-03-25 | 2024-07-17 | カシオ計算機株式会社 | テンポ検出装置、方法、及びプログラム |
| CN111785237B (zh) * | 2020-06-09 | 2024-04-19 | Oppo广东移动通信有限公司 | 音频节奏确定方法、装置、存储介质和电子设备 |
| CN112866770B (zh) * | 2020-12-31 | 2023-12-05 | 北京奇艺世纪科技有限公司 | 一种设备控制方法、装置、电子设备及存储介质 |
| WO2022227037A1 (zh) * | 2021-04-30 | 2022-11-03 | 深圳市大疆创新科技有限公司 | 音频处理、视频处理方法、装置、设备及存储介质 |
| CN114005464B (zh) * | 2021-11-04 | 2024-12-20 | 深圳万兴软件有限公司 | 一种节拍速度估测方法、装置、计算机设备及存储介质 |
| WO2025093804A1 (en) * | 2023-11-03 | 2025-05-08 | Audicin Oy | Method of creating music for psychophysiological impact and nervous system regulation and a service product providing such music |
Family Cites Families (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
| DE19736669C1 (de) | 1997-08-22 | 1998-10-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals |
| US6240379B1 (en) * | 1998-12-24 | 2001-05-29 | Sony Corporation | System and method for preventing artifacts in an audio data encoder device |
| US6978236B1 (en) | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
| US7069208B2 (en) | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
| US7447639B2 (en) | 2001-01-24 | 2008-11-04 | Nokia Corporation | System and method for error concealment in digital audio transmission |
| US7013269B1 (en) | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
| JP4646099B2 (ja) * | 2001-09-28 | 2011-03-09 | パイオニア株式会社 | オーディオ情報再生装置及びオーディオ情報再生システム |
| US20040083110A1 (en) | 2002-10-23 | 2004-04-29 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
| EP1797507B1 (en) * | 2004-10-08 | 2011-06-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an encoded rhythmic pattern |
| WO2006050512A2 (en) * | 2004-11-03 | 2006-05-11 | Plain Sight Systems, Inc. | Musical personal trainer |
| US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
| US20070036228A1 (en) * | 2005-08-12 | 2007-02-15 | Via Technologies Inc. | Method and apparatus for audio encoding and decoding |
| US7518053B1 (en) | 2005-09-01 | 2009-04-14 | Texas Instruments Incorporated | Beat matching for portable audio |
| JP4949687B2 (ja) | 2006-01-25 | 2012-06-13 | ソニー株式会社 | ビート抽出装置及びビート抽出方法 |
| JP4632136B2 (ja) * | 2006-03-31 | 2011-02-16 | 富士フイルム株式会社 | 楽曲テンポ抽出方法、装置及びプログラム |
| US20080059154A1 (en) * | 2006-09-01 | 2008-03-06 | Nokia Corporation | Encoding an audio signal |
| US7645929B2 (en) * | 2006-09-11 | 2010-01-12 | Hewlett-Packard Development Company, L.P. | Computational music-tempo estimation |
| JP4799333B2 (ja) | 2006-09-14 | 2011-10-26 | シャープ株式会社 | 楽曲分類方法、楽曲分類装置及びコンピュータプログラム |
| CA2645913C (en) * | 2007-02-14 | 2012-09-18 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
| CN100462878C (zh) * | 2007-08-29 | 2009-02-18 | 南京工业大学 | 智能机器人识别舞蹈音乐节奏的方法 |
| JP5098530B2 (ja) | 2007-09-12 | 2012-12-12 | 富士通株式会社 | 復号化装置、復号化方法および復号化プログラム |
| WO2009125489A1 (ja) | 2008-04-11 | 2009-10-15 | パイオニア株式会社 | テンポ検出装置及びテンポ検出プログラム |
| US8392200B2 (en) * | 2009-04-14 | 2013-03-05 | Qualcomm Incorporated | Low complexity spectral band replication (SBR) filterbanks |
-
2010
- 2010-10-18 TW TW099135450A patent/TWI484473B/zh not_active IP Right Cessation
- 2010-10-26 EP EP15178512.8A patent/EP2988297A1/en not_active Withdrawn
- 2010-10-26 WO PCT/EP2010/066151 patent/WO2011051279A1/en not_active Ceased
- 2010-10-26 CN CN201410392507.6A patent/CN104157280A/zh active Pending
- 2010-10-26 US US13/503,136 patent/US9466275B2/en not_active Expired - Fee Related
- 2010-10-26 KR KR1020147000929A patent/KR101612768B1/ko not_active Expired - Fee Related
- 2010-10-26 CN CN201080048994.4A patent/CN102754147B/zh not_active Expired - Fee Related
- 2010-10-26 JP JP2012534723A patent/JP5295433B2/ja not_active Expired - Fee Related
- 2010-10-26 KR KR1020127010356A patent/KR101370515B1/ko not_active Expired - Fee Related
- 2010-10-26 RU RU2012117702/28A patent/RU2507606C2/ru not_active IP Right Cessation
- 2010-10-26 EP EP10778909.1A patent/EP2494544B1/en not_active Not-in-force
- 2010-10-26 BR BR112012011452A patent/BR112012011452A2/pt not_active IP Right Cessation
-
2013
- 2013-06-11 JP JP2013122581A patent/JP5543640B2/ja not_active Expired - Fee Related
- 2013-10-17 RU RU2013146355/28A patent/RU2013146355A/ru not_active Application Discontinuation
Also Published As
| Publication number | Publication date |
|---|---|
| HK1168460A1 (zh) | 2012-12-28 |
| KR20140012773A (ko) | 2014-02-03 |
| RU2507606C2 (ru) | 2014-02-20 |
| US9466275B2 (en) | 2016-10-11 |
| KR101370515B1 (ko) | 2014-03-06 |
| CN102754147A (zh) | 2012-10-24 |
| JP2013508767A (ja) | 2013-03-07 |
| JP2013225142A (ja) | 2013-10-31 |
| EP2988297A1 (en) | 2016-02-24 |
| KR101612768B1 (ko) | 2016-04-18 |
| CN102754147B (zh) | 2014-10-22 |
| BR112012011452A2 (pt) | 2016-05-03 |
| WO2011051279A1 (en) | 2011-05-05 |
| RU2013146355A (ru) | 2015-04-27 |
| US20120215546A1 (en) | 2012-08-23 |
| CN104157280A (zh) | 2014-11-19 |
| EP2494544B1 (en) | 2015-09-02 |
| RU2012117702A (ru) | 2013-11-20 |
| EP2494544A1 (en) | 2012-09-05 |
| KR20120063528A (ko) | 2012-06-15 |
| TWI484473B (zh) | 2015-05-11 |
| JP5295433B2 (ja) | 2013-09-18 |
| JP5543640B2 (ja) | 2014-07-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI484473B (zh) | 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統 | |
| US9317561B2 (en) | Scene change detection around a set of seed points in media data | |
| US9697840B2 (en) | Enhanced chroma extraction from an audio codec | |
| CN103999150B (zh) | 媒体数据中的低复杂度重复检测 | |
| EP3244407A1 (en) | Apparatus and method for modifying a parameterized representation | |
| US9892758B2 (en) | Audio information processing | |
| RU2419859C2 (ru) | Способ и электронное устройство для определения характеристики элемента контента | |
| US20180173400A1 (en) | Media Content Selection | |
| EP3575989B1 (en) | Method and device for processing multimedia data | |
| Cunningham et al. | Data reduction of audio by exploiting musical repetition | |
| HK1168460B (zh) | 复杂度可缩放的感知节拍估计 | |
| BRPI0906247B1 (pt) | Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |