[go: up one dir, main page]

TW201142818A - Complexity scalable perceptual tempo estimation - Google Patents

Complexity scalable perceptual tempo estimation Download PDF

Info

Publication number
TW201142818A
TW201142818A TW099135450A TW99135450A TW201142818A TW 201142818 A TW201142818 A TW 201142818A TW 099135450 A TW099135450 A TW 099135450A TW 99135450 A TW99135450 A TW 99135450A TW 201142818 A TW201142818 A TW 201142818A
Authority
TW
Taiwan
Prior art keywords
rhythm
audio signal
determining
perceptual
beat
Prior art date
Application number
TW099135450A
Other languages
English (en)
Other versions
TWI484473B (zh
Inventor
Arijit Biswas
Danilo Hollosi
Michael Schug
Original Assignee
Dolby Int Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Int Ab filed Critical Dolby Int Ab
Publication of TW201142818A publication Critical patent/TW201142818A/zh
Application granted granted Critical
Publication of TWI484473B publication Critical patent/TWI484473B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

201142818 六、發明說明: 【發明所屬之技術領域】 本文件相關於用於估算媒體訊號之節奏的方法及系統 ’諸如音訊或組合視訊/音訊訊號。本文件特別相關於由 人類聽眾所察覺之節奏的估算,及以可變計算複雜性估算 節奏的方法及系統。 【先前技術】 可攜式手持裝置,例如PDA、智慧型手機、行動電話 、以及可攜式媒體播放器,典型地包含音訊及/或視訊呈 現能力,並已變爲重要的娛樂平台。此發展係藉由將無線 或有線傳輸能力日益普及於此種裝置中而向前推進。由於 媒體傳輸及/或儲存協定的支援,諸如HE-AAC格式,媒體 內容可持續地下載並儲存在可攜式手持裝置中,從而提供 幾乎無限的媒體內容量。 然而,低複雜度演算法對行動/手持裝置係至爲重要 的’因爲有限的計算能力及能量消耗係關鍵制約。此等制 約對新興市場中的低階可攜式裝置甚至更關鍵。有鑑於可 用在典型可攜式電子裝置上的大量媒體檔案,MIR (音樂 資訊檢索)應用係可取的工具,以群集或分類媒體檔案並 因此容許可攜式電子裝置的使用者識別適當的媒體檔案, 諸如音訊、音樂、及/或視訊檔案。用於此種MIR應用的低 複雜度計算方案係可取的,否則會危及彼等在具有有限計 算及電力資源之可攜式電子裝置上的使用性。 -5- 201142818 用於各種MIR應用,像是風格及情緒分類、音樂摘要 、音訊摘錄、使用音樂相似性的自動播放列表產生及音樂 推薦系統等,的重要音樂特性係音樂節奏。因此,用於節 奏判定之具有低計算複雜性的程序會有助於所提及之用於 行動裝置的MIR應用之分散式實作的發展。 此外,雖然常藉由在活頁樂譜或樂譜上之以BPM (每 分鐘節拍)記譜的記譜節奏將音樂節奏特徵化,此値經常 不對應於知覺節奏。例如,若要求聽眾群組(包括熟練的 音樂家)對音樂片段的節奏作評註,彼等典型地給予不同 答覆,亦即,彼等典型地以不同的度量等級打節拍。針對 部分音樂片段,已察覺節奏較不含糊且所有聽眾典型地以 相同的度量等級打節拍,但針對其他音樂片段,該節奏可 係含糊不清的且不同的聽眾識別出不同節奏。換言之,知 覺實驗已顯示察覺節奏可能與記譜節奏不同。可將一段音 樂感覺成比其記譜節奏更快或更慢,其中主導察覺節拍可 係比記譜節奏更高或更低的度量等級》有鑑於MIR應用應 將最可能由使用者察覺的節奏列入考慮爲佳,自動節奏擷 取器應預測音訊訊號的最顯著知覺節奏》 已知的節奏估算方法及系統具有各種缺點。在許多情 形中,彼等受限於特定音訊編碼解碼器,例如MP3,且不 能施用至以其他編碼解碼器編碼的音軌。此外,此種節奏 估算方法典型地僅在施用至具有簡單及清楚旋律結構的西 方流行音樂時方可正確地運作。此外,該等已知節奏估算 方法未將知覺觀點列入考慮,亦即,彼等未針對最可能爲 -6 - 201142818 聽眾察覺的節奏進行估算。最後,已知的節奏估算方案典 型地僅在未壓縮PCM域、轉換域、或壓縮域之一者中運作 〇 提供克服上文提及之已知節奏估算方案的短處之節奏 估算方法及系統係可取的。特別係提供其係編碼解碼器不 可知及/或可應用至任何種類的音樂風格之節奏估算係可 取的。此外,提供估算音訊訊號的最顯著知覺節奏之節奏 估算方案係可取的。此外,可在上文提及之任何域中應用 至音訊訊號的節奏估算方案係可取的,亦即,在未壓縮 PCM域、轉換域、以及壓縮域中。提供具有低計算複雜度 的節奏估算方案也係可取的。 該等節奏估算方案可能使用在各種應用中。因爲節奏 係音樂中的基礎語意資訊,此種節奏的可靠估算將增強其 他ΜIR應用的效能,諸如以自動內容爲基的風格分類、情 緒分類、音樂相似性、音訊摘錄、及音樂摘要。此外,針 對知覺節奏的可靠估算對音樂選擇、比較、混合、以及播 放列表產生係有用統計。顯然地,知覺節奏或感覺典型地 比記譜或實體節奏更有關於自動播放列表產生器或音樂導 航器或DJ設備。此外,針對知覺節奏的可靠估算對遊戲應 用可能係有用的。例如,可將音軌節奏用於控制有關遊戲 參數’諸如遊戲的速度,且反之亦然。此可用於使用音訊 將遊戲內容個人化並提供使用者強化體驗。另外的應用領 域可係內容爲基的音訊/視訊同步,其中音樂節拍或節奏 係使用爲時序事件之固定器的主要資訊源。 201142818 應注意在本文件中,將術語「節奏」理解爲節拍法脈 衝率。此節拍法也稱爲足節拍率,亦即,當聽眾聆聽音訊 訊號,例如音樂訊號時,打在腳上的節拍率。此與界定音 樂訊號之階層結構的音樂節拍不同。 【發明內容】 根據實施樣態,描述從音訊訊號的編碼位元串流擷取 音訊訊號之節奏資訊的方法,其中該編碼位元串流包含頻 譜頻帶複製資料。該編碼位元串流可能係HE-AAC位元串 流或mp3 PRO位元串流。該音訊訊號可能包含音樂訊號且 擷取節奏資訊可能包含估算該音樂訊號的節奏。 該方法可能包含針對該音訊訊號的時間區間判定與包 含在該編碼位元串流中之頻譜頻帶複製資料量關聯的有效 負載量之步驟。顯然地,在編碼位元串流係HE-AAC位元 串流的情形中,後續步驟可能包含判定該時間區間中之包 含在該編碼位元串流的一或多個塡充元素欄位中之資料量 ’以及基於該時間區間中之包含在該編碼位元串流的該等 —或多個塡充元素欄位中之該資料量,判定該有效負載量 〇 由於該頻譜頻帶複製資料可能使用固定標頭編碼,在 @取節奏資訊之前移除此種標頭可能係有利的。特別係該 3 &可能包含判定該時間區間中之包含在該編碼位元串流 @該等一或多個塡充元素欄位中之頻譜頻帶複製標頭資料 量的步驟。此外,藉由扣除或減去該時間區間中之包含在 -8 - 201142818 該編碼仏兀串流的該等一或多個塡充元素欄位中之該頻譜 頻帶複製標頭資料量’可能判定該時間區間中之包含在該 編碼位元串流的該等一或多個塡充元素欄位中之淨資料量 。因此’已移除該標頭位元’且該有效負載量可能基於該 淨資料量判定。應注意若該頻譜頻帶複製標頭係固定長度 的’該方法可能包含計數時間區間中之頻譜頻帶複製標頭 的數量X’並從該時間區間中之包含在該編碼位元串流的 該等一或多個塡充元素欄位中之該頻譜頻帶複製標頭資料 量扣除或減去X倍的標頭長度。 在實施例中’該有效負載量對應於該時間區間中之包 含在該編碼位元串流的該等一或多個塡充元素欄位中之該 頻譜頻帶複製資料量或淨量。替代地或或另外地,可能從 該等一或多個塡充元素欄位移除其他額外資料,以判定實 際的頻譜頻帶複製資料。 該編碼位元串流可能包含複數個訊框,各訊框對應於 預定時間長度的該音訊訊號片段。例如,訊框可能包含數 微秒的音樂訊號片段。該時間區間可能對應於由編碼位元 串流之訊框所涵蓋的時間長度。例如,A A C訊框典型地包 含1 024個頻譜値,亦即,MDCT係數。該等頻譜値係音訊 訊號之特定時間實例或時間區間的頻率表示。可將時間及 頻率之間的關係表示如下:
201142818 其中fMAX係涵蓋頻率範圍,fs係取樣頻率,且t係時間 解析度,亦即,由訊框涵蓋之音訊訊號的時間區間。針對 fs = 44100Hz的取樣步驟,此對應於AAC訊框的時間解析度 t=心m = 23 2 1 9ms。因爲在實施例中,將Η E - A A C界定爲 44100//z 「雙率系統」,其中其核心編碼器(AAC)以一半的取樣頻 率運作,可實現t= ^H = 4643 99ms的最大時間解析度。
22U5U/7Z 該方法可能包含對該音訊訊號之該編碼位元串流的後 續時間區間重複上述判定步驟,從而判定有效負載量序列 的另一步驟。若編碼位元串流包含後續訊框,則此重複步 驟可能針對該編碼位元串流的特定訊框集實施,亦即,針 對編碼位元串流的所有訊框。 在另一步驟中,該方法可能識別該有效負載量序列中 的週期性。此可能藉由識別該有效負載量序列中之尖峰或 循環模式的週期性而完成。週期性的識別可能藉由在該有 效負載量序列上實施產生功率値組及對應頻率的頻譜分析 而完成。藉由判定該功率値組中的相對最大値並藉由將該 週期性選擇爲該對應頻率,可能識別該有效負載量序列中 的週期性。在實施例中,判定絕對最大値。 該頻譜分析典型地沿著該有效負載量序列的時間軸實 施。此外,該頻譜分析典型地在該有效負載量序列之複數 個次序列上實施,從而產生複數個功率値組。例如,該等 次序列可能覆蓋特定長度的音訊訊號,例如,6秒。此外 ,該等次序列可能,例如以50%,彼此重疊。就此論之, 可能得到複數個功率値組,其中各功率値組對應於該音訊 -10- 201142818 訊號的特定片段。可能藉由平均該等複數個功率値組得到 全部音訊訊號的整體功率値組。應理解術語「平均」涵蓋 各種類型的數學操作,諸如計算平均値或判定中位値。亦 即,整體功率値組可能藉由計算該等複數個功率値組的平 均功率値組或中位功率値組而得到。在實施例中,實施頻 譜分析包含實施頻率轉換,諸如傅立葉轉換或FFT。 可能將該等功率値組提交至其他處理。在實施例中, 將該功率値組乘以與彼等對應頻率之人類知覺偏好關聯的 權重。例如,此種知覺權重可能強調與更常爲人類所偵測 之節奏對應的頻率,而將與更少爲人類所偵測之節奏對應 的頻率減弱。 該方法可能包含從該已識別週期性擷取該音訊訊號之 節奏資訊的另一步驟。此可能包含判定與該功率値組之絕 對最大値對應的頻率。此種頻率可能稱爲該音訊訊號的實 體顯著節奏。 根據另一實施樣態,描述估算音訊訊號之知覺顯著節 奏的方法。知覺顯著節奏可能係當聆聽音訊訊號,例如音 樂訊號時,最常爲使用者群組察覺的節奏。其典型地與音 訊訊號的實體顯著節奏不同,可能將該實體顯著節奏界定 爲該音訊訊號,例如音樂訊號,在實體上或聽覺上的最顯 著節奏。 該方法可能包含從該音訊訊號判定調變頻譜的步驟, 其中該調變頻譜典型地包含複數個發生頻率及對應的複數 個重要性値,其中該等重要性値指示該音訊訊號中之對應 -11 - 201142818 發生頻率的相對重要性。換言之,發生頻率指示該音訊訊 號中的特定週期性’而該等對應重要性値指示該音訊訊號 中之此種週期性的顯著性。例如,週期性可能係音訊訊號 中的暫態’例如’音樂訊號中之低音鼓的聲音,其在循環 時刻發生。若此暫態係獨特的,則與其週期性對應的重要 性値典型地將係高値。 在實施例中,該音訊訊號係以沿著時間軸的PCM樣本 序列表示。針對此種情形,判定調變頻譜的步驟可能包含 下列步驟:自該PCM樣本序列選擇複數個後繼、部分地重 疊之次序列;針對該等複數個後繼次序列,判定具有頻譜 解析度的複數個後繼功率頻譜;使用梅爾頻率轉換或任何 其他知覺激發非線性頻率轉換,壓縮該等複數個後繼功率 頻譜的該頻譜解析度;及/或在該等複數個後繼壓縮功率 頻譜上沿著該時間軸實施頻譜分析,從而產生該等複數個 重要性値及彼等之對應發生頻率。 在實施例中,該音訊訊號係以沿著時間軸的後繼次頻 帶係數區塊序列表示。在MP3、AAC、HE-AAC、杜比數位 、或杜比數位加強編碼解碼器的情形中,此種次頻帶係數 可能係,例如MDCT係數》在此種情形中,判定調變頻譜 的步驟可能包含使用梅爾頻率轉換壓縮區塊中之次頻帶係 數的數量;及/或在該後繼壓縮次頻帶係數區塊序列上沿 著該時間軸實施頻譜分析,從而產生該等複數個重要性値 及彼等之對應發生頻率。 在實施例中,該音訊訊號係以包含頻譜頻帶複製資料 -12- 201142818 及沿著時間軸之複數個後繼訊框的編碼位元串流表示。例 如,該編碼位元串流可能係HE-AAC或mp3PR〇位元串流。 在此種情形中,判定調變頻譜的步驟可能包含判定與該編 碼位元串流之訊框序列中的該頻譜頻帶複製資料量關聯之 有效負載量序列;自該有效負載量序列選擇複數個後繼、 部分地重疊之次序列;及/或在該等複數個後繼次序列上 沿著該時間軸實施頻譜分析,從而產生該等複數個重要性 値及彼等之對應發生頻率。換言之,該調變頻譜可能根據 上文略述之方法判定。 此外,判定調變頻譜的步驟可能包含增強調變頻譜的 處理。此種處理可能包含將該等複數個重要性値乘以與彼 等的對應發生頻率之人類知覺偏好關聯的權重。 該方法可能包含將實體顯著節奏判定爲與該等複數個 重要性値之最大値對應的該發生頻率之另一步驟。此最大 値可能係複數個重要性値的絕對最大値。 該方法可能包含從該調變頻譜判定該音訊訊號之節拍 度量的另一步驟。在實施例中,該節拍度量指示實體顯著 節奏與對應於該等複數個重要性値之相對高値的至少另一 發生頻率之間的關係,例如該等複數個重要性値的第二高 値。該節拍度量可能係以下各者之一 :3,例如若爲3/4拍 •’或2 ’例如若爲4/4拍。該節拍度量可能係與該音訊訊號 的實體顯著節奏及至少另一顯著節奏之間的比率關聯之因 子’亦即,對應於該等複數個重要性値之相對高値的發生 頻率。槪括地說’該節拍度量可能代表音訊訊號的複數個 -13- 201142818 實體顯著節奏之間的關係,例如,在該音訊訊號的二 顯著實體節奏之間。 在實施例中,判定節拍度量包含下列步驟:針對 個非零頻率延遲判定該調變頻譜的自相關;識別自相 最大値及對應頻率延遲;及/或基於該對應頻率延遲 實體顯著節奏,判定該節拍度量。判定節拍度量也可 含下列步驟:判定該調變頻譜及分別對應於複數個節 量之複數個合成打節拍功能之間的交叉相關;及/或 產生最大交叉相關的該節拍度量。 該方法可能包含從該調變頻譜判定知覺節奏指示 步驟。可能將第一知覺節奏指示器判定爲該等複數個 性値的平均値,藉由該等複數個重要性値之最大値正 。可能將第二知覺節奏指示器判定爲該等複數個重要 的該最大重要性値。可能將第三知覺節奏指示器判定 調變頻譜之發生中心頻率。 該方法可能包含藉由依據該節拍度量修改該實體 節奏’判定該知覺顯著節奏的步驟,其中該修改步驟 知覺節奏指示器及該實體顯著節奏之間的關係列入考 在實施例中,判定知覺顯著節奏的步驟包含判定該第 覺節奏指示器是否超出第一臨界;以及僅在超出該第 界時修改該實體顯著節奏。在實施例中,判定知覺顯 奏的步驟包含判定該第二知覺節奏指示器是否低於第 界;以及若該第二知覺節奏指示器低於該第二臨界, 該實體顯著節奏。 個最 複數 關之 及該 能包 拍度 選擇 器的 重要 規化 性値 爲該 顯著 將該 慮。 -知 一臨 著節 二臨 修改 -14- 201142818 替代地或或另外地,判定知覺顯著節奏的步驟可能包 含判定該第三知覺節奏指示器與該實體顯著節奏之間的不 匹配;以及若不匹配已判定,修改該實體顯著節奏。不匹 配可能,例如藉由判定該第三知覺節奏指示器低於第三臨 界且該實體顯著節奏高於第四臨界;及/或藉由判定該第 三知覺節奏指示器高於第五臨界且該實體顯著節奏低於第 六臨界,而判定。典型地,該第三、第四、第五、及第六 臨界之至少一者與人類知覺節奏偏好關聯。此種知覺節奏 偏好可能指示在第三知覺節奏指示器與由使用者群組察覺 之音訊訊號速度的主觀感受之間的相關。 依據該節拍度量修改實體顯著節奏的步驟可能包含將 節拍等級增加至基本節拍的次一較高節拍等級;及/或將 節拍等級降低至基本節拍的次一較低節拍等級。例如,若 基本節拍爲4M拍’增加該節拍等級可能包含以因子2增加 實體顯著節奏’例如對應於四分音符的節奏,從而產生次 一較高節奏,例如對應於八分音符的節奏。以相似方式, 降低節拍等級可能包含除以2,從而從W8基礎節奏移至W4 基礎節奏。 在貫施例中’增加或減少該節拍等級包含在3 /4拍的 情形中,將該實體顯著節奏乘以或除以3 ;及/或在4/4拍的 情形中’將該實體顯著節奏乘以或除以2。 根據另一實施樣態,描述軟體程式,其適於在處理器 上執行且g在計算裝置上實行時適於實施略述於本文件中 的該等方法步驟。 -15- 201142818 根據另一實施樣態,描述儲存媒體,其包含適於在處 理器上執行且當在計算裝置上實行時適於實施略述於本文 件中之該等方法步驟的軟體程式。 根據另一實施樣態,描述電腦程式產品,其包含當在 電腦上執行時用於實施略述於本文件中之該方法的可執行 指令。 根據另一實施樣態’描述可攜式電子裝置。該裝置可 能包含儲存單元,組態成儲存音訊訊號:音訊呈現單元, 組態成呈現該音訊訊號;使用者介面,組態成接收針對該 音訊訊號上的節拍資訊之使用者請求;以及處理器,組態 成藉由在該音訊訊號上實施略述於本文件中的該等方法步 驟判定該節奏資訊。 根據另一實施樣態,描述組態成從編碼位元串流擷取 音訊訊號之節奏資訊的系統,該編碼位元串流包含該音訊 訊號的頻譜頻帶複製資料,例如HE-A AC位元串流。該系 統可能包含用於判定與包含在該音訊訊號之時間區間的該 編碼位元串流中之頻譜頻帶複製資料量關聯的有效負載量 之機構;用於對該音訊訊號之該編碼位元串流的後續時間 區間重複該判定步驟,從而判定有效負載量序列的機構; 用於識別該有效負載量序列中之週期性的機構;及/或用 於從該已識別週期性擷取該音訊訊號之節奏資訊的機構。 根據另一實施樣態,描述組態成估算音訊訊號之知覺 顯著節奏的系統。該系統可能包含用於判定該音訊訊號之 調變頻譜的機構,其中該調變頻譜包含複數個發生頻率及 -16- 201142818 對應的複數個重要性値,其中該等重要性値指示該音訊訊 號中之該等對應發生頻率的相對重要性;用於將實體顯著 節奏判定爲與該等複數個重要性値之最大値對應的該發生 頻率之機構;用於藉由分析該調變頻譜判定該音訊訊號之 節拍度量的機構;用於從該調變頻譜判定知覺節奏指示器 的機構;及/或用於藉由依據該節拍度量修改該實體顯著 節奏’判定該知覺顯著節奏的機構,其中該修改步驟將該 知覺節奏指示器及該實體顯著節奏之間的關係列入考慮。 根據另一實施樣態,描述用於產生包含音訊訊號之元 資料的編碼位元串流之方法。該方法可能包含將該音訊訊 號編碼入有效負載資料序列,從而產生編碼位元串流的步 驟。例如’可能將該音訊訊號編碼入HE-AAC、MP3、AAC 、杜比數位 '或杜比數位加強位元串流。替代地或另外地 ’該方法可能依賴已編碼位元串流,例如,該方法可能包 含接收編碼位元串流的步驟。 該方法可能包含判定與該音訊訊號之節奏關聯的元資 料並將該元資料插入該編碼位元串流之步驟。該元資料可 目巨係代表該音訊訊號之實體顯著節奏及/或知覺顯著節奏 的資料。該元資料也可能係代表來自該音訊訊號之調變頻 譜的資料’其中該調變頻譜包含複數個發生頻率及對應的 複數個重要性値’其中該等重要性値指示該音訊訊號中之 對應發生頻率的相對重要性。應注意與該音訊訊號之節奏 關聯的元資料可能依據略述於本文件中的任何方法判定。 亦即,節奏及調變頻譜可能可能依據略述於此文件中的方 -17- 201142818 法判定。 根據另一實施樣態,描述包含元資料之音訊訊號的編 碼位元串流。該編碼位元串流可能係HE-AAC、MP3、AAC 、杜比數位、或杜比數位加強位元串流。該元資料可能包 含代表至少下列一者的資料:該音訊訊號之實體顯著節奏 及/或知覺顯著節奏;或來自該音訊訊號之調變頻譜,其 中該調變頻譜包含複數個發生頻率及對應的複數個重要性 値,其中該等重要性値指示該音訊訊號中之對應發生頻率 的相對重要性。特別係該元資料可能包含代表該節奏資料 的資料以及藉由略述於本文件中之該等方法產生的調變頻 譜資料。 根據另一實施樣態,描述組態成產生包含音訊訊號的 元資料之編碼位元串流的音訊編碼器。該編碼器可能包含 用於將該音訊訊號編碼入有效負載資料序列,從而產生編 碼位元串流的機構;用於判定與該音訊訊號之節奏關聯的 元資料之機構:以及用於將該元資料插入該編碼位元串流 的機構。以與上文略述之該方法相似的方式,該編碼器可 能依據已編碼位元串流,且該編碼器可能包含用於接收編 碼位元串流的機構。 應注意根據另一實施樣態,描述用於解碼音訊訊號之 編碼位元串流的對應方法,以及組態成解碼音訊訊號之編 碼位元串流的對應解碼器。將該方法及該解碼器組態成從 編碼位元串流擷取個別元資料,該元資料顯然與節奏資訊 關聯。 -18- 201142818 應注意可能任意地組合描述於此文件中的該等實施例 及實施樣態。應特別注意槪述於系統之本文中的該等實施 樣態及特性也可應用在對應方法的本文中,且反之亦然。 此外,應注意本文件之揭示也涵蓋藉由該等相關申請專利 範圍中的反向參考所明顯給定之申請專利範圍組合之外的 其他申請專利範圍組合,亦即,申請專利範圍及彼等之技 術特性可以任何順序及任何形式組合。 【實施方式】 於下文描述的該等實施例僅用於說明用於節奏估算之 方法及系統的原理。已理解本文所描述之配置及細節的修 改及變化對熟悉本發明之人士將係明顯的。因此,其意圖 僅由待審專利之申請專利範圍的範圍所限制而不爲經由本 文實施例之描述及解釋所代表的特定細節所限制。 如在簡介段所指示的,已知的節奏估算方案受限於特 定訊號表示域,例如P C Μ域、轉換域、或壓縮域。特別係 沒有現存之用於節奏估算的解決方案,其中特性係直接從 壓縮HE·AAC位元串流計算,無須實施熵解碼。此外,現 存系統局限於主流西方流行音樂。 此外’現存方案未將人類聽眾所察覺的節奏列入考慮 ’且結果有八度誤差或雙倍/減半時間混淆。該混淆可能 由音樂中的不同樂器以具有多個彼此整體相關之週期性的 旋律演奏而引起。如將於下文所略述的,發明人洞悉節奏 的察覺不僅取決於重複率或週期性,也受其他知覺因子影 • 19- 201142818 響,使得藉由使用額外的知覺特性克服此等混淆。基於此 等額外知覺特性,已擷取節奏的校正係以知覺激發方式實 施,亦即,可降低或移除上述節奏混淆。 如已強調的,當論及「節奏」時,必須區分記譜節奏 、實體量測節奏、以及知覺節奏。實體量測節奏係從取樣 音訊訊號上的實際量測得到,而知覺節奏具有主觀性質且 典型地係從知覺聆聽實驗判定。此外,節奏係高內容相關 音樂特性,且有時非常難以自動偵測,因爲在特定音訊或 音軌中,帶有部分音樂片段的節奏並不清楚》同樣地,聽 眾的音樂經驗及彼等的焦點對節奏估算結果有顯著影響。 當比較記譜、實體量測、以及知覺節奏時,此可能在所使 用的節奏度量內導致不同。仍可能將實體及知覺節奏估算 方法組合使用,以彼此校正。此可看到當音訊訊號上的, 例如,對應於的特定每分鐘節拍(BPM)値及其倍數之全 及倍全音符已藉由實體量測偵測到時,仍將知覺節奏列爲 慢節奏。因此,假設該實體量測係可靠的,正確節奏係已 偵測之較慢者。換言之,聚焦在記譜節奏之估算的估算方 案將提供對應於全及倍全音符之含混不清的估算結果。若 與知覺節奏估算方法組合,可判定正確(知覺)節奏。 在人類節奏知覺上的大規模實驗顯示大眾傾向於察覺 於具有在120BMP之尖峰的100及140BMP之範圍中的音樂 節奏。此可用圖1所示之虛共振曲線1 0 1展示。可將此模式 用於預測大資料組的節奏散佈。然而,當比較單一音樂檔 案或軌道之打節拍實驗的結果(見參考符號102及103)與 -20- 201142818 共振曲線1 〇 1時,可看出獨立音軌的感知節奏1 0 2、1 〇 3不 必然配合模式1 〇 1。可看出,實驗對象可能以不同度量等 級1 02、1 03打節拍,彼等有時導致與模式1 0 1完全不同的 曲線。此特別對不同風格類型及不同旋律類型爲真。此種 度量含糊性導致節奏判定的高度混淆,且係非知覺驅動節 奏估算演算法之整體「不滿意」效能的可能解釋。 爲克服此混淆,建議新的知覺激發節奏校正方案,其 中基於許多聲學線索的擷取,亦即,音樂參數或特性,將 權重指定至不同的度量等級。可將此等權重用於校正已擷 取之實體計算節奏。特別係可能將此種校正用於判定知覺 顯著節奏。 在下文中’描述用於從PCM域及轉換域擷取節奏資訊 的方法。可能將調變頻譜分析用於此目的。通常,可能將 調變頻譜分析用於採集音樂特性在時間上的重複性。其可 用於估算音軌的長期統計及/或可用於定量節奏估算。基 於梅爾功率頻譜的調變頻譜可能針對未壓縮PCM (脈衝碼 調變)域中的音軌及/或轉換域中的音軌,例如,HE_AAC (效肯b先進曰訊編碼)轉換域,判定。 針對表示在PCM域中的訊號,該調變頻譜直接從該音 訊訊號的PCM樣本判定。另—方面,針對表示在轉換域中 的音訊訊號,例如,HE-AAC轉換域,可能將該訊號的次 頻帶係數用於該調變頻譜的判定。針對HE-AAC轉換域, 該調變頻譜可能在解碼時或在編碼時在已直接從HE-AAC 解碼器取得的特定數量(例如,〗〇 2 4個)之M D C T (修改 -21 - 201142818 離散餘弦轉換)係數的逐訊框基礎上判定。 當在該ΗΕ-AAC轉換域中運作時,將短及長區塊的存 在列入考慮可能係有利的。當因爲短區塊的較低頻率解析 度而可能針對MFCC (梅爾倒頻譜係數)的計算或針對在 非線性頻率尺度上計算之倒頻譜的計算將彼等跳過或拋棄 時’應在判定音訊訊號的節奏時將短區塊列入考慮。此特 別相關於包含許多尖銳節首音,且因此包含用於高品質表 不之大量短區塊的音訊及語音訊號。 當單一訊框包括八個短區塊時,提議對其實施MDCT 係數至長區塊的交錯。典型地,可能區分二種區塊,長及 短區塊。在實施例中,長區塊等於訊框尺寸(亦即,對應 於特定時間解析度的1 024個頻譜係數)。短區塊包含128 個頻譜値,以針對音訊訊號特徵在時間上的適當表示實現 八倍高的時間解析度(1 024/ 1 2 8 ),並避免預回聲假音。 因此,訊框係在以相同因子八降低頻率解析度的成本上藉 由八個短區塊形成。此方案通常稱爲「A AC區塊切換方案 J 0 此顯示於圖2中,其中將8個短區塊201至208的MDCT 係數交錯,使得8個短區塊的個別係數重組,亦即,使得8 個區塊201至208的第一MDCT係數重組,其後爲8個區塊 201至208的第二MDCT係數,依此類推。藉由執行此,將 對應的MDCT係數,亦即,對應於相同頻率的MDCT係數, 重組在一起。可能將短區塊在訊框內的交錯理解爲「人工 地」增加訊框內之頻率解析度的操作。應注意可能預期增 -22- 201142818 加頻率解析度的其他機構。 在該說明範例中,針對8個短區塊套件得到包含1 024 個MDCT係數的區塊210。由於長區塊也包含1024個MDCT 係數,針對該音訊訊號得到包含1 024個MDCT係數的完整 區塊序列。亦即,藉由從八個後續短區塊201至208形成長 區塊2 1 0,得到長區塊序列。 基於交錯MDCT係數的區塊210 (在短區塊的情形中) 並基於用於長區塊之MDCT係數的區塊,針對MDCT係數的 每個區塊計算功率頻譜。將模範功率頻譜描繪於圖6a中。 應注意人類聽覺知覺通常係響度及頻率的函數(典型 係非線性的),然而不係所有頻率均以相等響度察覺。另 —方面,MDCT係數係以針對振幅/能量及頻率二者的線性 尺度表示,其與對該等二情形係非線性的人類聽覺系統相 反。爲得到更接近人類知覺的訊號表示,可能使用從線性 至非線性尺度的轉換。在實施例中,使用以dB爲單位之在 對數尺度上針對MDCT係數的功率頻譜轉換,以將人類響 度知覺模型化。可能將此種功率頻譜轉換計算如下: MDCTdB [i] = 10 l〇g1〇 (MDCT[i)2)。 相似地’功率譜圖或功率頻譜可能針對未壓縮P C M域 中的音訊訊號計算。針對此目的,將沿著時間之特定長度 的STFT (短期傅立葉轉換)施用至該音訊訊號。隨後,實 施功率轉換。爲將人類響度知覺模型化,可能在非線性尺 -23- 201142818 度上實施轉換,例如,上述在對數尺度上的轉換。可能將 S TFT的尺寸選擇成使得所產生的時間解析度等於已轉換 HE-AAC訊框的時間解析度。然而,也可能將STFT的尺寸 設定成更大或更小値,取決於所期望的精確度及計算複雜 度。 在次一步驟中,可能施用具有梅爾濾波器庫的濾波, 以將人類頻率靈敏度的非線性模型化。針對此目的,施用 如圖3a所示之非線性頻率尺度(梅爾尺度)。尺度300對 低頻(<500Hz )係近似線性的,而對高頻係對數的。線性 頻率尺度的參考點301係界定爲1000梅爾的1000Hz音色。 將具有二倍高之察覺間距的音色界定爲2000梅爾,並將具 有一半高之察覺間距的音色界定爲5 00梅爾,依此類推。 在數學術語中,將梅爾尺度給定爲: mm = 1127.010481n(l + fHl /700) 其中fHz係以Hz爲單位的頻率且mMel係以Mel爲單位的 頻率。可能完成梅爾尺度轉換,以將人類之非線性頻率知 覺模型化,且此外,可能將權重指定給該等頻率,以將人 類之非線性頻率靈敏度模型化。此可能藉由在梅爾頻率尺 度(或任何其他非線性知覺激發頻率尺度)上使用5 0%的 重疊三角濾波器而完成,其中濾波器的濾波器權重係該濾 波器之帶寬的倒數(非線性靈敏度)。此顯示於說明模範 梅爾尺度濾波器度的圖3b中。可看出濾波器302比濾波器 -24- 201142818 3 03具有更大的帶寬。因此,濾波器3〇2的濾波器權重小於 濾波器3 03之濾波器權重。 藉由執行此’僅使用少數係數得到代表可聽頻率範圍 的梅爾功率頻譜。將模範梅爾功率頻譜顯示於圖61)中。梅 爾尺度濾波的結果係將該功率頻譜平滑化,較高頻率中的 具體細節喪失。在模範情形中,梅爾功率頻譜的頻率軸可 能僅以40個係數表示’取代HE-AAC轉換域之每訊框1024 個MDCT係數以及非壓縮PC Μ域之可能更高數量的頻譜係 數。 爲將沿著頻率之資料數更行減少至有意義的最小量, 可能引入將較高梅爾頻帶映射至單一係數的縮展函數(CP )。其後的基本原理係多數資訊及訊號功率典型地位於較 低頻率區域中。將實驗估算的縮展函數顯示於表1中,並 將對應曲線400顯示在圖4中。在模範情形中’此縮展函數 將梅爾功率係數的數量降低至12。將模範縮展梅爾功率頻 譜顯示於圖6c中。 25- 201142818 縮展梅爾頻帶索引 梅爾頻帶索引 (((…)之和) 1 i 2 2 3 3-4 4 5-6 5 7-8 6 9-10 7 11-12 8 13-14 9 15-18 10 19-23 11 24-29 12 30-40 表1 應注意可能將該縮展函數加權,以強調不同頻率範圍 。在實施例中,該加權可能確保該縮展頻率頻帶反映包含 在特定縮展頻率頻帶中之梅爾頻率頻帶的平均功率。此與 未加權縮展函數不同,其中該縮展頻率頻帶反映包含在特 定縮展頻率頻帶中之梅爾頻率頻帶的總功率。例如,該加 權可能將由縮展頻率頻帶所覆蓋之梅爾頻率頻帶的數量列 入考慮。在實施例中,該加權可能反比例於包含在特定縮 展頻率頻帶中之梅爾頻率頻帶的數量。 爲判定該調變頻譜,可能將縮展梅爾功率頻譜、或任 何其他先前判定的功率頻譜分段爲代表預定長度之音訊訊 號長度的區塊。此外,界定該等區塊的部分重疊可能係有 利的。在實施例中,選擇與該音訊訊號的六秒長度對應之 -26- 201142818 在時間軸上具有5 0 %重疊的區塊。可能將該等區塊的長度 選擇爲涵蓋該音訊訊號之長時間特徵的能力及計算複雜度 之間的取捨。將從縮展梅爾功率頻譜判定的模範調變頻譜 顯示在圖6d中。作爲旁注,應提及判定調變頻譜的方案並 未局限於梅爾濾波頻譜資料,也可用於得到基本上任何音 樂特性或頻譜表示的長期統計。 針對此種分段或區塊各者,沿著時間及頻率軸計算 FFT,以得到該響度的振幅調變頻率。典型地,將在ο-ΐ 〇 Η z 之範 圍中的 調變頻 率視爲 在節奏 估算的 情境中 ,而低 於此範圍的調變頻率典型係不相關的。可能將該功率頻譜 的尖峰及對應之FFT頻率箱判定爲該FFT分析的結果,其 針對功率頻譜資料沿著時間或訊框軸判定。此種尖峰的頻 率或頻率箱對應於音訊或音樂軌道之功率密集事件的頻率 ,且因此係該音訊或音樂軌道之節奏的指示。 爲改善該縮展梅爾功率頻譜之相關尖峰的判定,該資 料可能受其他處理,諸如知覺加權或模糊。有鑑於人類節 奏偏好隨調變頻率改變,且非常高及非常低的調變終端不 太可能發生,可能引入知覺節奏加權函數以強調具有高發 生可能性的此等節奏並抑制不太可能發生的此等節奏。將 實驗估算加權函數500顯示於圖5中。可能將此加權函數 5 〇〇沿著該音訊訊號之各分段或區塊的調變頻率軸施用至 每個縮展梅爾功率頻譜頻帶。亦即,可能將各縮展梅爾頻 帶的功率値乘以加權函數500。將模範加權調變頻譜顯示 在圖6e中。應注意若已知該音樂的風格,可適用該加權濾 -27- 201142818 波器或加權函數。例如,若已知道電子音樂受分析,該加 權函數可具有約2Hz的尖峰並受限在相當窄之範圍的外側 。換言之,該等加權函數可能取決於音樂風格。 爲另外強調訊號變化及將該調變頻譜的旋律內容發音 ,可能實施沿著調變頻率軸的絕對差計算。結果,可能增 強該調變頻譜中的尖峰線。將模範差調變頻譜顯示在圖6f 中〇 此外,可能實施沿著梅爾頻率頻帶或梅爾頻率軸及調 變頻率軸的知覺模糊。典型地,此步驟以將相鄰調變頻率 線組合成更寬之振幅相依區域的此種方式將該資料平滑化 。另外,該模糊可能減少該資料中的雜訊模式的影響,且 因此導致更好的視覺解釋性。此外,該模糊可能使調變頻 譜適應從個別音樂項打節拍實驗得到的打節拍統計圖形狀 (如圖1之1 02、1 03所示)。將模範模糊調變頻譜顯示在 圖6吕中》 最後,可能平均該音訊訊號之分段或區塊套件的聯合 頻率表示,以得到非常緊密、與音訊檔案長度無關之梅爾 頻率調變頻譜。如已於上文略述的,術語「平均」可能係 指包括平均値的計算及中位値之判定的不同數學操作。將 模範平均調變頻譜顯示在圖6h中。 應注意此種音軌調變頻譜表示的優點係能在多個度量 等級指示節奏。此外,該調變頻譜能用與用於判定已察覺 節奏之打節拍實驗相容的格式指示該多個度量等級的相對 實體顯著性。換言之,此表示良好地與圖1之實驗「打節 -28- 201142818 拍」表示102、103匹配,且因此其在估算音軌之節奏上可 能係知覺激發決定的基礎。 如已於上文提及的,對應於已處理縮展梅爾功率頻譜 之尖峰的頻率提供已分析音訊訊號之節奏的指示。此外, 應注意可能將該調變頻譜表示用於比較歌曲間旋律相似性 。此外,可能針對音訊摘錄或分段應用,將用於個別分段 或區塊的調變頻譜表示用於比較歌曲間相似性。 大致上,已描述如何從轉換域中的音訊訊號得到節奏 資訊的方法,例如,HE-AAC轉換域、及PCM域。然而, 直接從壓縮域擷取音訊訊號的節奏資訊可能係可取的。在 下文中,描述如何在表示於壓縮或元件串流域中的音訊訊 號上判定節奏估算之方法。特別聚焦於HE-AAC編碼音訊 訊號。 HE-AAC編碼使用高頻重構(HFR)或頻譜頻帶複製 (SBR )技術。該SBR編碼處理包含暫態偵測級、用於正 確表示的適應T/F (時間/頻率)網格選擇、包絡估算級、 以及其他方法,以將該訊號的低頻及高頻部分間之訊號特 徵中的不匹配校正。 已觀察到從該包絡之參數表示藉由SBR編碼器起源產 生的大部分有效負載。取決於訊號特徵,該編碼器判定適 合該音訊分段之正確表示及適合避免預回聲假音的時間-頻率解析度。典型地,針對時間中的準靜態分段選擇較高 的頻率解析度,而針對動態樂段選擇較高的時間解析度。 因此,由於長時間分段可比短時間分段更有效率地編 -29- 201142818 碼,時間-頻率解析度的選擇對SB R位元率有顯著影響。同 時,針對快速改變內容,亦即,典型地針對具有較高節奏 的音訊內容,包絡的數量且因此待針對該音訊訊號之正確 表示而傳輸的包絡係數數量比慢速改變內容更高。除了所 選擇之時間解析度的影響外,此效果另外影響SBR資料的 尺寸。事實上,已觀察到SBR位元率對基本音訊訊號之節 奏變化的靈敏度比使用在mp3編碼解碼器之情境中的霍夫 曼碼長度之尺寸的靈敏度更高。因此,已將SB R資料之位 元率中的變化識別爲有價値的資訊,其可用於直接從編碼 位元串流判定旋律成分。 圖7顯示包含fill_element欄位702的模範AAC原始資料 區塊701。將此位元串流中的^11_61611^1^欄位702用於儲存 額外的參數側資訊,諸如SBR資料。當除了 SBR外,使用 參數立體聲(PS )(亦即,在HE-AAC v2中)時, fill_element欄位702也包含PS側資訊。下列解釋係基於單 聲情形。然而,應注意所描述的方法也施用至表達任何數 量之頻道的位元串流,例如,立體聲情形。 fill_element欄位702的尺寸隨傳輸之參數側資訊量改 變。因此,可能將fill_element欄位702的尺寸用於直接從 壓縮HE-AAC串流擷取節奏資訊。如圖7所示,fill_element 欄位702包含SBR標頭703及SBR有效負載資料704。 SB R標頭703對個別音訊檔案係固定尺寸的,並重複傳 輸爲fill_element欄位702的一部分。SBR標頭703的此再傳 輸在特定頻率的有效負載資料中導致重複尖峰,且因此其 -30- 201142818 在1 /x Hz的調變頻率域中導致具有特定振幅的尖峰(χ係 SBR標頭703之傳輸的重複率)。然而’此重複傳輸之SBR 標頭703不包含任何旋律資訊且因此應移除。 此可在位元串流剖析之後直接藉由判定該長度及SBr 標頭7 〇 3的發生時間區間而完成。由於S B R標頭7 0 3的週期 性’此判定步驟典型地僅必須完成一次。若長度及發生資 訊係有效的’總SBR資料705可藉由從SBR標頭703發生時 ,在SBR標頭703傳輸時,的SBR資料705減去SBR標頭703 的長度而輕易地校正,亦即。此產生可用於節奏判定之 SBR有效負載704的尺寸。應注意當fill_eiement欄位的尺 寸僅以固定消耗而與SBR有效負載704的尺寸不同時,可能 以相似方式將藉由減去SBR標頭703之長度而校正的 fill_element欄位702之尺寸用於節奏判定。 將SBR有效負載資料704尺寸或已校正之fill_element 欄位702尺寸套件的範例提供在圖8a中。χ-軸顯示訊框數 量,而y-軸針對對應訊框指示SBR有效負載資料704的尺寸 或已校正之fill_element欄位702的尺寸。可看出SBR有效 負載資料704的尺寸在各訊框間不同》在下文中,僅參考 至SB R有效負載資料704尺寸。節奏資訊可能藉由識別SBR 有效負載資料704之尺寸中的週期性而從SBR有效負載資料 704之尺寸序列801擷取。特別係可能識別SBR有效負載資 料7 〇4之尺寸中的尖峰或重複模式之週期性。此可藉由, 例如,將FFT施用在SBR有效負載資料704之尺寸的重疊次 序列上而完成。該等次序列可能對應於特定訊號長度,例 •31 - 201142818 如6秒。後續次序列的重疊可能係50%的重疊。隨後,該等 次序列的FFT係數可能在完整音軌長度上平均。此產生該 完整音軌的平均FFT係數,可能將其表示爲圖8b所示的調 變頻譜81 1。應注意可能預期用於識別SBR有效負載資料 7 04的尺寸中之週期性的其他方法。 調變頻譜811中的尖峰812、813、814指示重複,亦即 ,具有特定發生頻率的旋律模式。也可能將發生頻率稱爲 調變頻率。應注意最大可能調變頻率受基本核心音訊編碼 解碼器的時間解析度所限制。因爲將HE-AAC界定爲具有 以一半取樣頻率運作之A AC核心編碼解碼器的雙率系統, 針對6秒長度序列(128個訊框)及取樣頻率Fs = 441〇〇Hz得 到約21.7 4Hz/2〜1 1 Hz的最大可能調變頻率。此最大可能調 變頻率與約660BPM對應,其涵蓋幾乎每段音樂的節奏。 爲了方便而仍確保正確的處理,可能將最大調變頻率限制 在10Hz,其對應於600BPM。 圖8b的調變頻譜可能用與略述於從音訊訊號之轉換域 或P CM域表示判定的調變頻譜之情境中的方式相似之$ $ 另行增強。例如,可能將使用圖5所示之加權曲線5 〇〇的知 覺加權施用至SBR有效負載資料調變頻譜811,以將人 奏偏好模型化。將所產生的知覺加權SBR有效負載資料調 變頻譜821顯示於圖8c中》可看出非常低及非常高的節奏 受抑制。特別係可看出相較於初始尖峰812及814,已分別 將低頻尖峰822及高頻尖峰824減少。另一方面,仍維持中 頻尖峰8 23。 -32- 201142818 藉由從SBR有效負載資料調變頻譜判定該調變頻譜的 最大値及其對應調變頻率’可得到最顯著實體節奏。在描 繪於圖8 c的此情形中,結果係1 7 8 6 5 9 B P Μ。然而,在本範 例中’此最顯著實體節奏未對應於最顯著知覺節奏,其約 爲8 9ΒΡΜ。結果’有必須受校正的雙重混淆,亦即,在度 量等級中的混淆。針對此目的,將於下文描述知覺節奏校 正方案。 應注意基於SBR有效負載資料之用於節奏估算的該提 議方案與該音樂輸入訊號的位元率無關。當改變HE-AAC 編碼位元串流的位元率時,該編碼器根據此特定位元率之 最高可實現輸出品質自動地設定SBR開始及停止頻率,亦 即,SBR交越頻率改變。儘管如此,該SBR有效負載仍包 含相關於該音軌中之重複暫態成份的資訊。此可在圖8d中 看出,其中SBR有效負載調變頻譜係針對不同位元率顯示 (1 6kbit/s至64kbit/s )。可看出該音訊訊號的該等重複部 分(亦即,調變頻譜中的尖峰,諸如,尖峰8 3 3 )在所有 位元率佔支配地位。也可能觀察到變動存在於不同調變頻 譜中,因爲該編碼器在降低位元率時試圖節省SBR部分中 的位元。 爲總結上文,參考至圖9。考慮三種不同的音訊訊號 表示。在壓縮域中,音訊訊號係藉由其之編碼位元串流表 示,亦即,藉由HE-AAC位元串流901。在轉換域中,將音 訊訊號表示爲次頻帶或轉換係數,例如,如MDCT係數902 。在PCM域中,藉由PCM樣本903表示音訊訊號。在以上 -33- 201142818 描述中’已略述在該等三種訊號域之任一者中判定調變頻 譜的方法。已描述基於HE-AAC位元串流901之SBR有效負 載判定調變頻譜911的方法。此外,已描述基於音訊訊號 的轉換表示902,例如,基於MDCT係數,判定調變頻譜 912的方法。此外,已描述基於音訊訊號之PCM表示903判 定調變頻譜913的方法》 可能將任何已估算調變頻譜911、912、913使用爲實 體節奏估算的基礎。針對此目的,可能實施各種增強處理 步驟’例如,使用加權曲線500的知覺加權、知覺模糊、 及/或絕對差計算。最終,判定(已增強)調變頻譜9 1 1、 912、913之最大値以及對應的調變頻率。調變頻譜911、 912、913的絕對最大値係針對已分析音訊訊號之最顯著實 體節奏的估算。其他最大値典型地對應於此最顯著實體節 奏的其他度量等級。 圖1〇提供使用上文提及的方法得到之調變頻譜911、 912、913的比較。可看出對應於個別調變頻譜之絕對最大 値的該等頻率係非常相似的。在左側,已分析爵士樂的音 軌片段。調變頻譜911、912、913已分別從該音訊訊號的 HE-AAC表示、MDCT表示、及PCM表示判定。可看出所有 三個調變頻譜提供分別對應於調變頻譜911、912、913之 最大尖峰的相似調變頻率1001、1002、1003。對具有調變 頻率1011、1012、1013之古典音樂片段(中間)及具有調 變頻率1021、1 022、1 023的重金屬搖滾樂片段(右側)得 到相似結果。 -34- 201142818 就此而言,已描述容許藉由從不同 之調變頻譜估算實體顯著節奏的方法及 法可應用至各種類型的音樂且未僅限於 外,該等不同方法可應用至不同的訊號 針對個別訊號表示以低計算複雜度實施 如可在圖6、8、及10中看出的,該 有通常對應於該音訊訊號之不同節奏度 峰。此可在,例如圖8 b中看出,其中三 以及8 1 4具有顯著強度並因此可能係該」 奏的候選者。選擇最大尖峰8 1 3提供最 上文所略述的,此最顯著實體節奏可能 奏對應。爲以自動方式估算此最顯著知 略述知覺節奏校正方案。 在實施例中,知覺節奏校正方案包 最顯著實體節奏。在圖8b之調變頻譜8] 定尖峰813及對應的調變頻率。此外,] 擷取其他參數,以協助節奏校正。 MMSCentr〇u (梅爾調變頻譜),其係根 頻譜的中心。可能將該中心參數MMSCei 號之速·度的指示器。 MMSCemnid = d' 广' —- 訊號表示形式導出 對應系統》此等方 西方流行音樂。此 表示形式,並可能 0 調變頻譜典型地具 量等級的複數個尖 個尖峰8 1 2、8 1 3、 音訊訊號之基本節 顆著實體節奏。如 不與最顯著知覺節 覺節奏,在下文中 含從調變頻譜判定 1 1的情形中,將判 可能從該調變頻譜 第一參數可能係 據方程式1之調變 Mrcid使用爲音訊訊 ⑴ -35 201142818 在上述方程式中’ D係調變頻率箱的數量且d=1,...,D 標識個別的調變頻率箱。N係沿著梅爾頻率軸之頻率箱的 總數,且n= 1,…,N標識在梅爾頻率軸上的個別頻率箱。 MMS(n,d)指示該音訊訊號之特定分段的調變頻譜,而 MMS(n,d)指示將整體音訊訊號特徵化之總合調變頻譜。 用於協助節奏校正的第二參數可能係 MMSbeatstrencth ’其係根據方程式2之調變頻譜的最大値 。典型地’此値對電子音樂爲高値且對古典音樂爲小値。 / N _ \ MMSBEATSTREN0TH = maxi ^ MMSjn, d) (2) 另一參數係mmsC0NFUS10N,其係調變頻譜根據方程式 3正規化爲1之後的平均値。若此後一參數爲低値,則此調 變頻譜上之強尖峰的指示(例如,如圖6 )。若此參數爲 高値,該調變頻譜廣泛地分佈而無顯著尖峰且有高度混淆
)CONFUSION
ND N DΣΣ / _ \ MMS(n,d) (MMS (n, d)) (3) 除了此等參數外,亦即,調變頻譜中心或引力 MMScentroid、調變節拍強度MMSBEATSTRENGTH、以及調變 節奏混淆MMSconfusion,可能導出可用於MIR應用之其他 在知覺上有意義的參數。 -36- 201142818 應注意此文件中的該等方程式已針對梅爾頻率調變頻 譜公式化,亦即,針對從表示在P C Μ域及在轉換域中之音 訊訊號判定的調變頻譜9 1 2、9 1 3。在使用從表示在壓縮域 中的音訊訊號判定之調變頻譜9 1 1的情形中,該等項 Ν Y^MMS^d) Μ M S (η,d)及 必須以提供在此文件之方程式 中的該項MSSBR(d)(基於SBR有效負載資料的調變頻譜) 置換。 基於上述參數的選擇,可能提供知覺節奏校正方案。 可能將此知覺節奏校正方案用於判定人類會從得自該調變 表示之最顯著實體節奏察覺的最顯著知覺節奏。該方法使 用得自調變頻譜的知覺激發參數,亦即,針對由調變頻譜 中心MMSCentr<)id給定之音樂速度、由調變頻譜 MMSbeatstrength中的最大値給定之節拍強度、以及由正 規化後的調變表示之平均値所給定的調變混淆因子 MMSc〇NFUSI〇N的量測。該方法可能包含下列步驟之任何一 者: 1 ·判定該音軌的基本度量,例如,4/4拍或3/4拍。 2_根據參數MMSBEatstrength折疊至關注範圍的節奏 3·根據知覺速度量測MMSCentreid的節奏校正 或者,該調變混淆因子mmsC0NFUS10N的判定可能提供 知覺節奏估算之可靠性的量測。 在第一步驟中’可能判定音軌的基本度量,以判定實 體量測節奏應藉由其而受校正的可能因子。例如,具有 3/4拍的音軌之調變頻譜中的尖峰係以基底旋律的三倍頻 -37- 201142818 率發生。因此,該節奏校正應在三的基礎上調整。在具有 4/4拍之音軌的情形中,該節奏校正應以因子2調整。此顯 示於圖11中,其中顯示具有3/4拍之爵士音軌的SBR有效負 載調變頻譜(圖11a)及在4/4拍的金屬音軌(圖lib)。 該節奏度量可能從SBR有效負載調變頻譜中的尖峰分佈判 定。在4/4拍的情形中,顯著尖峰在二的基礎上爲彼此的 倍數,然而對於3/4拍,顯著尖峰係在3之基礎上的倍數。 爲克服節奏估算誤差的此潛在來源,可能施用交叉相 關法。在實施例中,該調變頻譜的自相關可針對不同頻率 延遲Ad判定。可能該自相關給定爲
Corr(Ad) =上H MMS(n, d). MMS{n, d + Ad) (4) DN _=i 產生最大相關C〇rr(Ad)的頻率延遲Ad提供基本度量的 指示》更精確地說,若dmax係最顯著實體調變頻率,則此
Kax+Δ^) 表示式 ( 提供基本度量的指示。 在實施例中,可能將該平均調變頻譜內之該最顯著實 體節奏的合成、知覺修改倍數之間的交叉相關用於判定該 基本度量。將針對雙倍(方程式5)及三倍混淆(方程式6 )的倍數組計算如下=
Multiples double
(5)
Multiples trip,e
,1,3,6 ⑹ -38 201142818 在次一步驟中,實施不同度量之打節拍函數的合成, 其中該等打節拍函數對調變頻譜表示係等長度的,亦即, 彼等對調變頻譜軸係等長度的(方程式7): 办祕W身K若心:广-/—, 1…Z)⑺ 該合成打節拍函數SynthTabd<)ubie,Triple(ci)代表個人以 不同之基本節奏度量等級打節拍的模式。亦即,假設3/4 拍’節奏可能以其節拍的1 /6、其節拍的1 /3、其節拍、其 節拍的3倍、及其節拍的6倍打節拍。以相似方式,若假設 4/4節拍,該節奏可能以其節拍的1/4、其節拍的1/2、其節 拍、其節拍的二倍、及其節拍之4倍打節拍。 若考慮該等調變頻譜的知覺修改版本,可能也必須修 改該等合成打節拍函數,以提供共同表示。若忽略知覺節 奏擷取方案中的知覺模糊,可跳過此步驟。否則,該等合 成打節拍函數應受如方程式8所略述的知覺模糊,以使該 等合成打節拍函數適應人類節奏打節拍統計圖的形狀。
SynthTabdmMeMple{^} = SynthTabdmble,riple{^* B,\<d<,D (8) 其中B係模糊核心且*係卷積操作。模糊核心B係固定 長度的向量,其具有打節拍統計圖的尖峰形狀,例如,三 角形或窄高斯脈衝的形狀。模糊核心B的此形狀反映打節 -39- 201142818 拍統計圖之尖峰的形狀爲佳,例如,圖1的1 〇 2、1 0 3。模 糊核心Β的寬度’亦即,用於核心Β的係數數量,且因此由 核心Β所涵蓋的調變頻率範圍典型地與橫跨完整調變頻率 範圍D相同。在實施例中,模糊核心Β係具有最大振幅一之 窄高斯類脈衝。模糊核心Β可能涵蓋0.265 Hz的調變頻率範 圍(-16BPM ) ’亦即,其可能具有從該脈衝中心算起之+-8BPM的寬度。 一旦已實施該等合成打節拍函數的知覺修改(若有需 要)時,在延遲零的交叉相關係在該等打節拍函數及原始 調變頻譜之間計算。此顯示於方程式9中: D f N _ 、 double triple =Σ 卜加,奶6祕,_(4 (9) rfel \ / 最終,藉由比較得自用於「雙倍」度量的合成打節拍 函數及用於「三倍」度量之合成打節拍函數的相關結果, 判定校正因子。若使用用於雙倍混淆之打節拍函數得到的 相關等於或大於使用用於三倍混淆之打節拍函數得到的相 關,將該校正因子設定爲2,且反之亦然(方程式10): (10) 應注意在通用項中,校正因子係在調變頻譜上使用相 關技術判定。該校正因子與音樂訊號的基本度量關聯,亦 即,4/4、3/4或其他節拍。該基本節拍度量可能藉由將相 -40- 201142818 關技術施用在該音樂訊號的調變頻譜上而判定,其之一部 分已於上文略述。 使用該校正因子,可能實施實際知覺節奏校正。在實 施例中,此係以逐步方式完成。將該模範實施例的虛擬碼 提供在表2中。 第一步驟:根據節拍強度及節奏的節奏校正 if MMSBEATSTRENGTH > treshhold and Tempo < 270 keep Tempo else if Tempo >145 divide Tempo by Correction if Tempo > 220 divide Tempo by Correction end elseif Tempo < 80 multiply Tempo by Correction else keep Tempo end -41 - 201142818 第二步驟:針對節奏主題考慮速度量測 if MMSCemroid < AS {lower) and Tempo > 80 divide Tempo by Correction elseif MMSCentr〇jd is in the range of AS and Tempo >115 divide Tempo by Correction elseif MMSCen(roid is in the range of AF and Tempo < 70 multiply Tempo by Correction elseif MMSCen,roid > AF(upper) and Tempo <110 multiply Tempo by Correction else keep Tempo end end 表2 在第一步驟中*藉由使用MMSbeatstrength參數及先 前計算的校正因子將該最顯著實體節奏,在表2中稱爲「 卽奏」,映射至關注範圍。若MMSbeatstrength參數値低 於特定臨界(其取決於訊號域、音訊編碼解碼器、位元率 、以及取樣頻率),且若實體判定節奏,亦即,參數「節 奏」,相對高或相對低,使用已判定校正因子或節拍度量 •校正最顯著實體節奏。 在第二步驟中,該節奏另外根據該音樂速度校正,亦 即,根據調變頻譜中心MMSCentr()id。用於該校正的個別臨 界可能從知覺實驗判定,其中要求使用者將不同風格及節 奏的音樂內容分等,例如,分等爲四種類別:慢、略慢、 -42- 201142818 略快、以及快。此外,針對相同音訊測試項計算該調變頻 譜中心MMSCentrc)id,並對主觀分類映射。將模範分等的結 果顯示在圖1 2中。X-軸顯示四種主觀分類:慢、略慢、略 快、以及快。y-軸顯示所計算的引力’亦即’調變頻譜中 心。描繪使用壓縮域上的調變頻譜9 1 1 (圖1 2 a )、使用轉 換域上的調變頻譜912 (圖12b )、以及使用PCM域上的調 變頻譜913 (圖12c)的實驗結果。針對各分類’顯示該等 分等的平均値1 2 0 1、5 0 %的可信區間1 2 0 2、1 2 0 3、以及上 及下格1 204、1 205。跨越該等分類的高重疊度暗示相關於 以主觀方式分等節奏的高混淆等級。儘管如此,可能從此 種實驗結果擷取用於1^1^3〜1111_。^參數的臨界,其容許將音 軌指定至主觀分類:慢、略慢、略快 '以及快。將針對不 同訊號表示(PCM域、HE-AAC轉換域、具有SBR有效負載 的壓縮域)之MMSCenlr〇id參數的模範臨界値提供在表3中 主觀度量 厕一 (PCM) MMSCen,roid (HE-AAC) MMSCentroid (SBR) 慢 (S) <23 <26 30.5 略慢 (AS) 23-24.5 26-27 30.5-30.9 略快 (AF) 24.5 - 26 27-28 30.9-32 快 (F) >26 >28 >32 表3 將參數MMSCentr。id的此等臨界値使用在略述於表2中 的第二節奏校正步驟中。在第二節奏校正步驟內,識別在 -43- 201142818 節奏估算及參數MMSCentrC)id2間的巨大差異且最終將彼等 校正。例如,若估算節奏相對高且若參數MMSCentr()id指示 已察覺速度應相當低,藉由該校正因子降低估算節奏。以 相似方式,若估算節奏相對低,然而參數MMSCentr()id指示 已察覺速度應相當高,藉由該校正因子增加估算節奏。 if (confusion < threshold) perceptual tempo = ti else if ti beyond preferred tempo (80-150 BPM) zone Fold ti within preferred range: t2 if slow & t2 > 80: perceptual tempo = ti!2 if somewhat slow & t2 > 130: perceptual tempo = t2/2 if somewhat fast & t2 < 70: perceptual tempo = t2 x 2 if fast & t2 < 110: perceptual tempo = t2 x 2 else perceptual tempo = tz Ϊ4 將知覺節奏校正方案的另一實施例略述於表4中。顯 示用於校正因子2的虛擬碼,然而,該範例可相等地應用 至其他校正因子。在表4的知覺節奏校正方案中,已在第 一步驟中驗證該混淆,亦即,MMSconfusion是否超出特定 臨界。若未超出,假設實體顯著節奏h對應於知覺顯著節 奏。然而,若該混淆等級超出該臨界,則藉由將在來自參 數!^1^5£:611,,。^的音樂訊號之察覺速度上的資訊列入考慮而 校正實體顯著節奏t,。 應注意也可將替代方案用於分類音軌。例如,可將分 -44 - 201142818 類器設計成分類速度,然後產生此等知覺校正類型。在實 施例中,用於節奏校正的該等參數,亦即,顯然地係 MMSC0NFUSI0N、MMScentroid、以及 MMSbeaTSTRENGTH,可 受訓練並模型化,以將自動地將未知音樂訊號的混淆、速 度、及節拍強度分類。該等分類器可用於實施如上文略述 的相似知覺校正。藉由執行此,可減少如表3及4所表示之 固定臨界的使用,且可使該系統更有彈性。 如已於上文提及的,所提議之混淆參數mmsC0NFUSI0N 提供該估算節奏之可靠性的指示。也可將該參數使用爲用 於情緒及風格分類的M IR (音樂資訊檢索)特性。 應注意可能將上述知覺節奏校正方案另外施用至各種 實體節奏估算方法。此描繪於圖9中,其中顯示可能將該 知覺節奏校正方案施用至得自該壓縮域的實體節奏估算( 參考符號9 2 1 ),可能將其施用至得自轉換域的實體節奏 估算(參考符號922)、並可能將其施用至得自PCM域的 實體節奏估算(參考符號923 )。 將節奏估算系統1 3 0 0的模範方塊圖顯示於圖丨3中。應 注意取決於需求’可分別使用此種節奏估算系統13〇〇的不 同組件。系統1 3 0 0包含系統控制單元丨3丨〇、域剖析器丨3 〇 i 、預處理級1302、 1303、 1304、 1305、 1306、 1307,以得 到統一訊號表示、演算法1 3 1 1 ’以判定顯著節奏、以及後 處理單兀1308、1309’以知覺方式校正已擷取節奏。 s亥訊號流可能如下。在開始時,針對節奏判定及校正 從該輸入音訊檔案將任何域之輸入訊號饋送至擷取所有必 -45- 201142818 要資訊的域剖析器1 3 0 1,例如,取樣率及頻道模式。然後 將此等値儲存在根據輸入域設定計算路徑的系統控制單元 1 3 1 0中。 輸入資料的擷取及預處理在次一步驟中實施。在輸入 訊號係表示在壓縮域中的情形中,此種預處理1302包含 SBR有效負載的擷取、SBR標頭資訊的擷取、以及標頭資 訊誤差校正方案。在該轉換域中,預處理1303包含MDCT 係數的擷取、短區塊交錯、以及MDCT係數區塊序列的功 率轉換。在非壓縮域中,預處理1304包含PCM樣本的功率 頻譜計算。隨後,將該轉換資料分段爲半重疊之6秒組塊 的Κ個區塊,以採集該輸入訊號的長期特徵(分段單元 1 3 05 )。針對此目的,可能使用儲存在系統控制單元1 3 1 0 中的控制資訊。區塊數量Κ典型地取決於輸入訊號的長度 。在實施例中,若區塊,例如音軌的最終區塊,短於6秒 ,以零塡充該區塊。 包含預處理MDCT或P CM資料的分段使用縮展函數受 梅爾尺度轉換及/或尺寸縮減處理步驟(梅爾處理單元 1306)。將包含SBR有效負載資料的分段直接饋送至次一 處理區塊1 307,調變頻譜判定單元,其中沿著時間軸計算 N點FFT。此步驟導致所期望的調變頻譜。調變頻率箱的 數量N取決於該基本域的時間解析度,並可能藉由系統控 制單元I 3 1 0饋送至該演算法。在實施例中,將頻譜限制爲 1 OHz以停留在感覺節奏範圍內,且該頻譜依據人類節奏偏 好曲線5 0 0知覺加權。 -46- 201142818 爲基於未壓縮及轉換域增強頻譜中的調變尖峰,可能 在次一步驟中計算沿著調變頻率軸的絕對差(在調變頻譜 判定單元1 3 0 7內)’然後沿著梅爾尺度頻率及調變頻譜軸 二者知覺模糊,以順應打節拍統計圖的形狀。此計算處理 對未壓縮及轉換域係選擇性的,因爲沒有新資料產生,但 其典型地導致調變頻譜的視覺表示改善。 最後,可能藉由平均操作將在單元13〇7中處理的分段 組合。如已於上文略述的,平均可能包含平均値的計算或 中位値的判定。此導致來自未壓縮P C Μ資料或轉換域 MDCT資料之知覺激發梅爾尺度調變頻譜(MMS )的最終 表示’或導致已壓縮域位元串流部分之知覺激發SBR有效 負載調變頻譜(M S s b R )的最終表示。 可從該等調變頻譜參數計算,諸如調變頻譜中心、調 變頻譜節拍強度、及調變頻譜節拍混淆。可能將任何此等 參數饋送至知覺節奏校正單元1 3 09並由其使用,其校正得 自最大値計算1 3 1 1的最顯著實體節奏。系統1 3 00的輸出係 實際音樂輸入檔案的最顯著知覺節奏。 應注意可能將在本文件中針對節奏估算略述的該等方 法施用在音訊解碼器,以及音訊編碼器。在解碼已編碼檔 案時’可能將用於節奏估算之該等方法施用至壓縮域、轉 換域、以及PCM域中之音訊訊號。該等方法相等地應用在 編碼音訊訊號時。在解碼及在編碼音訊訊號時,上述方法 的複雜度可調性觀念係有效的。 也應注意當略述於本文件中的該等方法可能已略述於 -47- 201142818 完整音訊訊號上之節奏估算及校正的情境中時,該等方法 也可能施用至音訊訊號的次部,例如,Μ M S分段,從而針 對音訊訊號的次部提供節奏資訊。 作爲另一實施樣態,應注意可能以元資料形式將音訊 訊號的實體節奏及/或知覺節奏資訊寫入編碼位元串流中 。此種元資料可能由媒體播放器或由MIR應用所擷取及使 用。 此外,預期修改及壓縮調變頻譜表示(例如,調變頻 譜1001,且特別係圖10的1 002及1 003 ),並將可能修改及 /或壓縮之調變頻譜儲存爲在音訊/視訊檔案或位元串流中 的元資料。可將此資訊使用爲音訊訊號的聲學影像縮圖》 將相關於音訊訊號中之旋律內容的細節提供給使用者可能 係有用的。 在本文件中,已描述用於實體及知覺節奏之可靠估算 的複雜度可調性調變頻率法及系統。該估算可能在未壓縮 PCM域、MCDT基HE-AAC轉換域、以及HE-AAC SBR有效 負載基壓縮域中的音訊訊號上實施。此容許非常低複雜度 的節奏估算判定,甚至在音訊訊號係在壓縮域中時。使用 SBR有效負載資料,節奏估算可能直接從壓縮HE-AAC位 元串流擷取,無須實施熵解碼。所提議之方法更耐於位元 率及SBR交越頻率的改變,並可施用至單及多頻道編碼音 訊訊號。也可施用至其他SBR增強音訊編碼解碼器’諸如 mp3PRO,並可視爲係編碼解碼器不可知的。針對節奏估 算的目的,實施節奏估算的該裝置不需要能解碼SBR資料 -48 - 201142818 。此係由於節奏擷取係直接在編碼SB R資料上實施。 此外,所提議之方法及系統使用人類節奏察覺的知識 及大音樂資料集中的音樂節奏分佈。除了針對節奏估算之 音訊訊號的合適表示之評估外,描述知覺節奏加權函數以 及知覺節奏校正方案。此外,描述提供音訊訊號的知覺顯 著節奏之可靠估算的知覺節奏校正方案。 所提議之方法及系統可能使用在MIR應用的情境中, 例如,用於風格分類。由於低計算複雜度,可能將該等節 奏估算方案,特別係基於SBR有效負載的估算方法,直接 實作在可攜式電子裝置上,其典型地具有有限處理及記億 體資源。 此外,可能將知覺顯著節奏的判定用於音樂選擇、比 較、混合、播放列表產生。例如,當產生在相鄰音軌間具 有平滑旋律過渡的播放列表時,相關於該等音軌之知覺顯 著節奏的資訊可能比相關於實體顯著節奏之資訊更適合。 描述於本文件中的該等節奏估算方法及系統可能實作 爲軟體、軔體、及/或硬體。特定組件可能,例如實作爲 在數位訊號處理器或微處理器上運作之軟體。其他組件可 能,例如實作爲硬體及/或特定應用積體電路。在所描述 之方法及系統中遇到的該等訊號可能儲存在媒體中,諸如 隨機存取記憶體或光學儲存媒體。彼等可能經由網路轉移 ’諸如無線電網路、衛星網路、無線網路、或有線網路, 例如’網際網路。使用描述於本文件中之該等方法及系統 的典型裝置係用於儲存及/或演奏音訊訊號的可攜式電子 -49- 201142818 裝置或其他消費性裝備。該等方法及系統也可能使用在電 腦系統中’例如網際網路網頁伺服器、其儲存及提供用於 下載之音訊訊號,例如音樂訊號。 【圖式簡單說明】 現在將參考該等隨附圖式,經由未限制本發明範圍或 精神之說明範例描述本發明,在該等隨附圖式中: 圖1描繪大量音樂收藏對單一音樂片段之打節拍節奏 的模範共振模型; 圖2顯示用於短區塊之MDCT係數的模範交錯; 圖3 a及3b顯示模範梅爾尺度及模範梅爾尺度濾波器庫 圖4描繪模範縮展函數; 圖5描繪模範加權函數; 圖6a至6h描繪模範功率及調變頻譜; 圖7顯示模範SBR資料元素; 圖8a至8d描繪SBR有效負載尺寸序列及所產生的調變 頻譜; 圖9顯示所提議之節奏估算方案的模範槪觀; 圖1 〇顯示所提議之節奏估算方案的模範比較; 圖11a及lib顯示用於具有不同度量之音軌的模範調變 頻譜; 圖12a至12c顯示針對知覺節奏分類的模範實驗結果; -50- 201142818 圖1 3顯示節奏估算系統的模範方塊圖。 【主要元件符號說明】 1 〇 1 :共振曲線 102、103、92 1、922、92 3、100 1、1 002、1 003 :參 考符號 201、202、2 03 、 204、205、2 06、207、208、2 10: 短區塊 300 :尺度 3 0 1 :參考點 302 、 303 :濾波器 400 :對應曲線 5 0 0 :加權函數 7 0 1 : A A C原生資料區塊 702 : fill_element欄位 7 0 3: S B R 標頭 704 : SBR有效負載資料 705 :總S B R資料 8 0 1 :序列 811、911、912、913:調變頻譜 812' 813、 814、 833 :尖峰 821 :知覺加權SBR有效負載資料調變頻譜 8 2 2 :低頻尖峰 8 2 3 :中頻尖峰 -51 - 201142818 8 24 :高頻尖峰 9 0 1: Η E - A A C位元串流 902 : MDCT係數 903 : PCM樣本 1 023 :調變頻率 1011、 1012、 1013、 1021、 1022、 1 2 0 1 :平均値 1 2 0 2、1 2 0 3 :信任區間 1204 :上格 1205 :下格 1 3 00 :節奏估算系統 1 3 0 1 :域剖析器 1 3 0 7 :預處理級 1302、 1303、 1304、 1305、 1306、 1 3 0 8、1 3 0 9 :後處理級 1 3 1 0 :系統控制單元 1 3 1 1 :演算法 -52-

Claims (1)

  1. 201142818 七、申請專利範圍: 1. 一種用於從音訊訊號的編碼位元串流擷取該音訊 訊號之節奏資訊的方法,該編碼位元串流包含頻譜頻帶複 製資料,該方法包含: -針對該音訊訊號的時間區間判定與包含在該編碼位 元串流中之頻譜頻帶複製資料量關聯的有效負載量; -對該音訊訊號之該編碼位元串流的後續時間區間重 複該判定步驟,從而判定有效負載量序列; -識別該有效負載量序列中的週期性;以及 -從該已識別週期性擷取該音訊訊號的節奏資訊。 2 ·如申請專利範圍第1項之方法,其中判定有效負載 量包含: -判定該時間區間中之包含在該編碼位元串流的一或 多個塡充元素欄位中之資料量;以及 -基於該時間區間中之包含在該編碼位元串流的該等 + ¾多個塡充元素欄位中之該資料量,判定該有效負載量 〇 3 ·如申請專利範圍第2項之方法,其中判定有效負載 量包含: -判定該時間區間中之包含在該編碼位元串流的該等 一或多個塡充元素欄位中之頻譜頻帶複製標頭資料量; -藉由扣除該時間區間中之包含在該編碼位元串流的 等〜或多個塡充元素欄位中之該頻譜頻帶複製標頭資料 曰 m 判定該時間區間中之包含在該編碼位元串流的該等— -53- 201142818 或多個塡充元素欄位中之淨資料量;以及 -基於該淨資料量判定該有效負載量。 4 ·如申請專利範圍第3項之方法,其中該有效負載量 對應於該淨資料量。 5. 如上述申請專利範圍之任一項的方法,其中 -該編碼位元串流包含複數個訊框,各訊框對應於預 定時間長度的該音訊訊號片段;以及 -該時間區間對應於該編碼位元串流的訊框。 6. 如申請專利範圍第1項之方法,其中該重複步驟係 對該編碼位元串流的所有訊框實施。 7 ·如申請專利範圍第1項之方法,其中識別週期性包 含: -識別該有效負載量序列中的尖峰週期性。 8·如申請專利範圍第1項之方法,其中識別週期性包 含: -在該有效負載量序列上實施產生功率値組及對應頻 率的頻譜分析:以及 -藉由判定該功率値組中的相對最大値並藉由將該週 期性選擇爲該對應頻率,識別該有效負載量序列中的週期 性》 9.如申請專利範圍第8項之方法,其中實施頻譜分析 包含: -在該有效負載量序列之複數個次序列上實施產生複 數個功率値組的頻譜分析;以及 -54- 201142818 -平均該等複數個功率値組。 10. 如申請專利範圍第9項之方法,其中該等複數個 次序列部分地重疊。 11. 如申請專利範圍第8至1 0項之任一項的方法,其 中實施頻譜分析包含實施傅立葉轉換。 12. 如申請專利範圍第8項的方法,另外包含: -將該功率値組乘以與彼等對應頻率之人類知覺偏好 關聯的權重。 1 3 ·如申請專利範圍筚8項之方法,其中擷取節奏資 訊包含: -判定對應於該功率値組之絕對最大値的該頻率;其 中該頻率對應於該音訊訊號的實體顯著節奏。 14. 如申請專利範圍第1項之方法,其中該音訊訊號 包含音樂訊號,且其中擷取節奏資訊包含估算該音樂訊號 的節奏。 15. —種用於估算音訊訊號之知覺顯著節奏的方法, 該方法包含: -自該音訊訊號判定調變頻譜,其中該調變頻譜包含 複數個發生頻率及對應的複數個重要性値,其中該等重要 性値指示該音訊訊號中之該等對應發生頻率的相對重要性 » -將實體顯著節奏判定爲與該等複數個重要性値之最 大値對應的該發生頻率; -從該調變頻譜判定該音訊訊號的節拍度量; -55- 201142818 -從該調變頻譜判定知覺節奏指示器;以及 -藉由依據該節拍度量修改該實體顯著節奏,判定該 知覺顯著節奏, 其中該修改步驟將該知覺節奏指示器及該實體顯著節 奏之間的關係列入考慮。 16.如申請專利範圍第15項之方法,其中該音訊訊號 係以沿著時間軸的PCM樣本序列表示,且其中判定調變頻 譜包含: -自該PCM樣本序列選擇複數個後繼、部分地重疊之 次序列; -針對該等複數個後繼次序列,判定具有頻譜解析度 的複數個後繼功率頻譜; -使用知覺非線性轉換,壓縮該等複數個後繼功率頻 譜的該頻譜解析度;以及 -在該等複數個後繼壓縮功率頻譜上沿著該時間軸實 施頻譜分析,從而產生該等複數個重要性値及彼等之對應 發生頻率。 1 7 .如申請專利範圍第1 5項之方法,其中該音訊訊號 係以沿著時間軸的後繼MDCT係數區塊序列表示,且其中 判定調變頻譜包含: -使用知覺非線性轉換,壓縮區塊中的MDCT係數的數 量;以及 •在該後繼壓縮MDCT係數區塊序列上沿著該時間軸實 施頻譜分析,從而產生該等複數個重要性値及彼等之對應 -56- 201142818 發生頻率。 1 8.如申請專利範圍第i 5項之方法,其中該音訊訊號 係以包含頻譜頻帶複製資料及沿著時間軸之複數個後繼訊 框的編碼位元串流表示,且其中判定調變頻譜包含: -判定與該編碼位元串流之訊框序列中的該頻譜頻帶 複製資料量關聯之有效負載量序列; -自該有效負載量序列選擇複數個後繼、部分地重疊 之次序列;以及 -在該等複數個後繼次序列上沿著該時間軸實施頻譜 分析’從而產生該等複數個重要性値及彼等之對應發生頻 率。 1 9 ·如申請專利範圍第1 5項之方法,其中判定調變頻 譜包含: -將該等複數個重要性値乘以與彼等的對應發生頻率 之人類知覺偏好關聯的權重。 2 〇.如申請專利範圍第1 5項之方法,其中判定實體顯 著節奏包含: -將該實體顯著節奏判定爲與該等複數個重要性値之 該絕對最大値對應的該發生頻率。 2 1 ·如申請專利範圍第1 5項之方法,其中判定節拍度 量包含: -針對複數個非零頻率延遲判定該調變頻譜的自相關 -識別自相關之最大値及對應頻率延遲;以及 -57- I 201142818 -基於該對應頻率延遲及該實體顯著節奏,判定該節 拍度量。 2 2.如申請專利範圍第1 5項之方法,其中判定節拍度 量包含: -判定該調變頻譜及分別對應於複數個節拍度量之複 數個合成打節拍功能之間的交叉相關;以及 -選擇產生最大交叉相關的該節拍度量。 23.如申請專利範圍第15項之方法,其中該節拍度量 係以下各者之一: -3,若爲3/4拍;或 • 2,若爲4/4拍。 2 4·如申請專利範圍第1 5項之方法,其中判定知覺節 奏指示器包含: -將第一知覺節奏指示器判定爲該等複數個重要性値 的平均値,藉由該等複數個重要性値之最大値正規化。 2 5.如申請專利範圍第2 4項之方法,其中判定該知覺 顯著節奏包含: -判定該第一知覺節奏指示器是否超出第一臨界;以 及 -僅在超出該第一臨界時修改該實體顯著節奏。 2 6.如申請專利範圍第1 5項之方法,其中判定知覺節 奏指示器包含: -將第二知覺節奏指示器判定爲該等複數個重要性値 的該最大重要性値。 -58- 201142818 2 7.如申請專利範圍第2 6項之方法,其中判定該知覺 顯著節奏包含: -判定該第二知覺節奏指示器是否低於第二臨界;以 及 -若該第二知覺節奏指示器低於該第二臨界,修改該 實體顯著節奏。 28. 如申請專利範圍第15項之方法,其中判定知覺節 奏指示器包含: -將第三知覺節奏指示器判定爲該調變頻譜之發生中 心頻率。 29. 如申請專利範圍第28項之方法,其中判定該知覺 顯著節奏包含: -判定該第三知覺節奏指示器與該實體顯著節奏之間 的不匹配;以及 -若不匹配已判定,修改該實體顯著節奏。 30·如申請專利範圍第29項之方法,其中判定不匹配 包含: -判定該第三知覺節奏指示器低於第三臨界且該實體 顯著節奏高於第四臨界;或 -判定該第三知覺節奏指示器高於第五臨界且該實體 顯著節奏低於第六臨界; 其中該第三、第四、第五、及第六臨界之至少一者與 人類知覺節奏偏好關聯。 3 1 ·如申請專利範圍第1 5項之方法’其中依據該節拍 -59- 201142818 度量修改該實體顯著節奏包含: -將節拍等級增加至基本節拍的次一較高節拍等級; 或 -將節拍等級降低至基本節拍的次一較低節拍等級。 3 2 ·如申請專利範圍第3 1項之方法,其中增加或減少 該節拍等級包含: •在3/4拍的情形中,將該實體顯著節奏乘以或除以3 ; 以及 -在4/4拍的情形中,將該實體顯著節奏乘以或除以2❶ 33. —種軟體程式,適於在處理器上執行且當在計算 裝置上實行時適於實施如申請專利範圍第1至32項之任一 項的該等方法步驟。 3 4.—種儲存媒體,包含適於在處理器上執行且當在 計算裝置上實行時適於實施如申請專利範圍第1至32項之 任一項的該等方法步驟之軟體程式。 3 5 .—種電腦程式產品,包含當在電腦上執行時用於 實施如申請專利範圍第1至32項之任一項的該方法之可執 行指令。 36. —種可攜式電子裝置,包含: -儲存單元,組態成儲存音訊訊號; -音訊呈現單元,組態成呈現該音訊訊號; -使用者介面,組態成接收針對該音訊訊號上的節拍 資訊之使用者請求:以及 -處理器,組態成藉由在該音訊訊號上實施如申請專 -60- 201142818 利範圍第1至3 2項之任一項的該等方法步驟判定該節奏資 訊。 37. —種組態成從編碼位元串流擷取音訊訊號之節奏 資訊的系統,該編碼位元串流包含該音訊訊號的頻譜頻帶 複製資料,該系統包含: -用於判定與包含在該音訊訊號之時間區間的該編碼 位元串流中之頻譜頻帶複製資料量關聯的有效負載量之機 構; -用於對該音訊訊號之該編碼位元串流的後續時間區 間重複該判定步驟,從而判定有效負載量序列的機構; -用於識別該有效負載量序列中之週期性的機構;以 及 -用於從該已識別週期性擷取該音訊訊號之節奏資訊 的機構。 3 8 · —種組態成估算音訊訊號之知覺顯著節奏的系統 ,該系統包含: -用於判定該音訊訊號之調變頻譜的機構,其中該調 變頻譜包含複數個發生頻率及對應的複數個重要性値,其 中該等重要性値指示該音訊訊號中之該等對應發生頻率的 相對重要性; •用於將實體顯著節奏判定爲與該等複數個重要性値 之最大値對應的該發生頻率之機構; -用於藉由分析該調變頻譜判定該音訊訊號之節拍度 量的機構; -61 - 201142818 -用於從該調變頻譜判定知覺節奏指示器的機構;以 及 -用於藉由依據該節拍度量修改該實體顯著節奏,判 定該知覺顯著節奏的機構,其中該修改步驟將該知覺節奏 指示器及該實體顯著節奏之間的關係列入考慮。 39. —種用於產生包含音訊訊號之元資料的編碼位元 串流之方法,該方法包含: -判定與該音訊訊號之節奏關聯的元資料;以及 -將該元資料插入該編碼位元串流。 4〇·如申請專利範圍第39項之方法,其中該元資料包 含代表該音訊訊號之實體顯著節奏及/或知覺顯著節奏的 資料。 41. 如申請專利範圍第39項之方法,其中該元資料包 含代表來自該音訊訊號之調變頻譜的資料,其中該調變頻 譜包含複數個發生頻率及對應的複數個重要性値,其中該 等重要性値指示該音訊訊號中之對應發生頻率的相對重要 性。 42. 如申請專利範圍第39項的方法,另外包含: -使用HE-AAC、MP3、AAC、杜比數位、或杜比數位 加強編碼器之任一者,將該音訊訊號編碼入該編碼位元串 流之有效負載資料序列。 43. —種用於從編碼位元串流擷取與音訊訊號的節奏 關聯之資料的方法,該編碼位元串流包含該音訊訊號的元 資料,該方法包含: -62- 201142818 -識別該編碼位元串流的該元資料;以及 -從該編碼位元串流的該元資料擷取與該音訊訊號之 節奏關聯的該資料。 44. 一種包含元資料之音訊訊號的編碼位元串流,其 中該元資料包含至少代表下列一者的資料: -該音訊訊號的實體顯著節奏及/或知覺顯著節奏; -來自該音訊訊號的調變頻譜,其中該調變頻譜包含 複數個發生頻率及對應的複數個重要性値,其中該等重要 性値指示該音訊訊號中之該等對應發生頻率的相對重要性 〇 4 5. —種組態成產生包含音訊訊號的元資料之編碼位 元串流的音訊編碼器,該編碼器包含: -用於判定與該音訊訊號的節奏關聯之元資料的機構 :以及 •用於將該兀資料插入該編碼位兀串流的機構。 4 6 _ —種組態成從編碼位元串流擷取與音訊訊號之節 奏關聯的資料之音訊解碼器,該編碼位元串流包含該音訊 訊號的元資料,該解碼器包含: -用於識別該編碼位元串流之該元資料的機構;以及 -用於從該編碼位元串流之該元資料擷取與該音訊訊 號的節奏關聯之該資料的機構。 -63-
TW099135450A 2009-10-30 2010-10-18 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統 TWI484473B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US25652809P 2009-10-30 2009-10-30

Publications (2)

Publication Number Publication Date
TW201142818A true TW201142818A (en) 2011-12-01
TWI484473B TWI484473B (zh) 2015-05-11

Family

ID=43431930

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099135450A TWI484473B (zh) 2009-10-30 2010-10-18 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統

Country Status (9)

Country Link
US (1) US9466275B2 (zh)
EP (2) EP2988297A1 (zh)
JP (2) JP5295433B2 (zh)
KR (2) KR101612768B1 (zh)
CN (2) CN104157280A (zh)
BR (1) BR112012011452A2 (zh)
RU (2) RU2507606C2 (zh)
TW (1) TWI484473B (zh)
WO (1) WO2011051279A1 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101291293B1 (ko) * 2008-03-10 2013-07-30 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
JP5569228B2 (ja) * 2010-08-02 2014-08-13 ソニー株式会社 テンポ検出装置、テンポ検出方法およびプログラム
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
CN103582913B (zh) 2011-04-28 2016-05-11 杜比国际公司 有效内容分类及响度估计
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
JP6069341B2 (ja) * 2011-11-30 2017-02-01 ドルビー・インターナショナル・アーベー オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体
DE102012208405A1 (de) * 2012-05-21 2013-11-21 Rohde & Schwarz Gmbh & Co. Kg Messgerät und Verfahren zur verbesserten Abbildung von Spektralverläufen
US9992490B2 (en) * 2012-09-26 2018-06-05 Sony Corporation Video parameter set (VPS) syntax re-ordering for easy access of extension parameters
US20140162628A1 (en) * 2012-12-07 2014-06-12 Apple Inc. Methods for Validating Radio-Frequency Test Systems Using Statistical Weights
US9704478B1 (en) * 2013-12-02 2017-07-11 Amazon Technologies, Inc. Audio output masking for improved automatic speech recognition
WO2015093668A1 (ko) * 2013-12-20 2015-06-25 김태홍 오디오 신호 처리 장치 및 방법
GB2522644A (en) * 2014-01-31 2015-08-05 Nokia Technologies Oy Audio signal analysis
EP3108474A1 (en) * 2014-02-18 2016-12-28 Dolby International AB Estimating a tempo metric from an audio bit-stream
US20170245070A1 (en) * 2014-08-22 2017-08-24 Pioneer Corporation Vibration signal generation apparatus and vibration signal generation method
CN104299621B (zh) * 2014-10-08 2017-09-22 北京音之邦文化科技有限公司 一种音频文件的节奏感强度获取方法及装置
KR20160102815A (ko) * 2015-02-23 2016-08-31 한국전자통신연구원 잡음에 강인한 오디오 신호 처리 장치 및 방법
US9372881B1 (en) 2015-12-29 2016-06-21 International Business Machines Corporation System for identifying a correspondence between a COBOL copybook or PL/1 include file and a VSAM or sequential dataset
US12216516B2 (en) * 2017-01-09 2025-02-04 Inmusic Brands, Inc. Systems and methods for displaying graphics about a control wheel's center
CN108989706A (zh) * 2017-06-02 2018-12-11 北京字节跳动网络技术有限公司 基于音乐节奏生成特效的方法及装置
WO2019053765A1 (ja) * 2017-09-12 2019-03-21 Pioneer DJ株式会社 楽曲解析装置および楽曲解析プログラム
CN108320730B (zh) 2018-01-09 2020-09-29 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
US11443724B2 (en) * 2018-07-31 2022-09-13 Mediawave Intelligent Communication Method of synchronizing electronic interactive device
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
CN110585730B (zh) * 2019-09-10 2021-12-07 腾讯科技(深圳)有限公司 游戏的节奏感测试方法、装置以及相关设备
CN110688518B (zh) * 2019-10-12 2024-05-24 广州酷狗计算机科技有限公司 节奏点的确定方法、装置、设备及存储介质
CN110853677B (zh) * 2019-11-20 2022-04-26 北京雷石天地电子技术有限公司 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质
JP7516802B2 (ja) 2020-03-25 2024-07-17 カシオ計算機株式会社 テンポ検出装置、方法、及びプログラム
CN111785237B (zh) * 2020-06-09 2024-04-19 Oppo广东移动通信有限公司 音频节奏确定方法、装置、存储介质和电子设备
CN112866770B (zh) * 2020-12-31 2023-12-05 北京奇艺世纪科技有限公司 一种设备控制方法、装置、电子设备及存储介质
WO2022227037A1 (zh) * 2021-04-30 2022-11-03 深圳市大疆创新科技有限公司 音频处理、视频处理方法、装置、设备及存储介质
CN114005464B (zh) * 2021-11-04 2024-12-20 深圳万兴软件有限公司 一种节拍速度估测方法、装置、计算机设备及存储介质
WO2025093804A1 (en) * 2023-11-03 2025-05-08 Audicin Oy Method of creating music for psychophysiological impact and nervous system regulation and a service product providing such music

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19736669C1 (de) 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
US6240379B1 (en) * 1998-12-24 2001-05-29 Sony Corporation System and method for preventing artifacts in an audio data encoder device
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7069208B2 (en) 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
US7447639B2 (en) 2001-01-24 2008-11-04 Nokia Corporation System and method for error concealment in digital audio transmission
US7013269B1 (en) 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
JP4646099B2 (ja) * 2001-09-28 2011-03-09 パイオニア株式会社 オーディオ情報再生装置及びオーディオ情報再生システム
US20040083110A1 (en) 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
EP1797507B1 (en) * 2004-10-08 2011-06-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded rhythmic pattern
WO2006050512A2 (en) * 2004-11-03 2006-05-11 Plain Sight Systems, Inc. Musical personal trainer
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US20070036228A1 (en) * 2005-08-12 2007-02-15 Via Technologies Inc. Method and apparatus for audio encoding and decoding
US7518053B1 (en) 2005-09-01 2009-04-14 Texas Instruments Incorporated Beat matching for portable audio
JP4949687B2 (ja) 2006-01-25 2012-06-13 ソニー株式会社 ビート抽出装置及びビート抽出方法
JP4632136B2 (ja) * 2006-03-31 2011-02-16 富士フイルム株式会社 楽曲テンポ抽出方法、装置及びプログラム
US20080059154A1 (en) * 2006-09-01 2008-03-06 Nokia Corporation Encoding an audio signal
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
JP4799333B2 (ja) 2006-09-14 2011-10-26 シャープ株式会社 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
CA2645913C (en) * 2007-02-14 2012-09-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN100462878C (zh) * 2007-08-29 2009-02-18 南京工业大学 智能机器人识别舞蹈音乐节奏的方法
JP5098530B2 (ja) 2007-09-12 2012-12-12 富士通株式会社 復号化装置、復号化方法および復号化プログラム
WO2009125489A1 (ja) 2008-04-11 2009-10-15 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム
US8392200B2 (en) * 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks

Also Published As

Publication number Publication date
HK1168460A1 (zh) 2012-12-28
KR20140012773A (ko) 2014-02-03
RU2507606C2 (ru) 2014-02-20
US9466275B2 (en) 2016-10-11
KR101370515B1 (ko) 2014-03-06
CN102754147A (zh) 2012-10-24
JP2013508767A (ja) 2013-03-07
JP2013225142A (ja) 2013-10-31
EP2988297A1 (en) 2016-02-24
KR101612768B1 (ko) 2016-04-18
CN102754147B (zh) 2014-10-22
BR112012011452A2 (pt) 2016-05-03
WO2011051279A1 (en) 2011-05-05
RU2013146355A (ru) 2015-04-27
US20120215546A1 (en) 2012-08-23
CN104157280A (zh) 2014-11-19
EP2494544B1 (en) 2015-09-02
RU2012117702A (ru) 2013-11-20
EP2494544A1 (en) 2012-09-05
KR20120063528A (ko) 2012-06-15
TWI484473B (zh) 2015-05-11
JP5295433B2 (ja) 2013-09-18
JP5543640B2 (ja) 2014-07-09

Similar Documents

Publication Publication Date Title
TWI484473B (zh) 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
US9317561B2 (en) Scene change detection around a set of seed points in media data
US9697840B2 (en) Enhanced chroma extraction from an audio codec
CN103999150B (zh) 媒体数据中的低复杂度重复检测
EP3244407A1 (en) Apparatus and method for modifying a parameterized representation
US9892758B2 (en) Audio information processing
RU2419859C2 (ru) Способ и электронное устройство для определения характеристики элемента контента
US20180173400A1 (en) Media Content Selection
EP3575989B1 (en) Method and device for processing multimedia data
Cunningham et al. Data reduction of audio by exploiting musical repetition
HK1168460B (zh) 复杂度可缩放的感知节拍估计
BRPI0906247B1 (pt) Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees