[go: up one dir, main page]

TWI667576B - 機器學習方法及機器學習裝置 - Google Patents

機器學習方法及機器學習裝置 Download PDF

Info

Publication number
TWI667576B
TWI667576B TW107123670A TW107123670A TWI667576B TW I667576 B TWI667576 B TW I667576B TW 107123670 A TW107123670 A TW 107123670A TW 107123670 A TW107123670 A TW 107123670A TW I667576 B TWI667576 B TW I667576B
Authority
TW
Taiwan
Prior art keywords
dictionary
layer
machine learning
sparse
atoms
Prior art date
Application number
TW107123670A
Other languages
English (en)
Other versions
TW202006612A (zh
Inventor
王家慶
Jia-Ching Wang
王建堯
Chien-Yao Wang
楊芷璇
Chih-Hsuan Yang
Original Assignee
國立中央大學
National Central University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中央大學, National Central University filed Critical 國立中央大學
Priority to TW107123670A priority Critical patent/TWI667576B/zh
Priority to US16/030,859 priority patent/US11663462B2/en
Application granted granted Critical
Publication of TWI667576B publication Critical patent/TWI667576B/zh
Publication of TW202006612A publication Critical patent/TW202006612A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本發明提出一種機器學習方法及機器學習裝置。機器學習方法包括:接收輸入訊號並對輸入訊號進行正規化;將正規化的輸入訊號傳送到卷積層;以及將稀疏編碼層加在卷積層後,其中稀疏編碼層利用字典的原子在通過卷積層的正規化的輸入訊號的投影量重建訊號,且稀疏編碼層接收小批量輸入以更新字典的原子。

Description

機器學習方法及機器學習裝置
本發明是有關於一種機器學習方法及機器學習裝置,且特別是有關於一種基於稀疏編碼卷積神經網路的機器學習方法及機器學習裝置。
深度學習在目前的機器學習是非常熱門的研究領域。在處理連續的語音訊號或音樂訊號時,可將訊號通過卷積神經網路的卷積層(convolutional layer)、池化層(pooling layer)及全連接層(fully connected layer)後對訊號進行分類。然而,一般卷積神經網路具有時間複雜度過高及強健性較低等缺點。因此如何降低卷積神經網路執行的時間複雜度及增加卷積神經網路的強健性,是本領域技術人員應致力的目標。
本發明提供一種機器學習方法及機器學習裝置,除了理解辨識目標的抽象概念外,還能經由記憶的提取去聯想曾經看過的事物,以增加網路的強健性,同時還藉由字典原子投影量降低網路執行的時間複雜度。
本發明提出一種機器學習方法,整合卷積神經網路及稀疏編碼演算法。機器學習方法包括:接收輸入訊號並對輸入訊號進行正規化;將正規化的輸入訊號傳送到卷積層;以及將稀疏編碼層加在卷積層後。其中稀疏編碼層利用字典的原子在通過卷積層的正規化的輸入訊號的投影量重建訊號,且稀疏編碼層接收小批量輸入以更新字典的原子。
在本發明的一實施例中,上述接收一輸入訊號並對該輸入訊號進行正規化的步驟包括:將輸入訊號轉換為時頻圖;使用多項式對時頻圖進行頻率(frequency-wise)強度的擬合(fitting);以及正規化擬合結果的寬度並重新取樣。
在本發明的一實施例中,上述字典的原子對應的係數為-1到1之間的實數。
在本發明的一實施例中,上述稀疏編碼層在全連接層後,稀疏編碼層對經由特徵向量集訓練出的字典進行稀疏非負編碼(sparse non-negative coding),並以具有最小殘留(residual)或最大係數的字典的原子的隸屬類別進行分類。
在本發明的一實施例中,上述稀疏編碼層在全連接層前,稀疏編碼層對卷積層輸出的多個通道的多個卷積圖分別訓練字典,並使用稀疏非負編碼演算法(sparse non-negative coding algorithm)取得字典的原子對應的係數,再以通道(channel-wise)投票對字典的原子的隸屬類別進行分類。
在本發明的一實施例中,上述稀疏編碼層使用歸屬函數計算不同的通道對不同的字典的原子的隸屬類別的信任度,並根據信任度進行通道投票。
在本發明的一實施例中,上述歸屬函數包括真正向(true positive)參數及真負向(true negative)參數。
在本發明的一實施例中,上述歸屬函數包括準確率(precision)參數及召回(recall)參數。
在本發明的一實施例中,上述稀疏編碼層包括字典學習部分及重建部分,當字典學習部分的殘留(residual)小於門檻值時,重建部分利用字典及字典的原子對應的係數的乘積來輸出重建資料。
在本發明的一實施例中,上述稀疏編碼層根據小批量的特徵來更新字典的原子。
本發明提出一種機器學習裝置,包括處理器及記憶體。記憶體耦接到處理器。其中處理器接收輸入訊號並對輸入訊號進行正規化;將正規化的輸入訊號傳送到卷積層;以及將稀疏編碼層加在卷積層後。其中稀疏編碼層利用字典的原子在通過卷積層的正規化的輸入訊號的投影量重建訊號,且稀疏編碼層接收小批量輸入以更新字典的原子。
在本發明的一實施例中,上述處理器將輸入訊號轉換為時頻圖;使用多項式對時頻圖進行頻率(frequency-wise)強度的擬合(fitting);以及正規化擬合結果的寬度並重新取樣。
在本發明的一實施例中,上述字典的原子對應的係數為-1到1之間的實數。
在本發明的一實施例中,上述稀疏編碼層在全連接層後,該處理器在稀疏編碼層對經由特徵向量集訓練出的字典進行稀疏非負編碼(sparse non-negative coding),並以具有最小殘留(residual)或最大係數的字典的原子的隸屬類別進行分類。
在本發明的一實施例中,上述稀疏編碼層在全連接層前,該處理器在稀疏編碼層對卷積層輸出的多個通道的多個卷積圖分別訓練字典,並使用稀疏非負編碼演算法(sparse non-negative coding algorithm)取得字典的原子對應的係數,再以通道(channel-wise)投票對字典的原子的隸屬類別進行分類。
在本發明的一實施例中,上述該處理器在稀疏編碼層使用歸屬函數計算不同的通道對不同的字典的原子的隸屬類別的信任度,並根據信任度進行通道投票。
在本發明的一實施例中,上述歸屬函數包括真正向(true positive)參數及真負向(true negative)參數。
在本發明的一實施例中,上述歸屬函數包括準確率(precision)參數及召回(recall)參數。
在本發明的一實施例中,上述稀疏編碼層包括字典學習部分及重建部分,當字典學習部分的殘留(residual)小於門檻值時,該處理器在重建部分利用字典及字典的原子對應的係數的乘積來輸出重建資料。
在本發明的一實施例中,上述稀疏編碼層根據小批量的特徵來更新字典的原子。
基於上述,本發明的機器學習方法及機器學習裝置會將輸入訊號正規化並將稀疏編碼層加在卷積層後,利用字典的原子在通過卷積層的正規化的輸入訊號的投影量重建訊號,以降低網路的時間複雜度。本發明還利用稀疏編碼層接收小批量輸入以更新字典的原子,完成字典的訓練及資料的重建。此外,本發明還提出多通道稀疏編碼,其可直接考慮到不同通道的卷積(convolutional weight)權重學習到的抽象特徵。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1為根據本發明一實施例的機器學習裝置的方塊圖。
請參照圖1,本發明的機器學習裝置100可包括處理器110及記憶體120。記憶體120耦接到處理器110。機器學習裝置100可以是伺服器、個人電腦、行動裝置、平板電腦等電子裝置,本發明並不對機器學習裝置100的種類作出限制。
處理器110可以是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)或其他類似元件或上述元件的組合。
記憶體120可以是任何型態的固定或可移動隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(flash memory)、硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid State Drive,SSD)或類似元件或上述元件的組合。輸入裝置130可以是鍵盤、滑鼠等輸入元件。
在一實施例中,機器學習裝置100可透過通訊晶片(未繪示於圖中)接收輸入訊號(例如,語音訊號或音樂訊號等訊號),並由處理器110執行記憶體120中的卷積神經網路對輸入訊號進行學習、辨識、檢索等操作。
圖2為根據本發明一實施例的對訊號進行正規化的示意圖。
請參照圖2,在卷積神經網路的前處理階段,處理器110會先將輸入訊號利用短時距傅立葉變換(short-time Fourier transform,STFT)轉換為時頻圖,再使用多項式對該時頻圖進行頻率(frequency-wise)強度的擬合(fitting),如以下方程式(1)所示:
………………………...(1)
最後,處理器110再正規化擬合結果的寬度(例如,將寬度正規化為一)並將多項式擬合重新取樣。假設要取得 M個取樣點,則重新取樣的時間如方程式(2)所示:
……………………………………….…(2)
在一實施例中,本發明提出了一種稀疏編碼演算法,可對字典找出一組係數使得重建資料的誤差最小且係數最稀疏,本實施例的稀疏編碼解如以下方程式(3)所示:
……………………….……..(3)
其中 y為輸入訊號, D為超完備字典,而 x為對字典原子對應的係數且 p {0,1}。若以匹配搜尋來解方程式(3),則其時間複雜度為O(n 2)。
值得注意的是,本發明的稀疏編碼演算法可在稀疏編碼層(sparse coding layer)中執行,而稀疏編碼層的位置會隨著使用單通道稀疏編碼卷積神經網路或多通道稀疏編碼卷積神經網路而不同。舉例來說,在單通道稀疏編碼卷積神經網路中,稀疏編碼層可設置於全連接層後。在多通道稀疏編碼卷積神經網路中,稀疏編碼層可設置於卷積層後及全連接層前。
在另一實施例中,本發明提出一種稀疏編碼演算法,利用正規化字典原子在正規化輸入訊號的投影量重建訊號,並限制係數為-1到1之間的實數。本實施例稀疏編碼演算法的好處在於能保證選出的原子(atom)集的對應係數是最稀疏的,且能使用最少的原子重建訊號。本實施例的稀疏編碼解如以下方程式(4)所示:
………………….……(4)
其中 ,|| y||=1,|| d i ||=1, x i [-1,1], 為向量 ab的內積, 可以被表示為 且|| y||=1,|| d i ||=1。因此, proj (D)可以被改寫成以下方程式(5),且方程式(4)可以被改寫成以下方程式(6)。
……..(5)
………………………….…(6)
其中 ,且
由於係數的範圍被限制在-1到1之間,每次選到原子重建的程度不會超過投影量的長度,每次選到原子的係數值都不會超過之前選到原子的係數值。因此,本實施例的稀疏編碼可以使用貪婪(greedy)方式求解。由於餘弦(cosine)函數為偶函數並且其區間在-1到1之間,因此選到原子的順序就如排序過的 ,而排序的時間複雜度為 O( nlog n)。然而, 可以事先進行計算及排序,因此當輸入訊號進入時,排序 可在 O(log n)的時間複雜度完成(例如,使用二元排序法),而搜尋操作則可在 O( n)的時間複雜度完成,相較於上一實施例的稀疏編碼可大幅降低時間複雜度。
圖3為根據本發明一實施例的稀疏編碼演算法的示意圖。圖4為根據本發明一實施例的稀疏非負編碼演算法的示意圖。圖5為根據本發明一實施例的稀疏二元編碼演算法的示意圖。
圖3是關於資料的重建。在圖3的稀疏編碼演算法中,會輸入輸入資料及排序的字典並輸出選擇的原子及對應的係數。
圖4是關於資料的擷取(retrieval)。在圖4的稀疏非負編碼演算法中,若是將係數限制為非負, ,則選到的原子順序如排序過的 ,其相當於在範數球(norm ball)上找一群與自己最相近的群聚。
圖5是關於原子類別的分類。在圖5的稀疏二元編碼演算法中,若是將係數限制為二元值(binary), ,則相當於利用字典原子疊加組成輸入訊號。
圖6為根據本發明一實施例的卷積神經網路(Convolutional Neural Network,CNN)的示意圖。
請參照圖6,處理器110會先接收輸入訊號601並產生對應的光譜圖602(spectrogram),或稱為時頻圖,接著產生正規化輸入訊號603。經過一連串的卷積神經網路階段604(例如,卷積層、池化層)後,接至全連接層605,最後以分類器(例如,softmax)做分類。分類器如以下方程式(7)所示:
……………………………………..(7)
以卷積神經網路作擷取(retrieval)則是使用全連接層的輸出層對L2正規化神經碼計算L2距離,如以下方程式(8)所示:
……………………………(8)
最後,即可使用距離大小作為擷取的依據。
圖7為根據本發明一實施例的稀疏編碼卷積神經網路(Sparse Coding Convolutional Neural Network,SC-CNN)的示意圖。
請參照圖7,處理器110會先接收輸入訊號701並產生對應的光譜圖702(spectrogram),或稱為時頻圖,接著產生正規化輸入訊號703。經過一連串的卷積神經網路階段704(例如,卷積層、池化層)後,接至全連接層705。最後利用字典706進行稀疏編碼707,藉由最小殘留或最大係數來進行排序708。
具體來說,在本實施例的稀疏編碼卷積神經網路中,會由訓練資料經由卷積神經網路取出的特徵向量集訓練出的字典進行稀疏非負編碼,最後以產生最小殘留(residual)或得到最大係數的字典原子隸屬類別作分類,如以下方程式(9)所示:
…………………………………..(9)
若要以本實施例的稀疏編碼卷積神經網路進行擷取(retrieval),則可利用擷取目標資料庫的基於範例(examplar based)的字典來作稀疏編碼,並排序最小殘留或最大係數作為回傳順序,以下方程式(10)所示:
………………………………………....(10)
圖8為根據本發明一實施例的多通道稀疏編碼卷積神經網路(Multi-channel Sparse Coding Convolutional Neural Network,MSC-CNN)的示意圖。
請參照圖8,處理器110會先接收輸入訊號801並產生對應的光譜圖802(spectrogram),或稱為時頻圖,接著產生正規化輸入訊號803。經過一連串的卷積神經網路階段804(例如,卷積層、池化層)後,接至最終卷積層805。最終卷積層805具有多個通道,因此最終卷積層805後具有通道(channel-wise)字典806,在進行稀疏編碼807後以投票808的方式作分類。
在圖6實施例的卷積神經網路是對卷積層取出的特徵圖(feature maps)以多層感知機來學習分類器。在圖7實施例的稀疏編碼卷積神經網路則使用全連接層取出的特徵向量作稀疏編碼。然而,上述兩種辨識方式都沒有直接考慮到不同通道的卷積權重(convolutional weight)學習到的抽象特徵。以下方程式(11)為卷積神經網路及(單通道)稀疏編碼卷積神經網路的模型,以下方程式(12)為多通道稀疏編碼卷積神經網路的模型:
……………………….(11)
…………………………………………….(12)
上述 conv i 代表了不同通道的卷積濾波器(convolutional filter)取出的抽象特徵。在多通道稀疏編碼卷積神經網路中,處理器110會針對各個通道的卷積圖(convolutional maps)分別訓練字典並使用稀疏非負編碼演算法(sparse non-negative coding algorithm)取得稀疏係數,最後採用通道投票的方式作分類,如以下方程式(13)所示:
…………………………………….(13)
由於卷積神經網路的每一組卷積權重都相當於一組可以取出特定鑑別性特徵的濾波器,因此每組濾波器取出的鑑別性特徵對不同類別具有不同的鑑別能力。在本實施例中,提出了使用模糊歸屬函數來計算不同通道濾波器(channel filter)對不同類別的信任程度,如以下方程式(14)所示:
……(14)
其中 confidence表示通道濾波器對類別的信任程度, 為歸屬函數。本實施例的兩種歸屬函數如以下方程式(15)及方程式(16)所示:
…………………………..……….(15)
……….…(16)
其中 rr代表辨識率(recognition rate), fs代表f分數(f score), TP為真正向(true positive), TN為真負向(true negative), precision為準確率, recall為召回。經由計算信任程度後,決策函數變為以下方程式(17):
………………....(17)
圖9為根據本發明一實施例的多通道稀疏編碼卷積神經網路的稀疏編碼層的示意圖。圖10為根據本發明一實施例的訓練稀疏編碼層演算法。
請參照圖9,稀疏編碼層902包括了字典學習部分903、稀疏編碼部分904及重建部分905。稀疏編碼層902位於卷積神經網路階段901後且位於全連接層906前。在前饋(feedforward)階段時,小批量(mini-batch)的輸入經由一連串的卷積神經網路階段901運算後進入稀疏編碼層902。透過批次字典學習的演算法可建模大腦記憶的儲存,而經由對學習字典的稀疏編碼則可達到回想的功能。在稀疏編碼層902中,小批量的特徵被用來更新字典原子。訓練字典的目標函式如以下方程式(18)所示:
………………………………….(18)
其中 為殘留(residual)。當殘留小於一門檻值(或稱為容忍值)後,處理器110利用 DX將重建的資料傳到下一層。
在前饋階段中,本實施例的多通道稀疏編碼卷積神經網路與卷積神經網路同樣由倒傳遞演算法來訓練鍵結權重。稀疏編碼層估算出的 與Y進似,在倒傳遞時可直接將誤差傳至前一層,因此稀疏編碼層902可以在任何訓練時期(training epoch)插入到卷積神經網路的網路架構中。根據本發明一實施例的訓練稀疏編碼層演算法如圖10所示。
圖11為根據根據本發明一實施例的機器學習方法的流程圖。
請參照圖11,在步驟S1101中,接收輸入訊號並對輸入訊號進行正規化。在步驟S1103中,將正規化的輸入訊號傳送到卷積層。在步驟S1105中,將稀疏編碼層加在卷積層後,其中稀疏編碼層利用字典的原子在通過卷積層的正規化的輸入訊號的投影量重建訊號,且稀疏編碼層接收小批量輸入以更新字典的原子。
綜上所述,本發明的機器學習方法及機器學習裝置會將輸入訊號正規化並將稀疏編碼層加在卷積層後,利用字典的原子在通過卷積層的正規化的輸入訊號的投影量重建訊號,以降低網路的時間複雜度。本發明還利用稀疏編碼層接收小批量輸入以更新字典的原子,完成字典的訓練及資料的重建。此外,本發明還提出多通道稀疏編碼,其可直接考慮到不同通道的卷積權重學習到的抽象特徵。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100‧‧‧機器學習裝置
110‧‧‧處理器
120‧‧‧記憶體
601、701、801‧‧‧輸入訊號
602、702、802‧‧‧光譜圖
603、703、803‧‧‧正規化輸入訊號
604、704、804、901‧‧‧卷積神經網路階段
605、705、906‧‧‧全連接層
706‧‧‧字典
707、807‧‧‧稀疏編碼
708‧‧‧排序
805‧‧‧最終卷積層
806‧‧‧通道字典
808‧‧‧投票
902‧‧‧稀疏編碼層
903‧‧‧字典學習部分
904‧‧‧稀疏編碼部分
905‧‧‧重建部分
S1101、S1103、S1105‧‧‧機器學習方法的步驟
圖1為根據本發明一實施例的機器學習裝置的方塊圖。 圖2為根據本發明一實施例的對訊號進行正規化的示意圖。 圖3為根據本發明一實施例的稀疏編碼演算法的示意圖。 圖4為根據本發明一實施例的稀疏非負編碼演算法的示意圖。 圖5為根據本發明一實施例的稀疏二元編碼演算法的示意圖。 圖6為根據本發明一實施例的卷積神經網路的示意圖。 圖7為根據本發明一實施例的稀疏編碼卷積神經網路的示意圖。 圖8為根據本發明一實施例的多通道稀疏編碼卷積神經網路的示意圖。 圖9為根據本發明一實施例的多通道稀疏編碼卷積神經網路的稀疏編碼層的示意圖。 圖10為根據本發明一實施例的訓練稀疏編碼層演算法的示意圖。 圖11為根據本發明一實施例的機器學習方法的流程圖。

Claims (20)

  1. 一種機器學習方法,整合一卷積神經網路及一稀疏編碼演算法,包括: 接收一輸入訊號並對該輸入訊號進行正規化; 將正規化的該輸入訊號傳送到一卷積層;以及 將一稀疏編碼層加在該卷積層後, 其中該稀疏編碼層利用一字典的原子在通過該卷積層的正規化的該輸入訊號的一投影量重建一訊號,且該稀疏編碼層接收一小批量(mini-batch)輸入以更新該字典的原子。
  2. 如申請專利範圍第1項所述的機器學習方法,其中接收一輸入訊號並對該輸入訊號進行正規化的步驟包括: 將該輸入訊號轉換為一時頻圖; 使用一多項式對該時頻圖進行一頻率(frequency-wise)強度的一擬合(fitting);以及 正規化該擬合結果的寬度並重新取樣。
  3. 如申請專利範圍第1項所述的機器學習方法,其中該字典的原子對應的一係數為-1到1之間的實數。
  4. 如申請專利範圍第1項所述的機器學習方法,其中該稀疏編碼層在一全連接層後,該稀疏編碼層對經由一特徵向量集訓練出的該字典進行一稀疏非負編碼(sparse non-negative coding),並以具有一最小殘留(residual)或一最大係數的該字典的原子的隸屬類別進行分類。
  5. 如申請專利範圍第1項所述的機器學習方法,其中該稀疏編碼層在一全連接層前,該稀疏編碼層對該卷積層輸出的多個通道的多個卷積圖分別訓練該字典,並使用一稀疏非負編碼演算法(sparse non-negative coding algorithm)取得該字典的原子對應的一係數,再以一通道(channel-wise)投票對該字典的原子的隸屬類別進行分類。
  6. 如申請專利範圍第5項所述的機器學習方法,其中該稀疏編碼層使用一歸屬函數計算不同的該些通道對不同的該字典的原子的隸屬類別的一信任度,並根據該信任度進行該通道投票。
  7. 如申請專利範圍第6項所述的機器學習方法,其中該歸屬函數包括一真正向(true positive)參數及一真負向(true negative)參數。
  8. 如申請專利範圍第6項所述的機器學習方法,其中該歸屬函數包括一準確率(precision)參數及一召回(recall)參數。
  9. 如申請專利範圍第1項所述的機器學習方法,其中該稀疏編碼層包括一字典學習部分及一重建部分,當該字典學習部分的一殘留(residual)小於一門檻值時,該重建部分利用該字典及該字典的原子對應的一係數的乘積來輸出一重建資料。
  10. 如申請專利範圍第1項所述的機器學習方法,其中該稀疏編碼層根據該小批量的一特徵來更新該字典的原子。
  11. 一種機器學習裝置,包括: 一處理器;以及 一記憶體,耦接到該處理器,其中該處理器 接收一輸入訊號並對該輸入訊號進行正規化; 將正規化的該輸入訊號傳送到一卷積層;以及 將一稀疏編碼層加在該卷積層後, 其中該稀疏編碼層利用一字典的原子在通過該卷積層的正規化的該輸入訊號的一投影量重建一訊號,且該稀疏編碼層接收一小批量(mini-batch)輸入以更新該字典的原子。
  12. 如申請專利範圍第11項所述的機器學習裝置,其中該處理器 將該輸入訊號轉換為一時頻圖; 使用一多項式對該時頻圖進行一頻率強度的一擬合;以及 正規化該擬合結果的寬度並重新取樣。
  13. 如申請專利範圍第11項所述的機器學習裝置,其中該字典的原子對應的一係數為-1到1之間的實數。
  14. 如申請專利範圍第11項所述的機器學習裝置,其中該稀疏編碼層在一全連接層後,該處理器在該稀疏編碼層對經由一特徵向量集訓練出的該字典進行一稀疏非負編碼,並以具有一最小殘留或一最大係數的該字典的原子的隸屬類別進行分類。
  15. 如申請專利範圍第11項所述的機器學習裝置,其中該稀疏編碼層在一全連接層前,該處理器在該稀疏編碼層對該卷積層輸出的多個通道的多個卷積圖分別訓練該字典,並使用一稀疏非負編碼演算法取得該字典的原子對應的一係數,再以一通道投票對該字典的原子的隸屬類別進行分類。
  16. 如申請專利範圍第15項所述的機器學習裝置,其中該處理器在該稀疏編碼層使用一歸屬函數計算不同的該些通道對不同的該字典的原子的隸屬類別的一信任度,並根據該信任度進行該通道投票。
  17. 如申請專利範圍第16項所述的機器學習裝置,其中該歸屬函數包括一真正向參數及一真負向參數。
  18. 如申請專利範圍第16項所述的機器學習裝置,其中該歸屬函數包括一準確率參數及一召回參數。
  19. 如申請專利範圍第11項所述的機器學習裝置,其中該稀疏編碼層包括一字典學習部分及一重建部分,當該字典學習部分的一殘留小於一門檻值時,該處理器在該重建部分利用該字典及該字典的原子對應的一係數的乘積來輸出一重建資料。
  20. 如申請專利範圍第11項所述的機器學習裝置,其中該處理器在該稀疏編碼層根據該小批量的一特徵來更新該字典的原子。
TW107123670A 2018-07-09 2018-07-09 機器學習方法及機器學習裝置 TWI667576B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW107123670A TWI667576B (zh) 2018-07-09 2018-07-09 機器學習方法及機器學習裝置
US16/030,859 US11663462B2 (en) 2018-07-09 2018-07-10 Machine learning method and machine learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107123670A TWI667576B (zh) 2018-07-09 2018-07-09 機器學習方法及機器學習裝置

Publications (2)

Publication Number Publication Date
TWI667576B true TWI667576B (zh) 2019-08-01
TW202006612A TW202006612A (zh) 2020-02-01

Family

ID=68316392

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107123670A TWI667576B (zh) 2018-07-09 2018-07-09 機器學習方法及機器學習裝置

Country Status (2)

Country Link
US (1) US11663462B2 (zh)
TW (1) TWI667576B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116405100A (zh) * 2023-05-29 2023-07-07 武汉能钠智能装备技术股份有限公司 一种基于先验知识的失真信号还原方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019123544A1 (ja) * 2017-12-19 2019-06-27 オリンパス株式会社 データ処理方法およびデータ処理装置
CN114365180A (zh) 2019-11-29 2022-04-15 奥林巴斯株式会社 图像处理方法、学习装置以及图像处理装置
CN111507393B (zh) * 2020-04-14 2021-11-09 艾瑞思检测技术(苏州)有限公司 一种基于拉普拉斯特征映射学习的显卡接口机器测试方法
CN114091537A (zh) * 2021-11-22 2022-02-25 西安交通大学 一种变压器局部放电模式识别方法及系统
EP4586566A4 (en) * 2022-09-30 2025-10-29 Huawei Tech Co Ltd DATA COMPRESSION TRANSMISSION METHOD, APPARATUS, DEVICE AND STORAGE MEDIA
US12368503B2 (en) 2023-12-27 2025-07-22 Quantum Generative Materials Llc Intent-based satellite transmit management based on preexisting historical location and machine learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201729124A (zh) * 2015-05-21 2017-08-16 咕果公司 類神經網路處理器中之向量運算單元
US20180046916A1 (en) * 2016-08-11 2018-02-15 Nvidia Corporation Sparse convolutional neural network accelerator
US20180075581A1 (en) * 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
US20180082172A1 (en) * 2015-03-12 2018-03-22 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101146525B1 (ko) 2005-06-30 2012-05-25 엘지디스플레이 주식회사 기판 고정 지그 및 그 제조방법
US8768313B2 (en) 2009-08-17 2014-07-01 Digimarc Corporation Methods and systems for image or audio recognition processing
CN103971690A (zh) 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
WO2019199244A1 (en) * 2018-04-10 2019-10-17 Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ Filter design for small target detection on infrared imagery using normalized-cross-correlation layer in neural networks
US10969465B2 (en) * 2018-05-01 2021-04-06 Mitsubishi Electric Research Laboratories, Inc. Reference-free nonlinearity correction for FMCW-based sensing systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082172A1 (en) * 2015-03-12 2018-03-22 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
TW201729124A (zh) * 2015-05-21 2017-08-16 咕果公司 類神經網路處理器中之向量運算單元
US20180046916A1 (en) * 2016-08-11 2018-02-15 Nvidia Corporation Sparse convolutional neural network accelerator
US20180075581A1 (en) * 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116405100A (zh) * 2023-05-29 2023-07-07 武汉能钠智能装备技术股份有限公司 一种基于先验知识的失真信号还原方法
CN116405100B (zh) * 2023-05-29 2023-08-22 武汉能钠智能装备技术股份有限公司 一种基于先验知识的失真信号还原方法

Also Published As

Publication number Publication date
TW202006612A (zh) 2020-02-01
US20200012932A1 (en) 2020-01-09
US11663462B2 (en) 2023-05-30

Similar Documents

Publication Publication Date Title
TWI667576B (zh) 機器學習方法及機器學習裝置
Lin et al. Audio classification and categorization based on wavelets and support vector machine
Almaadeed et al. Speaker identification using multimodal neural networks and wavelet analysis
EP4198807A1 (en) Audio processing method and device
CN108536754A (zh) 基于blstm和注意力机制的电子病历实体关系抽取方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
Beckmann et al. Speech-vgg: A deep feature extractor for speech processing
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110879938A (zh) 文本情感分类方法、装置、设备和存储介质
Hariharan et al. Objective evaluation of speech dysfluencies using wavelet packet transform with sample entropy
CN109190521B (zh) 一种基于知识提纯的人脸识别模型的构建方法及应用
CN109977258A (zh) 图像和语音的跨模态检索分类器模型、检索系统和检索方法
CN114996453B (zh) 一种推荐进出口商品商品编码的方法、装置、电子设备
CN109545227A (zh) 基于深度自编码网络的说话人性别自动识别方法及系统
CN114220179A (zh) 一种基于faiss的在线手写签名笔迹检索方法和系统
CN119964600B (zh) 录音笔关键词声音识别方法、装置及设备
Palo et al. Comparative analysis of neural networks for speech emotion recognition
CN111274359A (zh) 基于改进vhred与强化学习的查询推荐方法及系统
CN114036289A (zh) 一种意图识别方法、装置、设备及介质
CN110246509B (zh) 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
CN116564315A (zh) 一种声纹识别方法、装置、设备及存储介质
CN115035916A (zh) 一种基于深度学习的含噪语音情感识别方法
CN112800813A (zh) 一种目标识别方法及装置
CN109617864A (zh) 一种网站识别方法及网站识别系统
Cekic et al. Self-supervised speaker recognition training using human-machine dialogues