TW201706918A

TW201706918A - 作爲供神經網路的訓練準則的濾波器特異性

Info

Publication number: TW201706918A
Application number: TW105107791A
Authority: TW
Inventors: 陶爾里根布萊斯
Original assignee: 高通公司
Priority date: 2015-04-28
Filing date: 2016-03-14
Publication date: 2017-02-16
Also published as: CN107533669A; WO2016175923A1; EP3289528B1; EP3289528A1; JP2018520404A; US10515304B2; CA2979046A1; KR20170140214A; CN107533669B; US20160321540A1; BR112017023028A2; BR112017023028B1

Abstract

一種訓練神經網路模型的方法包括在預定數目的訓練迭代之後決定多個濾波器的特異性。該方法亦包括基於該特異性來訓練該等濾波器中的每一個濾波器。

Description

作為供神經網路的訓練準則的濾波器特異性

【相關申請案的交叉引用】

本案根據專利法主張於2015年4月28日提出申請的名稱為「FILTER SPECIFICITY AS TRAINING CRITERION FOR NEURAL NETWORKS」的美國臨時專利申請案第62/154,089號的優先權，該臨時申請案的揭示內容以引用方式全文明確併入本案。

本案的某些態樣大體係關於神經系統工程，並且更特定言之係關於用於使用濾波器特異性作為用於神經網路的訓練準則的系統和方法。

可包括一群互連的人工神經元(例如，神經元模型)的人工神經網路是一種計算設備或者表示將由計算設備執行的方法。

迴旋神經網路是一種前饋人工神經網路。迴旋神經網路可包括神經元集合，其中每個神經元具有接受域並且共同地拼出一輸入空間。迴旋神經網路(CNN)具有眾多應用。特定地，CNN已被廣泛使用於模式辨識和分類領域。

深度學習架構(諸如，深度置信網路和深度迴旋網路)是分層神經網路架構，其中神經元的第一層的輸出變成神經元的第二層的輸入，神經元的第二層的輸出變成神經元的第三層的輸入，以此類推。深度神經網路可被訓練以辨識特徵階層並因此其被越來越多地用於物件辨識應用。類似於迴旋神經網路，該等深度學習架構中的計算可在處理節點群體上分發，其可被配置在一或多個計算鏈中。該等多層架構可每次訓練一層並可使用反向傳播微調。

其他模型亦可用於物件辨識。例如，支援向量機(SVM)是可被應用於分類的學習工具。支援向量機包括對資料進行分類的分開的超平面(例如，決策邊界)。該超平面由監督式學習定義。期望的超平面增加訓練資料的餘裕。換言之，超平面應該具有到訓練實例的最大的最小距離。

儘管該等解決方案在數個分類基準上取得了優異的結果，但其計算複雜度可能極其高。另外，模型的訓練是有挑戰性的。

在本案的一個態樣，揭示一種用於訓練神經網路模型的方法。該方法包括在預定數目的訓練迭代之後決定多個濾波器的特異性。該方法亦包括基於該特異性來訓練該等濾波器中的每一個濾波器。

本案的另一態樣係關於一種裝置，其包括用於在預定數目的訓練迭代之後決定多個濾波器的特異性的構件。該裝置亦包括用於基於該特異性來訓練該等濾波器中的每一個濾波器的構件。

在本案的另一態樣，一種非瞬態電腦可讀取媒體具有記錄於其上的非瞬態程式碼。該程式碼被處理器執行並且包括用於在預定數目的訓練迭代之後決定多個濾波器的特異性的程式碼。該程式碼亦包括用於基於該特異性來訓練該等濾波器中的每一個濾波器的程式碼。

本案的另一態樣係關於一種用於訓練神經網路模型的裝置，該裝置具有記憶體以及耦合至該記憶體的一或多個處理器。該處理器被配置成在預定數目的訓練迭代之後決定多個濾波器的特異性。該處理器亦被配置成基於該特異性來訓練該等濾波器中的每一個濾波器。

本案的額外特徵和優點將在下文描述。本領域技藝人士應該領會，本案可容易地被用作修改或設計用於實行與本案相同的目的的其他結構的基礎。本領域技藝人士亦應認識到，此種等效構造並不脫離所附請求項中所闡述的本案的教示。被認為是本案的特性的新穎特徵在其組織和操作方法兩方面連同進一步的目的和優點在結合附圖來考慮以下描述時將被更好地理解。然而，要清楚理解的是，提供每一幅附圖均僅用於圖示和描述目的，且無意作為對本案的限定的定義。

100‧‧‧晶片上系統(SOC)

102‧‧‧多核通用處理器(CPU)

104‧‧‧圖形處理單元(GPU)

106‧‧‧數位訊號處理器(DSP)

108‧‧‧神經處理單元(NPU)

110‧‧‧連通性區塊

112‧‧‧多媒體處理器

114‧‧‧感測器處理器

116‧‧‧ISP

118‧‧‧記憶體區塊

120‧‧‧導航

200‧‧‧系統

202‧‧‧局部處理單元

204‧‧‧局部狀態記憶體

206‧‧‧局部參數記憶體

208‧‧‧局部(神經元)模型程式(LMP)記憶體

210‧‧‧局部學習程式(LLP)記憶體

212‧‧‧局部連接記憶體

214‧‧‧配置處理器單元

216‧‧‧路由連接處理單元

300‧‧‧網路

302‧‧‧全連接的

304‧‧‧局部連接的

306‧‧‧迴旋網路

308‧‧‧被共享

310‧‧‧值

312‧‧‧值

314‧‧‧值

316‧‧‧值

318‧‧‧層/特徵圖

320‧‧‧層

322‧‧‧輸出

326‧‧‧新圖像

350‧‧‧深度迴旋網路

400‧‧‧軟體架構

402‧‧‧應用

404‧‧‧使用者空間

406‧‧‧應用程式設計介面(API)

408‧‧‧執行時引擎

410‧‧‧作業系統

412‧‧‧Linux核心

414‧‧‧驅動器

416‧‧‧驅動器

418‧‧‧驅動器

420‧‧‧SOC

422‧‧‧CPU

424‧‧‧DSP

426‧‧‧GPU

428‧‧‧NPU

500‧‧‧執行時操作

502‧‧‧智慧手機

504‧‧‧預處理模組

506‧‧‧圖像

508‧‧‧剪裁及/或調整

510‧‧‧分類應用

512‧‧‧場景偵測後端引擎

514‧‧‧預處理

516‧‧‧縮放

518‧‧‧剪裁

520‧‧‧深度神經網路區塊

522‧‧‧取閾

524‧‧‧指數平滑區塊

600‧‧‧流程圖

602‧‧‧圖像

604‧‧‧第一迴旋層

606‧‧‧第二迴旋層

608‧‧‧第三迴旋層

610‧‧‧預測標記

702‧‧‧弱濾波器集合

704‧‧‧強濾波器集合

800‧‧‧濾波器

802‧‧‧第一濾波器

804‧‧‧第二濾波器

808‧‧‧第一濾波器

810‧‧‧第二濾波器

812‧‧‧第三濾波器

814‧‧‧第11濾波器

816‧‧‧第46濾波器

900‧‧‧濾波器集合

904‧‧‧第43濾波器

906‧‧‧第64濾波器

1000‧‧‧濾波器集合

1002‧‧‧濾波器

1004‧‧‧濾波器

1006‧‧‧濾波器

1008‧‧‧濾波器

1010‧‧‧濾波器

1012‧‧‧濾波器

1100‧‧‧方法

1102‧‧‧方塊

1104‧‧‧方塊

1200‧‧‧流程圖

1202‧‧‧方塊

1204‧‧‧方塊

1206‧‧‧方塊

1208‧‧‧方塊

1210‧‧‧方塊

1212‧‧‧方塊

在結合附圖理解下文闡述的詳細描述時，本案的特徵、本質和優點將變得更加明顯，在附圖中，相同元件符號始終作相應標識。

圖1圖示根據本案的一些態樣的使用晶片上系統(SOC)(包括通用處理器)來設計神經網路的示例實施。

圖2圖示根據本案的各態樣的系統的示例實施。

圖3A是圖示根據本案的各態樣的神經網路的示圖。

圖3B是圖示根據本案的各態樣的示例性深度迴旋網路(DCN)的方塊圖。

圖4是圖示根據本案的各態樣的可將人工智慧(AI)功能模組化的示例性軟體架構的方塊圖。

圖5是圖示根據本案的各態樣的智慧手機上AI應用的執行時操作的方塊圖。

圖6是圖示用於後向傳播的一般程序的流程圖。

圖7至圖10圖示根據本案的各態樣的各種訓練迭代之後的濾波器的實例。

圖11和圖12是圖示根據本案的各態樣的用於訓練濾波器的方法的流程圖。

以下結合附圖闡述的詳細描述意欲作為各種配置的描述，而無意表示可實踐本文中所描述的概念的僅有的配置。本詳細描述包括特定細節以便提供對各種概念的透徹理解。然而，對於本領域技藝人士將顯而易見的是，沒有該等特定細節亦可實踐該等概念。在一些實例中，以方塊圖形式圖示眾所周知的結構和部件以避免湮沒此類概念。

基於本教示，本領域技藝人士應領會，本案的範疇意欲覆蓋本案的任何態樣，不論其是與本案的任何其他態樣相獨立地還是組合地實施的。例如，可以使用所闡述的任何數目的態樣來實施裝置或實踐方法。另外，本案的範疇意欲覆蓋使用作為所闡述的本案的各個態樣的補充或者與之不同的其他結構、功能性，或者結構及功能性來實踐的此類裝置或方法。應當理解，所揭示的本案的任何態樣可由請求項的一或多個元素來體現。

措辭「示例性」在本文中用於表示「用作示例、實例或說明」。本文中描述為「示例性」的任何態樣不必被解釋為優於或勝過其他態樣。

儘管本文描述了特定態樣，但該等態樣的眾多變體和置換落在本案的範疇之內。儘管提到了優選態樣的一些益處和優點，但本案的範疇並非意欲被限定於特定益處、用途或目標。相反，本案的各態樣意欲能寬泛地應用於不同的技術、系統配置、網路和協定，其中一些作為實例在附圖以及以下對優選態樣的描述中圖示。詳細描述和附圖僅僅圖示本案而非限定本案，本案的範疇由所附請求項及其等效技術方案來定義。

對於神經網路及/或其他系統而言，濾波器可被用來決定輸入的內容。例如，可向音訊輸入應用濾波器以決定是否存在特定語音。在另一實例中，可向圖像應用濾波器以決定該圖像中是否存在特定物體，諸如汽車。在一些情形中，當訓練集較小、模型過大，及/或訓練集包括誤差時，濾波器的品質可被降低。具有降低品質的濾波器可被稱為弱濾波器。弱濾波器或者部分學習的濾波器可能不提供被指定以決定輸入的內容的區別性基礎。

因此，本案的各態樣係關於改進濾波器的品質。特定而言，在一種配置中，在訓練神經網路模型時，在預定數目的訓練迭代之後決定一或多個濾波器的特異性。此外，在該配置中，網路基於該特異性決定是否要繼續訓練每個濾波器。

圖1圖示了根據本案的某些態樣使用晶片上系統(SOC)100進行前述的網路訓練的示例實施，SOC 100可包括通用處理器(CPU)或多核通用處理器(CPU)102。與計算設備(例如，具有權重的神經網路)相關聯的變數(例如，神經信號和突觸權重)、系統參數，延遲，頻率槽資訊和任務資訊可被儲存在與神經處理單元(NPU)108相關聯的記憶體區塊中或專用記憶體區塊118中。在通用處理器102處執行的指令可從與CPU 102相關聯的程式記憶體載入或可從專用記憶體區塊118載入。

SOC 100亦可包括為特定功能定製的額外處理區塊(諸如圖形處理單元(GPU)104、數位訊號處理器(DSP)106、連通性區塊110(其可包括第四代長期進化(4G LTE)連通性、未授權Wi-Fi連通性、USB連通性、藍芽連通性等))以及例如可偵測和辨識姿勢的多媒體處理器112。SOC 100亦可包括感測器處理器114、圖像信號處理器(ISP)，及/或導航120(其可包括全球定位系統)。SOC可基於ARM指令集。

SOC 100亦可包括為特定功能定製的額外處理區塊(諸如GPU 104、DSP 106、連通性區塊110(其可包括第四代長期進化(4G LTE)連通性、未授權Wi-Fi連通性、USB連通性、藍芽連通性等))以及例如可偵測和辨識姿勢的多媒體處理器112。在一種實施中，NPU實施在CPU、DSP，及/或GPU中。SOC 100亦可包括感測器處理器114、圖像信號處理器(ISP)，及/或導航120(其可包括全球定位系統)。

SOC 100可基於ARM指令集。在本案的一態樣，被載入到通用處理器102中的指令可包括用於在預定數目的訓練迭代之後決定多個濾波器的特異性的代碼。被載入到通用處理器102中的指令亦可包括用於至少部分地基於該特異性來訓練該多個濾波器中的每一個濾波器的代碼。

圖2圖示根據本案的某些態樣的系統200的示例實施。如圖2中所圖示的，系統200可具有多個可執行本文所描述的方法的各種操作的局部處理單元202。每個局部處理單元202可包括局部狀態記憶體204和可儲存神經網路的參數的局部參數記憶體206。另外，局部處理單元202可具有用於儲存局部模型程式的局部(神經元)模型程式(LMP)記憶體208、用於儲存局部學習程式的局部學習程式(LLP)記憶體210、以及局部連接記憶體212。此外，如圖2中所圖示的，每個局部處理單元202可與用於為該局部處理單元的各局部記憶體提供配置的配置處理器單元214對接，並且與提供各局部處理單元202之間的路由連接處理單元216對接。

深度學習架構可藉由學習在每一層中以逐次更高的抽象程度來表示輸入、藉此構建輸入資料的有用特徵表示來執行物件辨識任務。以此方式，深度學習解決了傳統機器學習的主要瓶頸。在深度學習出現之前，用於物件辨識問題的機器學習辦法可能嚴重依賴人類工程設計的特徵，或許與淺分類器相結合。淺分類器可以是兩類線性分類器，例如，其中可將特徵向量分量的加權和與闡值作比較以預測輸入屬於哪一類。人類工程設計的特徵可以是由擁有領域專業知識的工程師針對特定問題領域定製的模版或核心。相反，深度學習架構可學習以表示與人類工程師可能會設計的相似的特徵，但其是經由訓練來學習的。另外，深度網路可以學習以表示和辨識人類可能尚未考慮過的新類型的特徵。

深度學習架構可以學習特徵階層。例如，若向第一層呈遞視覺資料，則第一層可學習以辨識輸入串流中的相對簡單的特徵(諸如邊)。在另一實例中，若向第一層呈遞聽覺資料，則第一層可學習以辨識特定頻率中的頻譜功率。取第一層的輸出作為輸入的第二層可以學習以辨識特徵組合，諸如對於視覺資料辨識簡單形狀或對於聽覺資料辨識聲音組合。例如，更高層可學習以表示視覺資料中的複雜形狀或聽覺資料中的詞語。再高層可學習以辨識常見視覺物件或口語短語。

深度學習架構在被應用於具有自然階層結構的問題時可能表現特別好。例如，機動交通工具的分類可受益於首先學習以辨識輪子、擋風玻璃、以及其他特徵。該等特徵可在更高層以不同方式被組合以辨識轎車、卡車和飛機。

神經網路可被設計成具有各種連通性模式。在前饋網路中，資訊從較低層被傳遞到較高層，其中給定層之每一者神經元向更高層中的神經元進行傳達。如前述，可在前饋網路的相繼層中構建階層式表示。神經網路亦可具有回流或回饋(亦被稱為自頂向下(top-down))連接。在回流連接中，來自給定層中的神經元的輸出可被傳達給相同層中的另一神經元。回流架構可有助於辨識跨越大於一個按順序遞送給該神經網路的輸入資料塊的模式。從給定層中的神經元到較低層中的神經元的連接被稱為回饋(或自頂向下)連接。當高層級概念的辨識可輔助辨別輸入的特定低層級特徵時，具有許多回饋連接的網路可能是有助益的。

參照圖3A，神經網路的各層之間的連接可以是全連接的(302)或局部連接的(304)。在全連接網路302中，第一層中的神經元可將其的輸出傳達給第二層之每一者神經元，從而第二層之每一者神經元將從第一層之每一者神經元接收輸入。替代地，在局部連接網路304中，第一層中的神經元可連接至第二層中有限數目的神經元。迴旋網路306可以是局部連接的，並且被進一步配置成使得與針對第二層中每個神經元的輸入相關聯的連接強度被共享(例如，308)。更一般化地，網路的局部連接層可被配置成使得一層之每一者神經元將具有相同或相似的連通性模式，但其連接強度可具有不同的值(例如，310、312、314和316)。局部連接的連通性模式可能在更高層中產生空間上相異的接受域，此是由於給定區域中的更高層神經元可接收到經由訓練被調諧為到網路的總輸入的受限部分的性質的輸入。

局部連接的神經網路可能非常適合於其中輸入的空間位置有意義的問題。例如，被設計成辨識來自車載相機的視覺特徵的網路300可發展具有不同性質的高層神經元，此取決於其與圖像下部關聯還是與圖像上部關聯。例如，與圖像下部相關聯的神經元可學習以辨識車道標記，而與圖像上部相關聯的神經元可學習以辨識交通訊號燈、交通標誌等。

DCN可以用受監督式學習來訓練。在訓練期間，DCN可被呈遞圖像(諸如限速標誌的經裁剪圖像326)，並且可隨後計算「前向傳遞(forward pass)」以產生輸出322。輸出322可以是對應於特徵(諸如「標誌」、「60」和「100」)的值向量。網路設計者可能希望DCN在輸出特徵向量中針對其中一些神經元輸出高得分，例如與經訓練的網路300的輸出322中所示的「標誌」和「60」對應的彼等神經元。在訓練之前，DCN產生的輸出很可能是不正確的，並且由此可計算實際輸出與目標輸出之間的誤差。DCN的權重可隨後被調整以使得DCN的輸出得分與目標更緊密地對準。

為了調整權重，學習演算法可為權重計算梯度向量。該梯度可指示在權重被略微調整情況下誤差將增加或減少的量。在頂層，該梯度可直接對應於連接倒數第二層中的活化神經元與輸出層中的神經元的權重的值。在較低層中，該梯度可取決於權重的值以及所計算出的較高層的誤差梯度。權重可隨後被調整以減小誤差。此種調整權重的方式可被稱為「反向傳播」，因為其涉及在神經網路中的「反向傳遞(backward pass)」。

在實踐中，權重的誤差梯度可能是在少量實例上計算的，從而計算出的梯度近似於真實誤差梯度。此種近似方法可被稱為隨機梯度下降法。隨機梯度下降法可被重複，直到整個系統可達成的誤差率已停止下降或直到誤差率已達到目標水平。

在學習之後，DCN可被呈遞新圖像326並且在網路中的前向傳遞可產生輸出322，其可被認為是該DCN的推斷或預測。

深度置信網路(DBN)是包括多層隱藏節點的機率性模型。DBN可被用於提取訓練資料集的階層式表示。DBN可經由堆疊多層受限波爾茲曼機(RBM)來獲得。RBM是一類可在輸入集上學習機率分佈的人工神經網路。由於RBM可在沒有關於每個輸入應該被分類到哪個類的資訊的情況下學習機率分佈，因此RBM經常被用於無監督式學習。使用混合無監督式和受監督式範式，DBN的底部RBM可按無監督方式被訓練並且可以用作特徵提取器，而頂部RBM可按受監督方式(在來自先前層的輸入和目標類的聯合分佈上)被訓練並且可用作分類器。

深度迴旋網路(DCN)是迴旋網路的網路，其配置有額外的池化和正規化層。DCN已在許多工上達成現有最先進的效能。DCN可使用受監督式學習來訓練，其中輸入和輸出目標兩者對於許多典範是已知的並被用於藉由使用梯度下降法來修改網路的權重。

DCN可以是前饋網路。另外，如前述，從DCN的第一層中的神經元到下一更高層中的神經元群的連接跨第一層中的神經元被共享。DCN的前饋和共用連接可被利用於進行快速處理。DCN的計算負擔可比例如類似大小的包括回流或回饋連接的神經網路小得多。

迴旋網路的每一層的處理可被認為是空間不變模版或基礎投影。若輸入首先被分解成多個通道，諸如彩色圖像的紅色、綠色和藍色通道，則在該輸入上訓練的迴旋網路可被認為是三維的，其具有沿著該圖像的軸的兩個空間維度以及捕捉顏色資訊的第三維度。迴旋連接的輸出可被認為在後續層318和320中形成特徵圖，該特徵圖(例如，320)之每一者元素從先前層(例如，318)中一定範圍的神經元以及從該多個通道中的每一個通道接收輸入。特徵圖中的值可以用非線性(諸如矯正)max(0,x)進一步處理。來自毗鄰神經元的值可被進一步池化(此對應於降取樣)並可提供額外的局部不變性以及維度縮減。亦可經由特徵圖中神經元之間的側向抑制來應用正規化，其對應於白化。

深度學習架構的效能可隨著有更多被標記的資料點變為可用或隨著計算能力提高而提高。現代深度神經網路用比僅僅十五年前可供典型研究者使用的計算資源多數千倍的計算資源來例行地訓練。新的架構和訓練範式可進一步推升深度學習的效能。經矯正的線性單元可減少被稱為梯度消失的訓練問題。新的訓練技術可減少過度擬合(over-fitting)並因此使更大的模型能夠達成更好的普遍化。封裝技術可抽象出給定的接受域中的資料並進一步提升整體效能。

圖3B是圖示示例性深度迴旋網路350的方塊圖。深度迴旋網路350可包括多個基於連通性和權重共享的不同類型的層。如圖3B所示，該示例性深度迴旋網路350包括多個迴旋區塊(例如，C1和C2)。每個迴旋區塊可配置有迴旋層、正規化層(LNorm)和池化層。迴旋層可包括一或多個迴旋濾波器，其可被應用於輸入資料以產生特徵圖。儘管僅圖示兩個迴旋區塊，但本案不限於此，而是，根據設計偏好，任何數目的迴旋區塊可被包括在深度迴旋網路350中。正規化層可被用於對迴旋濾波器的輸出進行正規化。例如，正規化層可提供白化或側向抑制。池化層可提供在空間上的降取樣聚集以實現局部不變性和維度縮減。

例如，深度迴旋網路的平行濾波器組可任選地基於ARM指令集被載入到SOC 100的CPU 102或GPU 104上以達成高效能和低功耗。在替代實施例中，平行濾波器組可被載入到SOC 100的DSP 106或ISP 116上。另外，DCN可存取其他可存在於SOC上的處理區塊，諸如專用於感測器114和導航120的處理區塊。

深度迴旋網路350亦可包括一或多個全連接層(例如，FC1和FC2)。深度迴旋網路350可進一步包括邏輯回歸(LR)層。深度迴旋網路350的每一層之間是要被更新的權重(未圖示)。每一層的輸出可以用作深度迴旋網路350中後續層的輸入以從第一迴旋區塊C1處提供的輸入資料(例如，圖像、音訊、視訊、感測器資料及/或其他輸入資料)學習階層式特徵表示。

圖4是圖示可使人工智慧(AI)功能模組化的示例性軟體架構400的方塊圖。使用該架構，應用402可被設計成可使得SOC 420的各種處理區塊(例如CPU 422、DSP 424、GPU 426及/或NPU 428)在該應用402的執行時操作期間執行支援計算。

AI應用402可配置成調用在使用者空間404中定義的功能，例如，該等功能可提供對指示該裝置當前操作位置的場景的偵測和辨識。例如，AI應用402可取決於辨識出的場景是辦公室、報告廳、餐館、還是室外環境(諸如湖泊)而以不同方式配置話筒和相機。AI應用402可向與在場景偵測應用程式設計介面(API)406中定義的庫相關聯的經編譯器代碼作出請求以提供對當前場景的估計。該請求可最終依賴於配置成基於例如視訊和定位資料來提供場景估計的深度神經網路的輸出。

執行時引擎408(其可以是執行時框架的經編譯代碼)可進一步可由AI應用402存取。例如，AI 應用402可使得執行時引擎請求特定的時間間隔的場景估計或由應用的使用者介面偵測到的事件觸發的場景估計。在使得執行時引擎估計場景時，執行時引擎可進而發送信號給在SOC 420上執行的作業系統410(諸如Linux核心412)。作業系統410進而可使得在CPU 422、DSP 424、GPU 426、NPU 428，或其某種組合上執行計算。CPU 422可被作業系統直接存取，而其他處理區塊可經由驅動器(諸如用於DSP 424、GPU 426，或NPU 428的驅動器414-418)被存取。在示例性實例中，深度神經網路可被配置成在處理區塊的組合(諸如CPU 422和GPU 426)上執行，或可在NPU 428(若存在)上執行。

圖5是圖示智慧手機502上的AI應用的執行時操作500的方塊圖。AI應用可包括預處理模組504，該預處理模組504可被配置(例如，使用JAVA程式設計語言被配置)成轉換圖像506的格式並隨後對該圖像進行剪裁及/或調整大小(508)。經預處理的圖像可接著被傳達給分類應用510，該分類應用510包含場景偵測後端引擎512，該場景偵測後端引擎512可被配置(例如，使用C程式設計語言被配置)成基於視覺輸入來偵測和分類場景。場景偵測後端引擎512可被配置成進一步藉由縮放(516)和剪裁(518)來預處理(514)該圖像。例如，該圖像可被縮放和剪裁以使所得到的圖像是224像素×224像素。該等維度可映射到神經網路的輸入維度。神經網路可由深度神經網路區塊520配置以使得SOC 100的各種處理區塊進一步借助深度神經網路來處理圖像像素。深度神經網路的結果可隨後被取閾(522)並被傳遞經由分類應用510中的指數平滑區塊524。經平滑的結果可接著使得智能手機502的設置及/或顯示改變。

在一種配置中，機器學習模型被配置成用於：在預定數目的訓練迭代之後決定多個濾波器的特異性；及至少部分地基於該特異性來訓練該多個濾波器中的每一個濾波器。該模型包括決定構件及/或訓練構件。在一個態樣，決定構件及/或訓練構件可以是配置成執行所敘述功能的通用處理器102、與通用處理器102相關聯的程式記憶體、記憶體區塊118、局部處理單元202，及/或路由連接處理單元216。在另一種配置中，前述構件可以是被配置成執行由前述構件所敘述的功能的任何模組或任何裝置。

根據本案的某些態樣，每個局部處理單元202可被配置成基於模型的一或多個期望功能特徵來決定模型的參數，以及隨著所決定的參數被進一步適配、調諧和更新來使該一或多個功能特徵朝著期望的功能特徵發展。

濾波器特異性作為用於神經網路的訓練準則

在一般系統中，可指定濾波器來修改及/或增強輸入，諸如圖像。另外，濾波器可被用來決定輸入中是否存在特定元素。例如，濾波器可決定在圖像的3 x 3像素部分中是否存在水平線。因此，系統可藉由應用各種類型的濾波器來決定輸入中是否存在特定內容。相應地，各種濾波器可被用來對輸入進行分類。本案的各態樣關於作為輸入的圖像來描述。儘管如此，本案的各態樣不限於圖像並且構想了其他類型的輸入，諸如音訊、視訊、感測器資料及/或其他輸入資料。

在一般系統中，迴旋可被指定用於圖像的線性濾波。特定而言，迴旋輸出是輸入像素的加權和。權重矩陣可被稱為迴旋核心或濾波器。迴旋可藉由線性化圖像和線性化濾波器的矩陣相乘來獲得。

另外，一般神經網路將後向傳播用於訓練。後向傳播對於每個輸入值使用已知輸出以計算損耗函數梯度(亦即，誤差)。亦即，指定後向傳播以從網路的可修改權重計算網路的誤差的梯度。在大多數情形中，梯度被用來決定減少誤差的濾波器的權重。

圖6圖示用於後向傳播的流程圖600的實例。在該實例中，圖像的已知輸出(亦即，標記)是貓。因此，該標記被設為貓並且預測標記應當為貓。此外，貓的圖像602被輸入到第一迴旋層604。第一迴旋層604將迴旋的結果輸出到第二迴旋層606。此外，第二迴旋層606將迴旋的結果輸出到第三迴旋層608。最終，從第三迴旋層608輸出預測標記610。當然，本案的各態樣並不限於三個迴旋層並且可依須求指定更多或更少的迴旋層。

圖像的標記可被表示為向量。例如，基於圖6的實例，用於貓和狗的標記可以是諸如(1,0)之類的向量，以使得1是用於貓的向量並且0是用於狗的向量。此外，作為實例，基於網路的訓練，網路可關於輸入圖像為貓具有50%的置信度。該置信度可被稱為預測機率。亦即，關於貓的預測標記輸出可以為0.5。因此，關於該貓的誤差是1與0.5之差(亦即，(1-0.5))的函數。此外，基於訓練，網路可關於輸入圖像為狗具有20%的置信度。因此，關於狗的預測標記輸出可以為0.2。因此，關於狗的誤差是0與0.2之差(亦即，(0-0.2))的函數。

誤差函數被用來基於標記與預測標記之差來訓練網路。特定而言，可如下決定誤差：誤差=f(標記-預測標記) (1)

誤差函數基於以輸入圖像為基礎的網路置信度輸出(output)。此外，基於所計算的誤差(諸如，關於貓的0.5)，濾波器的權重根據下式來調整：

式2和3是一般後向傳播等式。在式2和3中，w _ij是神經元i和j之間的權重。此外，如式2中所示，誤差(error)的偏導數相對於濾波器的權重(w _ij)來計算。式2的右側基於一般鏈規則。為了使用梯度下降來更新權重(w _ij)，選擇學習速率α。如式3中所示，被添加到舊權重w _ij的權重改變△w _ij等於學習速率和梯度的乘積乘以-1。指定-1以更新誤差函數的最小值而非最大值的方向。

基於式3，若濾波器的權重較高並且該權重對誤差作出了貢獻，則該權重與較低且未對誤差作出貢獻的權重相比可被減小較大量。另外，基於式3，若誤差的偏導數為非零，則更新濾波器。

在大部分情形中，由於誤差函數是全域函數，因此網路的個體權重被忽視，只要該誤差被減小使得預測標記是準確的。全域函數可被用來產生各種特定濾波器。如先前所論述的，當訓練集較小、模型過大，及/或訓練集包括差錯時，可獲得弱濾波器。

圖7圖示了弱濾波器集合702與強濾波器集合704對照。如圖7所示，弱濾波器702不具有明確的清晰度。例如，弱濾波器702中的每一個被一般化且不具有良好定義的輪廓。相反，強濾波器704的清晰度大於弱濾波器702的清晰度，從而各個線和角是可見的。強濾波器704改進了對輸入的特定特徵的偵測，諸如圖像中是否存在一或多條水平線。

作為實例，網路可被分配在狗和貓之間進行區分的任務。在該實例中，可能存在有限數目的訓練取樣或者訓練中的誤差。例如，可能僅針對白貓和黑狗的圖像來訓練濾波器。因此，在該實例中，濾波器可因有限的訓練取樣而被一般化為各種灰色陰影。因此，在該實例中，灰階濾波器可在黑狗和白貓之間進行區分。儘管如此，灰階濾波器可能不在不同顏色的貓和狗(諸如褐色狗或橙色貓)之間進行區分。因此，減輕對例如因有限數目的訓練取樣及/或訓練中的誤差而較弱的濾波器的使用是合乎期望的。儘管如此，訓練取樣中的誤差可能是未知的。例如，真實世界訓練集的偏差可能是未知或受限的。特定而言，來自行動設備的訓練集可被限制為僅僅使用者所捕捉的圖像。

為了減輕因受限訓練集及/或訓練中的誤差而導致的較弱濾波器，本案的各態樣涉及基於從後向傳播計算出的誤差來訓練網路以及基於濾波器特異性來訓練網路。濾波器特異性代表濾波器的強度。

濾波器的特異性可基於各種因素(諸如權重的分佈)來計算。在一種配置中，濾波器特異性基於熵Σ_i p(w _i)log₂ p(w _i)來量測。熵是濾波器中像素差異的量測。在另一配置中，濾波器特異性基於從原始值的變化 Σ_i w _i(t)-w _i(t ₀)來量測。在又一配置中，濾波器特異性基於權重值的方差來量測。在又一種配置中，濾波器特異性基於與其他濾波器的差異來量測。在另一配置中，濾波器特異性基於與其他濾波器的互相關來量測。在前述等式中，w是濾波器權重。儘管已列出若干度量，但本案意欲涵蓋任何相似度量。

此外，在一種配置中，為濾波器特異性指定誤差項。例如，濾波器特異性誤差可經由1/(濾波器特異性)來計算。在該實例中，若濾波器特異性較低，則誤差較大。替代地，若濾波器特異性較高，則誤差較低。

因此，基於本案的各態樣，訓練被指定為除獲得具有改進特異性的濾波器之外亦輸出正確標記。亦即，本案的各態樣涉及獲得因各個特徵而異的濾波器。

圖8圖示了從第一訓練迭代(曆元1)訓練的濾波器800以及第90次訓練迭代(曆元90)之後相同濾波器800的實例。訓練迭代有時可被稱為訓練輪次。在該實例中，資料集可具有特定數目的圖像，諸如一萬。訓練使用來自資料集的圖像以基於權重更新等式(式3)來調整濾波器的權重。可在對來自資料集的特定數目的圖像(諸如一百個圖像)進行訓練之後調整濾波器的權重。因此，在該實例中，基於一萬個圖像和在一百個圖像之後更新權重，權重將在每個曆元期間被調整一百次。

如圖8所示，在第一訓練輪次時，每個濾波器具有特定熵。例如，第一濾波器802具有2.006的熵並且第二濾波器804具有2.018的熵。第一訓練輪次中的濾波器從低熵到高熵來排序。此外，如圖8所示，每個濾波器的熵在第90個訓練輪次(曆元90)之後被修改。第90個訓練輪次中的濾波器從低熵到高熵來排序。應注意，由於曆元1和曆元90中的濾波器均從低熵到高熵排序，因此相同濾波器在每幅圖中不具有相同的位置。亦即，曆元1的第一濾波器808可能是或者可能不是曆元90的第一濾波器808。換言之，曆元1的第一濾波器802相比於相鄰濾波器可具有熵的較大改變，從而曆元1的第一濾波器802例如可以是曆元90的第11濾波器814。

更特定地，在第一訓練輪次時，濾波器是隨機化的。此外，在某一數目(諸如90)的訓練輪次之後，當濾波器不基於特異性來調整時，一些濾波器具有高特異性，而其他濾波器具有低特異性。在該實例中，特異性是基於濾波器的熵來決定的。

如圖8所示，在約90個訓練輪次之後，曆元90的濾波器的熵得到增大。仍然，一些濾波器可能在訓練輪次之間具有很小改變。例如，曆元90的第二濾波器810具有2.494的熵並且曆元90的第三濾波器812具有2.584的熵。因此，第二濾波器810和第三濾波器812的熵自初始訓練輪次起具有很小的改變。

如先前所論述的，本案的各態樣不限於僅基於熵來決定濾波器的特異性。特異性亦可經由其他計算來決定。

另外，如先前所論述的，使精細的濾波器決定物件的特定特徵是合乎期望的。例如，曆元90的第11濾波器814具有由較低熵表示的低精細水平。因此，曆元90的第11濾波器814可能僅向後續層添加額外雜訊。相反，曆元90的第46濾波器816具有較高熵並且包括關於水平線的細節。因此，第46濾波器816可決定圖像中是否存在水平線。

在一些情形中，在減小來自後向傳播的誤差的同時改進濾波器特異性是合乎期望的。可為後向傳播指定聯合成本函數以決定來自後向傳播的總誤差。在一種配置中，聯合成本函數是標記誤差和濾波器特異性的函數的求和。例如，聯合成本函數為(標記誤差+1/(濾波器特異性))。亦即，誤差函數用濾波器的特異性的合計量測來擴增。聯合成本函數可基於網路中所有濾波器特異性的總計量測或者可以是基於層的。另外，期望減小訓練期間的總誤差。因此，在一種配置中，若基於誤差計算出的權重導致低濾波器特異性，則改變濾波器權重以改進濾波器特異性。

在另一配置中，具有特定特異性的濾波器的訓練被終止以降低計算成本。亦即，具有大於或等於閾值的特異性的濾波器的學習被停止，從而濾波器的權重不再被更新。

圖9圖示了用於訓練的濾波器集合900的實例。第33訓練輪次(曆元33)的濾波器從低熵到高熵來排序。如圖9所示，在曆元33的濾波器900中，第43濾波器904具有4.2的熵，並且第64濾波器906具有4.1078的熵。此外，如圖9所示，曆元90的濾波器900基於第90訓練輪次從低熵到高熵排序。在曆元90的濾波器900中，第38濾波器908具有4.151的熵，並且第57濾波器910具有4.550的熵。第38濾波器908的熵和第57濾波器910的熵均大於閾值。因此，在該實例中，第38濾波器908和第57濾波器910的訓練可被終止以降低計算成本。該閾值可以是預定的及/或基於訓練結果來調整。

另外或替代地，在一種配置中，網路可隨時間推移監視濾波器的特異性。作為實例，如圖9所示，來自曆元33的第43濾波器904和曆元90的第38濾波器908相關。另外，如圖9所示，曆元33的第64濾波器906和曆元90的第57濾波器910相關。

如圖9所示，曆元33的第43濾波器904和第64濾波器906的熵尚未被增大或減小超過第33輪次和第90輪次之間的特定閾值。因此，在該實例中，在濾波器的特異性大於閾值後，隨時間推移監視特異性的改變。相應地，在特異性的改變隨時間推移小於閾值時，濾波器的訓練可被終止以降低計算成本。

在又一配置中，基於目標網路複雜度來選擇濾波器以進行訓練。目標網路複雜度可以基於記憶體規範(諸如，被指定用於網路的記憶體量)及/或功率規範(諸如，被指定用於網路的計算功率量)。在該配置中，可基於所決定的複雜度來訓練特定數目的濾波器。該特定數目的濾波器可以在基於濾波器特異性終止對一或多個濾波器的訓練之前被選擇或者在基於濾波器特異性終止對一或多個濾波器的訓練之後被選擇。

另外或替代地，基於目標網路複雜度，網路可對特定濾波器進行優先順序排序以繼續訓練。該優先順序排序可以在基於濾波器特異性終止對一或多個濾波器的訓練之前執行或者在基於濾波器特異性終止對一或多個濾波器的訓練之後執行。

在另一配置中，在基於濾波器特異性終止對一或多個濾波器的訓練之前或者在基於濾波器特異性終止對一或多個濾波器的訓練之後，濾波器可基於每個濾波器的特異性而被優先順序排序。該優先順序排序可被用來決定可被應用於輸入的濾波器。此外，根據本案的一個態樣，可基於目標網路複雜度從經優先順序排序的濾波器中選擇數個濾波器。

在又一配置中，在預定數目的訓練輪次之後，具有小於閾值的特異性的濾波器可從訓練中消除。圖10圖示了90個訓練輪次之後的濾波器集合1000的實例。如圖10所示，濾波器基於熵從低到高來排序。在該實例中，頭六個濾波器1002-1012具有小於閾值(諸如，3)的熵。因此，由於濾波器1002-1012的熵小於3，因此頭六個濾波器1002-1012被從訓練中消除。另外，由於弱濾波器可向輸入添加額外雜訊，因此從訓練中移除的濾波器可不被應用於輸入。

圖11圖示了訓練神經網路模型的方法1100。在方塊1102，在預定數目的訓練迭代之後決定多個濾波器的特異性。在方塊1104，基於該特異性來訓練該等濾波器中的每一個濾波器。

圖12圖示了用於訓練神經網路模型的流程圖1200。在方塊1202處，發起對多個濾波器的訓練。如先前所論述的，濾波器可被用來決定輸入中是否存在特定元素。此外，可使用後向傳播來訓練濾波器。另外，在方塊1204，神經網路模型在預定數目的訓練迭代之後決定該多個濾波器的特異性。此外，在方塊1206，神經網路模型基於所決定的特異性來決定是否要繼續訓練濾波器。

在一種配置中，若濾波器的所決定特異性大於閾值，則網路停止訓練該濾波器(方塊1208)。另外或替代地，當預定數目的訓練迭代之後特定濾波器的特異性的改變小於閾值時，網路停止訓練該濾波器(方塊1208)。在另一配置中，如方塊1210中所示，當預定數目的訓練迭代之後特定濾波器的特異性小於閾值時，從神經網路模型中消除濾波器(方塊1210)。

在另一配置中，可基於所決定的指定繼續對濾波器的訓練。例如，若特異性大於第一閾值並小於第二閾值，則訓練可繼續。另外或替代地，當預定數目的訓練迭代之後特定濾波器的特異性的改變大於第一閾值並且小於第二閾值時，網路繼續訓練該濾波器(方塊1212)。

以上所描述的方法的各種操作可由能夠執行相應功能的任何合適的構件來執行。該等構件可包括各種硬體及/或軟體部件及/或模組，包括但不限於電路、特殊應用積體電路(ASIC)，或處理器。一般而言，在附圖中有圖示的操作的場合，彼等操作可具有帶相似編號的相應配對手段功能部件。

如本文所使用的，術語「決定」涵蓋各種各樣的動作。例如，「決定」可包括演算、計算、處理、推導、研究、檢視(例如，在表、資料庫或其他資料結構中檢視)、探知及諸如此類。另外，「決定」可包括接收(例如接收資訊)、存取(例如存取記憶體中的資料)，及類似動作。而且，「決定」可包括解析、選擇、選取、確立及類似動作。

如本文所使用的，引述一列項目中的「至少一個」的短語是指該等項目的任何組合，包括單個成員。作為實例，「a、b或c中的至少一個」意欲涵蓋：a、b、c、a-b、a-c、b-c、以及a-b-c。

結合本案所描述的各種說明性邏輯區塊、模組、以及電路可用設計成執行本文所描述功能的通用處理器、數位訊號處理器(DSP)、特殊應用積體電路(ASIC)、現場可程式設計閘陣列信號(FPGA)或其他可程式設計邏輯設備(PLD)、個別閘門或電晶體邏輯、個別的硬體部件或其任何組合來實施或執行。通用處理器可以是微處理器，但在替代方案中，處理器可以是任何市售的處理器、控制器、微控制器，或狀態機。處理器亦可以被實施為計算設備的組合，例如DSP與微處理器的組合、複數個微處理器、與DSP核心協同的一或多個微處理器，或任何其他此類配置。

結合本案所描述的方法或演算法的步驟可直接在硬體中、在由處理器執行的軟體模組中，或在該兩者的組合中體現。軟體模組可常駐在本領域所知的任何形式的儲存媒體中。可使用的儲存媒體的一些實例包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快閃記憶體、可抹除可程式設計唯讀記憶體(EPROM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、暫存器、硬碟、可移除磁碟、CD-ROM，等等。軟體模組可包括單一指令，或許多指令，且可分佈在若干不同的程式碼片段上，分佈在不同的程式間以及跨多個儲存媒體分佈。儲存媒體可被耦合到處理器以使得該處理器能從/ 向該儲存媒體讀寫資訊。在替代方案中，儲存媒體可以被整合到處理器。

本文所揭示的方法包括用於實現所描述的方法的一或多個步驟或動作。該等方法步驟及/或動作可以彼此互換而不會脫離請求項的範疇。換言之，除非指定了步驟或動作的特定次序，否則特定步驟及/或動作的次序及/或使用可以改動而不會脫離請求項的範疇。

所描述的功能可在硬體、軟體、韌體或其任何組合中實施。若以硬體實施，則示例硬體設定可包括設備中的處理系統。處理系統可以用匯流排架構來實施。取決於處理系統的特定應用和整體設計約束，匯流排可包括任何數目的互連匯流排和橋接器。匯流排可將包括處理器、機器可讀取媒體、以及匯流排介面的各種電路連結在一起。匯流排介面可用於尤其將網路介面卡等經由匯流排連接至處理系統。網路介面卡可用於實施信號處理功能。對於某些態樣，使用者介面(例如，小鍵盤、顯示器、滑鼠、操縱桿，等等)亦可以被連接到匯流排。匯流排亦可以連結各種其他電路，諸如時序源、周邊設備、穩壓器、功率管理電路以及類似電路，其在本領域中是眾所周知的，因此將不再進一步描述。

處理器可負責管理匯流排和一般處理，包括執行儲存在機器可讀取媒體上的軟體。處理器可用一或多個通用及/或專用處理器來實施。實例包括微處理器、微控制器、DSP處理器、以及其他能執行軟體的電路系統。軟體應當被寬泛地解釋成意指指令、資料，或其任何組合，無論是被稱作軟體、韌體、中間軟體、微代碼、硬體描述語言，或其他。作為實例，機器可讀取媒體可包括隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可程式設計唯讀記憶體(PROM)、可抹除可程式設計唯讀記憶體(EPROM)、電可抹除可程式設計唯讀記憶體(EEPROM)、暫存器、磁碟、光碟、硬驅動器，或者任何其他合適的儲存媒體，或其任何組合。機器可讀取媒體可被體現在電腦程式產品中。該電腦程式產品可以包括包裝材料。

在硬體實施中，機器可讀取媒體可以是處理系統中與處理器分開的一部分。然而，如本領域技藝人士將容易領會的，機器可讀取媒體或其任何部分可在處理系統外部。作為實例，機器可讀取媒體可包括傳輸線、由資料調制的載波，及/或與設備分開的電腦產品，所有該等皆可由處理器經由匯流排介面來存取。替代地或補充地，機器可讀取媒體或其任何部分可被整合到處理器中，諸如快取記憶體及/或通用暫存器檔可能就是此種情形。儘管所論述的各種部件可被描述為具有特定位置，諸如局部部件，但其亦可按各種方式來配置，諸如某些部件被配置成分散式運算系統的一部分。

處理系統可以被配置為通用處理系統，該通用處理系統具有一或多個提供處理器功能性的微處理器、以及提供機器可讀取媒體中的至少一部分的外部記憶體，其皆經由外部匯流排架構與其他支援電路系統連結在一起。替代地，該處理系統可以包括一或多個神經元形態處理器以用於實施本文所述的神經元模型和神經系統模型。作為另一替代方案，處理系統可以用帶有整合在單塊晶片中的處理器、匯流排介面、使用者介面、支援電路系統和至少一部分機器可讀取媒體的特殊應用積體電路(ASIC)來實施，或者用一或多個現場可程式設計閘陣列(FPGA)、可程式設計邏輯設備(PLD)、控制器、狀態機、閘控邏輯、個別硬體部件，或者任何其他合適的電路系統，或者能執行本案通篇所描述的各種功能性的電路的任何組合來實施。取決於特定應用和加諸於整體系統上的總設計約束，本領域技藝人士將認識到如何最佳地實施關於處理系統所描述的功能性。

機器可讀取媒體可包括數個軟體模組。該等軟體模組包括當由處理器執行時使處理系統執行各種功能的指令。該等軟體模組可包括傳送模組和接收模組。每個軟體模組可以常駐在單個儲存設備中或者跨多個儲存設備分佈。作為實例，當觸發事件發生時，可以從硬驅動器中將軟體模組載入到RAM中。在軟體模組執行期間，處理器可以將一些指令載入到快取記憶體中以提高存取速度。隨後可將一或多個快取記憶體行載入到通用暫存器檔中以供處理器執行。在以下述及軟體模組的功能性時，將理解此類功能性是在處理器執行來自該軟體模組的指令時由該處理器來實施的。

若以軟體實施，則各功能可作為一或多數指令或代碼儲存在電腦可讀取媒體上或藉其進行傳送。電腦可讀取媒體包括電腦儲存媒體和通訊媒體兩者，該等媒體包括促進電腦程式從一地向另一地轉移的任何媒體。儲存媒體可以是能被電腦存取的任何可用媒體。作為實例而非限定，此類電腦可讀取媒體可包括RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存設備，或能用於攜帶或儲存指令或資料結構形式的期望程式碼且能被電腦存取的任何其他媒體。另外，任何連接亦被正當地稱為電腦可讀取媒體。例如，若軟體是使用同軸電纜、光纖電纜、雙絞線、數位用戶線(DSL)，或無線技術(諸如紅外(IR)、無線電、以及微波)從web網站、伺服器，或其他遠端源傳送而來，則該同軸電纜、光纖電纜、雙絞線、DSL或無線技術(諸如紅外、無線電、以及微波)就被包括在媒體的定義之中。如本文中所使用的磁碟(disk)和光碟(disc)包括壓縮光碟(CD)、鐳射光碟、光碟、數位多功能光碟(DVD)、軟碟和藍光^®光碟，其中磁碟(disk)常常磁性地再現資料，而光碟(disc)用鐳射來光學地再現資料。因此，在一些態樣，電腦可讀取媒體可包括非瞬態電腦可讀取媒體(例如，有形媒體)。另外，對於其他態樣，電腦可讀取媒體可包括瞬態電腦可讀取媒體(例如，信號)。上述的組合應當亦被包括在電腦可讀取媒體的範圍內。

因此，一些態樣可包括用於執行本文中提供的操作的電腦程式產品。例如，此類電腦程式產品可包括其上儲存(及/或編碼)有指令的電腦可讀取媒體，該等指令能由一或多個處理器執行以執行本文中所描述的操作。對於一些態樣，電腦程式產品可包括包裝材料。

此外，應當領會，用於執行本文中所描述的方法和技術的模組及/或其他合適構件能由使用者終端及/或基地台在適用的場合下載及/或以其他方式獲得。例如，此類設備能被耦合至伺服器以促進用於執行本文中所描述的方法的構件的轉移。替代地，本文所述的各種方法能經由儲存構件(例如，RAM、ROM、諸如壓縮光碟(CD)或軟碟等實體儲存媒體等)來提供，以使得一旦將該儲存構件耦合至或提供給使用者終端及/或基地台，該設備就能獲得各種方法。此外，可利用適於向設備提供本文所描述的方法和技術的任何其他合適的技術。

將理解，請求項並不被限定於以上所圖示的精確配置和部件。可在以上所描述的方法和裝置的佈局、操作和細節上作出各種改動、更換和變形而不會脫離請求項的範疇。

1100‧‧‧方法

1102‧‧‧方塊

1104‧‧‧方塊

Claims

一種訓練神經網路模型的方法，包括以下步驟：在一預定數目的訓練迭代之後決定複數個濾波器的一特異性；及至少部分地基於該特異性來訓練該複數個濾波器中的每一個濾波器。
如請求項1所述之方法，進一步包括以下步驟：至少部分地基於該特異性決定是否要繼續對每一個濾波器的訓練。
如請求項2所述之方法，進一步包括以下步驟：在該複數個濾波器中的一特定濾波器的特異性大於一閾值時，停止對該特定濾波器的訓練。
如請求項2所述之方法，進一步包括以下步驟：當該預定數目的訓練迭代之後一特定濾波器的一特異性的一改變小於一閾值時，停止對該特定濾波器的訓練。
如請求項2所述之方法，進一步包括以下步驟：當該預定數目的訓練迭代之後一特定濾波器的一特異性小於一閾值時，從該神經網路模型中消除該特定濾波器。
如請求項5所述之方法，進一步包括以下步驟：在消除該特定濾波器之後繼續對該神經網路模型的訓練。
如請求項1所述之方法，其中該特異性至少部分地基於熵、從原始值的改變、方差權重值、與其他濾波器的差異、與其他濾波器的互相關，或者其組合。
如請求項1所述之方法，其中在一誤差函數用該複數個濾波器的該特異性的一池化量測擴增時訓練該神經網路模型。
如請求項1所述之方法，進一步包括以下步驟：至少部分地基於記憶體規範、功率規範或其組合來決定該神經網路模型的一目標複雜度。
如請求項9所述之方法，其中至少部分地基於以下各項來選擇性地訓練濾波器：所決定的目標複雜度、至少部分地基於該所決定的目標複雜度對要訓練的濾波器進行優先順序排序，或者其組合。
如請求項1所述之方法，進一步包括以下步驟：至少部分地基於該複數個濾波器中的每一個濾波器的特異性來對要應用於一輸入的濾波器進行優先順序排序；及至少部分地基於該神經網路模型的一目標複雜度來選擇數個經優先順序排序的濾波器。
如請求項11所述之方法，其中該目標複雜度至少部分地基於記憶體規範、功率規範或其組合。
一種用於訓練一神經網路模型的裝置，包括：一記憶體單元；及至少一個處理器，其耦合至該記憶體單元，該至少一個處理器被配置成：在一預定數目的訓練迭代之後決定複數個濾波器的一特異性；及至少部分地基於該特異性來訓練該複數個濾波器中的每一個濾波器。
如請求項13所述之裝置，其中該至少一個處理器被進一步配置成至少部分地基於該特異性決定是否要繼續對每一個濾波器的訓練。
如請求項14所述之裝置，其中該至少一個處理器被進一步配置成在該複數個濾波器中的該特定濾波器的該特異性大於一閾值時，停止對該特定濾波器的訓練。
如請求項14所述之裝置，其中該至少一個處理器被進一步配置成當該預定數目的訓練迭代之後一特定濾波器的一特異性的一改變小於一閾值時，停止對該特定濾波器的訓練。
如請求項14所述之裝置，其中該至少一個處理器被進一步配置成當該預定數目的訓練迭代之後一特定濾波器的一特異性小於一閾值時，從該神經網路模型中消除該特定濾波器。
如請求項17所述之裝置，其中該至少一個處理器被進一步配置成在消除該特定濾波器之後繼續對該神經網路模型的訓練。
如請求項13所述之裝置，其中該特異性至少部分地基於熵、從原始值的改變、方差權重值、與其他濾波器的差異、與其他濾波器的互相關，或者其組合。
如請求項13所述之裝置，其中該至少一個處理器被進一步配置成在一誤差函數用該複數個濾波器的一特異性的一池化量測擴增時訓練該神經網路模型。
如請求項13所述之裝置，其中該至少一個處理器被進一步配置成至少部分地基於記憶體規範、功率規範或其組合來決定該神經網路模型的一目標複雜度。
如請求項21所述之裝置，其中該至少一個處理器被進一步配置成至少部分地基於以下各項來選擇性地訓練濾波器：所決定的目標複雜度、至少部分地基於該所決定的目標複雜度對要訓練的濾波器進行優先順序排序，或者其組合。
如請求項13所述之裝置，其中該至少一個處理器被進一步配置成：至少部分地基於該複數個濾波器中的每一個濾波器的特異性來對要應用於一輸入的濾波器進行優先順序排序；及至少部分地基於該神經網路模型的一目標複雜度來選擇數個經優先順序排序的濾波器。
如請求項23所述之裝置，其中該目標複雜度至少部分地基於記憶體規範、功率規範或其組合。
一種訓練一神經網路模型的裝置，包括：用於在一預定數目的訓練迭代之後決定複數個濾波器的一特異性的構件；及用於至少部分地基於該特異性來訓練該複數個濾波器中的每一個濾波器的構件。
如請求項25所述之裝置，進一步包括，用於至少部分地基於該特異性決定是否要繼續對每一個濾波器的訓練的構件。
如請求項26所述之裝置，進一步包括，用於在該複數個濾波器中的一特定濾波器的特異性大於一閾值時，停止對該特定濾波器的訓練的構件。
如請求項26所述之裝置，進一步包括，用於當該預定數目的訓練迭代之後一特定濾波器的一特異性的一改變小於一閾值時，停止對該特定濾波器的訓練的構件。
如請求項26所述之裝置，進一步包括，用於當該預定數目的訓練迭代之後一特定濾波器的一特異性小於一閾值時，從該神經網路模型中消除該特定濾波器的構件。
如請求項29所述之裝置，進一步包括，用於在消除該特定濾波器之後繼續對該神經網路模型的訓練的構件。
如請求項25所述之裝置，其中該特異性至少部分地基於熵、從原始值的改變、方差權重值、與其他濾波器的差異、與其他濾波器的互相關，或者其組合。
一種用於訓練一神經網路模型的非瞬態電腦可讀取媒體，該電腦可讀取媒體具有記錄於其上的程式碼，該程式碼由一處理器執行並且包括：在一預定數目的訓練迭代之後決定複數個濾波器的一特異性；及至少部分地基於該特異性來訓練該複數個濾波器中的每一個濾波器。