TWI764081B

TWI764081B - 組合多個全局描述符以用於圖像檢索的框架

Info

Publication number: TWI764081B
Application number: TW109101190A
Authority: TW
Inventors: 高秉秀; 全希宰; 金鍾澤; 金永俊; 金仁植
Original assignee: 南韓商納寶股份有限公司
Priority date: 2019-03-22
Filing date: 2020-01-14
Publication date: 2022-05-11
Also published as: KR102262264B1; TW202036329A; KR20200112574A

Abstract

本發明公開組合多個全局描述符以進行圖像檢索的框架。通過電腦系統實現的用於圖像檢索的框架包括：主模組，對從卷積神經網路（convolution neural network，CNN）提取的互不相同的多個全局描述符（global descriptor）進行級聯（concatenate）來學習；以及輔助模組，用於進一步學習多個上述全局描述符中的一個特定的全局描述符。

Description

組合多個全局描述符以用於圖像檢索的框架

以下說明涉及用於圖像檢索的深度學習模型的框架。

基於卷積神經網路（CNN）的圖像描述符在包括分類（classification）、對象檢測（object detection）、語義分割（semantic segmentation）在內的電腦視覺技術中被用作普通的描述符。此外，還用於圖像字幕（image captioning）和視覺問題應答（visual question answering）等非常有意義的研究中。

應用基於CNN的圖像描述符的近年來的研究適用於即時級圖像檢索，上述即時級圖像檢索適用依賴於局部描述符匹配（local descriptor matching）的現有方法，並通過空間驗證（spatial verification）重新排序。

圖像檢索（image retrieval）領域中可將CNN之後的結果為池化（平均池化（average pooling）、最大池化（max pooling）、廣義平均池化（generalized mean pooling）等）的特徵用作全局描述符（global descriptor）。並且，可在卷積層（convolution layers）之後，增加FC層（fully connected layers）來將通過FC層呈現的特徵用作全局描述符。在此情況下，FC層用於減小維度（dimensionality），在無需減小維度的情況下，可以省略FC層。

作為一例，韓國授權專利第10-1917369號（登記日：2018年11月05日）公開了利用卷積神經網路的影像檢索技術。

通過全局池化方法（global pooling method）生成的典型的全局描述符包括卷積的池化和（sum pooling of convolution，SPoC）、最大卷積啟動（maximum activation of convolution， MAC）以及廣義平均池（generalized-mean pooling，GeM）。由於每個全局描述符的屬性不同，因而其性能根據數據集而發生變化。例如，SPoC在圖像表示上啟動更大的區域，相反的，MAC啟動更多的集中區域。為了增強功能而存在加權和池（weighted sum pooling）、加權值GeM、區域MAC（regional MAC ，R-MAC）等典型的全局描述符的變形。

近年來的研究側重於用於圖像檢索的組合技術（ensemble techniques）。如果存在單獨教育多個學習者（learner）並使用經組合的模型組合來提高性能的現有組合技術，那麼近年來則存在多種通過組合單獨接受教育的方法全局描述符來提高檢索性能的方式。換言之，當前，在圖像檢索領域中，通過組合（ensemble）不同的CNN骨幹（backbone）模型和全局描述符來使用，以提高檢索性能。

但是，若為了組合而顯性訓練不同的學習者（CNN骨幹模型或全局描述符），則不僅導致訓練時間變長、記憶體消耗量增加，而且由於需要特殊設計的策略或損失以控制學習者之間的多樣性（diversity），從而導致訓練過程繁瑣且困難。

[發明所欲解決之問題] 提供能夠以單一模型一次性學習不同的全局描述符來使用的深度學習模型框架。

提供可通過應用多個全局描述符（global descriptor）來獲得與組合等同的效果，而無需顯性訓練多個學習者（learners）或控制學習者之間的多樣性（diversity）的方法。 [解決問題之技術手段]

提供用於圖像檢索的框架，通過電腦系統實現，其中，包括：主模組，對從卷積神經網路（convolution neural network， CNN）提取的互不相同的多個全局描述符（global descriptor）進行級聯（concatenate）來學習；以及輔助模組，用於進一步學習多個上述全局描述符中的一個特定的全局描述符。

根據一實施方式，上述主模組為用於圖像表示（image representation）的排序損失（ranking loss）的學習模組，上述輔助模組為用於上述圖像表示的分類損失（classification loss）的學習模組，以端到端（end-to-end）方式且利用作為上述排序損失與上述分類損失之和的最終損失來訓練上述用於圖像檢索的框架。

根據再一實施方式，上述CNN作為提供給定圖像的特徵圖的骨幹（backbone）網，在上述骨幹網的最後階段（stage）之前不進行向下採樣（down sampling）。

根據又一實施方式，上述主模組在對多個上述全局描述符進行歸一化（normalization）之後通過級聯來將其形成為一個最終的全局描述符，並可通過排序損失（ranking loss）來學習上述最終的全局描述符。

根據又一實施方式，上述主模組包括通過使用多個上述全局描述符來輸出每個圖像表示的多個分支（branch），上述分支的數量可根據所要使用的全局描述而改變。

根據又一實施方式，上述輔助模組可利用分類損失來對多個上述全局描述符中的基於學習性能來確定的上述特定的全局描述符進行學習。

根據又一實施方式，上述輔助模組在利用分類損失來進行學習時，可利用標籤平滑（label smoothing）和溫度定標（temperature scaling）技術中的至少一種。

提供描述符學習方法，在電腦系統上執行，其中，上述電腦系統包括至少一個處理器，上述至少一個處理器執行包含在記憶體中的多個電腦可讀指令，上述描述符學習方法包括：主要學習步驟，級聯從CNN提取的互不相同的多個全局描述符來利用排序損失進行學習；以及輔助學習步驟，利用分類損失進一步學習多個上述全局描述符中的一個特定的全局描述符。

提供非暫時性電腦可讀記錄介質，其中，存儲有用於在上述電腦系統上執行上述描述符學習方法的電腦程式。 [對照先前技術之功效]

根據本發明的實施例，通過適用用於組合多個全局描述符的新的框架，即，由能夠以端到端方式訓練的多個全局描述符組合而成的多個全局描述符組合（combination of multiple global descriptors，CGD），從而可實現與組合等同的效果，而無需對全局描述符使用顯性組合模型或進行多樣性控制。其通過全局描述符、CNN骨幹、損失及數據集而具有靈活且可擴展的特性，由於使用組合描述符的方法可使用其他類型的特徵，因而不僅相對於單一全局描述符具有優異的性能，而且可提高圖像檢索性能。

以下，參照附圖來詳細說明本發明的實施例。

本發明的實施例涉及用於圖像檢索的深度學習模型的框架，尤其，涉及對用於圖像檢索的多個全局描述符進行的技術。

包含本說明書中具體公開的內容的實施例提出通過應用能夠以端到端方式訓練的多個全局描述符來獲得與組合等同的效果的框架，由此在靈活性、擴展性、縮短時間、節省成本、檢索性能等方面，實現顯著的優點。

圖1為用於說明本發明一實施例的電腦系統的內部結構的一例的框圖。例如，本發明實施例的描述符學習系統可通過圖1的電腦系統100實現。如圖1所示，電腦系統100作為用於執行描述符學習方法的結構要素，可包括處理器110、記憶體120，永久性存儲裝置130、匯流排140、輸入/輸出介面150及網路介面160。

處理器110作為用於學習描述符的結構要素，可以包括可處理多個指令的序列的任何裝置，或者是該裝置的一部分。處理器110可以包括例如電腦處理器、移動裝置或其他電子裝置中的處理器和/或數字處理器。處理器110可以包括在例如，伺服器計算設備、伺服器電腦、一系列伺服器電腦、伺服器場、雲電腦、內容平臺等。處理器110可通過匯流排140級聯到記憶體120。

記憶體120可以包括用於存儲由電腦系統100使用或由電腦系統100輸出的資訊的易失性記憶體、永久性、虛擬或其他記憶體。記憶體120可以包括例如隨機存取記憶體（random access memory ，RAM）和/或動態RAM（dynamic RAM ，DRAM）。記憶體120可以用於存儲電腦系統100的狀態資訊等任何資訊。記憶體120還可用於存儲包含例如用於學習描述符的多個指令的電腦系統100的多個指令。電腦系統100可根據需要或在適當的情況下包括一個以上的處理器110。

匯流排140可以包括使得能夠在電腦系統100的多種組件之間進行交互的通信基礎結構。匯流排140可以在例如電腦系統100的多個組件之間、在例如處理器110與記憶體120之間傳輸數據。匯流排140可以包括電腦系統100的多個組件之間的無線和/或有線通信介質，並且可以包括並行、串行或其他拓撲排列。

永久性存儲裝置130（例如，相對於記憶體120）可以包括諸如由電腦系統100使用以在規定的擴展時間記憶體儲數據的諸如記憶體或其他永久性存儲裝置等多個組件。永久性存儲裝置130可以包括諸如由電腦系統100內的處理器110使用的非易失性主記憶體。永久性存儲裝置130可以包括例如快閃記憶體、硬碟、光碟或其他電腦可讀介質。

輸入/輸出介面150可以包括鍵盤、滑鼠、語音指令輸入、顯示器或其他輸入或輸出裝置的介面。可以通過輸入/輸出介面150接收用於配置指令和/或學習描述符的輸入。

網路介面160可以包括諸如局域網或網際網路之類的網路的介面。網路介面160可以包括有線或無線級聯的介面。可以通過網路介面160接收用於配置指令和/或學習描述符的輸入。

並且，在其他實施例中，電腦系統100也可包括比圖1的結構要素更多的結構要素。但是，無需明確示出大多數現有技術性結構要素。例如，電腦系統100可以實現為包括與上述輸入/輸出介面150級聯的多個輸入/輸出裝置中的至少一部分，或者還可以包括諸如收發器（transceiver）、全球定位系統（Global Positioning System， GPS）模組、攝像機、各種感測器、資料庫等其他結構要素。

本發明的實施例涉及能夠以單一模型一次性學習不同的全局描述符來使用的深度學習模型框架。

在近年來的圖像檢索研究中，基於深度CNN的全局描述符比諸如尺度不變特徵轉換（Scale Invariant Feature Transform， SIFT）之類的現有技術具有更完整的特徵。SPoC是CNN的最後特徵圖中的和池（sum pooling）。MAC是另一種強大的描述符，而R-MAC在執行區域中的最大值池化之後最後相加區域內MAC描述符。GeM使用池參數推廣最大池及平均值池。其他全局描述符方法包括加權和池(weighted sum pooling)、加權值GeM、多尺度R-MAC (Multiscale R-MAC)等。

在一些研究中，試圖使用附加策略（additional strategy）或注意機制（attention mechanism）來最大化特徵圖中重要特徵的啟動，或提出批量特性擦除（BFE）策略，該策略可強制網路優化其他區域的特徵表示。並且，還應用同時優化特徵表示並具有平滑像素和難以關注區域的模型。上述技術的缺點是不僅可能增加網路大小和訓練時間，而且還需要額外參數以用於訓練。

換言之，近年來對圖像檢索工作的研究是組合不同的模型合組合多個全局描述符，但是，為了這種組合而訓練不同的模型不僅困難，而且在時間或存儲方面效率低下。

在本實施例中，提出可在能夠以端到端方式訓練的期間內，通過應用多個全局描述符來獲得與組合等同的效果的新的框架。本發明的框架通過全局描述符、CNN骨幹、損失及數據集而具有靈活且可擴展的特性。並且，本發明的框架僅需要擁有訓練的幾種附加參數，而不需要附加策略或注意機制。

組合是通過訓練多個學習者來提高結果，並從經訓練的學習者獲得經組合的結果的眾所周知的技術，其在過去幾十年廣泛使用於圖像檢索。但是，現有的組合技術的缺點在於，隨著模型複雜性的增加而導致計算成本增加，並且為了計算學習者之間的多樣性而需要進一步的控制。

本發明的框架在不控制多樣性的情況下能夠以端到端方式訓練時應用組合技術的思想。

圖2示出本發明一實施例的用於圖像檢索的多個全局描述符組合（combination of multiple global descriptors，CGD）的框架。

本發明的CGD框架200可通過上述中所描述的電腦系統100來實現，可作為用於學習描述符的結構要素來包含在處理器110中。

參照圖2，CGD框架200可由CNN骨幹網201和作為2個模組的主模組210及輔助模組220構成。

在此情況下，主模組210執行對圖像表示（image representation）進行學習的功能，由用於排序損失（ranking loss）的多個全局描述符的組合形成。並且，輔助模組220執行通過分類損失（classification loss）微調CNN的功能。

能夠以端到端方式來通過作為來自主模組210的排序損失和來自輔助模組220的分類損失之和的最終損失訓練CGD框架200。 1．CNN骨幹網201

可將所有CNN模型用作CNN骨幹網201。CGD框架200可以使用諸如BN-Inception、ShuffleNet-v2、ResNet以及其他變形模型之類的CNN骨幹，例如，如圖2所示，可將ResNet-50用作CNN骨幹網201。

作為一例，CNN骨幹網201可以利用由4個階段形成的網路，在此情況下，為了能夠在最後特徵圖（feature map）中保存更多的資訊，可通過放棄階段3（stage3）與階段4（stage4）之間的向下採樣操作來修改相應的網路。由此，為224×224的輸入大小提供大小為14×14的特徵圖，因而可提高個別全局描述符的性能。換言之，為了提高全局描述符的性能，在ResNet-50的階段3（stage3）之後和最後階段（stage4）之前不進行向下採樣以包含更多的資訊。 2. 主模組210：多個全局描述符

主模組210從CNN骨幹網201的最後特徵圖中通過多個特徵聚合（feature aggregation）方法來提取全局描述符並與FC層歸一化（normalization）。

從主模組210提取的全局描述符被級聯（concatenate），並經過歸一化可形成一個最終的全局描述符，在此情況下，最終的全局描述符通過排序損失在實例級別（instance level）被學習。其中，排序損失可以由用於度量學習（metric learning）的損失代替，代表性地可使用三元組（triplet）損失。

詳細地，主模組210包括多個分支（branch），上述分支用於在最後卷積層使用不同的全局描述符來輸出每個圖像表示。作為一例，主模組210包括卷積的池化和（sum pooling of convolution，SPoC）、最大卷積啟動（maximum activation of convolution， MAC）、廣義平均池（generalized-mean pooling，GeM），並在每個分支中使用最為典型的全局描述符的三種類型。

可以增加或減少主模組210中包括的分支的數量，並且可根據用戶的需求變形及組合所要使用的全局描述符。

當給定圖像I時，最後卷積層輸出為C×H×W維的3D張量（tensor）

，其中，C是特徵圖的數量。將

假設是特徵圖

的 H×W啟動集。則網路輸出由2D特徵圖的C通道構成。全局描述符將

用作輸入，作為池化過程的輸出來生成向量

。這種池化方法可以泛化成如數學公式1。 [數學公式1]

當

時，將SPoC定義為

，當

時，將SPoC定義為

，在剩餘情況下，將GeM定義為

。在GeM的情況下，可使用通過實驗固定的

參數3，根據實施例，可由用戶手動設置參數

，或者可以學習參數

本身。

通過FC層的維的減小及通過

-歸一化（normalization）層的歸一化來生成第i個分支的輸出特徵向量

。 [數學公式2]

當

時，

可以是分支數，

可以是FC層的加權值，當

時，全局描述符

可以是SPoC，當

時，可以是MAC，當

時，可以是GeM。

本發明的CGD框架200的被稱為組合描述符

的最終特徵向量通過級聯多種分支的輸出特徵向量來依次進行

-歸一化。 [數學公式3]

當

時，

為級聯（concatenation）。

可在任何類型的排序損失中訓練這種組合描述符，作為一例，代表性地使用批次硬三元組損失(batch-hard triplet loss)。

CGD框架200中組合多個全局描述符，這具有兩種優點。第一，可以僅通過幾種附加參數來帶來與組合等同的效果。如之前所提及的研究，獲得組合效果，但為了能夠以端到端方式對其進行訓練，CGD框架200從單個CNN骨幹網201提取多個全局描述符。第二，對每個分支的輸出自動提供其他屬性，而無需多樣性控制。近年來的研究中提出為鼓勵學習者之間的多樣性而專門設計的損失，CGD框架200不需要為控制多個分支之間的多樣性而專門設計的損失。

通過實驗，可比較全局描述符的多個組合的性能來找出描述符組合。但是，根據每個數據的輸出特徵維，存在性能差異不大的情況。例如，若SPoC 1536維和768維的性能差異不大，則相對於SPoC 1536維（單個全局描述符），可使用SPoC 768維＋GeM 768維（多個全局描述符）的組合獲得更好的性能。 3. 輔助模組220：分類損失

輔助模組220可利用分類損失來學校從主模組210的第一全局描述符輸出的圖像表示，以在嵌入的分類級別（categorical level）進行學習。在此情況下，當利用分類損失進行學習時，為了提高性能，可適用標籤平滑（label smoothing）和溫度定標（temperature scaling）技術。

換言之，輔助模組220利用輔助分類損失來基於主模組210的第一全局描述符微調CNN骨幹。輔助模組220可以利用分類損失來對由主模組210所包括的全局描述符中的第一全局描述符呈現的圖像表示進行學習。這遵循由兩個步驟構成的訪問方法，該方法與分類損失一同微調CNN骨幹來改善卷積濾波器，之後通過微調網路來改善全局描述符的性能。

CGD框架200修改了這種訪問方式，使得具有用於端到端訓練的僅一次的步驟。具有輔助分類損失的訓練可以實現等級之間具有分離屬性的圖像表示，並且相對於僅使用排序損失，有助於更快且更穩定地訓練網路。

柔性最大值交叉熵損失（softmax loss）中的溫度定標和標籤平滑有助於分類損失訓練，柔性最大值損失定義為數學公式4。 [數學公式4]

其中，

、

、

分別表示批量大小、類數及第i個輸入的ID標籤。

和

分別是可訓練的加權值和偏差（bias）。並且，

為第一分支的全局描述符，其中

為默認值（default value）1的溫度參數。

在數學公式4中，使用溫度參數

的溫度定標將更大的梯度（gradient）分配給更難的例子，對於類內的緊湊及類之間擴展嵌入很有用。標籤平滑通過加強模型來推定訓練中的標籤丟失的邊際效果，從而改善泛化性。因此，為了防止過度擬合併學習更好的嵌入方法，在輔助分類損失中追加標籤平滑和溫度定標。

可以通過每個全局描述符的性能來確定用於計算分類損失的第一全局描述符。作為一例，所要使用於組的多個全局描述符用作單個分支來進行學習之後，可將其中性能最佳的全局描述符用作用於計算分類損失的第一全局描述符。例如，若分別學習SPoC、MAC、GeM的結果其性能為GeM>SPoC>MAC，則GeM＋MAC的組合具有比MAC＋GeM的組合呈現出更優異的性能的傾向，因而可考慮這一點來將GeM用作用於計算分類損失的全局描述符。 4.框架結構

CGD框架200可根據全局描述符分支的數量來擴展，根據全局描述符的結構而允許其他類型的網路。例如，使用3個全局描述符（SPoC、MAC、GeM），針對輔助分類損失單獨使用最初的全局描述符，因而可構成12種可行的配置。

為了便於說明，將SPoC簡稱為S、將MAC簡稱為M、將GeM簡稱為G，符號中的第一個字母表示用於輔助分類損失的第一全局描述符。CGD框架200可從一個CNN骨幹網201提取三種全局描述符S、M、G，在此情況下，可基於全局描述符S、M、G來進行如下12種配置：S、M、G、SM、MS、SG、GS、MG、GM、SMG、MSG、GSM。組合所有全局描述符來在排序損失進行學習，只有第一全局描述符在分類損失進行附加學習。例如，在SMG的情況下，只有全局描述符S在分類損失進行附加學習，所有S、M及G被組合（SM、MS、SG、GS、MG、GM、SMG、MSG、GSM）而在排序損失學習。

因此，與單獨學習多種模型以組合多個全局描述符的現有方法不同，本發明可通過以端到端方式僅學習一個模型來獲得與組合等同的效果。現有方法通過為進行組合而單獨製造的損失來進行多樣性控制，而本方法可在沒有多樣性控制的情況下獲得與組合等同的效果。根據本發明，可將最終的全局描述符用於圖像檢索，根據需要，可以使用級聯（concatenate）之前的多個圖像表示，以使用更小的維。可以根據用戶需求使用方法全局描述符，可調節全局描述符的數量來擴展及縮小模型。

上述CGD框架200的實例如下。

作為用於圖像檢索的數據集，利用文獻“C. Wah，S. Branson，P. Welinder，P. Perona，and S. Belongie.The caltech-ucsd birds-200-2011 dataset. 2011.”中使用的數據集（CUB200）以及文獻“J. Krause，M. Stark，J. DenG，and L. Fei-Fei. 3d object representations for fine-grained categorization. In Proceedings of the IEEE International Conference on Computer Vision WorkshopS、pages 554–561，2013.”中使用的數據集（CARS196）來評價本發明的CGD框架200。在CUB200和CARS196的情況下，使用具有邊界框（bounding box）資訊的剪切影像。

所有實驗在具有24GB記憶體的Tesla P40 GPU使用MXNet來進行。並且，MXNet GluonCV的mageNet ILSVRC預定加權值一同使用BNInception、ShuffleNet-v2、ResNet-50、SEResNet-50。所有實驗均使用224×224的輸入大小和1536維的嵌入。在訓練步驟中，將輸入影像的大小調整為252×252，並任意剪切為224×224之後，朝水準方向隨機翻轉。使用學習速度為1e-4的Adam優化器，當調整學習速度時，使用逐步衰減。在所有實驗中，三元組(triplet)損失的餘量

為0.1，柔性最大值損失的溫度

為0.5。所有數據集使用128個批量大小，每個類的CARS196、CUB200使用64個實例，並且僅通過作為默認輸入大小的224×224來調整圖像大小。 1. 構架設計實驗 1）訓練排序和分類損失 [分類損失]

通過一同使用第一全局描述符的分類損失和排序損失來訓練CGD框架200。圖3的表格對在CARS196使用排序損失的情況（排序）和使用輔助分類損失和排序損失的情況（兩者）的結果進行了比較。在該實驗中，在所有情況下未將標籤平滑和溫度定標適用於分類損失。這證明與單獨使用排序損失時相比，使用兩種損失提供更高的性能。分類損失側重於在類別型水準下將每個類聚類到封閉的嵌入空間。排序損失側重於在相同的等級下收集樣本，並在實例級別的不同的等級下隔開樣本之間的距離。因此，若一同訓練排序損失和輔助分類損失，則改善對分類型及細分化的特徵嵌入的優化。 [標籤平滑及溫度定標]

圖4的表格對在CARS196沒有使用標籤平滑和溫度定標的情況（no trick）（未使用）、使用標籤平滑的情況（標籤平滑）、使用溫度定標的情況（溫度定標）以及使用標籤平滑和溫度定標（both tricks）（兩者）的結果進行了比較。這使用全局描述符SM來在ResNet-50骨幹進行，示出使用標籤平滑和溫度定標的情況比未使用(no tricks)提高性能。尤其可知，若一同適用標籤平滑和溫度定標，則提高每種性能並獲得最佳性能。 2）多個全局描述符組合 [組合的位置]

由於CGD框架200使用多個全局描述符，因而為了選擇最佳構架，對多個全局描述符組合的不同位置進行了實驗。

圖5示出用於訓練多個全局描述符的第一類型的構架，圖6示出用於訓練多個全局描述符的第二類型的構架。

如圖5所示，第一類型的構架在通過單獨的排序損失訓練每個全局描述符之後，在推理步驟中進行組合，並對每個分支使用相同的全局描述符，而不使用分類損失。

另一方面，圖6所示的第二類型的構架通過組合全局描述符的原始輸出來以單個排序損失進行教育，且不使用多個全局描述符。

相反的，如圖2所示，本發明的CGD框架200組合FC層之後的多個全局描述符和

-歸一化。

圖7的表格作為使用CUB200中的全局描述符SM，將CGD框架的性能與第一類型的構架A及第二類型的構架B進行了比較。可知CGD框架的性能最高。

第二類型的構架B包含多個分支特性和輸出特性向量的多樣性。與CGD框架相反，在訓練步驟中，第一類型的構架A的最終嵌入與推理步驟不同，第二類型的構架B的最終嵌入因級聯後的FC層而喪失全局描述符的每個屬性。 [組合方法]

從組合方法的觀點上，多個全局描述符的級聯（concatenation）和求和（summation）提高模型結果。因此，本發明的CGD框架可通過比較兩種組合方法來選擇最佳方法。

圖8的表格作為使用CUB200中的全局描述符SM，比較了作為組合方法的求和方法（Sum）和級聯方法（Concat）的結果。多個全局描述符的級聯方法（Concat）比求和方法（Sum）提供更優異的性能。求和方法（Sum）可能因全局描述符的啟動相互混合（mix）而失去每個全局描述符的特性，相反的，級聯方法（Concat）可以保留每個全局描述符的屬性並維持多樣性。 2．組合描述符的效果（1）定量分析

本發明的CGD框架的核心是應用多個全局描述符。針對CGD框架對輔助分類損失使用溫度定標的每個圖像檢索數據集，進行12種可行的配置的實驗。

圖9比較了相對於CARS196的CGD框架的多種結構的性能，圖10比較了相對於CUB200的CGD框架的多種結構的性能。本實驗利用了每個類採樣100個實例的測試集。由於深度學習模型的不確定性，通過使用箱型圖來示出10次以上的結果。

參照圖9及圖10，可知組合描述符（SG、GSM、SMG、SM、GM、GS、MS、MSG、MG）比單個全局描述符（S、M、G）呈現出更出色的性能。在CUB200的情況下，單個全局描述符G和M呈現出相對高的性能，相反的，最佳性能配置仍然是組合描述符MG。性能可根據數據集的屬性、用於分類損失的特徵、輸入大小及輸出維等改變。主要本質是若應用多個全局描述符，則可比單個全局描述符提高性能。

圖11的表格對CARS196的組合描述符（SG、GSM、SMG、SM、GM、GS、MS、MSG、MG）與單個全局描述符（S、M、G）的性能進行了比較。個別描述符表示每個分支的輸出特徵向量。組合描述符為CGD框架的最終特徵向量。

圖11示出了組合之前的個別全局描述符的性能和組合之後可計算出的性能的提高程度。所有組合描述符具有1536維嵌入向量，相反的，每個個別描述符具有用於SM、MS、SG、GS、MG、GM的1536維嵌入向量和用於SMG、MSG、GS、MG、GS、GM的512維嵌入向量。更大的嵌入向量通常提供更好的性能。但是，若大嵌入向量及小嵌入向量之間的性能差異不大，則可以優選使用其他全局描述符的多個小嵌入向量。例如，768維嵌入向量SG的個別描述符GeM具有與1536維嵌入向量的單一描述符G類似的性能，因此SG通過組合SPC和GeM的不同特徵來獲得顯著的性能提高。 3．CGD框架的靈活性

圖12示出了本發明的CGD框架可使用多種排序損失（批次硬三元組損失(batch-hard triplet loss)、HAP2S損失、加權採樣餘量損失等）。若比較單個全局描述符S和多個全局描述符SM的性能，則在所有情況下，多個全局描述符SM的性能優於單個全局描述符S、從這一點上可適用損失，從而可知其靈活。

除了排序損失之外，本發明的CGD框架可以適用多種CNN骨幹網一級多種圖像檢索數據集。適用多個全局描述符的CGD框架在大多數骨幹或數據集中提供比現有模型更高的性能。

像這樣，根據本發明的實施例，通過適用用於組合多個全局描述符的新的框架，即，由能夠以端到端方式訓練的多個全局描述符組合而成的CGD，從而可實現與組合等同的效果，而無需對全局描述符使用顯性組合模型或進行多樣性控制。本發明的CGD框架通過全局描述符、CNN骨幹、損失及數據集而具有靈活且可擴展的特性，由於使用組合描述符的方法可使用其他類型的特徵，因而不僅相對於單一全局描述符具有優異的性能，而且可提高圖像檢索性能。

上述裝置可以被實現為硬體結構要素、軟體結構要素和/或硬體結構要素和軟體結構要素的組合。例如，實施例中描述的裝置及結構要素可利用諸如處理器、控制器、算數邏輯單元（arithmetic logic unit， ALU）、數字信號處理器（digital signal processor）、微型電腦、現場可編程門陣列（field programmable gate array， FPGA）、可編程邏輯單元（programmable logic unit， PLU）、微處理器或能夠執行並回應指令（instruction）的其他任何裝置等一個以上的通用電腦或專用電腦來實現。處理裝置可以執行操作系統（OS）以及在上述操作系統上運行的一個以上的軟體應用程式。並且，處理裝置還可以回應於軟體的運行來訪問、存儲、操作、處理及生成數據。為了便於理解，存在描述為使用一個處理裝置的情況，但本技術領域的普通技術人員可知處理裝置可以包括多個處理要素（processing element）和/或多種類型的處理要素。例如，處理裝置可以包括多個處理器或一個處理器及一個控制器。並且，也可以是諸如並行處理器（parallel processor）等其他處理結構（processing configuration）。

軟體可以包括電腦程式（computer program）、代碼（code）、指令（instruction）或它們中的一個以上的組合，並且可將處理裝置配置為根據需要進行操作，或者獨立地或共同地（collectively）命令處理裝置。軟體和/或數據可以體現（embody）在任何類型的機器、組件（component）、物理裝置、電腦存儲介質或裝置中，以便由處理裝置解釋或向處理設備提供指令或數據。軟體可以分佈在聯網的電腦系統上，從而能夠以分佈式被存儲或運行。軟體和數據可以存儲在一個或多個電腦可讀記錄介質上。

根據實施例的方法能夠以可通過多種電腦單元運行的程式指令的形式實現，並記錄於電腦可讀介質上。在此情況下，介質可以繼續存儲可通過電腦運行的程式或臨時存儲以運行或下載。並且，介質可以是單個或多個硬體結合形式的多種記錄單元或存儲單元，其不限於直接級聯到某個電腦系統的介質，而是可以分佈在網路上。作為介質的示例，包括：諸如硬碟、軟碟和磁帶之類的磁性介質；諸如CD-ROM和DVD之類的光學記錄介質；諸如軟碟（floptical disk）之類的磁光介質（magneto-optical medium）；以及包括ROM、RAM、快閃記憶體等以存儲程式指令的介質。並且，作為另一種介質的示例，也可以舉出由分發應用程式的應用商店、提供或分發各種軟體的站點、伺服器等管理的記錄介質或存儲介質。

如上所述，儘管通過限定的實施例和附圖來對本發明進行了說明，但只要是本發明所屬技術領域的普通技術人員，就可通過這種記載對方法進行修改及變形。例如，即使說明的技術按與說明的方法不同的順序執行，和/或說明的系統、結構、裝置、電路等的結構要素以與說明的方法不同的形式結合或組合、通過其他結構要素或等同技術方案代替或置換，也可實現適當結果。

因此，其他實例、其他實施例以及與發明要求保護範圍等同的技術方案也屬於後述的發明要求保護範圍之內。

100:電腦系統 110:處理器 120:記憶體 130:永久性存儲裝置 140:匯流排 150:輸入/輸出介面 160:網路介面 200:CGD框架 201:CNN骨幹網 210:主模組 220:輔助模組

圖1為用於說明本發明一實施例的電腦系統的內部結構的一例的框圖。

圖3為用於說明本發明一實施例的使用分類損失和排序損失這兩者的CGD框架的性能的表格。

圖4為用於說明本發明一實施例的使用標籤平滑（label smoothing）和溫度定標（temperature scaling）的CGD框架的性能的表格。

圖5至圖6示出用於訓練多個全局描述符的其他類型的構架示例。

圖7為示出本發明的CGD框架的性能與其他類型的構架進行比較的比較結果的表格。

圖8為用於說明本發明一實施例的通過級聯方法（concatenation）來組合多個全局描述符的CGD框架的性能的表格。

圖9至圖12為用於說明本發明一實施例的由多個全局描述符組合而成的結構的性能的圖表和表格。

200:CGD框架

201:CNN骨幹網

210:主模組

220:輔助模組

Claims

一種用於圖像檢索的框架，通過電腦系統實現，其中，包括：主模組，對從卷積神經網路(convolution neural network，CNN)提取的互不相同的多個全局描述符(global descriptor)進行級聯(concatenate)來學習；以及輔助模組，用於進一步學習多個上述全局描述符中的一個特定的全局描述符；其中，上述主模組為用於圖像表示(image representation)的排序損失(ranking loss)的學習模組，上述輔助模組為用於上述圖像表示的分類損失(classification loss)的學習模組，以端到端(end-to-end)方式且利用作為上述排序損失與上述分類損失之和的最終損失來訓練上述用於圖像檢索的框架。
如請求項1之用於圖像檢索的框架，其中，上述CNN作為提供給定圖像的特徵圖的骨幹(backbone)網，在上述骨幹網的最後階段(stage)之前不進行向下採樣(down sampling)。
如請求項1之用於圖像檢索的框架，其中，上述主模組在對多個上述全局描述符進行歸一化(normalization)之後通過級聯來將其形成為一個最終的全局描述符，並通過排序損失(ranking loss)來學習上述最終的全局描述符。
如請求項1之用於圖像檢索的框架，其中，上述主模組包括通過使用多個上述全局描述符來輸出每個圖像表示的多個分支(branch)，上述分支的數量根據所要使用的全局描述而改變。
如請求項1之用於圖像檢索的框架，其中，上述輔助模組利用分類損失來對多個上述全局描述符中的基於學習性能來確定的上述特定的全局描述符進行學習。
如請求項5之用於圖像檢索的框架，其中，上述輔助模組在利用分類損失來進行學習時，利用標籤平滑(label smoothing)和溫度定標(temperature scaling)技術中的至少一種。
一種描述符學習方法，在電腦系統上執行，其中，上述電腦系統包括至少一個處理器，上述至少一個處理器執行包含在記憶體中的多個電腦可讀指令，上述描述符學習方法包括：主要學習步驟，級聯從CNN提取的互不相同的多個全局描述符來利用排序損失進行學習；以及輔助學習步驟，利用分類損失進一步學習多個上述全局描述符中的一個特定的全局描述符。
如請求項7之描述符學習方法，其中，在上述描述符學習方法中，以端到端方式且利用作為上述排序損失與上述分類損失之和的最終損失來訓練多個上述全局描述符。
如請求項7之描述符學習方法，其中，上述CNN作為提供給定圖像的特徵圖的骨幹網，在上述骨幹網的最後階段之前不進行向下採樣。
如請求項7之描述符學習方法，其中，在上述主要學習步驟中，在對多個上述全局描述符進行歸一化之後通過級聯來將其形成為一個最終的全局描述符，並通過上述排序損失來學習上述最終的全局描述符。
如請求項7之描述符學習方法，其中，在上述輔助學習步驟中，利用上述分類損失來對多個上述全局描述符中的基於學習性能來確定的上述特定的全局描述符進行學習。
如請求項11之描述符學習方法，其中，在上述輔助學習步驟中，當利用上述分類損失來進行學習時，利用標籤平滑(label smoothing)和溫度定標(temperature scaling)技術中的至少一種。
一種非暫時性電腦可讀記錄介質，其中，存儲有用於在上述電腦系統上執行請求項7至12中之任一項所述的描述符學習方法的電腦程式。