TW202011268A

TW202011268A - 目標跟蹤方法、裝置、介質以及設備

Info

Publication number: TW202011268A
Application number: TW108124335A
Authority: TW
Inventors: 張浩; 牛志偉
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2018-09-14
Filing date: 2019-07-10
Publication date: 2020-03-16
Also published as: US20210019627A1; EP3770854B1; EP3770854A1; WO2020052319A1; EP3770854A4; TWI786313B; CN109325967A; US12106491B2; CN109325967B

Abstract

一種目標跟蹤方法、裝置、設備及介質，該方法包括：獲取第一視頻流以對其中的各視頻幀執行如下操作：根據目標檢測模型和當前視頻幀，得到當前視頻幀中的候選區域；根據特徵提取模型和候選區域，提取得到各候選區域的深度特徵；根據各候選區域的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵，計算各候選區域的特徵相似度；基於各候選區域的特徵相似度，確定當前視頻幀中跟蹤到的目標。利用目標檢測模型在當前視頻幀範圍內進行目標檢測，並且基於深度特徵進行目標跟蹤，能夠防止發生跟蹤漂移或跟丟跟蹤目標的情況，保證目標跟蹤的準確性。

Description

目標跟蹤方法、裝置、介質以及設備

本申請涉及電腦視覺技術領域，尤其涉及一種目標跟蹤方法、裝置、電腦儲存介質以及設備。

目標跟蹤是電腦視覺研究領域的熱點之一，目標跟蹤在視頻監控、導航、軍事、人機交互、虛擬實境、自動駕駛等多個領域都有著廣泛的應用。簡單來說，目標跟蹤就是對視頻中給定的目標進行分析跟蹤，以確定視頻中目標的確切位置。

現有的目標跟蹤方法多為經典的基於相關濾波跟蹤原理的跟蹤方法，該跟蹤方法是根據視頻的前一幀中跟蹤到的目的地區域更新相關濾波器，進而根據更新後的相關濾波器對當前視頻幀進行目標跟蹤，在跟蹤過程中，相關濾波器根據前一幀跟蹤到的目的地區域確定當前視頻幀的跟蹤範圍，並在該跟蹤範圍內採用局部滑窗方式以形狀特徵為基準在當前視頻幀中進行目標跟蹤。

由於目標運動的不可控性，而且目的地區域範圍也發生較大變化，因此，採用這種局部滑窗方式針對運動的目標進行跟蹤會發生跟蹤漂移或者遮擋更丟問題。

本申請實施例提供了一種目標跟蹤方法、裝置、介質以及設備，能夠有效地防止跟丟跟蹤目標以及跟蹤漂移等情況的發生，保證目標跟蹤的準確度。

有鑑於此，本申請第一方面提供了一種目標跟蹤方法，所述方法包括：

獲取第一視頻流，針對所述第一視頻流中的視頻幀執行如下資料處理，以實現在所述第一視頻流中的目標跟蹤，所述資料處理包括：

根據目標檢測模型和當前視頻幀，檢測得到所述當前視頻幀中的候選區域；

根據特徵提取模型和所述候選區域，提取得到所述候選區域對應的深度特徵，所述特徵提取模型是端到端的神經網路模型，以圖像作為輸入，以圖像中可運動體的深度特徵作為輸出；

根據所述候選區域對應的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵，計算所述候選區域對應的特徵相似度；

根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標。

本申請第二方面提供了一種目標跟蹤裝置，所述裝置包括獲取模組和處理模組。所述獲取模組用於獲取第一視頻流。所述處理模組用於針對所述第一視頻流中的視頻幀執行如下資料處理，以實現在所述第一視頻流中的目標跟蹤。

所述處理模組包括檢測子模組、特徵提取子模組、計算子模組及確定子模組。所述檢測子模組用於根據目標檢測模型和當前視頻幀，檢測得到所述當前視頻幀中的候選區域。所述特徵提取子模組用於根據特徵提取模型和所述候選區域，提取得到所述候選區域對應的深度特徵，所述特徵提取模型是端到端的神經網路模型，以圖像作為輸入，以圖像中可運動體的深度特徵作為輸出。所述計算子模組用於根據所述候選區域對應的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵，計算所述候選區域對應的特徵相似度。所述確定子模組用於根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標。

本申請第三方面提供了一種設備，所述設備包括處理器以及記憶體。所述記憶體用於儲存程式碼，並將所述程式碼傳輸給所述處理器。所述處理器用於根據所述程式碼中的指令，執行如上述第一方面所述的目標跟蹤方法的步驟。

本申請第四方面提供了一種電腦可讀儲存介質，所述電腦可讀儲存介質用於儲存程式碼，所述程式碼用於執行上述第一方面所述的目標跟蹤方法。

本申請第五方面提供了一種包括指令的電腦程式產品，當其在電腦上運行時，使得所述電腦執行上述第一方面所述的目標跟蹤方法。

從以上技術方案可以看出，本申請實施例具有以下優點：本申請實施例提供了一種目標跟蹤方法，該目標跟蹤方法利用目標檢測模型在當前視頻幀的整體範圍內進行目標檢測，以確定當前視頻幀中存在的所有候選區域，進而基於所確定的各個候選區域確定跟蹤目標，相比於習知技術中根據前一視頻幀的目的地區域確定當前視頻幀的目標跟蹤範圍，並且僅在該目標跟蹤範圍內進行目標跟蹤，本申請實施例中利用目標檢測模型在視頻幀的整體範圍內確定候選區域，擴大了目標跟蹤的範圍，能夠有效地防止發生因跟蹤目標移動過快而跟丟跟蹤目標的情況；另外，在本申請實施例提供的目標跟蹤方法中，利用特徵提取模型提取所確定的各個候選區域的深度特徵，並基於各個候選區域的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵確定目標，相比於習知技術中僅以形態特徵為依據進行目標跟蹤，本申請實施例中基於深度特徵確定跟蹤目標，能夠保證所確定的跟蹤目標更加準確，有效地防止發生跟蹤漂移的情況。

為了使本申請的目的、技術方案及優點更加清楚明白，以下結合附圖及實施例，對本申請進行進一步詳細說明。應當理解，此處所描述的具體實施例僅僅用以解釋本申請，並不用於限定本申請。

本申請的說明書和請求項書及上述附圖中的術語“第一”、“第二”、“第三”、“第四”等(如果存在)是用於區別類似的物件，而不必用於描述特定的順序或先後次序。應該理解這樣使用的資料在適當情況下可以互換，以便這裡描述的本申請的實施例例如能夠以除了在這裡圖示或描述的那些以外的順序實施。此外，術語“包括”和“具有”以及他們的任何變形，意圖在於覆蓋不排他的包含，例如，包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元，而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。

現有的基於相關濾波器跟蹤原理的跟蹤方法，在跟蹤目標的過程中，存在容易發生跟蹤漂移以及跟丟跟蹤目標的技術問題，針對習知技術中存在的技術問題，本申請實施例提供了一種目標跟蹤方法。

下面先對本申請實施例提供的目標跟蹤方法的核心技術思路進行介紹：

本申請實施例提供的目標跟蹤方法中，基於目標檢測模型和特徵提取模型，在所獲取的視頻流包括的視頻幀中進行目標跟蹤。具體針對視頻流中的某一視頻幀進行目標跟蹤時，先利用目標檢測模型在該視頻幀的整體範圍內進行檢測，以獲得該視頻幀中存在的所有候選區域；然後利用特徵提取模型對檢測到的各個候選區域進行特徵提取，以得到各個候選區域對應的深度特徵；接下來，基於各個候選區域對應的深度特徵以及在前視頻幀中跟蹤到的目標的深度特徵，計算各個候選區域與跟蹤目標之間的特徵相似度；進而根據各個候選區域對應的特徵相似度，確定該視頻幀中的跟蹤目標。

在本申請實施例提供的目標跟蹤方法中，利用目標檢測模型在當前視頻幀的整體範圍內進行目標檢測，以確定當前視頻幀中存在的所有候選區域，進而基於所確定的各個候選區域確定跟蹤目標，相比於習知技術中根據前一視頻幀的目的地區域確定當前視頻幀的目標跟蹤範圍，並且僅在該目標跟蹤範圍內進行目標跟蹤，本申請實施例中利用目標檢測模型在視頻幀的整體範圍內確定候選區域，擴大了目標跟蹤的範圍，能夠有效地防止發生因跟蹤目標移動過快而跟丟跟蹤目標的情況；另外，在本申請實施例提供的目標跟蹤方法中，利用特徵提取模型提取所確定的各個候選區域的深度特徵，並基於各個候選區域的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵確定跟蹤目標，相比於習知技術中僅以形態特徵為依據進行目標跟蹤，本申請實施例中基於深度特徵確定跟蹤目標，能夠保證所確定的跟蹤目標更加準確，有效地防止發生跟蹤漂移的情況。

應理解，本申請實施例提供的目標跟蹤方法可以應用於具有影像處理功能的設備，如終端設備、伺服器等。其中，終端設備具體可以為電腦、智慧手機、個人數位助理(Personal Digital Assistant，PDA)、平板電腦等；服務器具體可以為應用伺服器、也可以為Web伺服器，在實際應用部署時，該伺服器可以為獨立伺服器，也可以為集群伺服器，該伺服器可以同時為多個終端設備提供的目標跟蹤服務。

為了便於理解本申請實施例提供的技術方案，下面以伺服器作為執行主體，結合實際應用場景對本申請實施例提供的目標跟蹤方法進行介紹。

參見圖1，圖1為本申請實施例提供的目標跟蹤方法的應用場景示意圖。該應用場景中包括監控攝像機101和伺服器102，其中，監控攝像機101用於將自身錄製的視頻流發送至伺服器102，伺服器102用於執行本申請實施例提供的目標跟蹤方法，以在監控攝像機101發送的視頻流包括的各視頻幀中進行目標跟蹤。

當使用者需要在監控攝像機101錄製的視頻流中進行目標跟蹤時，伺服器102調取監控攝像機101拍攝的視頻流，並針對該視頻流中的各視頻幀執行以下資料處理：先利用目標檢測模型在當前視頻幀的整體範圍內進行檢測，以獲得該視頻幀中存在的所有候選區域；然後利用特徵提取模型提取當前視頻幀中所有候選區域各自對應的深度特徵，根據各候選區域各自對應的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵，計算各候選區域對應的特徵相似度；進而根據各候選區域對應的特徵相似度，確定當前視頻幀中跟蹤到的目標。

需要說明的是，伺服器102先利用目標檢測模型在當前視頻幀的整體範圍內進行目標檢測，確定該當前視頻幀中存在的所有候選區域，進而基於所確定的所有候選區域進行目標跟蹤，由此擴大了各個視頻幀中的目標跟蹤範圍，能夠有效地防止發生因跟蹤目標移動過快而跟丟跟蹤目標的情況；另外，伺服器102還利用了特徵提取模型提取各候選區域的深度特徵，並基於各候選區域的深度特徵以及在前視頻幀跟蹤到的目標的深度特徵，確定當前視頻幀中的跟蹤目標，由於深度特徵能夠從更深層次反映跟蹤目標所具有的特徵，該深度特徵不會因跟蹤目標的形態等特徵的改變而改變，因此，基於該深度特徵進行目標跟蹤，能夠保證所確定的跟蹤目標更加準確，有效地防止發生跟蹤漂移的情況。

需要說明的是，上述圖1所示場景僅為一種示例，在實際應用中，本申請實施例提供的目標跟蹤方法還可以應用於終端設備，在此不對該目標跟蹤方法的應用場景做任何具體限定。

下面通過實施例對本申請提供的目標跟蹤方法進行介紹。

參見圖2，圖2為本申請實施例提供的一種目標跟蹤方法的流程示意圖。為了便於描述，本實施例以伺服器作為執行主體進行描述，應理解，該目標跟蹤方法的執行主體並不僅限於伺服器，還可以應用於終端設備等具備影像處理功能的設備。

當伺服器需要針對第一視頻流進行目標跟蹤時，獲取該第一視頻流，並針對該第一視頻流中的視頻幀執行如圖2所示的資料處理流程，以實現跟蹤該第一視頻流中的目標。

在一種可能的實現方式中，伺服器可以從視頻流資料庫中調取歷史視頻流作為第一視頻流。具體實現時，伺服器可以根據第一視頻流對應的攝像頭標籤以及第一視頻流的拍攝起止時間，從視頻流資料庫儲存的歷史視頻流中調取該第一視頻流，該視頻資料庫用於儲存多個攝像頭拍攝的視頻流資料；進而，針對所獲取的第一視頻流中的視頻幀執行圖2所示的資料處理流程，以實現在該第一視頻流中進行目標跟蹤。

在另一種可能的實現方式中，伺服器可以即時獲取某個攝像頭拍攝的視頻流作為第一視頻流。具體實現時，伺服器可以向某個攝像頭髮起視頻流獲取請求，請求獲取該攝像頭即時拍攝的視頻流作為第一視頻流，相應地，該攝像頭回應於伺服器發起的獲取請求，將自身即時拍攝的第一視頻流發送至伺服器，以使伺服器針對該第一視頻流中的視頻幀執行圖2所示的資料處理流程，實現在該第一視頻流中進行目標跟蹤。

應理解，伺服器還可以採用其他方式獲取第一視頻流，在此不對第一視頻流的具體獲取方式做任何限定。

伺服器獲取到第一視頻流後，針對該第一視頻流中的各個視頻幀執行圖2所示的資料處理流程，如圖2所示，該資料處理流程具體包括以下步驟：

步驟201：根據目標檢測模型和當前視頻幀，檢測得到所述當前視頻幀中的候選區域。

伺服器針對第一視頻流中的某一視頻幀進行目標跟蹤時，將該視頻幀作為當前視頻幀，並將該當前視頻幀輸入至目標檢測模型中，目標檢測模型在該當前視頻幀的整體範圍內進行物件檢測，以獲得該當前視頻幀中存在的所有候選區域，候選區域為當前視頻幀中各個檢測物件所處的區域，各個候選區域包括的檢測物件中可能存在需要跟蹤的目標。

上述目標檢測模型為端到端的神經網路，該目標檢測模型以視頻幀作為輸入，以該視頻幀中檢測物件的邊界框以及檢測物件所屬的類別作為輸出。也就是說，將當前視頻幀輸入至該目標檢測模型，目標檢測模型通過對該當前視頻幀做相應地處理，能夠輸出當前視頻幀中各個檢測物件的邊界框以及各個檢測物件所屬的類別，各個檢測物件的邊界框所包圍的區域即為候選區域。

應理解，目標檢測模型能夠檢測出當前視頻幀中所有的候選區域，每個候選區域中包括一個檢測物件，該檢測物件具體可以為人也可以為物體，即該目標檢測模型能夠檢測各種類型的檢測物件。

為了便於理解上述目標檢測模型的工作效果，下面結合圖3對該目標檢測模型的輸出結果進行示例性的說明。

如圖3所示，將視頻幀301輸入至目標檢測模型302中，目標檢測模型302通過對視頻幀301進行相應地處理，能夠在視頻幀301中標注出其中包括的各個檢測物件的邊界框，如圖301所示，經目標檢測模型302的處理後，在視頻幀301中標注出邊界框303、邊界框304和邊界框305，並且在邊界框303的旁邊標注出邊界框303中的物體類別為路燈，在邊界框304的旁邊標注出邊界框304中的物體類別為汽車，在邊界框305的旁邊標注出邊界框305中的物體類別為交通信號燈。

應理解，上述圖3所示的目標檢測模型的輸出結果僅為示例，在實際應用中，目標檢測模型能夠檢測出該視頻幀中所有的候選區域，為了便於描述，圖3中並未標注出目標檢測模型所檢測到的所有的候選區域。

在一種可能的實現方式中，上述目標檢測模型中可以包括基礎網路和輔助網路，該基礎網路採用羽量級的卷積神經網路mobilenet，該輔助網路採用卷積核構成的檢測層；該輔助網路的輸入為基礎網路的不同卷積層輸出的特徵圖。

具體地，該目標檢測模型是基於深度學習神經網路結構SSD構建而成的，深度學習神經網路SSD的核心在於採用卷積核預測一系列檢測物件所屬的類別以及檢測物件所處的區域；此外，在該目標檢測模型中，將深度學習神經網路結構SSD中的基礎網路替換為羽量級的卷積神經網路mobilenet，由於該卷積神經網路mobilenet具有較快的處理速度，相應地，利用該目標檢測模型進行目標檢測時，也能夠較快地檢測出當前視頻幀存在的候選區域。

應理解，本申請實施例提供的目標檢測模型還可以基於其他神經網路結構構建而成，在此不對本申請實施例提供的目標檢測模型的具體結構做任何限定。

步驟202：根據特徵提取模型和所述候選區域，提取得到所述候選區域對應的深度特徵，所述特徵提取模型是端到端的神經網路模型，以圖像作為輸入，以圖像中可運動體的深度特徵作為輸出。

伺服器利用目標檢測模型檢測出當前視頻幀中存在的所有候選區域後，將該當前視頻幀中的所有候選區域輸入至自身運行的特徵提取模型，該特徵提取模型相應地提取各個候選區域對應的深度特徵，該深度特徵能夠從深層次反映各個候選區域中的檢測物件具備的特徵，該深度特徵對物體形變具有魯棒性，其不會單純地跟隨檢測物件形態等特徵的改變而發生改變，也就是說，即使檢測物件的形態發生改變，該深度特徵仍然能夠表徵該檢測物件。

上述特徵提取模型是端到端的神經網路模型，以圖像作為輸入，以圖像中可運動體的深度特徵作為輸出。即採用該特徵提取模型對當前視頻幀中的各個候選區域進行特徵提取時，將標注出各個候選區域的當前視頻幀輸入該特徵提取模型，該特徵提取模型相應地提取各個候選區域所具備的深度特徵，進而，輸出當前視頻幀中各個可運動體的深度特徵。

應理解，進行目標跟蹤時，跟蹤的目標通常為可運動體如人、動物、車輛等，不可運動體在通常情況下不會被作為跟蹤的目標；相應地，特徵提取模型無需輸出不可運動體的深度特徵，由此伺服器後續也無需根據不可運動體的深度特徵進行一系列的計算，一定程度上減少了伺服器需要執行的工作量。

步驟203：根據所述候選區域對應的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵，計算所述候選區域對應的特徵相似度。

伺服器中的特徵提取模型獲取到各候選區域對應的深度特徵後，根據各候選區域對應的深度特徵以及在前視頻幀中跟蹤到的目標的深度特徵，計算各候選區域對應的特徵相似度，各候選區域對應的特徵相似度即為各候選區域的深度特徵與在前視頻幀中跟蹤到的目標的深度特徵之間的相似度。

需要說明的是，上述在前視頻幀指的是在當前視頻幀之前，距離當前視頻幀最近且已跟蹤到目標的視頻幀；例如，若在與當前視頻幀相鄰的前一幀視頻幀中跟蹤到目標，則直接將當前視頻幀相鄰的前一幀視頻幀作為上述在前視頻幀；若在與當前視頻幀相鄰的前一幀視頻幀中沒有跟蹤到目標，則按照從後至前的時間順序，繼續判斷該前一幀視頻幀之前的視頻幀中是否存在跟蹤的目標，直到查找到存在跟蹤的目標的視頻幀，將查找到的視頻幀作為上述在前視頻幀；進而根據該視頻幀中跟蹤到的目標的深度特徵以及當前視頻幀中各候選區域對應的深度特徵，計算各候選區域對應的深度特徵與跟蹤的目標的深度特徵之間的特徵相似度。

需要說明的是，若當前視頻幀為第一視頻流中的第一幀視頻幀，使用者可以點擊第一視頻幀中某一目標，相應地，伺服器可以響應於用戶的點擊操作，將該目標確定為在第一視頻流中需要跟蹤的目標，並利用特徵提取模型提取該目標的深度特徵，進而基於該目標的深度特徵在後續視頻幀中進行目標跟蹤；此外，使用者還可以將包含有需要跟蹤的目標的圖像上傳至伺服器，以使伺服器利用特徵提取模型根據上傳的圖像，提取其中所包括的需要跟蹤的目標的深度特徵，進而基於提取到的需要跟蹤的目標的深度特徵在第一視頻流中進行目標跟蹤。

應理解，伺服器還可以採用其他方式確定需要跟蹤的目標，並基於該目標的深度特徵在第一視頻流中進行目標跟蹤，在此不對確定跟蹤目標的具體方式做任何限定。

具體計算各候選區域對應的特徵相似度時，伺服器可以採用歐幾裡得距離(Eucledian Distance)演算法、曼哈頓距離(Manhattan Distance)演算法、明可夫斯基距離(Minkowski Distance)演算法以及餘弦相似度(Cosine Similarity)演算法等演算法，計算當前視頻幀中各候選區域對應的深度特徵向量與在前視頻幀中跟蹤到的目標的深度特徵向量之間的相似度。

應理解，伺服器還可以採用其他相似度計算方法，根據各候選區域對應的深度特徵以及在前視頻幀中跟蹤到的目標的深度特徵，計算各候選區域對應的特徵相似度，在此不對用於計算特徵相似度的演算法做具體限定。

步驟204：根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標。

伺服器計算獲得當前視頻幀中各個候選區域對應的的特徵相似度後，基於各個候選區域對應的特徵相似度，確定當前視頻幀中的需要跟蹤的目標。由於候選區域對應的特徵相似度能夠表徵該候選區域的深度特徵與在前視頻幀中跟蹤到的目標的深度特徵之間的相似度，因此，該特徵相似度越大，則說明該候選區域的檢測對照與在前視頻幀中跟蹤到的目標越相似，即該候選區域中所包括的檢測物件為當前視頻幀中需要跟蹤的物件的可能性越大。

確定當前視頻幀中的跟蹤目標時，伺服器可以根據候選區域各自對應的特徵相似度，選擇特徵相似度最大的候選區域，作為當前視頻幀的目的地區域；進而根據該目的地區域確定當前視頻幀中跟蹤到的目標。

具體地，伺服器可以先根據當前視頻幀中各個候選區域對應的特徵相似度，對當前視頻幀中各個候選區域對應的特徵相似度按照大小順序進行排序；由於候選區域對應的特徵相似度越大，說明該候選區域中所包括的檢測物件為需要跟蹤的目標的可能性越大，因此，可以根據該特性相似度的排列順序，從中選取特徵相似度最大的候選區域，作為當前視頻幀的目的地區域；進而將目的地區域中所包括的檢測物件作為當前視頻幀中需要跟蹤的目標。

可選地，伺服器還可以預先設定特徵相似度的閥值，候選區域的特徵相似度超過該閥值則說明該候選區域可能為目的地區域，即該候選區域中所包括的檢測物件可能為當前視頻幀中需要跟蹤的目標。應理解，該閥值可以根據實際情況進行設定，在此不對該閥值做具體限定。

在一些情況下，當前視頻幀中可能存在多個特徵相似度均超過上述閥值的候選區域，此時這些候選區域均有可能為目的地區域。針對這種情況，本申請實施例提供了下述三種可能的實現方式，以從這多個超過閥值的候選區域中確定目的地區域，並基於該目的地區域進一步確定跟蹤目標。

在第一種可能的實現方式中，伺服器可以從多個特徵相似度超過閥值的多個候選區域中，選擇與在前視頻幀中跟蹤到的目標的運動方向最匹配的候選區域，作為當前視頻幀的目的地區域；根據該當前視頻幀的目的地區域確定當前視頻中跟蹤到的目標。

具體實現時，伺服器可以先根據當前視頻幀中各個候選區域對應的特徵相似度，判斷各個候選區域對應的特徵相似度是否超過閥值，若存在多個特徵相似度超過閥值的候選區域，伺服器則根據在前視頻幀中跟蹤到的目標的運動方向，從這多個候選區域中確定目的地區域。具體地，伺服器可以將在當前視頻幀之前的視頻幀中跟蹤到的目標所處的圖像位置，輸入至位置座標映射模型，利用位置座標映射模型確定在當前視頻幀之前的視頻幀中跟蹤到的目標的物理位置，然後根據在當前視頻幀之前的視頻幀中跟蹤到的目標的物理位置，確定在前視頻幀中跟蹤到的目標的運動方向；進而，按照上述方法，利用位置座標映射模型確定當前視頻幀中多個超過閥值的候選區域的物理位置以及在前視頻幀中跟蹤到的目標的物理位置，根據多個超過閥值的候選區域的物理位置以及在前視頻幀中跟蹤到的目標的物理位置，確定當前視頻幀中多個超過閥值的候選區域各自對應的運動方向，進而計算多個超過閥值的候選區域各自對應的運動方向與在前視頻幀中跟蹤到的目標的運動方向之間的匹配程度，最終確定與在前視頻幀中跟蹤到的目標的運動方向最匹配的候選區域作為目的地區域，基於該目的地區域確定當前視頻幀中的跟蹤目標。

應理解，確定在前視頻幀中跟蹤到的目標的運動方向時，需要選擇與在前視頻幀相距較近的多個連續的跟蹤到目標的視頻幀，根據這些視頻幀中跟蹤到的目標所處的位置確定目標的運動方向。

為了便於理解上述根據跟蹤的目標的運動方向，在多個超過閥值的候選區域中確定目的地區域的具體實現方式，下面對上述確定目的地區域的具體實現過程進行舉例說明：

假設當前視頻幀為第一視頻流中的第20幀視頻幀，在該第20幀視頻幀之前，距離該第20幀視頻幀最近且包含跟蹤到的目標的視頻幀為第19幀視頻幀，即在前視頻幀為第19幀視頻幀；伺服器根據第17幀視頻幀至第19幀視頻幀中跟蹤到的目標的物理位置，確定第19幀視頻幀中跟蹤到的目標的運動方向，作為第一方向；進而，伺服器根據第20幀視頻幀中各超過閥值的候選區域的物理位置以及第19幀視頻幀中跟蹤到的目標的物理位置，確定第20幀視頻幀中各超過閥值的候選區域各自對應的運動方向，作為第二方向，即第20幀視頻幀中每個超過閥值的候選區域分別對應一個第二方向，計算各個第二方向與第一方向的匹配程度，最終確定匹配程度最高的第二方向對應的候選區域為目的地區域，基於該目的地區域確定第20幀視頻幀中跟蹤到的目標。

在第二種可能的實現方式中，伺服器可以從多個特徵相似度超過閥值的多個候選區域中，選擇與在前視頻幀中跟蹤到的目的地區域的物理位置距離最小的候選區域，作為當前視頻幀的目的地區域；進而根據該當前視頻幀的目的地區域確定當前視頻幀中跟蹤到的目標。

具體實現時，伺服器可以根據多個特徵相似度超過閥值的候選區域在當前視頻幀中的圖像位置，確定出這些候選區域的物理位置；同理，伺服器可以根據在前視頻幀中跟蹤到的目標在該視頻幀中的圖像位置，確定出在前視頻幀中跟蹤到的目標的物理位置；然後，計算各個候選區域的物理位置與在前視頻幀中跟蹤到的目標的物理位置之間的距離，確定距離最小的候選區域作為當前視頻幀中的目的地區域，進而，將當前視頻幀的目的地區域中所包括的檢測物件作為當前視頻幀中跟蹤到的目標。

例如，假設當前視頻幀為第一視頻流中的第20幀，與當前視頻幀距離最近且包括跟蹤到的目標的視頻幀為第19幀視頻幀，伺服器根據第20幀視頻幀中存在的兩個特徵相似度超過閥值的候選區域在第20幀視頻幀中的圖像位置，確定這兩個候選區域對應的物理位置，伺服器根據第19幀視頻幀中跟蹤到的目標的圖像位置，確定第19幀視頻幀中跟蹤到的目標的物理位置；伺服器計算兩個候選區域對應的物理位置與第19幀中跟蹤到的目標的物理位置之間的距離，確定距離最近的候選區域作為目的地區域，將該目的地區域中包括的檢測物件作為第20幀視頻幀中跟蹤到的目標。

在第三種可能的實現方式中，伺服器可以結合物理位置距離和跟蹤到的運動方向兩個參考因素，在多個特徵相似度超過閥值的候選區域中選擇目的地區域。即，伺服器從多個特徵相似度超過閥值的候選區域中，選擇與在前視頻幀中跟蹤到的目標的物理位置和運動方向最匹配的候選區域，作為當前視頻幀的目的地區域；即選擇與在前視頻幀中跟蹤到的目標的距離最近且運動方向最相近的候選區域；進而，根據當前視頻幀的目的地區域確定當前視頻幀中跟蹤到的目標。

具體實現時，伺服器可以先利用位置座標映射模型，將當前視頻幀中各個超過閥值的候選區域的圖像位置轉換為物理位置，將在前視頻幀中跟蹤到的目標的圖像位置轉換為物理位置；然後，基於各個超過閥值的候選區域的物理位置以及在前視頻幀中跟蹤到的目標的物理位置，確定各個超過閥值的候選區域對應的位移，該位移指的是根據候選區域的物理位置以及在前視頻幀中跟蹤到的目標的物理位置確定出的有向線段，該有向線段既能夠表徵候選區域與在前視頻幀中跟蹤到的目標之間的物理位置距離，又能夠表徵候選區域對應的運動方向。同理，伺服器可以根據與在前視頻幀相鄰且處於在前視頻幀之前的視頻幀中跟蹤到的目標所處位置，以及在前視頻幀中跟蹤到的目標所處的位置，確定在前視頻幀中跟蹤到的目標對應的位移。進而，計算當前視頻幀中各候選區域對應的位移與在前視頻幀中跟蹤到的目標對應的位移之間的相似度，選取相似度最高的候選區域作為目的地區域，基於該目的地區域確定當前視頻幀中跟蹤到的目標。可選地，伺服器還可以先根據上述第一種可能的實現方式中提供的確定跟蹤到的目標的運動方向的方法，確定在前視頻幀中跟蹤到的目標的運動方向，進而，根據當前視頻幀中多個特徵相似度超過閥值的候選區域所處的位置，確定與跟蹤到的目標的運動方向匹配的候選區域；若僅存在一個與跟蹤到的目標的運動方匹配的候選區域，則可以直接將該候選區域確定為目的地區域；若存在多個與跟蹤到的目標的運動方向匹配的候選區域，則繼續按照第二種可能的實現方式中提供的確定物理位置距離的方法，確定這多個與跟蹤到的目標的運動方向匹配的候選區域與在前視頻幀中跟蹤到的目標之間的物理位置距離，進而，選取物理位置距離最小的候選區域作為目的地區域，基於該目的地區域確定當前視頻幀中的跟蹤目標。

可選地，伺服器也可以先根據上述第二種可能的實現方式中提供的確定物理位置距離的方法，確定當前視頻幀中多個特徵相似度超過閥值的候選區域與在前視頻幀中跟蹤到的目標之間的物理位置距離，進而判斷各候選區域與在前視頻幀中跟蹤到的目標之間的物理位置距離是否小於距離閥值，若僅存在一個小於距離閥值的候選區域，則可以直接將該候選區域作為目的地區域；若存在多個小於距離閥值的候選區域，則伺服器繼續按照第一種可能的實現方式中提供的確定跟蹤到的目標的運動方向的方法，確定在前視頻幀中跟蹤到的目標的運動方向，進而，從多個小於距離閥值的候選區域中選取與該目標運動方向最匹配的候選區域作為目的地區域，進而，基於該目的地區域確定當前視頻幀中的跟蹤目標。

需要說明的是，在上述三種可能的實現方式中，伺服器在根據候選區域的圖像位置確定其對應的物理位置時，以及在根據在前視頻幀中跟蹤到的目標的圖像位置確定其對應的物理位置時，可以基於位置座標映射模型實現圖像位置與物理位置之間的轉換。

伺服器將候選區域的圖像位置輸入至位置座標映射模型，獲取該位置座標映射模型輸出的候選區域的物理位置；以及將在前視頻幀中跟蹤到的目的地區域的圖像位置輸入至該位置座標映射模型，獲取該位置座標映射模型輸出的在前視頻幀中跟蹤到的目的地區域的物理位置。

具體實現時，伺服器將候選區域的圖像位置輸入至該位置座標映射模型後，該位置座標映射模型對該候選區域的圖像位置進行相應的處理，進而獲得並輸出該候選區域對應的物理位置；同理，伺服器將在前視頻幀中跟蹤到的目標的圖像位置輸入至該位置座標映射模型後，該位置座標映射模型也會對該目標的圖像位置進行相應地處理，進而獲得並輸入該目標對應的物理位置。

應理解，上述圖像位置具體指的是候選區域或跟蹤目標在視頻幀中的圖元位置座標，上述物理位置具體指的是候選區域或跟蹤目標在平面地圖上對應的位置座標。

需要說明的是，確定候選區域的圖像位置時，可以將候選區域與地面的交點的圖元位置座標作為該候選區域的圖像位置，也可以將候選區域的中心點在視頻幀中的圖元位置座標作為該候選區域的圖像位置，在此不對候選區域的圖像位置做具體限定；同理，確定跟蹤目標的圖像位置時，可以將跟蹤目標與其所在的視頻幀中地面的交點的圖元位置座標作為跟蹤目標的圖像座標，也可以將該跟蹤目標的中心點在該視頻幀中的圖元位置座標作為跟蹤目標的圖像位置，在此也不對跟蹤目標的圖像位置做具體限定。

需要說明的是，上述位置座標映射模型是基於座標映射矩陣構建的，具體構建該位置座標映射模型時，伺服器根據標定圖像上的至少四個位置點的位置座標以及所述至少四個位置點在物理世界上的物理位置座標，通過透視變換公式計算得到座標映射矩陣，進而根據該座標映射矩陣生成位置座標映射模型。相應地，使用該位置座標映射模型時，該位置座標映射模型可以通過利用輸入的圖像位置座標乘上該座標映射矩陣，獲得該圖像位置座標對應的物理位置座標，即實現將視頻幀中的圖像位置轉換為物理世界中的物理位置。

需要說明的是，由於不同的攝像頭對應的座標映射矩陣可能不同，因此，每個攝像頭均會保存自身對應的座標映射矩陣作為自身的屬性，伺服器構建位置座標映射模型時，可以基於各個攝像頭對應的座標映射矩陣進行構建與攝像頭對應的位置座標映射模型。相應地，利用位置座標映射模型定位某一視頻幀的某個圖像位置時，位置座標映射模型可以調取該視頻幀對應的攝像頭的座標映射矩陣，採用該座標映射矩陣將圖像位置轉換為物理位置。應理解，利用該座標映射矩陣的逆矩陣也可以構建位置座標映射模型，利用該位置座標映射模型，可以將物理世界中的物理位置映射為視頻幀中的圖像位置座標，即利用該座標映射矩陣以及座標映射矩陣的逆矩陣，能夠實現圖像位置與物理位置之間的雙向轉換。

由於該位置座標映射模型能夠將視頻幀中的圖像位置轉換為物理位置，因此，利用該位置座標映射模型也可以根據第一視頻流跟蹤得到的目標的物理位置，在物理地圖上繪製目標的運動軌跡，由此實現在物理地圖上即時定位並顯示跟蹤到的目標所處的位置。

具體地，伺服器可以先按時間順序獲取第一視頻流中的各個包含有目標的視頻幀，然後將這些視頻幀中所包含的目標的圖像位置依次輸入至位置座標映射模型，相應地，位置座標映射模型根據輸入的目標的圖像位置對應地輸出各個視頻幀中目標的圖像位置對應的物理位置；進而按照視頻幀的時間順序，將各個視頻幀中目標對應的物理位置標注在物理地圖上，由此根據所標注的物理位置即可在物理地圖上繪製目標的運動軌跡。

應理解，若第一視頻流是第一攝像頭拍攝到的，隨著跟蹤的目標的移動，該目標可能移動出第一攝像頭所能拍攝的範圍，即在該目標在第一攝像頭拍攝的範圍內消失，在第一攝像頭拍攝的第一視頻流中無法繼續跟蹤該目標。在這種情況下，本申請實施例提供的目標跟蹤方法，還可以從與該第一攝像頭相鄰的攝像頭中選擇能夠拍攝到該目標的第二攝像頭，針對該第二攝像頭拍攝的視頻流繼續進行目標跟蹤，即實現跨屏目標跟蹤。

下面結合圖4，對本申請實施例提供的跨屏目標跟蹤方法進行介紹。參見圖4，圖4為本申請實施例提供的跨屏目標跟蹤方法的流程示意圖。為了便於描述，本實施例仍以伺服器作為執行主體進行描述，應理解，該跨屏目標跟蹤方法的執行主體並不僅限於伺服器，還可以應用於終端設備等具備影像處理功能的設備。如圖4所示，該跨屏目標跟蹤方法包括以下步驟：

步驟401：根據所述第一視頻流中最後一次跟蹤到的目的地區域，從與所述第一攝像頭相鄰的攝像頭中選擇用於跨屏目標跟蹤的第二攝像頭。

若伺服器在預設時間段內在第一視頻流中檢測不到需要跟蹤的目標，或者，伺服器檢測發現需要跟蹤的目標在第一攝像頭所能夠拍攝的圖像邊緣消失，則說明需要跟蹤的目標可能移動至第一攝像頭無法拍攝到的範圍；此時，伺服器需要根據第一視頻流中最後一次跟蹤到的目標所處的區域，從與第一攝像頭相鄰的攝像頭中選擇能夠拍攝到需要跟蹤的目標的第二攝像頭，以在該第二攝像頭拍攝的第二視頻流繼續進行目標跟蹤，即實現跨屏跟蹤。

根據第一視頻流中最後一次跟蹤到的目的地區域，從與該第一攝像頭相鄰的攝像頭中選擇第二攝像頭時，伺服器可以先針對與該第一攝像頭相鄰的攝像頭，根據該攝像頭拍攝的視頻流和目標檢測模型，檢測得到攝像頭對應的候選區域。

具體實現時，伺服器可以先根據第一攝像頭所處的位置，確定位置與該第一攝像頭所處位置相鄰的攝像頭；然後根據第一視頻流中最後一次跟蹤到目標的時刻，從與第一攝像頭相鄰的攝像頭拍攝的視頻流中選取視頻幀，所選取的視頻幀的拍攝時刻在第一視頻流中最後一次跟蹤到目標的時刻之後，且在最後一次跟蹤到目標的相鄰時段內，該相鄰時段可以根據實際需求進行設定。

應理解，在一些情況下，與第一攝像頭相鄰的攝像頭能夠拍攝的範圍與第一攝像頭能夠拍攝的範圍之間可能存在一定的距離，需要跟蹤的目標可能無法立刻從第一攝像頭能夠拍攝的範圍移動至第二攝像頭拍攝的範圍，因此，在從與第一攝像頭相鄰的攝像頭拍攝的視頻流中選取視頻幀時，可以從與第一攝像頭相鄰的各個攝像頭拍攝的視頻流中，選取出多個拍攝時刻屬於相鄰時段的視頻幀。

為了便於描述，下面將第一視頻流中最後一次跟蹤到目標的視頻幀稱為第一視頻幀，將從第一攝像頭相鄰的各個攝像頭拍攝的視頻流中選取的視頻幀統稱為第二視頻幀。

伺服器從與第一攝像頭相鄰的攝像頭拍攝的視頻流中選取出第二視頻幀後，將各個第二視頻幀輸入至目標檢測模型，目標檢測模型通過對各個第二視頻幀進行相應地處理，檢測得到各個第二視頻幀中存在的候選區域，即檢測得到與第一攝像頭相鄰的各個攝像頭對應的候選區域。

檢測得到與第一攝像頭相鄰的各個攝像頭對應的候選區域後，伺服器根據各個攝像頭對應的候選區域與第一視頻流中最後一次跟蹤到的目的地區域中的深度特徵的相似度，選擇相似度超過閥值的多個候選區域對應的攝像頭作為候選攝像頭。

具體實現時，伺服器利用特徵提取模型提取各個第二視頻幀中各個候選區域的深度特徵，並計算各第二視頻幀中各個候選區域的深度特徵與第一視頻幀中目的地區域的深度特徵之間的特徵相似度，判斷各個候選區域對應的特徵相似度是否超過閥值，將特徵相似度超過閥值的各個候選區域對應的攝像頭作為候選攝像頭。基於各個候選區域的深度特徵和第一視頻幀中目的地區域的深度特徵，確定用於跨屏跟蹤的第二攝像頭，能夠有效地防止因目標的形態發生變化或者因攝像頭拍攝視角的改變，而造成跟丟目標的情況發生，即使在跨屏的情況下，也能保證對目標進行準確地跟蹤。

為了便於進一步理解上述確定候選攝像頭的具體實現過程，下面對上述確定候選攝像頭的過程進行舉例說明：

假設與第一攝像頭相鄰的攝像頭為攝像頭A、攝像頭B和攝像頭C，根據第一視頻幀的拍攝時刻，從攝像頭A、攝像頭B和攝像頭C拍攝的視頻流中分別選取拍攝時刻與該第一視頻幀拍攝時刻相鄰的第二視頻幀，假設從攝像頭A拍攝的視頻流中選取的第二視頻幀為視頻幀a，從攝像頭B拍攝的視頻流中選取的第二視頻幀為視頻幀b，從攝像頭C拍攝的視頻流中選取的第二視頻幀為視頻幀c；伺服器利用目標檢測模型檢測視頻幀a、視頻幀b和視頻幀c中存在的候選區域，假設目標檢測模型檢測出視頻幀a中存在候選區域a1、a2、a3和a4，檢測出視頻幀b中存在候選區域b1和b2，檢測出視頻幀c中存在候選區域c1。

然後，伺服器利用特徵提取模型提取視頻幀a、視頻幀b和視頻幀c中存在的候選區域的深度特徵，並計算視頻幀a、視頻幀b和視頻幀c中各候選區域的深度特徵與第一視頻幀中目的地區域的深度特徵之間的特徵相似度；進而，伺服器根據各個第二視頻幀中各個候選區域對應的特徵相似度，確定相似度超過閥值的候選區域，假設相似度超過閥值的候選區域包括候選區域a3和候選區域c1，則伺服器可以將候選區域a3對應的攝像頭A以及候選區域c1對應的攝像頭C作為候選攝像頭。

應理解，若僅存在一個特徵相似度超過閥值的候選區域，則可以直接將該候選區域對應的攝像頭作為第二攝像頭。

若根據候選區域對應的特徵相似度確定出多個候選攝像頭，則伺服器可以進一步從候選攝像頭中選擇與第一視頻流中最後一次跟蹤到目的地區域的物理位置和運動方向最匹配的候選區域，作為用於目標跟蹤的第二攝像頭。

具體實現時，伺服器可以將第一視頻幀中目的地區域的圖像位置輸入至位置座標映射模型，利用該位置座標映射模型確定第一視頻幀中目的地區域的物理位置；並且，伺服器利用該位置座標映射模型，根據各第二視頻幀中各個特徵相似度超過閥值的候選區域的圖像位置，確定各個候選區域的物理位置；計算各個候選區域的物理位置與第一視頻幀中目的地區域的物理位置之間的距離。

此外，伺服器還可以根據第一視頻流中與第一視頻幀相鄰的多個跟蹤到目標的視頻幀，確定跟蹤的目標的運動方向；進而，根據各個第二視頻幀中各個特徵相似度超過閥值的候選區域的位置，確定各個特徵相似度超過閥值的候選區域所處的位置與跟蹤的目標的運動方向是否匹配。

最終，結合各個候選區域的物理位置與第一視頻幀中目的地區域的物理位置之間的距離，以及第一視頻流中跟蹤到的目標的運動方向兩種因素，確定物理位置距離較近，且與第一視頻流中跟蹤到的目標的運動方向相匹配的候選區域，將該候選區域對應的攝像頭作為用於跨屏目標跟蹤的第二攝像頭。

應理解，伺服器也可以僅根據各個候選區域的物理位置與第一視頻幀中目的地區域的物理位置之間的距離，確定用於目標跟蹤的第二攝像頭，即伺服器可以直接確定與第一視頻幀中目的地區域的物理位置距離最近的候選區域，進而確定該候選區域對應的攝像頭作為第二攝像頭。

應理解，伺服器也可以僅根據第一視頻幀中跟蹤的目標的運動方向，確定與該運動方向最匹配的候選區域，進而，確定該候選區域對應的攝像頭作為第二攝像頭。

也就是說，在確定用於跨屏跟蹤的第二攝像頭時，伺服器可以僅根據第二視頻幀中各候選區域的特徵相似度，確定特徵相似度最大的候選區域對應的攝像頭作為第二攝像頭；伺服器也可以將特徵相似度，與物理位置距離和/或跟蹤的目標的運動方向結合起來，在第二視頻幀中確定最有可能包括跟蹤的目標的候選區域，進而，確定該候選區域對應的攝像頭作為候選攝像頭。

步驟402：獲取所述第二攝像頭拍攝的第二視頻流，針對所述第二視頻流中的視頻幀執行所述資料處理，以實現在所述第二視頻流中的目標跟蹤。

伺服器確定出第二攝像頭後，獲取該第二攝像頭拍攝的第二視頻流，並針對該第二視頻流包括的各個視頻幀執行圖2所示的目標跟蹤方法，從而實現在第二視頻流中進行目標跟蹤。

應理解，在第二視頻流中進行目標跟蹤時，伺服器也可以利用位置座標映射模型，將第二視頻流中各視頻幀中跟蹤的目標的圖像位置轉換為物理位置，進而，伺服器可以根據第一視頻流以及第二視頻流中跟蹤到的目標的物理位置，在物理地圖上繪製出跟蹤到的目標的運動軌跡，即在跨屏跟蹤的情況下，伺服器也可以利用該位置座標映射模型對在物理地圖上繪製出跟蹤到的目標的運動軌跡。

在本申請實施例提供的跨屏跟蹤方法中，利用目標檢測模型在與第一攝像頭相鄰的各個攝像頭拍攝的視頻幀中檢測候選區域，然後，利用特徵提取模型提取各個候選區域的深度特徵，基於各個候選區域的深度特徵與第一視頻流中最後一次跟蹤到的目標的深度特徵，確定各個候選區域對應的特徵相似度；進而，將各個候選區域對應的特徵相似度，各個候選區域的物理位置與第一視頻流中最後一次跟蹤到的目標的物理位置之間的距離，以及第一視頻流中跟蹤到的目標的運動方向結合起來，確定用於跨屏跟蹤的第二攝像頭；進而，針對第二攝像頭拍攝的第二視頻流中包括的各視頻幀執行上一實施例提供的目標跟蹤方法，以實現在該第二視頻流中進行目標跟蹤。在上述跨屏跟蹤的過程中，利用目標檢測模型和特徵提取模型確定用於跨屏跟蹤的第二攝像頭，以及在第二攝像頭拍攝的第二視頻流中進行目標跟蹤，由此，能夠保證較為準確地確定出用於跨屏跟蹤的第二攝像頭，並且在第二攝像頭拍攝的第二視頻流中能夠在較大的跟蹤範圍內，以跟蹤的目標的深度特徵為依據進行目標跟蹤，保證目標跟蹤的準確度。

如上文所述，本申請實施例提供的目標跟蹤方法的實現需要基於特徵提取模型，根據視頻幀中的各候選區域確定各候選區域對應的深度特徵。由於在實際應用中需要跟蹤的目標通常為人體，因此，可以基於人體再識別技術構建該特徵提取模型，以使該特徵提取模型能夠相應地提取人體的深度特徵。

下面結合附圖對用於提取人體深度特徵的特徵提取模型的訓練方法進行介紹。參見圖5，圖5為本申請實施例提供的特徵提取模型的訓練方法的流程示意圖。為了便於描述，本實施例仍以伺服器作為執行主體進行描述，應理解，該訓練方法的執行主體並不僅限於伺服器，還可以應用於終端設備等具有模型訓練功能的設備。如圖5所示，該訓練方法包括以下步驟：

步驟501：獲取圖像樣本，所述圖像樣本包括人體圖像以及圖像標籤。

伺服器在訓練特徵提取模型時，需要獲取圖像樣本，以便基於所獲取的圖像樣本對特徵提取模型進行訓練。伺服器所獲取的圖像樣本中通常包括人體圖像以及與人體圖像對應的圖像標籤，人體圖像為包括人物的圖像，圖像標籤為能夠表徵人體圖像中人物的標籤，例如，伺服器所獲取的人體圖像為包括人物A的圖像，那麼與該人體圖像對應的圖像標籤即為能表徵該人體圖像中存在人物A的標籤。

應理解，訓練該特徵提取模型時通常需要獲取大量的圖像樣本，以便基於這些圖像樣本能夠訓練出性能較好的特徵提取模型。

需要說明的是，為了使得用於訓練特徵提取模型的圖像樣本更加豐富，伺服器還可以利用基於人體姿態識別技術構建的生成式對抗網路，對獲取的圖像樣本中的人體圖像進行多姿態增廣，以針對同一人物生成更多的人體圖像，從而豐富圖像樣本。

步驟502：構建深度卷積神經網路初始模型，利用所述圖像樣本對所述深度卷積神經網路初始模型進行訓練，以訓練得到滿足訓練結束條件的深度卷積神經網路模型，作為所述特徵提取模型。

訓練特徵提取模型時，可以基於人體局部分割技術和特徵學習技術，構建深度卷積神經網路初始模型；利用該深度卷積神經網路可以從圖像樣本包括的人體圖像中提取人體深度特徵，進而，根據具有相同標籤的人體圖像各自對應的人體深度特徵的特徵誤差構建損失函數，基於該損失函數對深度卷積神經網路初始模型進行優化訓練，以訓練得到滿足訓練結束條件的模型參數，將最終訓練得到的深度卷積神經網路模型作為特徵提取模型。

判斷訓練的模型是否滿足訓練結束條件時，伺服器可以利用測試圖像樣本對訓練後的模型進行驗證，其中，訓練後的模型是利用圖像樣本對深度卷積神經網路初始模型進行一輪或者多輪訓練優化得到的模型；其中，測試圖像樣本中可以包括對應於同一測試圖像標籤的多個測試人體圖像，測試圖像樣本中也可以包括對應於不同測試圖像標籤的多個測試人體圖像。具體地，採用包括對應於同一測試圖像標籤的多個測試人體圖像對訓練後的模型進行驗證時，可以將測試圖像樣本中包括的多個測試人體圖像輸入至該第一模型，利用該訓練後的模型提取各個測試人體圖像的人體深度特徵，若各個測試人體圖像對應的人體深度特徵之間的特徵相似度超過第一相似度閥值，則說明該第一模型的模型性能較好，已滿足訓練結束條件，可以根據該訓練後的模型直接作為特徵提取模型；若採用包括對應於不同測試圖像標籤的多個測試人體圖像對第一模型進行驗證時，可以將測試圖像樣本中包括的多個測試人體圖像輸入至該訓練後的模型，利用該訓練後的模型提取各個測試人體圖像的人體深度特徵，若各個測試人體圖像對應的人體深度特徵之間的特徵相似度低於第二相似度閥值，則說明該第一模型的模型性能較好，已滿足訓練結束條件，可以將該訓練後的模型直接作為特徵提取模型。否則，表明該訓練後的模型性能不夠優異，還需要進一步訓練。

應理解，上述第一相似度閥值大於第二相似度閥值，第一相似度閥值和第二相似度閥值可以根據實際情況進行設定，在此不對第一相似度閥值和第二相似度閥值做任何具體限定。

為了便於理解上述判斷訓練的模型是否滿足訓練結束條件的具體實現過程，下面對上述判斷過程進行舉例說明：

假設伺服器利用測試圖像樣本A對經第一輪訓練優化得到的深度卷積神經網路初始模型進行驗證，測試圖像樣本A中包括對應於同一測試圖像標籤的測試人體圖像a1和測試人體圖像a2，伺服器將測試人體圖像a1和測試人體圖像a2輸入至經第一輪訓練優化得到的訓練模型後，該模型相應地提取測試人體圖像a1中的人體深度特徵以及測試人體圖像a2的人體深度特徵，計算測試人體圖像a1中的人體深度特徵與測試人體圖像a2中的人體深度特徵之間的特徵相似度，若該特徵相似度大於第一相似度閥值，則說明模型識別準確度已達到目標，此時訓練的模型已滿足訓練結束條件，可以將該模型作為特徵提取模型；反之，若該特徵相似度小於第一相似度閥值，則說明此時訓練的模型的識別精確度還不能滿足需求，還未滿足訓練結束條件，需要利用圖像樣本繼續對模型進行訓練優化。

應理解，在實際應用中，伺服器還可以採用其他方式驗證深度卷積神經網路初始模型是否滿足訓練結束條件，在此不對驗證深度卷積神經網路初始模型做任何限定。

按照上述方法基於人體再識別技術構建並訓練特徵提取模型，能夠保證訓練得到的特徵提取模型能夠準確地提取出人體的深度特徵，由此，保證基於該特徵提取模型進行目標跟蹤時，能夠準確地確定需要跟蹤的目標的深度特徵以及目標檢測模型所確定的各候選區域的深度特徵，進而保證目標跟蹤的準確性。

為了便於進一步理解本申請實施例提供的目標跟蹤方法，下面結合在監控錄影中跟蹤目標的應用場景，對本申請實施例提供的目標跟蹤方法進行介紹。

參見圖6，圖6為本申請實施例提供的目標跟蹤方法的應用場景示意圖。該應用場景中包括：第一攝像頭601、跟蹤伺服器602以及第二攝像頭603。

當保全人員需要在第一攝像頭601即時拍攝的第一視頻流中進行目標跟蹤時，保全人員可以通過終端設備向跟蹤伺服器602發起相應的目標跟蹤請求，相應地，跟蹤伺服器602回應於該目標跟蹤請求，即時地從第一攝像頭601處獲取該第一攝像頭601拍攝的第一視頻流，並針對第一視頻流中的視頻幀執行以下資料處理。

跟蹤伺服器602具體針對第一視頻流中的某一視頻幀進行目標跟蹤時，將該視頻幀作為當前視頻幀，跟蹤伺服器602先利用目標檢測模型在該當前視頻幀的整體範圍內進行檢測物件的檢測，以獲得該當前視頻幀中存在的所有候選區域，每個候選區域中均包含有一個檢測物件；然後，跟蹤伺服器602利用特徵提取模型提取當前視頻幀中各個候選區域的深度特徵；進而，跟蹤伺服器602根據各個候選區域對應的深度特徵以及在該當前視頻幀之前的視頻幀中跟蹤到的目標的深度特徵，計算各個候選區域對應的深度特徵與在前視頻幀中跟蹤到的目標的深度特徵之間的特徵相似度；最終，基於各個候選區域對應的特徵相似度，確定當前視頻幀中跟蹤到的目標。

跟蹤伺服器602在確定當前視頻幀中跟蹤到的目標時，也可以利用位置座標映射模型，確定當前視頻幀中各個候選區域對應的物理位置以及在前視頻幀中跟蹤到的目標的物理位置，基於各個候選區域的物理位置與在前視頻幀中跟蹤到的目標的物理位置，計算各個候選區域的物理位置與在前視頻幀中跟蹤到的目標的物理位置之間的距離；進而，結合特徵相似度與物理位置距離兩個因素，確定當前視頻幀中跟蹤到的目標。

跟蹤伺服器602在確定當前視頻幀中跟蹤到的目標時，還可以根據在前視頻幀中跟蹤到的目標所處的位置，確定跟蹤到的目標的運動方向，根據各個候選區域在當前視頻幀中所處的位置，判斷各個候選區域與跟蹤到的目標的運動方向是否匹配；進而，結合特徵相似度以及候選區域與跟蹤到的目標的運動方向的匹配程度兩個因素，確定當前視頻幀中跟蹤到的目標。

此外，跟蹤伺服器602在確定當前視頻幀中跟蹤到的目標時，還可以將上述特徵相似度、物理位置距離以及與運動方向的匹配程度三個因素結合起來，確定當前視頻幀中跟蹤到的目標。

由此，跟蹤伺服器602可以按照上述方法對第一視頻流中的各個視頻幀進行資料處理，從而實現在第一視頻流中進行目標跟蹤。

若跟蹤伺服器602檢測發現跟蹤的目標消失於第一攝像頭能夠拍攝的範圍邊緣，且在預設時間段內第一攝像頭拍攝的第一視頻流中均沒有跟蹤到該目標，則可認為所跟蹤的目標移動至第一攝像頭無法拍攝到的範圍，相應地，跟蹤伺服器602開啟跨屏目標跟蹤，確定能夠拍攝到需要跟蹤的目標的第二攝像頭603。

跟蹤伺服器602確定第二攝像頭603時，需要先根據第一攝像頭601所處的位置，確定與該第一攝像頭601相鄰的攝像頭；進而根據第一攝像頭601最後一次拍攝到需要跟蹤的目標的時刻，從這些與第一攝像頭601相鄰的攝像頭拍攝的視頻流中提取第二視頻幀，利用目標檢測模型檢測第二視頻幀中存在的候選區域。

然後跟蹤伺服器602利用特徵提取模型提取各個第二視頻幀中各個候選區域的深度特徵，根據各個候選區域的深度特徵以及在第一視頻流中最後一次跟蹤到的目標的深度特徵，計算各個候選區域對應的特徵相似度，進而，選取特徵相似度超過閥值的候選區域，確定特徵相似度超過閥值的候選區域對應的攝像頭為候選攝像頭。

在僅存在一個特徵相似度超過閥值的候選區域時，跟蹤伺服器602可以直接將該候選區域對應的攝像頭作為第二攝像頭；在存在多個特徵相似度超過閥值的候選區域時，跟蹤伺服器602可以利用位置座標映射模型，確定各個特徵相似度超過閥值的候選區域的物理位置，進而根據各個候選區域的物理位置與在第一視頻流中最後一次跟蹤到的目標的物理位置，確定各候選區域與第一視頻流中最後一次跟蹤到目標的物理位置距離；此外，跟蹤伺服器602還可以確定第一視頻流中最後一次跟蹤到的目標的運動方向，判斷各個超過閥值的候選區域所處的位置與目標的運動方向是否匹配；最終，在各個超過閥值的候選區域中選取物理位置距離最小，且與目標的運動方向最匹配的候選區域，確定該候選區域對應的攝像頭為第二攝像頭603。

進而，跟蹤伺服器602可以按照上述在第一攝像頭601拍攝的第一視頻流中進行目標跟蹤的方法，對第二攝像頭602拍攝的第二視頻流進行目標跟蹤。

由於位置座標映射模型能夠將在視頻幀中跟蹤到的目標的圖像位置轉換為物理位置，因此，跟蹤伺服器602還可以利用位置座標映射模型，將在第一視頻流以及第二視頻流中各個視頻幀中跟蹤到的目標的圖像位置相應地轉換為物理地圖上的物理位置，並根據各視頻幀中跟蹤到的目標的物理位置在物理地圖上繪製出該目標的運動軌跡，由此，便於保全人員根據物理地圖即時更新顯示的運動軌跡，及時合理地安排安保力量對該目標進行追蹤攔截，同時也為事後調查回溯歷史惡意人員作案軌跡提供了快速有力的幫助。

在實際應用中，視頻監控系統中常常會包括多個攝像頭，通過多個攝像頭進行全方位視頻監控，上述圖6所示場景僅通過兩個攝像頭的跨屏跟蹤描述了方案的實現過程，而基於多個攝像頭實現目標跟蹤時，其本質是上述目標跟蹤方法的重複實現。

針對上文描述的目標跟蹤方法，本申請實施例還提供了對應的目標跟蹤裝置，以便於這些方法在實際中的應用及實現。

參見圖7，圖7是與上文圖2所示的方法對應的一種目標跟蹤裝置700的結構示意圖，該目標跟蹤裝置700包括獲取模組710以及處理模組720。

獲取模組710用於獲取第一視頻流。處理模組720用於針對所述第一視頻流中的視頻幀執行如下資料處理，以實現在所述第一視頻流中的目標跟蹤。

所述處理模組720包括檢測子模組721、特徵提取子模組722、計算子模組723和確定子模組724。

檢測子模組721用於根據目標檢測模型和當前視頻幀，檢測得到所述當前視頻幀中的候選區域。特徵提取子模組722用於根據特徵提取模型和所述候選區域，提取得到所述候選區域對應的深度特徵，所述特徵提取模型是端到端的神經網路模型，以圖像作為輸入，以圖像中可運動體的深度特徵作為輸出。計算子模組723用於根據所述候選區域對應的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵，計算所述候選區域對應的特徵相似度。確定子模組724用於根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標。

可選地，在上述圖7所示的目標跟蹤裝置的基礎上，確定子模組724具體用於：

根據所述候選區域各自對應的特徵相似度，選擇特徵相似度最大的候選區域，作為所述當前視頻幀的目的地區域；

根據所述目的地區域確定所述當前視頻幀中跟蹤到的目標。

根據所述候選區域各自對應的特徵相似度，選擇特徵相似度超過閥值的多個候選區域；

從所述多個候選區域中選擇與所述在前視頻幀中跟蹤到的目標的運動方向最匹配的候選區域，作為所述當前視頻幀的目的地區域；

根據所述當前視頻幀的目的地區域確定所述當前視頻幀中跟蹤到的目標。

從所述多個候選區域中選擇與所述在前視頻幀中跟蹤到的目標的物理位置距離最小的候選區域，作為所述當前視頻幀的目的地區域；

從所述多個候選區域中，選擇與所述在前視頻幀中跟蹤到的目標的物理位置和運動方向最匹配的候選區域，作為所述當前視頻幀的目的地區域；

可選地，在上述圖7所示的目標跟蹤裝置的基礎上，確定子模組724具體通過以下方式計算所述候選區域的物理位置以及所述在前視頻幀中跟蹤到的目的地區域的物理位置：

將所述候選區域的圖像位置輸入位置座標映射模型，獲取所述位置座標映射模型輸出的所述候選區域的物理位置；以及，

將所述在前視頻幀中跟蹤到的目的地區域的圖像位置輸入所述位置座標映射模型，獲取所述位置座標映射模型輸出的所述在前視頻幀中跟蹤到的目的地區域的物理位置。

可選地，在圖7所示的目標跟蹤裝置的基礎上，參見圖8，圖8為本申請實施例提供的另一種目標跟蹤裝置800的結構示意圖，該裝置還包括：

座標映射矩陣計算模組801，用於根據標定圖像上的至少四個位置點的位置座標以及所述至少四個位置點在物理世界地面上的物理位置座標，通過透視變換公式計算得到座標映射矩陣；

模型生成模組802，用於根據所述座標映射矩陣生成所述位置座標映射模型。

可選地，在圖7所示的目標跟蹤裝置的基礎上，參見圖9，圖9為本申請實施例提供的另一種目標跟蹤裝置900的結構示意圖，該裝置還包括：

選擇模組901，用於根據所述第一視頻流中最後一次跟蹤到的目的地區域，從與第一攝像頭相鄰的攝像頭中選擇用於跨屏目標跟蹤的第二攝像頭，所述第一視頻流是所述第一攝像頭拍攝得到的；

跨屏跟蹤模組902，用於獲取所述第二攝像頭拍攝的第二視頻流，針對所述第二視頻流中的視頻幀執行所述資料處理，以實現在所述第二視頻流中的目標跟蹤。

可選地，在圖9所示的目標跟蹤裝置的基礎上，選擇模組901具體用於：

針對與所述第一攝像頭相鄰的攝像頭，根據所述攝像頭拍攝的視頻流和所述目標檢測模型，檢測得到所述攝像頭對應的候選區域；

根據所述攝像頭對應的候選區域與所述第一視頻流中最後一次跟蹤到的目的地區域中的深度特徵的特徵相似度，選擇特徵相似度超過閥值的多個候選區域對應的所述攝像頭，作為候選攝像頭；

從所述候選攝像頭中選擇與所述第一視頻流最後一次跟蹤到的目的地區域的物理位置和運動方向最匹配的候選區域，作為用於目標跟蹤的第二攝像頭。

可選地，在圖7所示的目標跟蹤裝置的基礎上，參見圖10，圖10為本申請實施例提供的另一種目標跟蹤裝置1000的結構示意圖，該裝置還包括：

繪製模組1001，用於根據所述第一視頻流跟蹤得到的目標的物理位置，在物理地圖上繪製所述目標的運動軌跡。

可選地，在圖7所示的目標跟蹤裝置的基礎上，所述目標檢測模型包括：

基礎網路和輔助網路，所述基礎網路採用羽量級的卷積神經網路mobilenet，所述輔助網路採用卷積核構成的檢測層；所述輔助網路的輸入為所述基礎網路的不同卷積層輸出的特徵圖。

可選地，在圖7所示的目標跟蹤裝置的基礎上，參見圖11，圖11為本申請實施例提供的另一種目標跟蹤裝置1100的結構示意圖，該裝置還包括：

圖像樣本獲取模組1101，用於獲取圖像樣本，所述圖像樣本包括人體圖像以及圖像標籤；

模型訓練模組1102，用於構建深度卷積神經網路初始模型，利用所述圖像樣本對所述深度卷積神經網路初始模型進行訓練，以訓練得到滿足訓練結束條件的深度卷積神經網路模型，作為所述特徵提取模型。

在本申請實施例提供的目標跟蹤裝置中，利用目標檢測模型在當前視頻幀的整體範圍內進行目標檢測，以確定當前視頻幀中存在的所有候選區域，進而基於所確定的各個候選區域確定跟蹤目標，相比於習知技術中根據前一視頻幀的目的地區域確定當前視頻幀的目標跟蹤範圍，並且僅在該目標跟蹤範圍內進行目標跟蹤，本申請實施例中利用目標檢測模型在視頻幀的整體範圍內確定候選區域，擴大了目標跟蹤的範圍，能夠有效地防止發生因跟蹤目標移動過快而跟丟跟蹤目標的情況；另外，在本申請實施例提供的目標跟蹤裝置中，利用特徵提取模型提取所確定的各個候選區域的深度特徵，並基於各個候選區域的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵確定跟蹤目標，相比於習知技術中僅以形態特徵為依據進行目標跟蹤，本申請實施例中基於深度特徵確定跟蹤目標，能夠保證所確定的跟蹤目標更加準確，有效地防止發生跟蹤漂移的情況。此外，本申請實施例提供的目標跟蹤裝置同樣可以可靠地應用於跨屏目標跟蹤的場景下，因此，在跨屏目標跟蹤的應用場景下，同樣能夠有效地防止發生跟丟跟蹤目標或跟蹤目標漂移的情況，保證目標跟蹤的準確性。

本申請實施例還提供了一種目標跟蹤設備，該設備具體可以為伺服器，參見圖12，圖12是本申請實施例提供的一種目標跟蹤設備的結構示意圖，該伺服器1200可因配置或性能不同而產生比較大的差異，可以包括一個或一個以上中央處理器(central processing units，CPU)1222(例如，一個或一個以上處理器)和記憶體1232，一個或一個以上儲存應用程式1242或資料1244的儲存介質1230(例如一個或一個以上海量存放裝置)。其中，記憶體1232和儲存介質1230可以是短暫儲存或持久儲存。儲存在儲存介質1230的程式可以包括一個或一個以上模組(圖示沒標出)，每個模組可以包括對伺服器中的一系列指令操作。更進一步地，中央處理器1222可以設置為與儲存介質1230通信，在伺服器1200上執行儲存介質1230中的一系列指令操作。

伺服器1200還可以包括一個或一個以上電源1226，一個或一個以上有線或無線網路介面1250，一個或一個以上輸入輸出介面1258，和/或，一個或一個以上作業系統1241，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

上述實施例中由伺服器所執行的步驟可以基於該圖12所示的伺服器結構。

其中，CPU 1222用於執行如下步驟：

可選地，CPU1222還可以執行本申請實施例中目標跟蹤方法任一具體實現方式的方法步驟。

本申請實施例還提供了另一種目標跟蹤設備，該目標跟蹤設備可以為終端設備，如圖13所示，為了便於說明，僅示出了與本申請實施例相關的部分，具體技術細節未揭示的，請參照本申請實施例方法部分。該終端可以為包括手機、平板電腦、個人數位助理(Personal Digital Assistant， PDA)、銷售終端(Point of Sales，POS)、車載電腦等任意終端設備，以終端為手機為例：

圖13示出的是與本申請實施例提供的終端相關的手機的部分結構的框圖。參考圖13，手機包括：射頻(Radio Frequency， RF)電路1310、記憶體1320、輸入單元1330、顯示單元1340、感測器1350、音訊電路1360、無線保真(wireless fidelity，WiFi)模組1370、處理器1380、以及電源1390等部件。本領域技術人員可以理解，圖13中示出的手機結構並不構成對手機的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件佈置。

下面結合圖13對手機的各個構成部件進行具體的介紹：

RF電路1310可用於收發資訊或通話過程中，信號的接收和發送，特別地，將基站的下行資訊接收後，給處理器1380處理；另外，將設計上行的資料發送給基站。通常，RF電路1310包括但不限於天線、至少一個放大器、收發信機、耦合器、低雜訊放大器(Low Noise Amplifier，LNA)、雙工器等。此外，RF電路1310還可以通過無線通訊與網路和其他設備通信。上述無線通訊可以使用任一通信標準或協定，包括但不限於全球移動通訊系統 (Global System of Mobile communication，GSM)、通用分組無線服務(General Packet Radio Service，GPRS)、碼分多址(Code Division Multiple Access，CDMA)、寬頻碼分多址(Wideband Code Division Multiple Access，WCDMA)、長期演進 (Long Term Evolution，LTE)、電子郵件、短消息服務(Short Messaging Service，SMS)等。

記憶體1320可用於儲存軟體程式以及模組，處理器1380通過運行儲存在記憶體1320的軟體程式以及模組，從而執行手機的各種功能應用以及資料處理。記憶體1320可主要包括儲存程式區和儲存資料區，其中，儲存程式區可儲存作業系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等；儲存資料區可儲存根據手機的使用所創建的資料(比如音訊資料、電話本等)等。此外，記憶體1320可以包括高速隨機存取記憶體，還可以包括非易失性記憶體，例如至少一個磁碟記憶體件、快閃記憶體器件、或其他易失性固態記憶體件。

輸入單元1330可用於接收輸入的數位或字元資訊，以及產生與手機的用戶設置以及功能控制有關的鍵信號輸入。具體地，輸入單元1330可包括觸控面板1331以及其他輸入裝置1332。觸控面板1331，也稱為觸控式螢幕，可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板1331上或在觸控面板1331附近的操作)，並根據預先設定的程式驅動相應的連接裝置。可選地，觸控面板1331可包括觸摸檢測裝置和觸摸控制器兩個部分。其中，觸摸檢測裝置檢測使用者的觸摸方位，並檢測觸摸操作帶來的信號，將信號傳送給觸摸控制器；觸摸控制器從觸摸檢測裝置上接收觸摸資訊，並將它轉換成觸點座標，再送給處理器1380，並能接收處理器1380發來的命令並加以執行。此外，可以採用電阻式、電容式、紅外線以及表面聲波等多種類型實現觸控面板1331。除了觸控面板1331，輸入單元1330還可以包括其他輸入裝置1332。具體地，其他輸入裝置1332可以包括但不限於物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、滑鼠、操作杆等中的一種或多種。

顯示單元1340可用於顯示由使用者輸入的資訊或提供給使用者的資訊以及手機的各種功能表。顯示單元1340可包括顯示面板1341，可選地，可以採用液晶顯示器(Liquid Crystal Display，LCD)、有機發光二極體(Organic Light-Emitting Diode，OLED)等形式來配置顯示面板1341。進一步的，觸控面板1331可覆蓋顯示面板1341，當觸控面板1331檢測到在其上或附近的觸摸操作後，傳送給處理器1380以確定觸摸事件的類型，隨後處理器1380根據觸摸事件的類型在顯示面板1341上提供相應的視覺輸出。雖然在圖13中，觸控面板1331與顯示面板1341是作為兩個獨立的部件來實現手機的輸入和輸入功能，但是在某些實施例中，可以將觸控面板1331與顯示面板1341集成而實現手機的輸入和輸出功能。

手機還可包括至少一種感測器1350，比如光感測器、運動感測器以及其他感測器。具體地，光感測器可包括環境光感測器及接近感測器，其中，環境光感測器可根據環境光線的明暗來調節顯示面板1341的亮度，接近感測器可在手機移動到耳邊時，關閉顯示面板1341和/或背光。作為運動感測器的一種，加速計感測器可檢測各個方向上(一般為三軸)加速度的大小，靜止時可檢測出重力的大小及方向，可用於識別手機姿態的應用(比如橫豎屏切換、相關遊戲、磁力計姿態校準)、振動識別相關功能(比如計步器、敲擊)等; 至於手機還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線感測器等其他感測器，在此不再贅述。

音訊電路1360、揚聲器1361，麥克風1362可提供使用者與手機之間的音訊介面。音訊電路1360可將接收到的音訊資料轉換後的電信號，傳輸到揚聲器1361，由揚聲器1361轉換為聲音信號輸出；另一方面，麥克風1362將收集的聲音信號轉換為電信號，由音訊電路1360接收後轉換為音訊資料，再將音訊資料輸出處理器1380處理後，經RF電路1310以發送給比如另一手機，或者將音訊資料輸出至記憶體1320以便進一步處理。

WiFi屬於短距離無線傳輸技術，手機通過WiFi模組1370可以説明使用者收發電子郵件、流覽網頁和訪問流式媒體等，它為用戶提供了無線的寬頻互聯網訪問。雖然圖13示出了WiFi模組1370，但是可以理解的是，其並不屬於手機的必須構成，完全可以根據需要在不改變發明的本質的範圍內而省略。

處理器1380是手機的控制中心，利用各種介面和線路連接整個手機的各個部分，通過運行或執行儲存在記憶體1320內的軟體程式和/或模組，以及調用儲存在記憶體1320內的資料，執行手機的各種功能和處理資料，從而對手機進行整體監控。可選地，處理器1380可包括一個或多個處理單元；優選的，處理器1380可集成應用處理器和調製解調處理器，其中，應用處理器主要處理作業系統、使用者介面和應用程式等，調製解調處理器主要處理無線通訊。可以理解的是，上述調製解調處理器也可以不集成到處理器1380中。

手機還包括給各個部件供電的電源1390(比如電池)，優選的，電源可以通過電源管理系統與處理器1380邏輯相連，從而通過電源管理系統實現管理充電、放電、以及功耗管理等功能。

儘管未示出，手機還可以包括攝像頭、藍牙模組等，在此不再贅述。此外，手機內還可以圖形處理器(Graphics Processing Unit，GPU)，特徵提取模型和目標檢測模型可以通過GPU運行，GPU與處理器1380相互通信，以實現本申請實施例提供的目標跟蹤方法。當然，特徵提取模型和目標檢測模型也可以在處理器1380上運行以實現其功能。

在本申請實施例中，該終端所包括的處理器1380還具有以下功能：

可選地，處理器1380還可以執行本申請實施例中目標跟蹤方法任一具體實現方式的方法步驟。

本申請實施例還提供一種電腦可讀儲存介質，用於儲存程式碼，該程式碼用於執行前述各個實施例所述的一種目標跟蹤方法中的任意一種實施方式。

本申請實施例還提供一種包括指令的電腦程式產品，當其在電腦上運行時，使得電腦執行前述各個實施例所述的一種目標跟蹤方法中的任意一種實施方式。

所屬領域的技術人員可以清楚地瞭解到，為描述的方便和簡潔，上述描述的系統，裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統，裝置和方法，可以通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用軟體功能單元的形式實現。

所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解，本申請的技術方案本質上或者說對習知技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存介質中，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)執行本申請各個實施例所述方法的全部或部分步驟。而前述的儲存介質包括：USB隨身碟、移動硬碟、唯讀記憶體(Read-Only Memory， ROM)、隨機存取記憶體(Random Access Memory， RAM)、磁碟或者光碟等各種可以儲存程式碼的介質。

以上所述實施例僅表達了本申請的幾種實施方式，其描述較為具體和詳細，但並不能因此而理解為對本申請專利範圍的限制。應當指出的是，對於本領域的普通技術人員來說，在不脫離本申請構思的前提下，還可以做出若干變形和改進，這些都屬於本申請的保護範圍。因此，本申請專利的保護範圍應以所附申請專利範圍為准。

101:監控攝像機102:伺服器 201-204:步驟301:視頻幀 302:目標檢測模型303-305:邊界框 401-402:步驟501-502:步驟 601、603:監控攝像機602:跟縱伺服器 700:目標跟蹤裝置710:獲取模組 720:處理模組721:檢測子模組 722:特徵提取子模組723:計算子模組 724:確定子模組800:目標跟蹤裝置 801:座標映射矩陣計算模組802:模型生成模組 900:目標跟蹤裝置901:選擇模組 902:跨屏跟蹤模組1000:目標跟蹤裝置 1001:繪製模組1100:目標跟蹤裝置 1101:圖像樣本獲取模組1102:模型訓練模組 1200:伺服器1222:中央處理器 1226:電源1230:儲存介質 1232:記憶體1241:作業系統 1242:應用程式1244:資料 1250:有線或無線網路介面1258:輸入輸出介面 1310:射頻電路1320:記憶體 1330:輸入單元1331:觸控面板 1332:其他輸入設備1340:顯示單元 1341:顯示面板1361:揚聲器 1362:麥克風 1350:感測器1360:音訊電路 1370:WiFi模組1380:處理器 1390:電源

圖1為本申請實施例中一種目標跟蹤方法的應用場景示意圖。圖2為本申請實施例中一種目標跟蹤方法的流程示意圖。圖3為本申請實施例中一種目標檢測模型的工作效果示意圖。圖4為本申請實施例中一種跨屏目標跟蹤方法的流程示意圖。圖5為本申請實施例中一種特徵提取模型訓練方法的流程示意圖。圖6為本申請實施例中另一種目標跟蹤方法的應用場景示意圖。圖7為本申請實施例中第一種目標跟蹤裝置的結構示意圖。圖8為本申請實施例中第二種目標跟蹤裝置的結構示意圖。圖9為本申請實施例中第三種目標跟蹤裝置的結構示意圖。圖10為本申請實施例中第四種目標跟蹤裝置的結構示意圖。圖11為本申請實施例中第五種目標跟蹤裝置的結構示意圖。圖12為本申請實施例中一種目標跟蹤設備的結構示意圖。圖13為本申請實施例中另一種目標跟蹤設備的結構示意圖。

101:監控攝像機

102:伺服器

Claims

一種目標跟蹤方法，包括：伺服器獲取第一視頻流，針對所述第一視頻流中的視頻幀執行如下資料處理，以實現在所述第一視頻流中的目標跟蹤，所述資料處理包括：所述伺服器根據目標檢測模型和當前視頻幀，檢測得到所述當前視頻幀中的候選區域；所述伺服器根據特徵提取模型和所述候選區域，提取得到所述候選區域對應的深度特徵，所述特徵提取模型是端到端的神經網路模型，以圖像作為輸入，以圖像中可運動體的深度特徵作為輸出；所述伺服器根據所述候選區域對應的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵，計算所述候選區域對應的特徵相似度；以及所述伺服器根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標。
根據請求項1所述的方法，其中，所述伺服器根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標，包括：根據所述候選區域各自對應的特徵相似度，選擇特徵相似度最大的候選區域，作為所述當前視頻幀的目的地區域；及根據所述目的地區域確定所述當前視頻幀中跟蹤到的目標。
根據請求項1所述的方法，其中，所述伺服器根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標，包括：根據所述候選區域各自對應的特徵相似度，選擇特徵相似度超過閥值的多個候選區域；從所述多個候選區域中選擇與所述在前視頻幀中跟蹤到的目標的運動方向最匹配的候選區域，作為所述當前視頻幀的目的地區域；及根據所述當前視頻幀的目的地區域確定所述當前視頻幀中跟蹤到的目標。
根據請求項1所述的方法，其中，所述伺服器根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標，包括：根據所述候選區域各自對應的特徵相似度，選擇特徵相似度超過閥值的多個候選區域；從所述多個候選區域中選擇與所述在前視頻幀中跟蹤到的目標的物理位置距離最小的候選區域，作為所述當前視頻幀的目的地區域；根據所述當前視頻幀的目的地區域確定所述當前視頻幀中跟蹤到的目標。
根據請求項1所述的方法，其中，所述伺服器根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標，包括：根據所述候選區域各自對應的特徵相似度，選擇特徵相似度超過閥值的多個候選區域；從所述多個候選區域中，選擇與所述在前視頻幀中跟蹤到的目標的物理位置和運動方向最匹配的候選區域，作為所述當前視頻幀的目的地區域；及根據所述當前視頻幀的目的地區域確定所述當前視頻幀中跟蹤到的目標。
根據請求項1所述的方法，其中，所述第一視頻流是第一攝像頭拍攝得到的，則在所述第一視頻流中跟蹤目標消失後，所述方法還包括：所述伺服器根據所述第一視頻流中最後一次跟蹤到的目的地區域，從與所述第一攝像頭相鄰的攝像頭中選擇用於跨屏目標跟蹤的第二攝像頭；及所述伺服器獲取所述第二攝像頭拍攝的第二視頻流，針對所述第二視頻流中的視頻幀執行所述資料處理，以實現在所述第二視頻流中的目標跟蹤。
根據請求項6所述的方法，其中，所述伺服器根據從所述第一視頻流中最後一次跟蹤到的目的地區域，從與所述第一攝像頭相鄰的攝像頭中選擇用於跨屏目標跟蹤的第二攝像頭，包括：針對與所述第一攝像頭相鄰的攝像頭，根據所述攝像頭拍攝的視頻流和所述目標檢測模型，檢測得到所述攝像頭對應的候選區域；根據所述攝像頭對應的候選區域與所述第一視頻流中最後一次跟蹤到的目的地區域中的深度特徵的特徵相似度，選擇特徵相似度超過閥值的多個候選區域對應的所述攝像頭，作為候選攝像頭；及從所述候選攝像頭中選擇與所述第一視頻流最後一次跟蹤到的目標的物理位置和運動方向最匹配的候選區域，作為用於目標跟蹤的第二攝像頭。
根據請求項1至7任一項所述的方法，其中，所述方法還包括通過以下方式計算所述候選區域的物理位置以及所述在前視頻幀中跟蹤到的目的地區域的物理位置：將所述候選區域的圖像位置輸入位置座標映射模型，獲取所述位置座標映射模型輸出的所述候選區域的物理位置；以及將所述在前視頻幀中跟蹤到的目的地區域的圖像位置輸入所述位置座標映射模型，獲取所述位置座標映射模型輸出的所述在前視頻幀中跟蹤到的目標的物理位置。
根據請求項8所述的方法，其中，所述方法還包括：根據預設的標定圖像上的至少四個位置點的位置座標以及所述至少四個位置點在物理世界地面上的物理位置座標，通過透視變換公式計算得到座標映射矩陣；根據所述座標映射矩陣生成所述位置座標映射模型。
根據請求項1至7任一項所述的方法，其中，所述方法還包括：所述伺服器根據所述第一視頻流跟蹤到的目標的物理位置，在物理地圖上繪製所述目標的運動軌跡。
根據請求項1至7任一項所述的方法，其中，所述目標檢測模型，包括：基礎網路和輔助網路，所述基礎網路採用羽量級的卷積神經網路，所述輔助網路採用卷積核構成的檢測層；所述輔助網路的輸入為所述基礎網路的不同卷積層輸出的特徵圖。
根據請求項1至7任一項所述的方法，其中，所述方法還包括：所述伺服器獲取圖像樣本，所述圖像樣本包括人體圖像以及圖像標籤；所述伺服器構建深度卷積神經網路初始模型，利用所述圖像樣本對所述深度卷積神經網路初始模型進行訓練，以訓練得到滿足訓練結束條件的深度卷積神經網路模型，作為所述特徵提取模型。
根據請求項1至7任一項所述的方法，其中，所述當前視頻幀為所述第一視頻流中位於第一幀視頻幀之後的視頻幀，在所述當前視頻幀為所述第一視頻流中的第二幀視頻幀的情況下，所述在前視頻幀中跟蹤到的目標的深度特徵為利用所述特徵提取模型提取的在所述第一幀視頻幀中需要跟蹤的目標的深度特徵。
一種目標跟蹤方法，包括：伺服器對第一視頻流中的目標進行跟蹤，其中，所述第一視頻流是第一攝像頭拍攝到的；在所述目標在所述第一視頻流中消失後，所述伺服器根據所述第一視頻流中最後一次跟蹤到的目的地區域，從與所述第一攝像頭相鄰的攝像頭中選擇用於跨屏目標跟蹤的第二攝像頭；所述伺服器獲取所述第二攝像頭拍攝的第二視頻流；所述伺服器在所述第二視頻流中對所述目標進行跟蹤。
根據請求項14所述的方法，其中，所述伺服器根據從所述第一視頻流中最後一次跟蹤到的目的地區域，從與所述第一攝像頭相鄰的攝像頭中選擇用於跨屏目標跟蹤的第二攝像頭，包括：針對與所述第一攝像頭相鄰的攝像頭，根據所述攝像頭拍攝的視頻流和目標檢測模型，檢測得到所述攝像頭對應的候選區域；根據特徵提取模型和所述候選區域，提取得到所述候選區域對應的深度特徵，所述特徵提取模型是端到端的神經網路模型，以圖像作為輸入，以圖像中可運動體的深度特徵作為輸出；根據所述候選區域對應的深度特徵和在第一視頻流中最後一次跟蹤到的目標的深度特徵，計算所述候選區域對應的特徵相似度；根據所述候選區域對應的特徵相似度，確定所述用於跨屏目標跟蹤的第二攝像頭。
根據請求項15所述的方法，其中，所述根據所述候選區域對應的特徵相似度，確定所述用於跨屏目標跟蹤的第二攝像頭包括：將與所述特徵相似度超過閥值的候選區域對應的攝像頭確定為所述第二攝像頭。
根據請求項15所述的方法，其中，所述根據所述候選區域對應的特徵相似度，確定所述用於跨屏目標跟蹤的第二攝像頭包括：根據所述候選區域各自對應的特徵相似度，選擇特徵相似度超過閥值的多個候選區域；從所述多個候選區域中選擇與所述在第一視頻流中最後一次跟蹤到的目標的運動方向最匹配的候選區域，將與所述最匹配的候選區域對應的攝像頭確定為所述第二攝像頭。
根據請求項15所述的方法，其中，所述根據所述候選區域對應的特徵相似度，確定所述用於跨屏目標跟蹤的第二攝像頭包括：根據所述候選區域各自對應的特徵相似度，選擇特徵相似度超過閥值的多個候選區域；從所述多個候選區域中選擇與所述在第一視頻流中最後一次跟蹤到的目標的物理位置距離最小的候選區域，將與所述距離最小的候選區域對應的攝像頭確定為所述第二攝像頭。
根據請求項15所述的方法，其中，所述根據所述候選區域對應的特徵相似度，確定所述用於跨屏目標跟蹤的第二攝像頭包括：根據所述候選區域各自對應的特徵相似度，選擇特徵相似度超過閥值的多個候選區域；從所述多個候選區域中，選擇與所述在第一視頻流中最後一次跟蹤到的目標的物理位置和運動方向最匹配的候選區域，將與所述最匹配的候選區域對應的攝像頭確定為所述第二攝像頭。
根據請求項14至19中任一項所述的方法，其中，所述方法還包括通過以下方式計算所述候選區域的物理位置以及所述在第一視頻流中最後一次跟蹤到的目的地區域的物理位置：將所述候選區域的圖像位置輸入位置座標映射模型，獲取所述位置座標映射模型輸出的所述候選區域的物理位置；以及，將所述在第一視頻流中最後一次跟蹤到的目的地區域的圖像位置輸入所述位置座標映射模型，獲取所述位置座標映射模型輸出的所述在第一視頻流中最後一次跟蹤到的目的地區域的物理位置。
根據請求項14所述的方法，其中，所述伺服器在所述第二視頻流中對所述目標進行跟蹤包括：針對所述第二視頻流中的視頻幀執行如下資料處理：根據目標檢測模型和當前視頻幀，檢測得到所述當前視頻幀中的候選區域；根據特徵提取模型和所述候選區域，提取得到所述候選區域對應的深度特徵，所述特徵提取模型是端到端的神經網路模型，以圖像作為輸入，以圖像中可運動體的深度特徵作為輸出；根據所述候選區域對應的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵，計算所述候選區域對應的特徵相似度；根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標。
一種目標跟蹤裝置，包括一個或多個處理器，以及一個或多個存儲程式單元的記憶體，其中，所述程式單元由所述處理器執行，所述程式單元包括：獲取模組，被設置為獲取第一視頻流；處理模組，被設置為針對所述第一視頻流中的視頻幀執行如下資料處理，以實現在所述第一視頻流中的目標跟蹤；所述處理模組包括：檢測子模組，被設置為根據目標檢測模型和當前視頻幀，檢測得到所述當前視頻幀中的候選區域；特徵提取子模組，被設置為根據特徵提取模型和所述候選區域，提取得到所述候選區域對應的深度特徵，所述特徵提取模型是端到端的神經網路模型，以圖像作為輸入，以圖像中可運動體的深度特徵作為輸出；計算子模組，被設置為根據所述候選區域對應的深度特徵和在前視頻幀中跟蹤到的目標的深度特徵，計算所述候選區域對應的特徵相似度；確定子模組，被設置為根據所述候選區域對應的特徵相似度，確定所述當前視頻幀中跟蹤到的目標。
一種設備，所述設備包括處理器以及記憶體：所述記憶體被設置為存儲程式碼，並將所述程式碼傳輸給所述處理器；所述處理器被設置為根據所述程式碼中的指令執行請求項1-7，或請求項14-19任一項所述的目標跟蹤方法。
一種電腦可讀存儲介質，所述電腦可讀存儲介質被設置為存儲程式碼，所述程式碼被設置為執行請求項1-7，或請求項14-19任一項所述的目標跟蹤方法。