TW202126033A

TW202126033A - 用於評估場景之影像擷取品質的設備及方法

Info

Publication number: TW202126033A
Application number: TW109130899A
Authority: TW
Inventors: 克莉斯汀維爾甘
Original assignee: 荷蘭商皇家飛利浦有限公司
Priority date: 2019-09-12
Filing date: 2020-09-09
Publication date: 2021-07-01
Also published as: US11978187B2; JP7527351B2; CN114364962B; WO2021048107A1; EP4028995A1; CN114364962A; JP2022548853A; US20220383476A1; CA3153833A1; EP4028995B1; EP3792877A1; KR20220062591A; TWI889702B; EP4028995C0; BR112022004415A2

Abstract

一種用於評估影像擷取品質的設備包含：一儲存器(101)，其用於儲存一場景之一模型；及一擷取電路(105)，其用於藉由從該模型演現而產生針對一攝影機組態之虛擬擷取影像。一深度產生電路(107)從該模型產生模型深度資料，及一深度估計電路(111)從該等虛擬擷取影像產生所估計深度資料。一第一合成電路(109)及一第二合成電路(113)分別藉由基於該模型深度資料或所估計深度資料來處理該等虛擬擷取影像而產生針對測試姿勢的第一視圖影像及第二視圖影像。一參考電路(103)藉由基於該模型演現而產生用於該等測試姿勢的參考影像。一品質電路(115)基於該等第一視圖影像、該等第二視圖影像、與該等參考影像的一比較而產生一品質度量。

Description

用於評估場景之影像擷取品質的設備及方法

本發明係關於一種設備及方法，該設備及方法用於評估藉由複數個攝影機對一場景之影像擷取品質，諸如具體而言，用於評估供虛擬實境演現的現實事件之視訊擷取品質。

近年來，影像及視訊應用之種類及範圍大幅增加，且持續發展及推出利用與消耗影像及視訊的新服務及方式。

例如，一項越來越流行的服務係依使觀看者能夠主動地且動態地與系統互動以改變演現參數的方式來提供影像序列。在許多應用中，一項非常吸引人的特徵係改變觀看者的有效觀看位置及觀看方向之能力，例如諸如允許觀看者在呈現的場景中移動及「環視」。

此類特徵可具體地允許提供虛擬實境體驗給使用者。這可允許使用者例如在虛擬環境中（相對）自由四處移動且動態地改變其位置及其注視之處。一般而言，此類虛擬實境應用係基於場景的三維模型，其中動態評估該模型以提供特定請求的視圖。此方法在例如電腦及主控台的遊戲應用（諸如在第一人稱射擊遊戲類別中）係眾所周知的。

正備受關注的另一應用係提供一真實世界場景的視圖，且經常係一即時事件，其允許小幅觀看者移動，諸如小幅頭部移動及旋轉。例如，允許在觀看者的小幅頭部移動之後以局部用戶端為基礎產生視圖的即時視訊廣播（例如運動事件）可提供使用者坐在看台區觀看運動賽事的印象。使用者可例如環視四周並將得到自然體驗，類似於身臨看台區中該位置處的現場觀眾體驗。

為了提供此類真實世界場景服務，需要從不同位置擷取場景，且因此使用不同的攝影機擷取姿勢。然而，此往往需要複雜且昂貴的擷取程序，包括同時使用複數個攝影機。因此，所欲的是將擷取程序所需的複雜度與資源最小化。然而，將導致所欲效能的最小擷取安裝經常極難以判定，且通常需要在實際環境中實體實施並測試不同的擷取組態。

近來，具有支援以3D擷取真實世界場景為基礎之應用的定位追蹤與3D互動之顯示裝置已漸趨普遍。因此，多攝影機擷取及例如6DoF（6個自由度(degree of freedom)）處理的相關性及重要性正迅速提升。應用包括現場直播音樂會、現場直播運動、及擬真視訊會議系統(telepresence)。相較於一般影片，自由選擇自身視點增加親臨感而使這些應用更豐富。此外，可構思出身歷其境的情景，一觀察者可在其中巡覽所擷取的即時播送場景並與該場景進行互動。對於廣播應用，這可能需要在生產側的即時深度估計及在用戶端裝置處的即時視圖合成。深度估計與視圖合成均引入誤差，且這些誤差取決於演算法的實施細節。此外，最佳攝影機組態取決於所意欲之應用及所擷取場景之3D結構。

針對6DoF視訊擷取/建立及壓縮的競爭方法通常係以目視方式比較，且亦在壓縮的情況中以定量方式比較。然而，品質經常更是藉由攝影機感測器類型、其空間組態（例如，間距）、及攝影機參數來判定。比較此類擷取組態經常成本高昂，因為其涉及成本高昂的設備，且所產生之安裝需要密集的人力。

產生例如即時播送6DoF視訊需要使用多個攝影機進行視訊擷取、即時深度估計、壓縮、串流及播放，並且為了在開發期間作出正確選擇，所欲的是能預先預測系統參數（例如，攝影機數目及攝影機之間的距離）及深度估計演算法或其他處理對影像品質的影響。

因此，越來越所欲的是能夠評估各種擷取組態及處理，但是這本質上係一種困難程序，其係藉由產生實驗性安裝並且藉由使用該等安裝來擷取試驗事件及場景來評估這些安裝來執行。

因此，用於評估擷取/攝影機組態及/或相關聯處理之品質的改良方法將係所欲的。具體而言，允許改善操作、增強靈活性、促進實施、促進操作、促進評估、降低成本、降低複雜性、及/或改善效能之方法將係有利的。

因此，本發明尋求單獨或採用任何組合較佳地緩和、減輕、或消除上文提及之缺點的一或多者。

根據本發明之一態樣，提供一種用於評估影像擷取品質的設備，該設備包含：一儲存器，其用於儲存一場景之一模型；一擷取電路，其用於產生針對一攝影機組態之複數個攝影機姿勢的虛擬擷取影像，該擷取電路經配置以藉由基於該模型而演現該等攝影機姿勢之影像，來產生該等虛擬擷取影像；一深度產生電路，其用於從該模型產生針對該等虛擬擷取影像的模型深度資料；一第一合成電路，其用於基於該模型深度資料處理該等虛擬擷取影像，以產生針對在該場景之一區域中複數個測試姿勢的第一視圖影像；一深度估計電路，其用於基於該等虛擬擷取影像而產生針對該等虛擬擷取影像的所估計深度資料；一第二合成電路，其用於基於該所估計深度資料處理該等虛擬擷取影像，以產生針對該複數個測試姿勢的第二視圖影像；一參考電路，其用於藉由基於該模型而演現針對該複數個測試姿勢之影像來產生針對該複數個測試姿勢的參考影像；一品質電路，其用於回應於該等第一視圖影像、該等第二視圖影像、與該等參考影像的一比較而產生下列至少一者的一品質度量：該攝影機組態、用以產生該等第一視圖影像的該處理、及用以產生該等第二視圖影像的該處理。

本發明可提供一種用於評估一攝影機組態及/或相關聯處理之品質的有利方法。例如，此特別有利於評估及/或比較不同攝影機組態及/或相關聯處理，而不需要實施及測試擷取系統。該方法可允許在實施一特定應用之前，針對此特定應用來評估不同擷取方法。因此，可基於所執行之分析來評估及選擇設計決策及擷取參數。

考慮以下影像可提供特別有利的資訊：在不考慮該等擷取影像的情況中藉由直接演現所產生之測試姿勢的影像、基於從該模型產生之深度資料所產生之視圖影像、及基於所估計深度資料所產生之視圖影像。此可例如允許區分在可藉由改善深度估計（無論係藉由將更多攝影機姿勢新增至攝影機組態，或藉由改善深度模式）來減輕的誤差及假影與無法藉由改善深度估計來改善的誤差及假影之間的差異。

該方法可提供從擷取到合成測試姿勢之視圖影像的整個處理路徑的準確評估，從而提供可達成所得品質之更準確評估。

該第一合成電路與該第二合成電路的處理可具體地包括散布路徑的一些或全部處理區塊，包括編碼及解碼。

在一些實施例中，該設備可經配置以：產生針對複數個不同攝影機組態的品質度量；及回應於該等品質度量而從該複數個不同攝影機組態中選擇一攝影機組態。

一姿勢可係一位置及/或定向。

根據本發明之一可選特徵，藉由該第一合成電路及該第二合成電路進行的該處理之至少一者包括：產生用於該等虛擬擷取影像之一第一虛擬擷取影像的一深度圖模型；及使用該深度圖模型將該第一虛擬擷取影像視圖移位至該複數個測試姿勢之一測試姿勢。

該方法可提供使用用於視圖合成之深度圖的擷取及演現系統的一特別有利之評估。

根據本發明之一可選特徵，藉由該第一合成電路及該第二合成電路進行的該處理之至少一者包括：使用從該等虛擬擷取影像所判定之至少一個深度模型來判定一組3D點；使用該等虛擬擷取影像之至少一虛擬擷取影像來判定各3D點之一顏色；及基於該等3D點的一投影，合成針對該複數個測試姿勢之一測試姿勢的一新影像。

該方法可提供使用用於視圖合成之3D點深度表示的擷取及演現系統的一特別有利評估。

根據本發明之一可選特徵，該品質電路經配置以判定該品質度量，以包含針對該等第一視圖影像的一第一品質度量及針對該等第二視圖影像的一第二品質度量。

在許多實施例中，此可提供特別有利的評估，且可具體地允許區分該深度估計所產生的效應與不係由非理想深度估計所導致的效應之間的差異。

根據本發明之一可選特徵，該品質電路經配置以：針對複數個攝影機組態判定品質度量；及回應於該第一品質度量與該第二品質度量兩者而在該複數個攝影機組態之間選擇。

該方法可提供用於在不同攝影機組態之間進行評估及選擇的一特別有利方法。

根據本發明之一可選特徵，該品質電路經配置以回應於至少下列者而在該複數個攝影機組態之間選擇一攝影機組態：該第一品質度量符合一第一準則；該第二品質度量符合一第二準則；及針對該第一品質度量與該第二品質度量的一差測量符合一第三準則。

此可在許多實施例中提供特別有利的效能。

根據本發明之一可選特徵，該品質電路經配置以：針對各第二視圖影像產生一信號對雜訊測量；及回應於針對該等第二視圖影像的該等信號對雜訊測量而產生該品質度量。

此可提供用於該判定品質度量的一特別有利方法。具體而言，已認識到，信號對雜訊測量可特別有利於估計攝影機組態及相關聯處理的影響。

具體而言，信號對雜訊比可係一峰值信號對雜訊比。

在一些實施例中，該品質電路可經配置以：針對各第一視圖影像產生一信號對雜訊測量；及回應於針對該等第一視圖影像的該等信號對雜訊測量而產生該品質度量。

在其他實施例中，可使用除信號對雜訊測量或峰值信號對雜訊測量以外的其他測量，例如，諸如視訊多方法融合式評定(Video Multimethod Assessment Fusion)測量。

根據本發明之一可選特徵，該第一合成電路及該第二合成電路中之至少一者之該處理包括：在基於經編碼及經解碼虛擬擷取影像進行影像合成之前，編碼及解碼該等虛擬擷取影像。

該方法可提供包括同時考量攝影機組態及編碼/解碼演算法兩者之影響的一特別有利評估。

編碼及解碼可包括例如圖框/視訊編碼/解碼，且可包括一系列操作，諸如影像或深度按比例縮小(down-scaling)、將影像及深度一起封裝在一單一紋理（影像）中、位元串流格式化等。

根據本發明之一可選特徵，該第一合成電路及該第二合成電路之至少一者之該處理包括：在基於該模型深度資料及該所估計深度資料中之至少一者進行影像合成之前，編碼及解碼與該等虛擬擷取影像相關聯的該深度資料及該所估計深度資料中之至少一者。

根據本發明之一可選特徵，該編碼包含有損(lossy)編碼。

根據本發明之一可選特徵，至少一些攝影機姿勢與至少一些測試姿勢相同。

根據本發明之一可選特徵，測試姿勢比攝影機姿勢多不小於10倍。

根據本發明之一可選特徵，攝影機位置形成一維配置，而測試位置形成二維或三維配置。

根據本發明之一可選特徵，兩個測試位置之間的一最大距離不大於1公尺。

在一些實施例中，兩個測試位置之間的一最大距離不大於10公尺。

在一些實施例中，兩個測試位置之間的一最大距離不小於10公尺。

根據本發明之一態樣，提供一種評估影像擷取品質之方法，該方法包含：儲存一場景之一模型；藉由基於該模型而演現針對一攝影機組態之複數個攝影機姿勢的影像來產生針對該等攝影機姿勢的虛擬擷取影像；從該模型產生針對該等虛擬擷取影像的模型深度資料；基於該模型深度資料處理該等虛擬擷取影像，以產生針對在該場景之一區域中複數個測試姿勢的第一視圖影像；基於該等虛擬擷取影像而產生針對該等虛擬擷取影像的所估計深度資料；基於該所估計深度資料處理該等虛擬擷取影像，以產生針對該複數個測試姿勢的第二視圖影像；藉由基於該模型而演現針對該複數個測試姿勢之影像來產生針對該複數個測試姿勢的參考影像；回應於該等第一視圖影像、該等第二視圖影像、與該等參考影像的一比較而產生下列至少一者的一品質度量：該攝影機組態、用以產生該等第一視圖影像的該處理、及用以產生該等第二視圖影像的該處理。

本發明的此等及其他態樣、特徵、及優點將參考下文描述的（一或多個）實施例闡明且將係顯而易見的。

圖1繪示用於評估藉由複數個攝影機對一場景之影像擷取品質的設備之元件的實例。具體而言，該設備可判定影像擷取及這些所擷取影像之處理的品質度量，以合成來自其他視點的影像。該設備係基於相對於特定攝影機組態來評估一場景之一模型及/或該場景之所擷取影像的處理。

該設備包含一模型儲存器101，該模型儲存器儲存一場景之一模型。該場景可係表示真實場景的一虛擬場景，或可係完全人工建立之場景。然而，該方法之一優點在於，該場景可經選擇或建立以緊密對應於待於其中使用擷取攝影機組態及處理的一場景。例如，若對其執行評估的系統意欲用於在該系統中擷取足球賽，則可選擇該虛擬場景以對應於一足球場。舉另一實例，若品質評定係針對在音樂廳擷取音樂會的一應用，則可使用此音樂廳之一虛擬場景。在一些情況中，可考慮更通用的場景。例如，若受調查的系統意欲用於擷取景觀，則可擷取通用、一般的虛擬景觀場景。在一些情況中，可自真實場景產生模型，且因此由該模型所表示之該場景可係一虛擬場景或一真實場景。

該場景之該模型可係允許在待判定場景/模型內之位置的視圖影像及深度的任何三維模型。一般而言，該模型可由三維物體、物體性質（例如，光學性質）、及光源來表示。舉另一實例，模型可由具有相關聯紋理的多個網格組成。可將諸如反照率的性質附加至物體的表面。該等視圖影像可使用進階射線追跡方法來形成，該等方法考量諸如物體透明度及多重散射的物理學。

基於該模型，該設備可使用各式各樣方法在該場景之一區域中合成針對複數個測試姿勢的影像，如將於下文描述。接著，可比較不同方法的結果，並可基於此比較來判定品質度量。

在本領域中，用語擺置(placement)及姿勢(pose)被用作位置及/或方向/定向之常見用語。例如物體、攝影機、頭部、或觀看之位置及方向/定向之組合可被稱為姿勢或擺置。因此，擺置或姿勢指示可包含六個值/分量/自由度，其中每個值/分量通常描述對應的物體之位置/定位或定向/方向之個別屬性。當然，在許多情形中，擺置或姿勢可用更少的分量予以考量及表示，例如，若認為一或多個分量係被視為固定的或不相關的（例如，若認為所有物體處於同一高度或具有水平定向，則四個分量可提供物體之姿勢之全面表示）。在下文中，用語姿勢(pose)用於指代可由一至六個值（對應於最大可能的自由度）表示的位置及/或定向。

可取決於所評估的特定應用/系統來選擇測試姿勢及被這些測試姿勢所覆蓋之區域。在許多實施例中，該等測試姿勢可經選擇以覆蓋一相對小區域。具體而言，在許多實施例中，該等測試姿勢可經選擇以具有介於任何兩個測試姿勢之間不大於1公尺的最大距離。例如，如圖2所繪示，相對大量的測試姿勢可經選擇為在（約略）0.5 m乘0.5 m之區域內的規則水平網格。在所示實例中，測試姿勢數目係15乘15（即，225個姿勢），其中網格距離為3 cm。應理解。在不同實施例中，可取決於所欲準確度與運算複雜度之間的較佳權衡來使用更多或更少測試姿勢。然而，在許多實施例中，有利的是具有小於50、100、200或5000個測試姿勢，以針對合適的運算複雜度提供高度準確度。

具體而言，對於其中所擷取影像用於提供一些有限移動自由度給觀看者（例如，其中使用者無法在一場景中自由移動，但能夠自一標稱位置稍微移動或轉動頭部）的應用，在小區域內使用大數目個測試姿勢的實例可提供高度準確結果。此類應用越來越流行，並提供許多所欲應用，例如，諸如從指定位置觀看運動賽事。

在其他實施例中，可希望從更不同的位置觀看場景，例如，使用者可能希望在場景中進一步四處移動，或可從不同位置觀看一賽事。在此類實施例中，可選擇覆蓋一較大面積/區域的測試姿勢。

品質度量之判定係基於擷取/攝影機組態，即，可針對一特定攝影機組態判定品質度量。該攝影機組態包含一或（一般而言）多個攝影機姿勢，一攝影機可自該（等）攝影機姿勢擷取該場景之一影像。因此，該攝影機組態的該等攝影機姿勢表示擷取該場景的姿勢，且可使用該評估及該品質度量來判定特定攝影機組態合適用於擷取該場景的程度。攝影機組態亦可稱為擷取組態。

因此，該模型及攝影機組態可據此表示可在一安裝中可使用以擷取場景的實際場景及攝影機姿勢。

在許多應用中，該攝影機組態包含相對低數目個攝影機，且實際上攝影機姿勢的數目一般不多於15、10、或5個攝影機。

因此，一般來說，測試姿勢的數目實質上高於攝影機姿勢的數目，且一般不少於十倍。此經常可提供針對系統之品質度量的準確、詳盡且有利之判定。

在一些實施例中，可考慮大數目的擷取攝影機。例如，針對一足球場，攝影機數目可輕易累計達數百個，取決於所欲的繞飛運動(fly-around motion)之類型。然而，即使在此類實施例中，可有（潛在實質上）較大數目個用於評估的測試姿勢。

進一步，如圖2之實例所示，擷取攝影機的攝影機姿勢/位置可能經常與測試姿勢/位置重合（至少對於該等攝影機之一些係如此）。此可提供一種實用的方法，並例如減少一些運算複雜性。此外，由於MSE=0，故具有重合的攝影機姿勢與測試姿勢可提供演算法正確運作的基本測試，且因此PSNR未被定義（其包括除數）。

在許多實施例中，該攝影機組態包含形成一維配置的攝影機位置，且該攝影機組態經常對應於擷取攝影機之線性配置。此經常係高度實用的，且許多實用的攝影機承架係以線性配置予以配置。在此類實施例中，該等測試姿勢的位置經常以二維或三維配置予以配置。因此，該等測試姿勢不僅反映來自側向視圖移位所導致的影響，亦反映來自其他方向移位的影響，從而反映更典型的使用者行為。

圖2展示一特定實例，其中排成一行的六個攝影機姿勢對準225個測試姿勢中的六個（由環繞測試姿勢的圓環所指示）。該等測試姿勢經配置在攝影機姿勢周圍，從而允許判定從一標稱、中央位置的移動會如何影響品質。

模型儲存器101耦接至一參考電路103，該參考電路經配置以藉由基於該模型而演現針對該複數個測試姿勢之影像來產生針對該等測試姿勢的參考影像。

參考電路103經配置以藉由直接評估該模型並演現參考影像來產生該等影像。因此，該等參考影像的演現獨立於所擷取影像或該攝影機組態。該演現直接取決於該模型並且取決於該特定測試姿勢。應理解，在不同實施例中可使用不同的演現演算法。然而，在許多實施例中，該等參考影像係藉由基於所儲存模型的射線追跡技術來演現。

舉具體實例，該演現可使用已開發以建立逼真遊戲及影片內容的市售套裝軟體，諸如Unity、Unreal及Blender（開放原始碼）。此類先進套裝軟體一般不僅可提供逼真影像，亦允許輸出其他資料，例如，諸如深度。

因此，該等參考影像僅基於該模型及該等測試姿勢，且一般可以非常高的準確度產生，因為演現不需要任何假設或潛在的雜訊或失真程序。因此，該等參考影像可視為提供來自特定測試姿勢的視圖之準確表示。

該模型進一步耦接至一擷取電路105，該擷取電路經配置以產生針對攝影機組態之攝影機姿勢的虛擬擷取影像。因此，擷取電路105演現反映來自攝影機姿勢之視圖的虛擬擷取影像，及因此將由定位在該等姿勢處之攝影機所擷取的影像。

應注意，在一些情況中，該等擷取攝影機可包含廣角魚眼透鏡。當射線追跡此類攝影機時，會導致具有視覺上失真的一寬角度影像及深度。這使得這些影像不同於測試影像，該測試影像可能預測到比人類眼睛所接收之視埠更有限的視埠。

用以演現該等虛擬擷取影像的該演現演算法係基於該模型，且具體而言，可係與由參考電路103所使用以演現針對測試姿勢之影像相同的演算法。實際上，在其中攝影機姿勢與測試姿勢之一些者重合的實例中，可使用相同演現產生針對該等姿勢的參考影像及針對該等攝影機姿勢的虛擬攝影機影像。

因此，對於給定模型/場景，所擷取影像對應於將在該攝影機組態之該等姿勢處由攝影機擷取之影像。

模型儲存器101進一步耦接至一深度產生電路107，該深度產生電路經配置以產生用於所擷取影像的模型深度資料。該模型深度資料係從該模型產生且不基於所擷取影像或其內容。具體而言，該模型深度資料可藉由判定從所擷取影像之各像素至由影像所表示之最接近物體的模型中之距離來配置。因此，該模型深度資料可藉由評估該模型之幾何性質而產生，且可例如經判定為產生所擷取影像之一射線追跡演算法之部分。

因此，該模型深度資料表示所擷取影像之內容在該模型中的實際深度，且因此可視為基準真相(ground truth)深度資料，即，該模型深度資料可視為準確度極高的深度資料。

深度產生電路107及擷取電路105耦接至第一合成電路109，該第一合成電路經配置以基於該模型深度資料執行對該等虛擬擷取影像的處理，以在該場景之一區域中產生針對該複數個測試姿勢的第一視圖影像。

因此，第一合成電路109可包含用於基於所擷取影像及模型深度資料（即，基於基準真相深度資料）來合成針對複數個測試姿勢之視圖影像的功能。該合成可包括視圖移位等，如所屬技術領域中具有通常知識者所熟知。

進一步地，雖然在一些實施例中，第一合成電路109可僅包括合成操作，然而在許多實施例中，該處理可進一步包括屬於用於所評估應用/系統之該處理或散布路徑之部分的數個功能或操作。例如，如將於稍後更詳述者，該處理可包括編碼、解碼、壓縮、解壓縮、視圖選擇、通訊錯誤引入等。

因此，第一合成電路109可產生可基於所擷取影像及採用基準真相深度而合成的影像。因此，所得影像可反映處理的影響以及特定擷取組態的影響。

模型儲存器101進一步耦接至一深度估計電路111，該深度估計電路經配置以基於虛擬擷取影像而產生針對該等虛擬擷取影像的所估計深度資料。因此，與基於模型本身來判定深度的深度產生電路107相比，深度估計電路111基於所擷取影像來判定深度資料。

具體而言，深度估計電路111可基於用於所評估應用/系統中使用之深度估計的技術來執行深度估計。例如，可藉由在不同所擷取影像中偵測對應的影像物件以及判定這些影像物件之間的像差來執行深度估計。可藉由此類像差而給出深度估計。

因此，所估計深度資料可表示將由實際應用及處理所產生的深度估計，且因此將反映此深度估計所引入的瑕疵、誤差、及假影。所估計深度資料可視為比模型深度資料更不準確，但可係所評估應用/系統中實際上判定及使用之深度的較佳估計。

深度估計電路111及擷取電路105耦接至第二合成電路113，該第二合成電路經配置以基於所估計深度資料來執行對該等虛擬擷取影像的處理，以產生針對該複數個測試姿勢的第二視圖影像。

因此，第二合成電路113可包含用於基於所擷取影像及所估計深度資料（即，基於由所評估應用產生的所預期深度資料）來合成針對該複數個測試姿勢之視圖影像的功能。該合成可包括視圖移位等，如所屬技術領域中具有通常知識者所熟知。

此外，雖然在一些實施例中，如同第一合成電路109，第二合成電路113可僅包括合成操作，然而在許多實施例中，該處理可進一步包括屬於用於所評估應用/系統之該處理或散布路徑之部分的數個功能或操作，諸如編碼、解碼、壓縮、解壓縮、視圖選擇、通訊錯誤引入等。

因此，第二合成電路113可產生可基於所擷取影像本身來合成的影像。所得影像可反映處理的影響以及特定擷取組態的影響。此外，該等第二視圖影像可反映非理想深度估計的影響，且可直接反映受評估應用及系統中預期為終端使用者所產生的影像。

參考電路103、第一合成電路109、及第二合成電路113耦接至品質電路115，該品質電路經配置以回應於該等第一視圖影像、該等第二視圖影像、及該等參考影像的比較而產生一第一品質度量。

可具體地判定品質度量，以反映不同影像的相似程度。具體而言，在許多實施例中，品質度量可因為介於該等第一視圖影像、該等第二視圖影像、及該等參考影像之間的減小差異，而反映出提升的品質（以相同測試姿勢而言，及根據任何合適的差異測量或度量而言）。

品質度量可反映攝影機組態的性質以及所執行之處理的特性（以第一視圖影像及第二視圖影像兩者而言）。因此，可產生一品質度量，以反映該攝影機組態、用以產生該等第一視圖影像的該處理、及用以產生該等第二視圖影像的該處理中之至少一者的影響。一般而言，可產生該度量以反映所有這些影響。

因此，該設備可提供用於評估不同攝影機組態及/或不同處理之品質影響的一高效率且準確方法，而不需要執行複雜、昂貴及/或困難的測試及擷取。

該方法可提供特別有利的評估，且具體而言，考慮基於基準真相資料及基於實際評估資料兩者所產生的視圖影像可提供特別有利的資訊。此由與不依賴任何擷取之參考影像相比較而進一步加劇。例如，藉由比較此視圖影像與參考影像，不僅有可能評估一特定方法對品質影響的程度有多大，此外亦有可能藉由改善深度估計來判定是否可達成顯著的改善。傳統上，深度估計瑕疵的影響及/或其對擷取組態之相依性非常複雜而難以評估及區別，而本方法可提供一種高效率且實用的評估，否則評估非常困難。

具體而言，針對一給定擷取組態來偵測深度估計或視圖移位（導致遮擋）是否品質較低的能力是實用的。例如，在基準真相深度及所估計深度均導致劣等品質的情況中，則擷取組態需要更多攝影機，或視圖移位太簡單且需要包括更多參考（以處理遮擋），或需要更複雜的預測方法。

應理解，取決於個別實施例的具體偏好與要求，在不同實施例中可使用不同品質度量，以及用於判定此類度量的演算法與程序。具體而言，品質度量判定可取決於實際的攝影機組態以及影像及深度資料的處理，包括所使用的特定深度估計及影像合成方法。

在許多實施例中，參考影像可視為「正確」影像，且可藉由分別將第一視圖影像及第二視圖影像與「理想」參考影像相比較來產生兩個品質度量。基於各視圖影像與相同測試姿勢之參考影像之間的差異，針對各視圖影像來判定一部分品質度量。然後，該等部分品質度量可經組合（例如，加總或求平均）以分別提供針對第一視圖影像組與第二視圖影像組之各者的一品質度量。該品質度量可經產生以包含兩個品質度量（因此品質度量可包含複數個分量）。

在許多實施例中，品質電路115可經配置以針對第一視圖影像組的各視圖影像產生一信號對雜訊測量，且可回應於針對該等第一視圖影像的彼等信號對雜訊測量而產生品質度量。例如，可將信號對雜訊測量組合成單一測量，藉由計算該等信號對雜訊測量的平均。

類似地，在許多實施例中，該品質電路可經配置以針對第二視圖影像組的各視圖影像產生一信號對雜訊測量，且可回應於針對該等第二視圖影像的彼等信號對雜訊測量而產生品質度量。例如，可將信號對雜訊測量組合成單一測量，藉由計算該等信號對雜訊測量的平均。

舉一具體實例，可使用一峰值信號對雜訊比(peak signal-to-noise ratio, PSNR)，例如，諸如

，其中MSE 係視圖影像之RGB顏色通道的平均平方誤差。雖然在所有情況中PSNR 可能不會被視為用以評估絕對視訊品質的最佳度量，但發明人已認識到PSNR特別實用於在圖1之系統中的比較及評估，其中在單一資料集內提供一參考基礎係有用的。

由第一合成電路109及第二合成電路113所執行的處理可如先前所述簡單地由一視圖合成操作所組成，該視圖合成操作基於所擷取影像及相關聯的深度資料（分別是基準真相深度及所估計深度資料），使用合適的視點視移位演算法來合成其他姿勢的視圖影像。此一方法可例如產生品質度量，該品質度量可提供對於所評估之特定攝影機組態的品質影響之合理評估。例如，可使用在其中複數個攝影機組態經評估以判定用於擷取真實世界場景的合適攝影機組態的一程序中。

然而，在許多實施例中，系統可包括對於其他態樣的評估，諸如特定的散布處理及從擷取影像至演現影像的處理。

圖3繪示可包括於第一合成電路109及第二合成電路113之處理中的處理之實例。

在實例中，將所擷取影像饋送至一影像編碼功能301，且將深度資料饋送至一深度編碼功能303，該深度編碼功能分別執行對所擷取影像及相關聯之深度資料的編碼。具體而言，由第一合成電路109及第二合成電路113所執行的編碼可與所評估之系統中所使用的編碼演算法完全相同。

顯著地，對所擷取影像資料及深度資料所執行的編碼可係有損編碼，其中在所擷取影像及/或深度中所含有的資訊在被編碼成合適的資料串流時損失。因此，在許多實施例中，編碼影像/深度資料亦包括影像/深度資料之壓縮。由於（特別是有損的）編碼及壓縮的影響會與其他效應及處理互動，所以一般非常難以評估，因此所得影響經常取決於除編碼本身外的其他特徵。然而，圖1之設備允許評估及考慮此類效應。

應理解，編碼可包括轉換影像/圖框/深度成為位元串流以供散布的任何態樣，且應理解，解碼可包括從位元串流復原影像/圖框/深度所需的任何處理或操作。例如，編碼及解碼可包括一系列操作，該系列操作包括影像或深度按比例縮小、將影像及深度一起封裝在一單一紋理（影像）中、位元串流格式化、壓縮等。將由第一合成電路109及第二合成電路113來評估及實施的確切操作將取決於具體實施例的偏好及要求。

在一典型散布系統中，一般而言，可在包含經編碼擷取影像資料以及深度資料兩者的單一資料串流中傳輸經編碼資料。據此，第一合成電路109及/或第二合成電路113亦可包括用以反映此通訊的處理。此可藉由通訊功能305來達成，該通訊功能係可引入延時及/或通訊錯誤。

第一合成電路109及/或第二合成電路113可進一步包括分別針對所擷取影像資料及深度資料的解碼功能307、309。這些解碼功能307、309可據此對應於在所評估之散布系統的用戶端/接收端處執行的解碼。解碼一般可與藉由編碼器301、303執行的編碼互補。

接著，由經配置以合成用於測試姿勢的影像之一影像合成器使用經解碼影像資料及深度資料。

因此，第一合成電路109及第二合成電路113的處理可不僅包括影像合成本身，亦可包括從藉由攝影機擷取影像至呈現測試姿勢之影像之一些或實際上所有態樣的通訊/散布。此外，該處理可匹配所評估之真實世界系統中使用的處理，並且實際上可使用完全相同的演算法、程序、及實際上程式碼。因此，該設備可不僅提供評估攝影機組態的有效率手段，並且進一步允許準確評估在用以產生視圖影像之散布與處理中所涉及的潛在所有處理及功能。

該方法的一特定優點在於，其可經調適以確切包括視為相關及適當的功能及特徵。進一步地，該處理可包括與受評估系統中所使用完全相同之演算法及功能，且因此該方法可提供可在系統中達成的品質之準確指示。

應理解，用於編碼、解碼、傳輸、及一般處理影像及深度的許多變化及演算法係已知的，且可使用任何合適的方法。亦應理解，在其他實施例中，更多或更少的功能可包括在由第一合成電路109及/或第二合成電路113進行的處理中。例如，該處理可包括：用於在執行視圖合成時在不同擷取影像之間進行選擇的功能、或可在編碼之前施加影像操縱（例如，空間濾波）、可在解碼之後執行清晰度處理等。

亦應理解，雖然圖3展示與待應用於所擷取影像資料及深度資料之處理本質上相同的處理，但此並非必要或基本要素且可取決於具體實施例。例如，若深度資料呈深度圖之形式，則經常可使用類似於影像資料處理的功能，而若深度資料係例如由3D網格所表示，則在對深度資料及影像資料的處理可能有實質差異。

類似地，在大多數實施例中，由第一合成電路109及第二合成電路113進行的處理係實質上相同，或可能甚至完全相同。在許多實施例中，唯一差異是：一個合成電路使用基準真相深度資料，而另一個合成電路使用所估計深度資料。然而，應理解，在其他實施例中，由第一合成電路109及第二合成電路113進行的處理可能有差異。此可例如經執行以減少運算負載或可例如反映其中以不同格式提供基準真相深度資料及所估計深度資料的一情境。

該方法的一特定優點在於，該方法可輕易經調適以當例如合成新視圖時適應不同的深度表示及用於置深度的不同程序。

具體而言，在一些實施例中，可藉由一深度圖模型來表示基準真相深度資料及所估計深度資料中之至少一者，該深度圖模型具體而言可係針對各所擷取影像的深度圖。經常使用亦用於影像資料的演算法來編碼及解碼此類深度圖。

在此類實施例中，由第一合成電路109及第二合成電路113執行的影像合成功能可使用深度圖模型來執行虛擬擷取影像至測試姿勢的視圖移位。具體而言，所擷取影像的像素可移位一量，該量取決於影像中針對該像素所指示之深度/像差。當解除遮擋發生時，此可在所產生影像中導致孔洞。此類孔洞可例如藉由填隙(infilling)或內插(interpolation)來填充，如所屬技術領域中具有通常知識者所知。

在許多系統中，使用深度圖模型可係有利的，且圖1之設備可經調適以正確地反映此類處理。

在其他實施例中，可採用其他深度資料，且可使用其他影像合成演算法。

例如，在許多實施例中，深度可由從多個擷取影像產生的單一3D模型來表示。3D模型可例如由一空間中的複數個3D點表示。可藉由組合多個所擷取影像來判定3D點之各者的顏色。由於3D點模型存在於世界空間，故可從其合成任何視圖。例如，一種方法係根據一測試姿勢投射各3D點並形成一影像。此程序將使用點投影、保持深度順序及映射對應於一給定3D點的顏色至在一給定測試姿勢虛擬攝影機影像中之所投射像素位置。保持深度順序將確保在影像中僅存在可見的表面。所謂的拋雪球法(splatting)可用於當點覆蓋目標像素之部分時加權該等點的貢獻。

針對其他變化及選項，圖1之設備可輕易經調適以適用此類方法，並且可提供此類方法之特別有吸引力的評估。在許多實施例中，只要在由第一合成電路109及/或第二合成電路113進行的處理中包括相同程式碼/演算法，便可與該處理之其餘部分一起評估此一複雜方法。

如先前所提及，該方法可準確且可靠地評估給定攝影機組態及處理可達成的品質。該方法允許針對一攝影機組態（或一系列攝影機組態）進行品質評定，而不需要任何複雜實體安裝及測量。此外，該系統可提供涉及所擷取影像之處理、散布、及合成以產生視圖影像的各種功能之品質評定。實際上，該設備可提供對於攝影機組態、影像/深度處理（包括例如通訊）、或兩者的有利之品質評定。

該設備可特別用於在不同可能的攝影機組態之間進行選擇。執行專用實體測量及測試以在不同攝影機組態之間進行選擇可能係繁瑣且昂貴的，但是圖1之設備允許準確的品質評估，其可用於在不同的攝影機組態之間進行比較。

在其他實施例中，可使用一特定攝影機組態，且該設備可例如用以比較由第一合成電路109及/或第二合成電路113進行的處理中所包括的不同演算法或處理步驟之一或多者之參數設定。例如，當在兩個替代深度估計技術之間進行選擇時，可使用圖1之設備來判定該兩個深度估計技術的品質度量，且可選擇最佳者。

此顯著優點在於，可基於系統的數個態樣來評估所評估之特定特徵。例如，簡單地比較擷取影像或深度估計自身很可能導致相對不準確的評估，因為其不包括例如不同功能之間的互動。

在許多實施例中，使用三種類型經合成影像（即，不考慮所擷取影像所產生的參考影像、考量真實深度所產生的第一視圖影像、及考量所估計深度所產生的第二視圖影像）特別有利。

具體而言，基於場景之模型所評估之系統允許一條非常準確的基線，該基線用於評定從所擷取影像合成的視圖影像。參考影像提供可靠參考，其可視為來自測試姿勢的「正確」影像或視圖。因此，此類參考影像的比較可提供對於視圖影像與實際上將從測試姿勢看到/擷取之影像緊密匹配程度的高度可信且準確的指示。

進一步，基於基準真相深度資料及所估計深度資料兩者產生經合成視圖影像提供特別有利於評定品質影響的額外資訊。當然，特別實用於評定所使用之深度估計演算法的品質與品質影響。因此，在不同深度估計演算法之間進行選擇可係高度有利的。

然而，考慮兩種類型深度資料之好處亦可提供用於評估處理之其他元件或攝影機組態的有利資訊。例如，多個攝影機一般意指太多像素及太高的位元速率。因此，經常需要影像/深度封裝及壓縮。為了判定影像/深度封裝及壓縮是否主導誤差效能，包裝及壓縮可完全被排除在外，以提供清楚比較。

實際上，即使可取得針對一或多個附近所擷取影像的完美深度，仍不可能針對一不同視點來完美地合成影像。此顯而易見的原因包括遮擋假影及照明變化（當角度隨著參考視圖而增加時，這兩種效應皆增加）。此類型誤差或劣化可稱為模型化誤差或視圖合成誤差。

深度估計增加另一不確定性，且實際上在一些位置處的誤差可能非常大，且事實上整個合成可能由於深度估計誤差而失敗。

判定針對基準真相深度及所估計深度兩者的品質度量（諸如PSNR）允許更佳地判斷如何更新攝影機組態，且亦更佳地判斷是否已達成最大品質。例如，若使用基準真相深度的PSNR實質上未比所估計深度的PSNR更佳，則新增進一步的擷取姿勢或實體攝影機可能不係有用的。

如先前所提及，該方法可用於在不同攝影機組態之間進行選擇。例如，可能考慮一系列可能的攝影機組態，且可由圖1之設備判定針對所有可能攝影機組態的品質度量。可選擇達成介於攝影機組態之複雜度（例如，由攝影機數目所表示）與所得品質之間的最佳權衡的攝影機組態。

在許多實施例中，如先前所提及，由圖1之設備所產生的品質度量包括：一第一品質度量與一第二品質度量兩者，該第一品質度量反映該等第一視圖影像與該等參考影像的緊密匹配程度，該第二品質度量反映該等第二視圖影像與該等參考影像的緊密匹配程度。

在許多此類實施例中，給定攝影機組態的選擇可受制於該第一品質度量與該第二品質度量符合一準則。例如，該準則可需要該兩個品質度量高於一臨限，即，視圖影像與參考影像之間的差異低於一臨限。

然而，此外，亦可能需要該第一品質度量及該第二品質度量彼此足夠接近，即，可能需要該第一品質度量與該第二品質度量之間的差異低於一給定臨限。此要求可提供額外考量：足夠準確地估計深度，並給定相關估計誤差在實務中部署給定擷取組態時將較不可能造成品質問題的信任。

舉一具體實例，該設備可用於在不同的可能攝影機組態之間進行選擇。攝影機組態可個別地評估及依其較佳狀態順序來循序地評估。例如，攝影機組態可依其複雜度的順序來評估，例如，若攝影機組態分別對應於3、5、7、9個攝影機的線性配置，則該設備可首先評估3個攝影機的攝影機組態，後續接著5個攝影機的攝影機組態，後續接著7個攝影機的攝影機組態，並且最後接著9個攝影機的攝影機組態。該設備可依順序評估這些攝影機組態，直到攝影機組態經判定如下：其第一品質度量符合一第一準則（例如，高於一臨限）；其第二品質度量符合一第二準則（例如，高於一臨限）；及該第一品質度量與該第二品質度量的一差異測量符合一第三準則，具體而言，該差異測量低於一臨限。

由於第一品質度量與第二品質度量各指示合成品質足夠，故此選擇準則可係特別有利的，且由於該差異很小，故相信深度估計不會失敗，此係因為該深度估計導致與使用基準真相時類似的合成結果。

在一些實施例中，可藉由判定在第一（合成）視圖影像與第二（合成）視圖影像之間的PSNR（或其他合適的信號對雜訊比）來間接計算該第一品質度量與該第二品質度量之間的差異。此可提供有利的額外資訊。例如，若第一視圖影像及第二視圖影像兩者的PSNR在與參考影像相比較時為高，但是當彼此比較時為低，則較不可信，因為與介於第一視圖影像與第二視圖影像之間的PSNR的情況相比較，特定組態/深度估計演算法亦低。

具體而言，該方法可使用電腦圖形(computer graphic, CG)模型及影像模擬以比較不同的攝影機擷取組態及/或影像處理，以用於6DoF（自由度）視訊擷取之目的。給定一預定義觀看區域及一組取樣位置/測試姿勢，可針對各擷取組態來計算單一（有可能是複合的）品質度量，且可使用這些品質度量來選擇最佳的攝影機組態，從而例如避免需要實際建置及測試各系統以評估效能。

針對6DoF視訊擷取/建立及壓縮的競爭方法通常係以目視方式比較，且亦在壓縮的情況中以定量方式比較。然而，品質經常更是藉由攝影機感測器類型、其空間組態（例如，間距）、及攝影機參數來判定。比較此類擷取組態經常成本高昂，因為其涉及成本高昂的設備，並需要大量安裝人力。本方法及圖1之設備可解決這些問題。

具體而言，為了比較二或更多個潛在擷取組態（及/或處理方法），可使用適合用於該應用之CG場景（例如，足球場）並由該模型所表示。然後，可在預設6DoF觀看區域之邊界內定義一組樣本測試姿勢（一般在網格上）。可針對各攝影機姿勢及針對待評估的各擷取組態來演現以例如照片擬真形式呈現的虛擬擷取影像。然後，使用所估計深度資料及基準真相資料兩者，將必要處理（例如，深度估計及壓縮）應用至所演現的所擷取影像。作為下一步驟，預測/合成在6DoF觀看區域中用於測試姿勢組的視圖影像。可比較結果與參考影像，且針對各擷取組態，可計算單一品質度量（諸如所有樣本的最大預測誤差）。最後，可比較所有擷取組態之品質度量，且可選擇具有最小誤差的組態。

在評估不同攝影機組態及相關聯處理時，該方法可特別使成本降低。在該方法中，可評估系統效能，而不需要購買昂貴的攝影機設備及將該設備安裝在例如體育場四周。而是，評估可基於例如擬真CG足球場模型（包括足球場及球員）。射線追跡影像亦可用於估計深度，從而允許使運算品質保持為合理地低。

在下文中，將更詳述一具體實例。在此實例中，圖1之設備可具體地提供一品質評估方法，該品質評估方法使用虛擬場景之射線追跡影像，以模擬針對一給定攝影機擷取組態的獲取。影像被傳遞至即時深度估計及視圖合成軟體。然後，合成預設觀看區之測試姿勢的視圖，且比較所得影像與射線追跡影像（參考影像）。藉由比較從基準真相深度合成的影像及與射線追跡影像一起從所估計深度來合成的影像兩者，可將模型化誤差與深度估計誤差隔離開來。

產生即時播送6DoF視訊需要使用多個攝影機進行視訊擷取、即時深度估計、壓縮、串流及播放。所有這些組件皆在開發中，並且難以找到現成的解決方案。在開發期間，為了作出正確的選擇，希望能夠預先預測系統參數（例如，攝影機之間的基線距離）及深度估計演算法對影像品質的影響。在此具體實例中，圖1之設備可解決此類問題並提供有效率的品質評估方法。

實例係基於一實用評估，該實用評估使用由Blender所支援的一模型，Blender係常用於影片創作及遊戲開發的一種圖形演現引擎。在實例中，使用Python介面（例如，版本2.79）來針對定位在15×15錨點之一規則網格且間距為3 cm的攝影機建立射線追跡影像。所得之觀看區允許觀察者前後左右移動他/她的頭部（見圖2）。具體而言，站立人的觀看區允許有限的頭部運動視差。在測試姿勢的一均勻網格上評估由一組給定的擷取攝影機姿勢所進行之視圖合成的品質。

Python係用於自動化對於15×15影像的Blender射線追跡，以產生針對測試姿勢的參考影像以及所擷取影像。在具體實例中，測試姿勢之x及y方向兩者皆使用3 cm之樣本間距。為設計攝影機承架而預調查的關鍵參數之一係攝影機間距（基線）。使用射線追跡影像以產生所擷取影像允許在所意欲觀看區內找到給定最小品質等級的最佳基線。作為代表性場景，考量擷取使用MakeHuman軟體所建構之人類場景，及基於Blender示範檔案的汽車場景。

為了使用一簡單測量來比較效能及系統參數，使用一峰值信號對雜訊比：

，其中MSE 係RGB顏色通道的平均平方誤差。此外，視覺上比較基於所估計深度合成的視圖影像與使用以基準真相產生之影像所產生的合成影像。

該實例係基於用由第一合成電路109及第二合成電路113所實施之相關聯處理來評估如圖4所示之系統。

圖4展示在用戶端裝置上從擷取至演現的演算法方塊。對於即時播送廣播情況，深度估計及多視圖對位可包括校正成對或攝影機的內部參數(intrinsic parameter)及外部參數(extrinsic parameter)，後續接著多攝影機姿勢精緻化步驟。具體而言，程序可包括像差估計，後續接著判定所估計的像差係正確或錯誤之可能性的分類器。可在GPU上實施處理，以達成30 Hz之即時效能。一時域雙邊濾波器可確保深度圖隨時間而平滑變化，使得深度誤差至少暫時不令人困擾。

圖5展示實驗性安裝的實例，該實驗性安裝包括擷取承架501（其攝影機組態對應於配置成一排的六個攝影機）、處理單元503、及顯示器505。系統處理640×1080解析度的6個攝影機之饋送、計算6個深度圖、將6個影像及6個深度圖一起封裝在單一4K視訊圖框中並編碼，全部以30 fps即時進行。因此，此一系統形成用於即時播送串流的一可縮放低成本（消費性硬體）解決方案。取決於目標解析度，二個、四個或六個攝影機可附接至單一PC，且各PC的輸出可串流至一共同伺服器。多個視訊之圖框同步係在擷取側進行處理。使用存在於圖形卡上的編碼器晶片來編碼各PC之4K輸出。系統可輸出正常H.264或HEVC視訊，或可直接產生HLS/MPEG-DASH片視訊分段，以允許適應性串流。

在用戶端側，接收視圖作為經封裝視訊，並使用平台特定硬體解碼器將視圖解碼。解碼之後接著解封裝，其中從經封裝圖框提取所需的參考擷取視圖及深度圖。使用一頂點著色器將該等深度圖轉換成一網格。

在用戶端裝置處執行串流選擇，以選擇對應於用來產生針對特定姿勢之視圖的擷取姿勢的串流子集，參見圖6。例如，可假設用戶端具有可作為後設資料取得的參考視圖

之模型矩陣

。串流選擇使用4×4視圖矩陣

及

針對各眼睛來選擇兩個最接近的參考視點。使用以下計算最接近的視點：

，其中M_i 係視圖i 之模型矩陣，齊次座標p =(0,0,0,1)^t ，且V 係左或右眼之視圖矩陣。

此基本上對應於一種方法，其中針對各眼睛，使用最接近的所擷取影像（通常為兩個）與相關聯之深度資訊來預測眼睛影像。絕對值符號將向量轉換成3D空間中的純量距離。矩陣V描述眼睛的位置及定向，且矩陣M描述各參考視圖的位置及定向。Argmin i僅標示對所有參考攝影機採用的最小距離。

在實例中，處理及視圖合成可基於3D網格。具體而言，在初始化時，建立固定大小的規則三角形網格。經由深度圖之取樣，頂點著色器將網格的各頂點直接轉換成一剪輯空間齊次輸出位置：

，其中D_i (u,v) 係從在輸入紋理座標(u,v) 處的深度圖所導出的像差，Q_i 係深度矩陣之像差，且PV_eye M_i 係一給定眼睛之模型、視圖、及投射矩陣之乘積。針對具體實例，可使用一簡單的分段著色器，但該分段著色器原則上可用於進行更先進的遮擋處置及/或融合，以供改良影像品質。最接近及第二最接近的參考視圖兩者可經融合在一起以預測最終影像。此原則上允許6DoF視訊的可縮放解決方案，其中當使用者移動中時，可能在非常多視圖中僅一有限子集被串流至使用者。融合可例如僅取決於參考視圖之接近性：

，其中x₁ 及x₂ 係沿著x軸至最接近及第二最接近的所擷取視圖/影像之距離。此簡單的融合方程式代表介於視圖間之感知平滑轉變與視圖合成在遮擋區域中的稍較不準確性之間的權衡。

例如，圖7及圖8展示用於三個不同攝影機基線（攝影機擷取姿勢之間的距離為12 cm、6 cm及3 cm）的觀看區中之PSNR變化。

圖7展示與所估計像差/深度（底列）相比較，使用基準真相像差（頂列）在從30至50 dB之標度上針對變化的攝影機基線時，觀看區內之人類場景的PSNR [dB]。圓圈指示攝影機位置。

圖8展示與所估計像差/深度（底列）相比較，使用基準真相像差（頂列）在從30至50 dB之標度上針對變化的攝影機基線時，觀看區內之汽車場景的PSNR [dB]。圓圈指示攝影機位置。

因此，頂列之各圖係用基準真相深度圖而產生，而底列係使用所估計深度圖而產生。基準真相深度及所估計深度導致類似的圖案：基線越小，則觀看區中的PSNR越高。下表歸納該兩個場景的結果，其中報告在24×24 cm區域上的最小PSNR。

	人類	汽車
	B=0.12 m	B=0.06 m	B=0.03 m	B=0.12 m	B=0.06 m	B=0.03 m
基準真相深度	39.5	42.7	43.7	38.4	39.0	38.9
所估計深度	37.0	41.6	41.9	37.2	36.2	31.7

可見，當與人類場景相比較時，汽車場景的PSNR值系統性較低。此係歸因於汽車中之透明物體（窗），其中具有每像素單一深度值的模型顯然太簡單。對於汽車場景，深度估計器可無法用於閃亮及/或透明物體部分。

該方法允許直接比較基準真相深度與所估計深度。圖9展示對於人類場景的此類比較。圖9繪示在針對不同攝影機基線下之基準真相與所估計像差/深度的對照。為了產生所估計影像，應用比例以補償基線差異。在較大基線的誤差在較小基線時消失。

可以看出，較小的基線導致較少的像差估計誤差。此係可理解的，因為合成係從在較小空間距離處的所擷取視圖發生，而在較小基線的遮擋/照明差異較小。

由於可獲得射線追跡的基準真相影像，故可在針對測試姿勢的射線追跡影像（參考影像）、基於基準真相的合成影像、以及基於深度估計的合成影像之間進行視覺比較。圖10展示此一針對汽車場景之比較，且具體而言針對觀看區中之不同位置的影像（即，針對不同的參考姿勢）而展示在射線追跡參考影像、使用基準真相深度所合成之視圖影像、與使用所估計深度(B=0.03 m)合成的視圖影像之間進行的視覺比較。

可見，在使用基準真相深度時，在射線追跡影像（參考影像）與合成影像之間幾乎無任何可見的差異。當使用所估計深度時，一些影像模糊結果。

實例之設備可允許基於例如射線追跡影像來預測例如6DoF視訊廣播系統之品質的模擬方法。誤差或劣化會由於例如攝影機間距、即時深度估計及視圖合成而發生，且所述方法可評估所有這些誤差或劣化。

該方法允許分離/隔離模型化誤差與估計誤差，這在試圖改善深度估計及視圖合成時係有用的。該方法可用於設計更複雜（360度）的擷取承架或潛在非常大的攝影機陣列。

應理解，為了清楚起見，上文描述已參考不同功能電路、單元、及處理器描述本發明之實施例。然而，將明白，可在不同功能電路、單元、或處理器之間使用任何合適的功能分布，而不減損本發明。例如，繪示為由分開的處理器或控制器執行之功能可由相同處理器或控制器實施例。因此，參考特定功能單元或電路僅被視為參考用於提供所描述之功能的合適手段，而非指示嚴格的邏輯或實體結構或組織。

本發明能以包括硬體、軟體、韌體、或彼等之任何組合的任何合適形式實作。本發明可任選地至少部分地實作為在一或多個資料處理及/或數位信號處理器上運行的電腦軟體。本發明之實施例的元件及組件可以任何合適方式實體地、功能地、及邏輯地實作。實際上，功能可以單一單元實作、以複數個單元實作、或實作為其他功能單元的一部分。因此，本發明可以單一單元實作，或可實體地及功能地分布在不同單元、電路、及處理器之間。

雖然本發明已相關於一些實施例描述，未意圖受限於本文陳述的具體形式。更確切地說，本發明的範圍僅由隨附的申請專利範圍限制。額外地，雖然特徵可顯現為結合特定實施例描述，所屬技術領域中具有通常知識者會認知所描述之實施例的各種特徵可根據本發明組合。在申請專利範圍中，用語包含不排除其他元件或步驟的存在。

另外，雖然個別地列舉，複數個構件、元件、電路、或方法步驟可藉由，例如，單一電路、單元、或處理器實作。額外地，雖然個別特徵可包括在不同的申請專利範圍中，可能有有利的組合，且包括在不同申請專利範圍中不暗示特徵的組合係可行及/或有利的。特徵包括在一類別之請求項中並未暗示對此類別的限制，反而指示該特徵可視需要同等地適用於其他請求項。另外，在申請專利範圍中的特徵次序並未暗示特徵必須以該次序作用的任何具體次序，且方法項中之個別步驟的次序未特別暗示步驟必須以此次序執行。更確切地說，步驟可以任何合適次序執行。此外，單數型參照未排除複數型。因此，對「一(a)」、「一(an)」、「第一(first)」、「第二(second)」等的參照不排除複數。申請專利範圍中的參考標誌僅提供為闡明實例，不應以任何方式解釋為限制申請專利範圍的範圍。

101:模型儲存器 103:參考電路 105:擷取電路 107:深度產生電路 109:第一合成電路 111:深度估計電路 113:第二合成電路 115:品質電路 301:影像編碼功能；編碼器 303:深度編碼功能；編碼器 305:通訊功能 307:解碼功能 309:解碼功能 501:擷取承架 503:處理單元 505:顯示器

將僅以舉例之方式參考圖式描述本發明的實施例，其中［圖1］繪示用於評估藉由複數個攝影機對一場景之影像擷取品質的設備之元件的實例；［圖2］繪示用於圖1之設備的測試姿勢之觀看區域的實例；［圖3］繪示可藉由圖1之設備的第二合成電路及/或第一合成電路來模擬之處理功能的實例；［圖4］繪示可藉由圖1之設備的第二合成電路及/或第一合成電路來模擬之處理功能的實例；［圖5］繪示用於擷取及演現場景之實驗性安裝的實例；［圖6］繪示藉由圖1之設備選擇所擷取影像的實例；［圖7］繪示藉由圖1之設備所判定之品質測量的實例；［圖8］繪示藉由圖1之設備所判定之品質測量的實例；［圖9］繪示藉由圖1之設備基於不同攝影機組態所判定之深度圖的實例；及［圖10］繪示藉由圖1之設備所產生的視圖影像之細節的實例。

501:擷取承架

503:處理單元

505:顯示器

Claims

一種用於評估影像擷取品質的設備，該設備包含：一儲存器(101)，其用於儲存一場景之一模型；一擷取電路(105)，其用於產生針對一攝影機組態之複數個攝影機姿勢的虛擬擷取影像，該擷取電路(105)經配置以藉由基於該模型而演現該等攝影機姿勢之影像來產生該等虛擬擷取影像；一深度產生電路(107)，其用於從該模型產生針對該等虛擬擷取影像的模型深度資料；一第一合成電路(109)，其用於基於該模型深度資料處理該等虛擬擷取影像，以產生針對在該場景之一區域中複數個測試姿勢的第一視圖影像；一深度估計電路(111)，其用於基於該等虛擬擷取影像而產生針對該等虛擬擷取影像的所估計深度資料；一第二合成電路(113)，其用於基於該所估計深度資料處理該等虛擬擷取影像，以產生針對該複數個測試姿勢的第二視圖影像；一參考電路(103)，其用於藉由基於該模型而演現針對該複數個測試姿勢之影像來產生針對該複數個測試姿勢的參考影像；一品質電路(115)，其用於回應於該等第一視圖影像、該等第二視圖影像、與該等參考影像的一比較而產生下列至少一者的一品質度量：該攝影機組態、用以產生該等第一視圖影像的該處理、及用以產生該等第二視圖影像的該處理。
如請求項1之設備，其中由該第一合成電路(109)及該第二合成電路(113)進行的該處理之至少一者包括：產生用於該等虛擬擷取影像之一第一虛擬擷取影像的一深度圖模型；及使用該深度圖模型將該第一虛擬擷取影像視圖移位至該複數個測試姿勢之一測試姿勢。
如前述請求項中任一項之設備，其中由該第一合成電路(109)及該第二合成電路(113)進行的該處理之至少一者包括：使用從該等虛擬擷取影像所判定之至少一個深度模型來判定一組3D點；使用該等虛擬擷取影像之至少一虛擬擷取影像來判定各3D點之一顏色；及基於該等3D點的一投影，合成針對該複數個測試姿勢之一測試姿勢的一新影像。
如前述請求項中任一項之設備，其中該品質電路(311)經配置以判定該品質度量，以包含針對該等第一視圖影像的一第一品質度量及針對該等第二視圖影像的一第二品質度量。
如請求項4之設備，其中該品質電路(311)經配置以：針對複數個攝影機組態判定品質度量；及回應於該第一品質度量與該第二品質度量兩者而在該複數個攝影機組態之間選擇。
如請求項5之設備，其中該品質電路(311)經配置以回應於至少下列者而在該複數個攝影機組態之間選擇一攝影機組態：該第一品質度量符合一第一準則；該第二品質度量符合一第二準則；及該第一品質度量與該第二品質度量的一差測量符合一第三準則。
如前述請求項中任一項之設備，其中該品質電路(311)經配置以：針對各第二視圖影像產生一信號對雜訊測量；及回應於針對該等第二視圖影像的該等信號對雜訊測量而產生該品質度量。
如前述請求項中任一項之設備，其中該第一合成電路(109)及該第二合成電路(113)之至少一者之該處理包括：在基於經編碼及經解碼虛擬擷取影像進行影像合成之前，編碼及解碼該等虛擬擷取影像。
如前述請求項中任一項之設備，其中該第一合成電路(109)及該第二合成電路(113)之至少一者之該處理包括：在基於該模型深度資料及該所估計深度資料中之至少一者進行影像合成之前，編碼及解碼與該等虛擬擷取影像相關聯的該深度資料及該所估計深度資料中之至少一者。
如請求項8或9之設備，其中該編碼包含有損(lossy)編碼。
如前述請求項中任一項之設備，其中至少一些攝影機姿勢與至少一些測試姿勢相同。
如前述請求項中任一項之設備，其中測試姿勢比攝影機姿勢多不小於10倍。
如前述請求項中任一項之設備，其中攝影機位置形成一維配置，而測試位置形成二維或三維配置。
一種評估影像擷取品質之方法，該方法包含：儲存一場景之一模型；藉由基於該模型而演現針對一攝影機組態之複數個攝影機姿勢的影像來產生針對該等攝影機姿勢的虛擬擷取影像；從該模型產生針對該等虛擬擷取影像的模型深度資料；基於該模型深度資料處理該等虛擬擷取影像，以產生針對在該場景之一區域中複數個測試姿勢的第一視圖影像；基於該等虛擬擷取影像而產生針對該等虛擬擷取影像的所估計深度資料；基於該所估計深度資料處理該等虛擬擷取影像，以產生針對該複數個測試姿勢的第二視圖影像；藉由基於該模型而演現針對該複數個測試姿勢之影像來產生針對該複數個測試姿勢的參考影像；回應於該等第一視圖影像、該等第二視圖影像、與該等參考影像的一比較而產生下列至少一者的一品質度量：該攝影機組態、用以產生該等第一視圖影像的該處理、及用以產生該等第二視圖影像的該處理。
一種電腦程式產品，其包含經調適以當該程式在一電腦上運行時執行如請求項14之所有步驟的電腦程式碼構件。