TW201320005A

TW201320005A - 用於三維影像模型調整之方法及配置

Info

Publication number: TW201320005A
Application number: TW101121335A
Authority: TW
Inventors: Donny G Tytgat; Sammy Lievens; Maarten Aerts
Original assignee: Alcatel Lucent
Priority date: 2011-06-20
Filing date: 2012-06-14
Publication date: 2013-05-16

Abstract

本發明揭示了一種調整物件的3D模型(m)調整之方法，該方法包含下列步驟：執行該3D模型之至少一投影，以便得到具有相關聯的深度資訊(d1)之至少一2D影像模型投影(p1)；對該至少一2D影像模型投影(p1)執行至少一狀態提取操作，因而得到至少一狀態(s1)；根據該至少一狀態(s1)及一目標狀態(s)而調整該至少一2D影像模型投影(p1)及該相關聯的深度資訊(d1)，因而得到至少一已調整之2D影像模型(p1')及一相關聯的已調整之深度(d1')；以及根據該相關聯的已調整之深度(d1')將該至少一已調整之2D影像模型(p1')反投影到3D，因而得到一已調整之3D模型(m')。

Description

用於三維影像模型調整之方法及配置

本發明係有關一種三維(Three Dimensional；下文中簡稱3D)影像模型調整之方法。

通常以人工的方式執行3D模型調整，此做法通常是不理想的。調整3D模型的另一種方式利用狀態調整，狀態調整係有關將3D模型調整成符合某一狀態。該等狀態影響到形狀之3D位置及/或諸如該模型的某些部分或特徵之紋理(texture)等的外觀。3D模型狀態調整的現有技術之一主要問題仍然在於3D中將要調整的特徵之數目通常是相當大的，因而由於不充足的運算資源而通常仍然需要人工介入。此外，目前最佳的技術受限於使用已建模型(rigged model)，其於動態系統中做用時存在嚴重限制，在動態系統中，模型可學習使得其形狀亦可在學習過程中改變。

因此，本發明的實施例之一目的在於提出一種可全自動使用且能夠使用可動態調整模型之3D影像模型調整之方法及配置。

根據本發明的實施例，以一種調整物件的3D模型之方法實現該目的，該方法包含下列步驟：執行該3D模型之至少一投影，以便得到具有相關聯的深度資訊(d1)之至少一2D影像模型投影(p1)；對該至少一2D影像模型投影(p1)執行至少一狀態提取操作，因而得到至少一狀態(s1)；根據該至少一狀態(s1)及一目標狀態(s)而調整該至少一2D影像模型投影(p1)及該相關聯的深度資訊，因而得到至少一已調整之2D影像模型(p1')及一相關聯的已調整之深度(d1')；根據該相關聯的已調整之深度(d1')將該至少一已調整之2D影像模型反投影到3D，因而得到一已調整之3D模型(m')。

藉由調整至少一2D投影之狀態及其3D影像模型的相關聯的深度資訊，而使用較少的運算資源，因而排除該過程中人工介入的需求。反投影到3D保證該3D模型本身被儘量逼真地調整。

在一實施例中，進一步根據初始的3D模型(m)資訊而決定該已調整之3D模型(m')。

此種方式能夠得到該已調整之模型的一平滑漸變(smooth morphing)。

在另一實施例中，自外部施加的限制決定該目標狀態(s)。

其可諸如包含與鼻子的形狀或眼睛的顏色等的特徵有關之高階資訊。

在另一實施例中，自一外部影像輸入(IV)之狀態 (se)得到該目標狀態(s)。

當將該外部影像輸入(IV)之該狀態(se)與該至少一狀態(s1)結合而得到該目標狀態時，此種方式可允許一3D模型平滑地調整成諸如一現場視訊上的一物件的變化特徵，或調整成相似於，在靜態影像上出現的此物件。

在一較佳變形中，該外部影像輸入(IV)包含一2D影像輸入，且根據自該外部影像輸入(IV)演繹之一虛擬攝影機(virtual camera)而執行該3D模型的該至少一2D投影中之一2D投影。

此種方式適用於得到該外部影像輸入與該3D模型間之一最佳關係。

在又一變形中，該外部影像輸入可包含一2D+視差輸入(disparity input)，此即意指以諸如一立體攝影機自外部提供2D以及視差資訊。然後可利用深度×視差=常數之公式而自該視差資訊直接推導出深度資訊。

此種方式可將來自該輸入的深度資料用來更新相關聯的深度。

本發明也係有關一種用來執行該方法的影像或視訊處理裝置所包含的一配置之實施例，且係有關一種包含被資料處理設備執行時調整於執行前文所述或申請專利範圍述及的方法步驟的軟體之電腦程式產品。

請注意，申請專利範圍中使用的術語"被耦合"不應被詮釋為只限於直接連接。因此，詞句"一裝置A被耦合到一裝置B"之範圍應不限於裝置A的一輸出被直接連接到裝置B的一輸入之裝置或系統。此即意指：裝置A的一輸出與裝置B的一輸入之間的一路徑可能是包括其他裝置或機構的一路徑。

請注意，申請專利範圍中使用的術語"包含"不應被詮釋為限於其後列出的機構。因此，詞句"一裝置包含機構A及B"之範圍應不限於裝置只包含組件A及B。此即意指：關於本發明，該裝置的僅有之相關組件是A及B。

在全部的本文中，二維(Two-Dimensional)將被簡稱為2D，且如前文所述，三維將被簡稱為3D。

熟悉此項技術者當可了解：本說明書中之任何方塊圖代表實施本發明的原理的例示電路之概念圖。同樣地，我們應可了解：任何流程圖、流向圖、狀態變遷圖、及虛擬碼等的圖式代表可在電腦可讀取的媒體中實質地呈現且因而可被電腦或處理器(不論該電腦或處理器是否被明確地示出)執行之各種程序。

第1a圖示出用來調整一3D模型m的該方法的第一變形執行之步驟。

在一第一步驟中，執行該3D模型投影到2D。用於該投影之參數是根據習知的針孔攝影機模型而使用之參數，該針孔攝影機模型係述於諸如Richard Hartley及Andrew Zisserman所著之教學手冊"Multiple View Geometry in Computer Vision"(Cambridge University Press,second edition 2003,ISBN 0521 54051 8)的第6章。

其因而係有關經由一中央"針孔"而將一3D空間中之各點投影到一平面。在該模型中，該平面對應於該攝影機之投影平面，而針孔對應於通常也被稱為攝影機中心(camera center)的該攝影機之光圈開孔(diafragma opening)。該投影步驟的結果被標示為p1,d1，其中p1指示2D投影本身，其可由含有色彩資訊的像素值之2D矩陣來表示，且其中d1指示投影深度圖(projection depth map)，其亦可由相關聯的深度值之2D矩陣來表示。根據亦將在後文中提供的一些習知方程式而自該等原始深度值及攝影機位置計算出這些相關聯的深度值。

在替代實施例中，可在一大型2D矩陣內表示該投影及該深度圖，其中對於每一被投影的像素而言，係在對應的矩陣列及行中呈現色彩資訊及相關聯的深度資訊。

第2a圖中以示意圖示出該投影本身，圖中示出點A，其具有相對於原點O之3個空間座標x_A、y_A、及z_A，其中係經由用來界定一參考座標系的三個軸x、y、z界定這些座標。以具有相對於該相同參考原點及參考座標系之座標x_C、y_C、及z_C之針孔攝影機的攝影機中心位置C標示該針孔攝影機。在被標示為S的與該攝影機相關聯之一投影螢幕上進行點A的投影。點A經由針孔C到該螢幕之投影被標示為p(A)，其具有相關聯的座標(x_PA,y_PA)。然而，係以與在該投影平面S內界定的二維軸x_P及y_P有關之方式界定這些座標。

為了不使第2a圖超載，此處假定攝影機並不相對於該等三個參考軸x、y、z而轉動。然而，習知的公式也適用於此種更一般性的情況，且這些公式被用於根據本發明的實施例，以便計算投影及相關聯的深度圖。如第2b圖中以示意圖示出的，該攝影機的轉動被標示為θ_x、θ_y、θ_z，以便分別示出該攝影機中心繞著該x、y、z軸的轉動，其中只針對該原點O與該攝影機中心C一致之情形而示出這些轉動。

在最一般性之情形中，C可能相對於該參考原點O及該等參考軸x、y、z而平移及轉動。

在根據本發明的實施例中，一3D模型之投影因而將包含此模型之被投影之3D點的色彩或紋理資訊，只要這些被投影之3D點落在該螢幕區S的輪廓內而且不被該模型的另一3D點之另一投影阻擋。3D物件的2D投影確實幾乎固有地會發生阻擋，且阻擋係有關該模型的一個以上的3D點將被投影到該投影螢幕上的相同2D點。

與該投影相關聯的深度圖因而將包含該等被投影的像素p(A)中之每一被投影的像素之各別的與該攝影機的位置有關之相對深度值。其被標示為

其中θ_x、θ_y、θ_z指示攝影機繞著第2b圖所示之該等參考軸之各別的轉動，

其中a_x、a_y、a_z代表一點a在參考座標系中之座標，其中c_x、c_y、c_z代表攝影機中心c在參考座標系中之座標，以及其中d_z代表點a相對於該攝影機中心c之相關聯的深度。

如果該攝影機沒有相對於參考原點O中參考座標系x、y、z的轉動，則這些轉動角度均為零，因而該方程式(1)將被簡化為：d_z=a_z-c_z (2)

該方程式使用第2a圖中之記號時將對應於：d(A)=z_A-z_c (3)

其亦如第2a圖所示。

一般而言，將選擇投影而使待進行3D調整之該3D模型中的該等特徵將在足夠高的解析度下成為該投影的一部分，或使該等特徵將最佳地填滿該投影影像。此可藉由嘗試一組預先被決定的投影位置，然後選擇提供最佳結果的一投影位置而試探地被完成。

在另一實施例中，其可經由一中間步驟而被進一步決定，其中將利用3D三角形而計算該模型的3D曲面之近似值。一般而言，將只以此種3D三角形計算該模型中與將要調整的特徵有關之部分之近似值。決定這些三角形中之每一三角形的與垂直方向有關之法線。在理想的投影中，該法線的方向應該是與該攝影機至該三角形的方向成180度。對於每一攝影機位置而言，所有三角形的各別三角形上的法線與該攝影機至該三角形中心的方向間之角度的餘弦的總和應該是最小的。藉由計算一些可能的攝影機位置之總和，且選擇可得到該總和的最小值之位置，即可計算出一最佳方向。在替代實施例中，可解出求最小值問題，以便諸如決定最佳攝影機方向。

當然，如熟悉此項技術者所習知的，亦可使用許多其他的技術。

在一次一步驟中，自該投影提取狀態。狀態意指物件特徵之一組態，且由一組值代表這些特徵本身。這些值可因而描述該物件的可能可變之特性或特徵。可將該組值安排成一向量，但是用於此種狀態的其他表示法當然也是可以的。狀態提取因而意指決定用來代表一影像(在該例子中為一3D模型之一投影)的一物件的狀態之一些狀態參數。如將於下文中述及的例子所示，可經由基於3D模型資訊的某些計算而執行上述步驟，或使用一些更一般性之方法，例如，首先包含辨識/偵測所考慮的物件之一步驟，該步驟可能(但非必要地)執行一些分段操作，然後進一步對該因而被辨識/偵測的物件執行深度分析。

然而，在根據本發明的大部分實施例中，3D模型本身係已知，因而可根據該3D模型之狀態而大幅減少狀態提取之計算。如果該3D狀態係有關某些特徵(該等特徵在人頭的3D模型之例子中可以是面部特徵)之座標，則這些3D點的2D投影可立即導致2D影像之狀態參數。

如果還不知道該3D模型之狀態，則前文所述之辨識步驟之後可接續進一步的分析，該進一步的分析可能諸如涉及主動外觀模型(Active Appearance Model；簡稱AAM)之使用。AAM可在諸如作為物件模型的一人頭待更新之情形中，經由配適一2D AAM內部成形模型，而決定2D被投影之影像的面部特徵之形狀及外觀。其開始時可將該2D投影與一2D AAM模型之初始值比較，然後進一步漸漸地改變該AAM模型本身，以便找出最佳配適。一旦找出了一良好的匹配之後，輸出根據該AAM已調整之模型而決定之參數，諸如face_expression_1_x及face_expression_1_y等。

在第1a圖中，投影影像之狀態被標示為s1，且在一目標狀態合成步驟中使用該狀態。自該2D投影的該狀態s1且自外部狀態資訊得到該目標狀態s。可以離線的方式自諸如一靜態影像輸入或根據諸如與鼻子形狀、眼睛顏色、及面部表情等的特徵有關之高階語意資訊等的其他描述資訊，而預先決定被標示為se之該外部狀態資訊。在此種情形中，可將該外部狀態資訊預先儲存在一記憶體內。

在替代實施例中，可諸如根據可能迅速地隨著時間的經過而改變之變化的外部視訊影像輸入資料而"即時"決定該外部狀態資訊se。在此種情形中，通常為一視訊序列的後續框決定該外部狀態se。

使用該外部狀態資訊以及該2D投影的狀態s1，以便得到目標狀態。

用來自該輸入狀態s1及se決定第1a圖中被標示為s的目標狀態之方法可包含下列步驟：以用來反映該等狀態的信賴水準之權值對s1及se值執行一加權組合，其中係在狀態提取期間決定該等信賴水準。在決定該等s1參數的該AAM方法之上述例子中，然後可諸如選擇用來識別匹配的結果之各參數作為該等信賴水準度量。

決定目標狀態之另一方法可以只包含選擇諸如se，在不同狀態之如先前例子中所述的內插或加權組合的結果檢查指示該內插後之結果係位在預定界限外的情形中，其選擇係較佳的。

在說明第4a-b圖所示之實施例時，將進一步說明狀態及目標狀態的決定之特定實施方式。

在決定了第1a圖中被標示為s的目標狀態之後，將根據該目標狀態s而轉換該2D投影p1以及相關聯的深度圖d1。在一例子中，可使用一種將三角形用來代表諸如面部特徵之方法。經由內插這些三角形所界定的距離，且使先前歸屬於在先前位置上的各像素之一些特徵現在歸屬於在這些新的位置上之該等像素，將可產生一影像轉換。該方法極適用於許多此種三角形被使用之情形。

在一類似的方法中，將根據新狀態而計算投影影像中與該等特徵相關聯的像素之被更新的2D座標。位於原始2D投影上界定的各三角形間之像素的色彩及紋理資訊將被歸屬於位於被更新之影像中之這些新位置上的該等三角形間之像素。如果該2D投影上的兩點具有內部座標(100,100)及(200,200)，且這兩點將被轉換到被轉換的投影上之座標(50,50)及(100,100)，則座標(150,150)上的原始像素之色彩將被歸屬於被轉換之影像中之座標(75,75)上的像素。

在說明第4a-b圖時，將進一步說明更詳細之實施方式。

已調整之2D投影被標示為p1'。

亦根據該目標狀態而並行地調整相關聯的深度圖之相關聯的深度值。在某些實施例中，該目標狀態之決定直接涉及該投影的某些像素的已調整之深度值之計算。根據該目標狀態的其他深度值之調整，亦可經由已計算出的已調整之深度間的內插而執行，如前文中所述，相對於已調整之被投影像素的色彩值的調整。

該已調整之深度圖被標示為d1'。

根據該被轉換之深度圖及通常包括已調整之2D影像模型的被轉換之2D投影，可執行再投影或反投影到3D，其方式為使用與3D至2D投影時使用的那些轉換相反之轉換，但是現在將該等已調整之相關聯的深度值用於該已調整之投影影像的每一2D像素。

該反投影之結果被標示為p3d_1。

在某些情形中，3D反投影點足以形成一被更新之3D模型。

在其他實施例中，將至3D的反投影與原始3D模型m合併，而得到被更新或已調整之3D模型m'。

第1b圖示出用來執行該方法的一實施例之一配置A。

第3a圖示出一變形實施例，其中對初始3D模型m執行一個以上的投影。可根據該模型的形式及形狀以及選擇第一投影時發生的阻擋量，或使用前文所述的用來決定投影參數本身的該等方法中之一方法，而選擇該等投影本身。一可能的實施方式因而可基於將在3D中利用一組三角形而被建立模型的3D曲面的近似。計算這些三角形中之每一三角形的垂直方向。可以指向該3D模型本體之外的一3D"法線"向量代表該垂直方向。藉由計算3D向量與攝影機投影方向間之差異，而得到一種用來決定阻擋之簡單方式，至於未被阻擋的曲面，該投影方向應與法線向量相反。因此，可調整攝影機投影，且可能因而變成：為了得到將要被建立模型的所有特徵的具有充分解析度之足夠好的投影，可能需要數次投影。在替代實施例中，亦可使用內定3次的預定投影，而減輕對最佳攝影機位置的嘗試錯誤法計算。

這些不同的投影被標示為p1、p2、至pn，且相關聯的深度圖被標示為d1、d2、至dn。這些投影中之每一投影因而與具有第2a-b圖所示之某一位置、轉動、以及相關聯的螢幕寬度及長度的一虛擬攝影機相關聯。

這些不同的投影p1至pn中之每一投影也將經歷狀態提取操作，因而得到各別的被決定之狀態s1、s2至sn。在某些實施例中，尤其在將要被調整的該等特徵與所考慮的該等特徵之座標或像素位置直接相關之情形中，可以前文所述之方式計算這些各別的投影之狀態。

這些各別的被決定之狀態s1、s2至sn可能(但非必然)連同外部狀態輸入se而被用來作為決定一目標狀態s之各別的輸入。該目標狀態之該決定可包含：以用來反映各種輸入狀態的信賴水準對該等輸入狀態執行一加權組合，其中係在狀態提取期間決定該等信賴水準。在決定該等s1參數的該AAM方法之上述例子中，然後可諸如選擇用來識別匹配的結果之各參數作為該等信賴水準度量。

決定目標狀態之另一方法可以只包含選擇該等輸入狀態中之一輸入狀態或選擇該外部狀態，在不同狀態之如先前例子中所述的內插或加權組合的結果檢查指示該內插後之結果是在預定界限外的情形中，其選擇係較佳的。

該目標狀態s構成該等n個各別的投影及其各別相關聯的深度圖被更新之基礎。該等被更新之投影被標示為p1'、p2'至pn'，且該等被更新之深度圖被標示為d1'、d2'至dn'。

然後根據與該等投影中之每一2D像素相關聯的該等被更新之深度圖值，而將這些被更新之投影p1'、p2'至pn'反投影到3D。將這些反投影與原始模型合併，而產生一被更新之或已調整之模型。

第3b圖示出用來執行該變形方法的一配置之一實施例。

第4a圖示出用來調整一人頭的3D模型調整之一實施例。在該實施例中，該模型的狀態係有關面部表情，但是在其他實施例中，該狀態可能也係有關頭髮、眼睛、及皮膚等的部位之色彩。該特定實施例之目標在於使用一輸入2D視訊提供的面部特徵描繪該3D模型。

該輸入視訊在第3a圖中被標示為IV。對於該視訊之每一框而言，以與3D模型的物件之縮放及方位有關之方式估計物件之縮放及方位。此種方式對決定與3D模型至一2D平面的虛擬攝影機視點(viewpoint)有關之第一投影是較佳的，其中該投影應儘量相似於用來擷取2D視訊的攝影機中使用的2D投影。第一投影的特定選擇無須如此，但是對簡易的更新可能是有利的。對於特定投影而言，3D模型至一2D平面的投影因而應使用具有一些相關聯的投影參數之一虛擬攝影機，且這些投影參數係儘量相似於用於拍攝輸入視訊的2D影像的攝影機之那些投影參數。

根據諸如將於下文中說明的一些習知技術而執行這些投影參數的計算：決定用於此虛擬攝影機之參數的程序的輸入係人臉的一3D資料庫模型及一現場2D視訊饋送。由於已知該3D資料庫模型的面部特徵之3D位置、該現場視訊饋送中之面部特徵之2D位置、以及網路攝影機及該虛擬攝影機之投影矩陣，所以這些資料應足以計算該現場視訊饋送中之面部的該等面部特徵之3D位置。如果因而知道該現場視訊饋送中之該等面部特徵之該等3D位置、以及該資料庫模型的對應的面部特徵之3D位置，則可計算出該等對應的3D位置間之3D轉換(平移及轉動)。在替代實施例中，因而亦可計算出一虛擬攝影機為了擷取該3D資料庫模型的與該現場視訊饋送中所看到的相同2D視域所需之3D轉換(平移及轉動)。為了將要被施加到該虛擬攝影機的轉換的計算所需之最少特徵點數量是3。因為人臉由於變化的及不同的情緒而不是一死板的物件，因而取得面部特徵時將需要解決最小化的問題。因此，使用諸如左眼的左邊、右眼的右邊、及嘴的頂部等的3個穩定的點。該資料庫模型中之這3個面部特徵之3D位置、以及該現場視訊饋送及該網路攝影機投影矩陣中之對應的面部特徵之2D位置因而被輸入到習知的Grunert演算法。該演算法將提供這些對應的3個面部特徵之所計算出的3D位置。其然後可被用來使該虛擬攝影機在該3D資料庫模型周圍移動，以便擷取與該現場視訊饋送中之面部提供的2D畫面相同之資料庫模型2D畫面。

在如第4a圖所示之某些實施例中，最好是使用該3D模型之另一投影。此種方式在使用攝影機參數的第一投影導致類似於該視訊饋送的影像之一最佳投影但是仍然沒有產生足夠的像素資料之情形中(例如，在投影影像上的面部之一部分被鼻子阻擋時)可能係所欲的。

第5a圖示出此種情形，圖中在左邊長方形中示出真實"攝影機"擷取的"真"人之視訊，而右邊長方形的左方部分示出以被標示為虛擬攝影機1之第一虛擬攝影機執行之3D模型的投影。如圖所示，該虛擬攝影機對3D模型之投影與"現場"2D攝影機使用之投影條件匹配。但是仍然有面部的左方部分之某些像素被鼻子阻擋。因此，由另一虛擬攝影機執行另一投影，該攝影機被標示為"虛擬攝影機2"。根據先前攝影機位置的被阻擋之像素而決定該虛擬攝影機2之參數。可根據諸如面部點等的內在參數以及該等虛擬攝影機的外在參數，且根據該3D模型之知識，而決定該虛擬攝影機2之參數。該資訊將能夠決定是否要將3D模型的將要被建立模型的該等特徵之兩個立體像素或3D點投影到一2D投影中之相同的像素。如果確係如此，則顯然將發生阻擋。根據該資訊，然後可計算另一虛擬攝影機位置，而可以有該立體像素之至少不同的投影。藉由對所有被投影的像素之此種檢查，可決定阻擋的存在，且可據此而決定力一虛擬攝影機位置及轉動。

在另一實施例中，可使用一些預定的虛擬攝影機或自該等虛擬攝影機中被選出的虛擬攝影機，以便取得感興趣的特徵之投影。此外，在替代實施例中，可使用分別提供一前視畫面以及兩個90度的側視畫面的虛擬攝影機之標準組態，且可根據將要被建立模型的特徵，而使用所有的投影或該等投影的一子集。

如果只使用兩個投影，則第5a圖的右邊長方形的右方部分示出第二投影之結果。亦連同該等投影p1及p2而產生被標示為d1及d2之相關聯的深度圖。這些深度圖指示每一2D被投影的像素之相對深度，其中包括利用方程式(1)得到的與各別攝影機位置有關之自各別虛擬攝影機1或2的視點觀測到的轉動資訊。該等兩個投影中之每一投影的深度圖被標示在該右邊長方形的下方圖中。

在次一步驟中，提取兩個投影p1及p2以及輸入視訊的後續框之狀態。由於該狀態在該實施例中係有關面部表情，所以將這些面部表情特徵化。使用諸如AAM技術等的前文所述之目前最佳技術自該輸入視訊的後續框以及該等2D投影提取與這些面部表情有關之特徵。亦可以前文所述之方式根據模型之3D狀態以及對應的立體像素投影而計算投影之狀態。第5b圖中示出此種情形，而在左邊長方形中，示出現場2D框上的嘴及眼睛的邊緣的不同的像素之位置。也因而決定該等投影上的這些相同特徵之這些位置。在第5b圖之右方部分中，其只針對投影p1而被示出，但是其亦明顯發生在投影p2，但在該圖中並未被示出，以便不會使該圖式超載。在該特定實施例中，該等各別的狀態對應於與p1、p2以及一輸入框上出現的這些特徵相關聯的像素之位置。這些狀態被分別標示為s1、s2、及se。由於第5b圖中只示出p1，所以也只示出s1。這三個狀態被用來決定目標狀態，而該目標狀態在該實施例中對應於狀態se。雖然在該實施例中，該等各別的狀態s1 及s2因而未被用來決定該目標狀態，但是在根據該目標狀態轉換該等投影期間，仍然使用該等各別的狀態s1及s2。此目標狀態因而也被用來調整2D投影p1及p2。對於對應於"真實"視訊攝影機之虛擬攝影機而言，藉由使該等被選擇的特徵之像素位置被視訊框中出現的這些特徵之對應的像素位置取代，即可簡易地執行此調整。藉由選擇虛擬攝影機1映射到該真實攝影機，其可被極簡易地執行。為了調整由另一虛擬攝影機2所得到的2D投影p2，一可能的方法包含下列步驟：計算首先在3D中決定的p2的該等已調整之特徵的位置。可根據該已調整之投影p1'及已調整之深度圖d1'而執行上述步驟。此種方式可決定p1'上可看見的這些特徵的3D位置之計算。藉由將該等投影參數用於第二投影，即可識別其在p2'上之對應的位置。對於來自p1及p1'之被阻擋的特徵而言，可將內插技術用來計算已調整之投影及已調整之深度圖。

一旦知道p1及p2的關鍵性特徵之新位置之後，諸如加權內插等的漸變技術可被用來決定不是關鍵性特徵的像素之色彩及深度。

第5b圖的右邊長方形之底部圖中示出投影p1的調整。該投影顯在顯然被調整至左邊長方形的輸入視訊框上出現的"笑"臉表情。該情況也發生在投影p2(第5b圖中未示出)。

接著使用已調整之深度圖而再投影已調整之投影p1'及p2'到3D且合併，以取代或更新舊的資料。可根據下列近似而計算d1'之資料：該已調整之深度等於初始深度，因而與所考慮的特徵有關且具有投影座標x_PA,y_PA的像素A之初始深度d(A)現在將被歸屬於座標x_PA',y_PA'之像素，這是因為x_PA'及y_PA'是該所考慮的特徵的已調整之座標。

在這方面，要提到該等已調整之2D影像的所有反投影在3D域中應是一致的。其基本上意指：當反投影在一個以上之2D被投影影像中可看見的一被轉換之特徵時，此特徵應自所有的投影將而被反投影到相同的3D位置。所以，如果嘴角被轉換，且該嘴角出現在數個這些投影，則所有被反投影的座標都應是相同的。

假定x_3d是3D物件中所考慮的某一特徵(例如，鼻尖)，x_3d是具有資訊(x,y,z，色彩)之一向量，x_2dz是2D+Z域中之某一特徵，則其是含有資訊(x-2d,y_2d，深度，色彩)之一向量。

根據某一虛擬攝影機c1而以函數p建立3D至2D+Z的投影之模型：p(c1,x_3d)=x_2dz_c1

現在考慮狀態已調整之3D模型。在狀態調整之後的預期3D特徵被稱為x'_3d。3D狀態轉移函數是m_3d：x'_3d=m_3d(x_3d)

此即意指：x'_2dz_c1=p(c1,x'_3d)=p(c1,m_3d(x_3d))

由於係對該等投影執行與狀態有關的調整，因而在2D+Z域中，無法使用m_3d函數。此可藉由使用一m_2dz函數而近似：x"_2dz_c1=m_2dz(c1,x_2dz_c1)

其只有在下列條件時才可與3D狀態一致：x'_2dz_c1=x"_2dz_c1

此即意指：函數p(c1,m_3d)與函數m_2dz(c1)在所考慮的域內實際上是相同的。

如果確係如此，則沒有任何問題，且可使用前文所述之方法，而不會有任何問題；如果並非如此，則必須執行一額外的步驟。

為了將其列入考慮，對投影參數的小心選擇將可自開始便解決該問題。

然而，如果其不被處理，則可能發生不一致的狀況。其中一個問題在於：於將多個2D+Z來源用來重新建立3D模型時，這些來源的反投影對狀態轉移函數必須"有一致性"。當該等函數在3D狀態上是一致時，沒有任何問題(這是因為所有的2dz函數都實際實施3d狀態轉移函數的特定2dz版本)。當該等函數在3d狀態上是不一致時，需要經由"正確的"3d狀態轉移函數或該函數的一近似而強制其一致性。可諸如選擇一參考2DZ狀態轉移函數，且將所有其他的狀態轉移函數投影到該參考，而執行上述步驟：x'_2dz_c1ref=m_2dz(c1ref,x_2dz_c1ref)

現在考慮將m_2dz(c1ref)用來作為該參考2dz狀態轉移函數。可透過經由3D域的移動，而建立其他的函數：x'_3d=p_inv(c1ref,x'_2dz_c1ref)=p_inv(c1ref,m_2qz(c1ref,x_2dz_c1ref) m_2dz(c2,x'_2dz_c2)=p(c2,x'_3d)=p(c2,p_inv(c1ref,m_2dz(c1ref,x_2dz_c1ref)))請注意，並非所有來自3D物件的特徵在移動通過p(c,x_3d)之後都將具有有效值。例如，不在虛擬攝影機視野內之點或被物件中之其他特徵阻擋之點沒有有效值。為了使這些點都有一致的被轉換之特徵，將需要其他的參考攝影機。

第二實施例是第一實施例之一變形，也涉及人臉的3D模型之狀態調整，但是與先前實施例不同之處在於：第二實施例不使用2D攝影機，而是使用2D+Z攝影機，例如，使用立體攝影機、或諸如Microsoft Kinect等的時差測距攝影機(time-of-flight camera)。在此種情形中，可使用取代2D座標的3D座標之面部特徵點。再次取得所需之許多離線模型的2D+Z投影，以涵蓋被現場資料修改的所有點並將狀態推論到這些投影。可諸如將先前實施例的漸變技術用於該等"離線"2D+Z資料，而合併該等資料，但是現在也將被修改的Z資料用於該等特徵點。

在這些實施例中，能夠減少3D狀態調整之問題。當開始將狀態自一或多個2D影像轉移到一全3D模型時，現在自2D至2D+Z的狀態轉移減少了，因而使這些操作容易適用於即時應用。

雖然前文中以與特定設備有關之方式說明了本發明之原理，但是我們應可清楚地了解：只是以舉例而非對最後的申請專利範圍中界定的本發明範圍加以限制之方式提供本說明。在本發明之申請專利範圍中，被陳述為用來執行一指定功能的一裝置之任何元件將包含用來執行該功能之任何方式。其可包括諸如用來執行該功能的電氣或機械元件之組合、或因而其中包括韌體或微碼等的任何形式之軟體及與其結合而用來執行該軟體以便執行該功能之適當的電路、以及被耦合到以軟體控制的電路(如果有此種電路)之機械元件。這些申請專利範圍界定的本發明存在於下列事實：以申請專利範圍要求之方式結合及組合所述的各種裝置所提供之功能，且除非另有明確的界定，否則任何實體結構對申請專利範圍主張的本發明之新穎性只有很少的重要性或沒有重要性。本案申請人因而將可提供那些功能的任何裝置視為本發明所示的那些裝置之等效物。

若參閱前文中對一實施例之說明，並配合各附圖，將可對本發明的前文所述及其他的目的及特徵有更清楚的了解，且將可對本發明本身有最佳的了解，在該等附圖中：第1a-b圖示出本發明的方法及裝置之一第一變形；第2a-b圖以示意圖示出本發明的實施例所涉及之幾何模型；第3a-b圖示出本發明的方法之一第二變形；第4a-b圖分別示出本發明的方法之第三及第四實施例；以及第5a-c圖示出第3a圖所示之實施例在有一額外的2D視訊輸入之情形中執行的不同的步驟。

Claims

一種調整物件之3D模型(m)的方法，該方法包含下列步驟：執行該3D模型之至少一投影，以得到具有相關聯的深度資訊(d1)之至少一2D影像模型投影(p1)；對該至少一2D影像模型投影(p1)執行至少一狀態提取操作，因而得到至少一狀態(s1)；根據該至少一狀態(s1)及一目標狀態(s)而調整該至少一2D影像模型投影(p1)及該相關聯的深度資訊(d1)，因而得到至少一已調整之2D影像模型(p1')及一相關聯的已調整之深度(d1')；以及根據該相關聯的已調整之深度(d1')將該至少一已調整之2D影像模型(p1')反投影到3D，因而得到一已調整之3D模型(m')。
如申請專利範圍第1項之方法，其中該已調整之3D模型(m')係進一步根據該初始的3D模型(m)資訊而決定。
如申請專利範圍第1或2項之方法，其中該目標狀態(s)係得自外部施加的語意資訊。
如申請專利範圍第1或2項之方法，其中該目標狀態(s)係得自一外部影像輸入(IV)之狀態(PS)。
如申請專利範圍第4項之方法，其中該目標狀態係藉由將該外部影像輸入(IV)之該狀態(PS)與該至少一狀態(s1)結合而得到。
如申請專利範圍第4項之方法，其中該3D模型的該至少一2D投影中之一2D投影係根據演繹自該外部影像輸入(IV)之一虛擬攝影機而執行。
如申請專利範圍第4至6項中任一項之方法，其中對提取自外部的該現場視訊及該等被投影之2D影像的關鍵性特徵執行轉換，且其中該等投影的該等關鍵性特徵之新位置係根據該現場視訊的該等關鍵性特徵之位置而決定。
一種調整以執行如申請專利範圍第1至7項中任一項之方法的配置(A1)。
一種包含如申請專利範圍第8項的配置之影像處理設備。
一種包含軟體之電腦程式產品，該軟體在一資料處理設備上被執行時，被調整以執行根據申請專利範圍第1至6項中之任一項的該等方法步驟。