TWI831235B

TWI831235B - 動態影像之處理方法、電子裝置及其連接之終端裝置

Info

Publication number: TWI831235B
Application number: TW111120906A
Authority: TW
Inventors: 周品妤; 李岳樺; 張育寧; 吳明憲; 黃宇軒
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2024-02-01
Also published as: US12132980B2; US20230396869A1; CN117241130A; TW202349928A

Abstract

本發明係提供一種動態影像之處理方法，其由一電子裝置通訊連結一攝影裝置且讀取一可執行碼所執行，以人工智能辨識一預設對象，並對該預設對象進行動態影像之處理，包括預設對象辨識、影像篩選，以及影片串接之步驟，其中的影像篩選步驟設定一篩選條件，包括偵測預設對象在初始影像中之一動作變異量(Movement Variable)且符合一閾值(Threshold)時選定為一截取時點，由影片串接步驟在初始影像中依截取時點選取一候選影片(Video Clip)，並集合一個以上的候選影片而產生一串接影片。本發明也提供一種處理動態影像之電子裝置，以及一種終端裝置。

Description

動態影像之處理方法、電子裝置及其連接之終端裝置

本發明係提供一種動態影像之處理技術，尤指一種動態影像之處理方法、電子裝置及其連接之終端裝置。

習知一種嬰幼兒的監看系統，可由攝影機透過人工智能辨識而自動擷取影像，其擷取影像的條件主要是人臉表情或聲音的變化。然而，習知的監看系統有以下問題：

1.習知監看系統，其攝影機自動擷取的影像，並沒有考慮到嬰幼兒身體的動作變異大小，所以擷取到的影像中，例如相當多是表情相似(例如同樣是笑臉)，或影片中的聲音相似者(例如同樣的笑聲)，但身體並沒有明顯的動作變化，故即使符合前述擷取影像的條件，但仍會擷取到相當多是身體動作單調且內容重覆的影像，仍須在這些影像中透過人工剔除不滿意者。

2.再者，習知監看系統即使能以人臉表情或聲音的變化作為擷取影像的條件，但並無法針對表情或聲音的高低程度進行排序及篩選，例如從笑臉的挑選以開口大笑者優先於笑容者(或反之)，又例如笑聲的挑選以高分貝優先於低分貝者(或反之)，同樣需要在這些影像中透過人工剔除不滿意者。

3.此外，習知監看系統通常只針對嬰幼兒為影像擷取對象，若是在影像中有包含兩個人以上時，例如有一個人是嬰幼兒而有另一個人是成人時，習知監看系統通常也只針對該嬰幼兒的人臉表情或聲音的變化為擷取條件，此時若符合該擷取條件但鏡頭內只有該成人的身體而沒有人臉，此影像仍會被選中，但顯然會是屬於不滿意者。

因此，如何解決習知監看系統之上述問題，即為本發明之主要重點所在。

發明人遂竭其心智悉心研究，進而研發出一種動態影像之處理方法、電子裝置及其連接之終端裝置，能夠將動作變異量作為篩選條件，以期達到篩選出的影像內容能夠有較為動感的動作表現。

為達上述目的，本發明係提供一種動態影像之處理方法，其由一電子裝置通訊連結一攝影裝置且讀取一可執行碼所執行，以人工智能辨識一預設對象，並對該預設對象進行動態影像之處理，包括以下步驟：預設對象辨識：自該攝影裝置所拍攝之一初始影像中，以人工智能辨識有該預設對象；影像篩選：設定一篩選條件，該篩選條件包括偵測該預設對象在該初始影像中之一動作變異量(Movement Variable)，且該篩選條件符合一閾值(Threshold)時，選定為該初始影像中的一截取時點；以及影片串接：在該初始影像中依該截取時點選取一候選影片(Video lip)，並集合一個以上的該候選影片而產生一串接影片。

於一實施例中，該動作變異量包括一動作面積變異量(Movement Level Index,MLI)和一動作比例變異量(Movement Proportion Index,MPI)，該閾值包括一第一閾值和一第二閾值，其中該動作面積變異量係自該初始影像在一預設時段內所含有該預設對象之一第一筆數的多個圖幀中，計算該預設對象在一第N幀影像所佔的第一面積和在一第N-1幀影像中所佔的第二面積的差值，並以該差值相比於該第一面積所獲得；該動作比例變異量係對該多個圖幀中所述面積的差值大於該第一閾值者加總獲得一第二筆數，並以該第二筆數相比於該第一筆數所獲得，在該動作比例變異量大於該第二閾值時為符合該篩選條件。

於一實施例中，該第一面積和該第二面積分別為四個邊界點所圍成之矩形範圍，所述矩形範圍以能涵蓋該預設對象之範圍者所定義。

於一實施例中，該預設對象特定一嬰幼兒，該篩選條件更包括該初始影像中至少包含該嬰幼兒之人臉。

於一實施例中，該篩選條件更包括一由該嬰幼兒測得之環境音量，該篩選條件進一步包括該環境音量在一音量範圍內。

於一實施例中，該候選影片之選取，係依每個截取時點之該嬰幼兒的人臉表情進行分數高低排序，並挑選最高者；或者，依每個截取時點之該動作面積變異量進行數值高低排序，並挑選最高者；或者，依每個截取時點之該預設對象進行人臉面積高低排序，並挑選最高者。

於一實施例中，該預設對象的數量為兩個以上，而其中的至少一個為嬰幼兒，且至少一個為成人時，該篩選條件更包括計算所述初始影像中嬰幼兒之人臉及身體的數量，以及所述初始影像中成人之人臉及身體的數量，該篩選條件進一步包括該嬰幼兒和該成人兩者之人臉數量不小於兩者之身體數量，比較該些預設對象於所在之圖幀中所佔矩形範圍，以較大者之面積計算該動作面積變異量。

於一實施例中，該影像篩選之步驟中，以選取該候選影片所對應之該截取時點為基準，而在其往前及/或往後之一預定時間內其他近似影像內容的截取時點被設定為排除。

於一實施例中，該影片串接之步驟中，以在該截取時點往前推算一片段時間以設定該候選影片之起始點，及/或在該截取時點往後推算該片段時間以設定該候選影片之結束點。

於一實施例中，該截取時點有多個，對應各該截取時間所選取之多個該候選影片儲存於該電子裝置及/或一雲端資料庫，且由該多個候選影片串接成該串接影片。

本發明另提供一種處理動態影像之電子裝置，其通訊連接一攝影裝置與一資料庫而設，該資料庫接收自該攝影裝置所拍攝之一初始影像以人工智能辨識一預設對象，以所述電子裝置對該預設對象進行動態影像之處理，所述電子裝置包括：一智能處理單元，該智能處理單元電連接該攝影裝置或該資料庫以讀取該初始影像，且讀取一可執行碼並執行，以設定符合一閾值時選定該初始影像中的一截取時點的一篩選條件，該篩選條件包括一動作變異量，該智能處理單元依該截取時點選取一候選影片，並集合一個以上的該候選影片而產生一串接影片。

本發明另提供一種可與所述之電子裝置通訊連接之終端裝置，該終端裝置搭載一應用程式，該終端裝置執行該應用程式以自該電子裝置接收該串接影片之推播。

藉此，藉由篩選條件包括動作變異量，而能夠產生預設對象較具動感的串接影片，以符合使用者的期望。

再者，使用者可依個人需求，而從篩選條件中選取動作變化、人臉表情及/或聲音的程度為高或低者，以使產生之串接影片能更符合使用者的期望。

此外，當預設對象為兩個以上時可設定人臉的數量不小於身體的數量時，才符合篩選條件，使產生之串接影片有多個預設對象時，能確保截取時點的候選影片中可見每個預設對象的人臉，而能夠符合使用者的期望。

100:處理方法

101:預設對象辨識

102:影像篩選

103:影片串接

200:電子裝置

201:顯示畫面

300:終端裝置

400:攝影裝置

500:資料庫

501:身體智能辨識子資料庫

502:人臉智能辨識子資料庫

503:哭泣聲智能辨識子資料庫

504:笑容智能辨識子資料庫

10:智能處理單元

20:無線通訊單元

A、B:身體

P:預設對象

X、Y:人臉

V1:初始影像

V2:候選影片

V3:串接影片

A1:第一面積

A2:第二面積

圖1係本發明具體實施例之處理方法的主要步驟流程圖。

圖2係本發明具體實施例之處理方法的步驟說明方塊圖。

圖3係本發明具體實施例之電子裝置的方塊圖。

圖4係本發明另一具體實施例之電子裝置的方塊圖。

圖5係本發明具體實施例之矩形範圍之面積計算的方塊圖。

圖6(a)係本發明具體實施例之嬰幼兒動作變化前的矩形範圍示意圖。

圖6(b)係本發明具體實施例之嬰幼兒動作變化後的矩形範圍示意圖。

圖7係本發明具體實施例之篩選條件判斷方塊圖。

圖8係本發明具體實施例之動作面積變異量的是否符合第一閾值的方塊圖。

圖9係本發明具體實施例之動作比例變異量的是否符合第二閾值的方塊圖。

圖10係本發明具體實施例之電子裝置於後台顯示相關數據之畫面示意圖。

圖11(a)係本發明具體實施例之截取時點符合篩選條件之示意圖。

圖11(b)係本發明具體實施例之截取時點不符合篩選條件之示意圖。

圖11(c)係本發明具體實施例之截取時點不符合篩選條件之另一示意圖。

圖12係本發明具體實施例之截取時點選定之方塊圖。

圖13係本發明具體實施例之電子裝置於後台顯示一嬰幼兒時選定截取時點之畫面示意圖。

圖14係本發明具體實施例之電子裝置於後台顯示一嬰幼兒和一成人時選定截取時點之畫面示意圖。

圖15係本發明具體實施例之串接影片以候選影片產生之方塊圖。

圖16係本發明具體實施例之串接影片推播至終端裝置之示意圖。

為充分瞭解本發明之目的、特徵及功效，茲藉由下述具體之實施例，並配合所附之圖式，對本發明做一詳細說明，說明如後：請參考圖1至圖16，本發明提供一種動態影像之處理方法100、電子裝置200及其連接之終端裝置300。所述處理方法100，包括預設對象辨識101、影像篩選102以及影片串接103之步驟；所述電子裝置200，包括一智能處理單元10以及一無線通訊單元20，其中：所述處理方法100，其由電子裝置200讀取一可執行碼所執行，以人工智能辨識預設對象P，並對預設對象P進行動態影像之處理，以執行如圖1所示預設對象辨識101、影像篩選102以及影片串接103之步驟。併參圖2，預設對象辨識101的步驟主要執行預設時間內辨識是否有預設對象在初始影像中；影像篩選102的步驟主要執行篩選條件是否符合閾值，以及選定截取時點；而影片串接103的步驟主要執行以該截取時點擷取候選影片，並產生一串接影片，串接影片可供推播至終端裝置300。

所述電子裝置200，如圖3、4所示，其通訊連接一攝影裝置400與一資料庫500而設，資料庫500接收自攝影裝置400所拍攝之一初始影像V1以人工智能辨識一預設對象P，以電子裝置200對預設對象P進行動態影像之處理。智能處理單元10電連接攝影裝置400或資料庫500以讀取初始影像V1。於上述實施例中，攝影裝置400與資料庫500屬於外部裝置而獨立於電子裝置200，而在不同實施態樣時，攝影裝置400與資料庫500也可以是合併在電子裝置200中而系統化。

於一實施例中，攝影裝置400為網路攝影機，資料庫500為雲端資料庫(如圖3所示)，攝影裝置400經初始化後，可與資料庫500經由網際網路進行遠端通訊連接，並在完成身分驗證程序(例如登入帳號及密碼)後登入，進行影像擷取和儲存。資料庫500除了可以是雲端資料庫外，也可以是電子裝置200所屬之本機資料庫(如圖4所示)，又或者是電子裝置200之本機資料庫和雲端資料庫並存(圖中未示)。

處理方法100執行時，在預設對象辨識101的步驟，為自攝影裝置400所拍攝之初始影像V1中，以人工智能辨識有預設對象P，以開始執行影像篩選102步驟。於一實施例中，預設對象P特定一嬰幼兒，但不以此為限，預設對象P的數量也可以是兩個以上，而其中的至少一個為嬰幼兒，且至少一個為成人。在攝影裝置400啟動後，預設對象辨識101的步驟會以一預設時間(例如30秒)作為循環，若攝影裝置400在預設時間內辨識有預設對象P在初始影像V1中，則開始執行影像篩選102步驟；若在預設時間內未辨識有預設對象P在初始影像V1中，則在下一預設時間重覆執行預設對象辨識101步驟。當在預設時間內未辨識有預設對象P在初始影像V1中時，將比照上一預設時間最後辨識的預設對象P，惟若上一預設時間同樣未辨識有預設對象P則定義為無資料。所述人工智能辨識，例如透過類神經網路(Artificial Neural Network,ANN)執行。

在影像篩選102的步驟，設定一篩選條件，此篩選條件包括偵測預設對象P在該初始影像V1中之一動作變異量(Movement Variable)，且該篩選條件符合一閾值(Threshold)時，選定為初始影像V1中的一截取時點(Catch Moment)。所述動作變異量，於一實施例中包括一動作面積變異量(Movement Level Index,MLI)和一動作比例變異量(Movement Proportion Index,MPI)；所述閾值於一實施例中包括一第一閾值和一第二閾值。

所述動作面積變異量，係自初始影像V1在一預設時段內所含有預設對象P之一第一筆數的多個圖幀(Frames)中，計算預設對象P在一第N幀影像所佔的第一面積A1和在一第N-1幀影像中所佔的第二面積A2的差值，並以該差值相比於第一面積A1所獲得(併參圖7)。

於一實施例中，第一面積A1和第二面積A2分別為四個邊界點所圍成之矩形範圍，所述矩形範圍以能涵蓋預設對象P之範圍者所定義。如圖6(a)、6(b)所示(併參圖5)，當攝影裝置400在預設時間內辨識有一個預設對象P在初始影像V1中，是由初始影像V1獲取預設對象P所佔矩形範圍的二個對角之邊界點(x1,y1)與(x2,y2)，接著計算矩形範圍的面積(公式：面積=|(x2-x1)|*|(y2-y1)|)。當攝影裝置400在預設時間內辨識有兩個以上預設對象P在初始影像V1中(圖中未示)，則由初始影像V1獲取各預設對象P所佔矩形範圍的二個對角之邊界點(x1,y1)與(x2,y2)，並計算各矩形範圍的面積，接著比較畫面中所佔矩形範圍，以面積為較大值者為偵測目標，獲取該偵測目標(Target)所佔矩形範圍的二個對角之邊界點(Tx1,Ty1)與(Tx2,Ty2)，計算偵測目標的矩形範圍的面積(公式：面積=(Tx2-Tx1)*(Ty2-Ty1))。

所述動作比例變異量，係對多個圖幀中所述面積的差值大於該第一閾值者加總獲得一第二筆數，係以該第二筆數相比於該第一筆數所獲得，在該動作比例變異量大於該第二閾值時為符合該篩選條件(併參圖7)。舉例來說，所述第一筆數例如是在預設時間30秒內所擷取的90筆圖幀，所述第一閾值設定為30%(如圖8所示)，且假設這90筆圖幀中有40筆圖幀的面積的差值(MLI)大於該第一閾值30%，此時動作比例變異量(MPI)為44%，若第二閾值設定為30%(如圖9所示)，則動作比例變異量44%大於該第二閾值30%時，篩選條件是否符合閾值的判斷結果為「是」；假設這90筆圖幀中僅有20筆圖幀的面積的差值大於該第一閾值10%，此時動作比例變異量為22%，則動作比例變異量22%小於該第二閾值30%時，篩選條件是否符合閾值的判斷結果為「否」。換言之，每個預設時間30秒內的影片中，預設對象P的動作變化必須符合動作比例變異量30%以上才會被選定為截取時點，以確保影片中的預設對象P能具有較高的動作變化程度。

於一實施例中，該篩選條件更包括該初始影像V1中至少包含該嬰幼兒之人臉，以及一由該嬰幼兒測得之環境音量在一音量範圍內，也包括是否偵測到該嬰幼兒的臉部表情有笑容，以及是否偵測到該嬰幼兒的哭泣聲。當動作比例變異量大於該第二閾值時，若進一步對嬰幼兒偵測到臉部表情有笑容(判斷結果為「是」)，且沒有偵測到哭泣聲(判斷結果為「否」)時，篩選條件是否符合閾值的判斷結果為「是」；反之，即使動作比例變異量大於該第二閾值，但對嬰幼兒偵測到臉部表情沒有笑容(判斷結果為「否」)，或有偵測到哭泣聲 (判斷結果為「是」)時，篩選條件是否符合閾值的判斷結果為「否」。如圖10所示，為電子裝置200之後台的一顯示畫面201，其中標示出視角、環境音量、嬰幼兒是否在場景中、動作變異量(動作面積變異量MLI與動作比例變異量MPI)、預設對象類型(成人/嬰幼兒)、臉部表情(例如笑容)及事件(是否有哭泣聲)。如圖11(a)所示，為嬰幼兒在符合篩選條件之截取時點時之影像示意；如圖11(b)所示，為嬰幼兒不在場景中而不符合篩選條件之截取時點時之影像示意；如圖11(c)所示，為嬰幼兒因哭泣而有哭泣聲，而不符合篩選條件之截取時點時之影像示意。

再者，該影像篩選102之步驟中，以選取該候選影片所對應之該截取時點為基準，而在其往前及/或往後之一預定時間內其他近似影像內容的截取時點被設定為排除(併參圖12)。例如，以30秒至2分鐘的範圍內設定該預定時間，以1分鐘為例，以該截取時點為基準而往前及往後各1分鐘內，即使有符合該篩選條件者，設定為排除而不選取。

前述初始影像V1中包含該嬰幼兒之人臉的偵測，根據圖13所示之顯示畫面201中(併參表1A、表1B如下)，參照時間為03：52：19所列數據可見，包括座標點x1,y1,x2,y2為{1446,29,1494,85}，以及信心值分數為0.69(總分為1，下同)等數據，判斷偵測到嬰幼兒的人臉X。於一實施例中，進一步以包括座標點x1,y1,x2,y2為{1389,6,1869,447}，以及信心值分數為0.96等數據，判斷偵測到嬰幼兒的身體A。在相同時間之中，身體B、身體C、人臉Y及人臉Z的座標點x1,y1,x2,y2皆為{0,0,0,0}，且信心值分數亦皆為0，此時偵測到的人臉數量為1，且身體的數量也為1。

於一實施例中，假設預設對象P的數量如前述為兩個以上，即其中的至少一個為嬰幼兒，且至少一個為成人時，該篩選條件更包括計算初始影像V1中嬰幼兒之人臉及身體的數量，以及初始影像V1中成人之人臉及身體的數量，進一步偵測所述嬰幼兒和成人兩者之人臉數量不小於兩者之身體數量(併參圖12)。

前述嬰幼兒及成人之人臉及身體的偵測，根據圖14所示之顯示畫面201中(併參表1A與表1B如上)，參照時間為03：52：03所列數據，包括座標點x1,y1,x2,y2為{1461,4,1896,450}，以及信心值分數為0.98等數據，判斷為偵測到嬰幼兒的身體A，並以包括座標點x1,y1,x2,y2為{1416,29,1455,96}，以及信心值分數為0.65等數據，判斷偵測到嬰幼兒的人臉X；再者，以包括座標點x1,y1,x2,y2為{1203,695,1497,825}，以及信心值分數為0.52等數據，判斷偵測到成人的身體B，且以包括座標點x1,y1,x2,y2為{1674,9,1758,78}，以及信心值分數為0.58等數據，判斷偵測到成人的人臉Y。在相同時間之中，身體C及人臉Z的座標點x1,y1,x2,y2皆為{0,0,0,0}，且信心值分數亦皆為0。

承上，根據時間為03：52：03所列數據，表示偵測到嬰幼兒之人臉數量及成人之人臉數量各為1，且嬰幼兒之身體及成人之身體的數量也各為1，此時嬰幼兒和成人兩者之人臉數量2等於兩者之身體數量2，符合該篩選條件，圖12中判斷人臉數量不小於身體的數量的結果為「是」。

再者，假設在一不同的初始影像V1中(圖中未示)，若偵測到有嬰幼兒之身體及人臉數量各為1，但只偵測到成人之人臉數量為1，而成人之身體的數量為0，此時嬰幼兒和成人兩者之人臉數量2大於兩者之身體數量1，仍符合該篩選條件，圖12中判斷人臉數量不小於身體的數量的結果仍為「是」。

反之，假設在另一不同的初始影像V1中(圖中未示)，若偵測到嬰幼兒之人臉數量為1，但成人之人臉數量為0，即使嬰幼兒及成人之身體的數量各為1，此時嬰幼兒和成人兩者之人臉數量1小於兩者之身體數量2，不符合該篩選條件，圖12中判斷人臉數量不小於身體的數量的結果仍為「否」。藉此，當預設對象P的數量為兩個以上時，將以每個人的人臉都有出現才會被選取，而不會有某人只有身體而沒有出現人臉的影像。

在影片串接103的步驟，為在初始影像V1中依該截取時點選取一候選影片V2(Video Clip)，並集合一個以上的候選影片V2而產生一串接影片V3(併參圖15)。

於一實施例中，該影片串接103之步驟中，以在該截取時點往前推算一片段時間以設定該候選影片之起始點，及/或在該截取時點往後推算該片段時間以設定該候選影片V2之結束點。於一實施例中，假設該片段時間設定為5秒，可以從該截取時點往前及往後推算各5秒，以擷取出每個從起始點到結束點的播放時間為10秒的候選影片。

再者，該候選影片之選取，係依每個截取時點之該嬰幼兒的人臉表情進行分數高低排序，並挑選最高者；或者，依每個截取時點之該動作面積變異量進行數值高低排序，並挑選最高者；或者，依每個截取時點之預設對象P進行人臉面積高低排序，並挑選最高者。所述依每個截取時點之該嬰幼兒的人臉表情進行分數高低排序，例如以笑容為例，當嬰幼兒的笑容是微笑時的分數假設為0.3，但當嬰幼兒的笑容是開口大笑時的分數假設為1，此時會以開口大笑而分數為1者排序在最高而為被挑選者。另所述依每個截取時點之該動作面積變異量進行數值高低排序，以及依每個截取時點之預設對象P進行人臉面積高低排序，則是依所偵測到的動作面積變異量和人臉面積的大小進行排序，且排序在最高為被挑選者。因此，所挑選的截取時點，可以不僅是有笑容，而且還是開口大笑而笑容燦爛者；也可以是有動作，而且是動作面積變異量大者；也可以是人臉面積最大者，故不僅僅是人臉上有表情即為被挑選者。

於一實施例中，該截取時點有多個，對應各該截取時間所選取之多個該候選影片V2，是儲存於電子裝置200所屬之本機資料庫及/或一雲端資料庫，而由多個候選影片V2串接成該串接影片V3。

於一實施例中，該資料庫500進一步包括一身體智能辨識子資料庫501，用以辨識該嬰幼兒之身體；一人臉智能辨識子資料庫502，用以辨識該嬰幼兒之人臉；一哭泣聲智能辨識子資料庫503，用以辨識該嬰幼兒之哭泣聲；及/或一笑容智能辨識子資料庫504，用以辨識該嬰幼兒之笑容。

所述終端裝置300，可以是可攜式的行動通訊裝置，例如智慧型手機、平板電腦、筆記型電腦，能夠經由網際網路與電子裝置200之無線通訊單元20通訊連接。終端裝置300搭載一應用程式301，透過終端裝置300執行該應用程式301，並且進行身分驗證程序(例如登入帳號及密碼)後登入，以自電子裝置200接收串接影片V3之推播(如圖16所示)，使用者即可透過終端裝置300來觀賞串接影片V3。

由上述之說明不難發現本發明之特點，在於：

1.本發明之處理動態影像之處理方法及電子裝置，其篩選條件包括動作變異量，在初始影像中的預設對象P必須有預設的動作變化，才會符合閾值而被選定為截取時點，而依該截取時點選取的候選影片中，預設對象P能夠具有較為動感的動作表現，藉此產生預設對象P動作變化豐富的串接影片V3，以符合使用者的期望。進而，所述串接影片V3能夠被推播至與所述電子裝置通訊連接之終端裝置，可由所述終端裝置播放。

再者，本發明之處理動態影像之處理方法及電子裝置，可以針對篩選條件的高低程度進行排序及篩選，以從所述篩選條件中選取程度為高或低者，以使產生之串接影片V3能更符合使用者的期望。

此外，若是在影像中的預設對象P為兩個以上而包含至少一個嬰幼兒且至少一個成人時，可以是人臉的數量不小於身體的數量時符合篩選條件，以確保截取時點的候選影片中至少可見每個預設對象P的人臉，以使產生之串接影片V3有多個預設對象P時，也能符合使用者的期望。

本發明在上文中已以較佳實施例揭露，然熟習本項技術者應理解的是，該實施例僅用於描繪本發明，而不應解讀為限制本發明之範圍。應注意的是，舉凡與該實施例等效之變化與置換，均應設為涵蓋於本發明之範疇內。因此，本發明之保護範圍當以申請專利範圍所界定者為準。

100:處理方法

101:預設對象辨識

102:影像篩選

103:影片串接

Claims

一種動態影像之處理方法，其由一電子裝置通訊連結一攝影裝置且讀取一可執行碼所執行，以人工智能辨識一預設對象，並對該預設對象進行動態影像之處理，包括以下步驟：預設對象辨識：自該攝影裝置所拍攝之一初始影像中，以人工智能辨識有該預設對象，該預設對象的數量為兩個以上，而其中的至少一個為嬰幼兒，且至少一個為成人；影像篩選：設定一篩選條件，該篩選條件包括偵測該預設對象在該初始影像中之一動作變異量(Movement Variable)，且該篩選條件符合一閾值(Threshold)時，選定為該初始影像中的一截取時點；以及影片串接：在該初始影像中依該截取時點選取一候選影片(video clip)，並集合一個以上的該候選影片而產生一串接影片；其中，該動作變異量包括一動作面積變異量和一動作比例變異量，該動作比例變異量是對應該動作面積變異量所計算獲得，該動作比例變異量大於該閾值時為符合該篩選條件。
如請求項1所述之動態影像之處理方法，其中，該閾值包括一第一閾值和一第二閾值，其中該動作面積變異量係自該初始影像在一預設時段內所含有該預設對象之一第一筆數的多個圖幀中，計算該預設對象在一第N幀影像所佔的第一面積和在一第N-1幀影像中所佔的第二面積的差值，並以該差值相比於該第一面積所獲得；該動作比例變異量係對該多個圖幀中所述面積的差值大於該第一閾值者加總獲得一第二筆數，並以該第二筆數相比於該第一筆數所獲得，在該動作比例變異量大於該第二閾值時為符合該篩選條件。
如請求項2所述之動態影像之處理方法，其中，該第一面積和該第二面積分別為四個邊界點所圍成之矩形範圍，所述矩形範圍以能涵蓋該預設對象之範圍者所定義。
如請求項3所述之動態影像之處理方法，其中，該篩選條件更包括該初始影像中至少包含該嬰幼兒之人臉。
如請求項4所述之動態影像之處理方法，其中，該篩選條件更包括一由該嬰幼兒測得之環境音量，該篩選條件進一步包括該環境音量在一音量範圍內。
如請求項4所述之動態影像之處理方法，其中，該候選影片之選取，係依每個截取時點之該嬰幼兒的人臉表情進行分數高低排序，並挑選最高者；或者，依每個截取時點之該動作面積變異量進行數值高低排序，並挑選最高者；或者，依每個截取時點之該預設對象進行人臉面積高低排序，並挑選最高者。
如請求項3所述之動態影像之處理方法，其中，該篩選條件更包括計算所述初始影像中嬰幼兒之人臉及身體的數量，以及所述初始影像中成人之人臉及身體的數量，該篩選條件進一步包括該嬰幼兒和該成人兩者之人臉數量不小於兩者之身體數量，比較該些預設對象於所在之圖幀中所佔矩形範圍，以較大者之面積計算該動作面積變異量。
如請求項1所述之動態影像之處理方法，其中，該影像篩選之步驟中，以選取該候選影片所對應之該截取時點為基準，而在其往前及/或往後之一預定時間內其他近似影像內容的截取時點被設定為排除。
如請求項1所述之動態影像之處理方法，其中，該影片串接之步驟中，以在該截取時點往前推算一片段時間以設定該候選影片之起始點，及/或在該截取時點往後推算該片段時間以設定該候選影片之結束點。
如請求項9所述之動態影像之處理方法，其中，該截取時點有多個，對應各該截取時間所選取之多個該候選影片儲存於該電子裝置及/或一雲端資料庫，且由該多個候選影片串接成該串接影片。
一種可與執行請求項1所述方法之所述電子裝置通訊連接之終端裝置，該終端裝置搭載一應用程式，該終端裝置執行該應用程式以自該電子裝置接收該串接影片之推播。
一種處理動態影像之電子裝置，其通訊連接一攝影裝置與一資料庫而設，該資料庫接收自該攝影裝置所拍攝之一初始影像以人工智能辨識一預設對象，以所述電子裝置對該預設對象進行動態影像之處理，所述電子裝置包括：一智能處理單元，該智能處理單元電連接該攝影裝置或該資料庫以讀取該初始影像，且讀取一可執行碼並執行，以設定符合一閾值時選定該初始影像中的一截取時點的一篩選條件，該篩選條件包括一動作變異量，該智能處理單元依該截取時點選取一候選影片，並集合一個以上的該候選影片而產生一串接影片；其中，該預設對象的數量為兩個以上，而其中的至少一個為嬰幼兒，且至少一個為成人；所述動作變異量包括一動作面積變異量和一動作比例變異量，該動作比例變異量是對應該動作面積變異量所計算獲得，該動作比例變異量大於該閾值時為符合該篩選條件。
如請求項12所述之處理動態影像之電子裝置，其中，該閾值包括一第一閾值和一第二閾值，其中該動作面積變異量係自該初始影像在一預設時段內所含有該預設對象之一第一筆數的多個圖幀中，計算該預設對象在一第N幀影像所佔的第一面積和在一第N-1幀影像中所佔的第二面積的差值，並以該差值相比於該第一面積所獲得；該動作比例變異量係對該多個圖幀中所述面積的差值大於該第一閾值者加總獲得一第二筆數，並以該第二筆數相比於該第一筆數所獲得，在該動作比例變異量大於該第二閾值時為符合該篩選條件。
如請求項12所述之處理動態影像之電子裝置，其中，該資料庫為該電子裝置所屬之本機資料庫，及/或雲端資料庫。
如請求項14所述之處理動態影像之電子裝置，其中，該資料庫進一步包括一身體智能辨識子資料庫，用以辨識該嬰幼兒之身體；一人臉智能辨識子資料庫，用以辨識該嬰幼兒之人臉；一哭泣聲智能辨識子資料庫，用以辨識該嬰幼兒之哭泣聲；及/或一笑容智能辨識子資料庫，用以辨識該嬰幼兒之笑容。
一種可與請求項12所述之電子裝置通訊連接之終端裝置，該終端裝置搭載一應用程式，該終端裝置執行該應用程式以自該電子裝置接收該串接影片之推播。