[go: up one dir, main page]

TWI768364B - 處理可播放於一虛擬裝置的圖片的方法及電子裝置 - Google Patents

處理可播放於一虛擬裝置的圖片的方法及電子裝置 Download PDF

Info

Publication number
TWI768364B
TWI768364B TW109118257A TW109118257A TWI768364B TW I768364 B TWI768364 B TW I768364B TW 109118257 A TW109118257 A TW 109118257A TW 109118257 A TW109118257 A TW 109118257A TW I768364 B TWI768364 B TW I768364B
Authority
TW
Taiwan
Prior art keywords
resolution
image
super
deep learning
network model
Prior art date
Application number
TW109118257A
Other languages
English (en)
Other versions
TW202147192A (zh
Inventor
林士豪
楊朝光
徐文正
陳良其
Original Assignee
宏碁股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 宏碁股份有限公司 filed Critical 宏碁股份有限公司
Priority to TW109118257A priority Critical patent/TWI768364B/zh
Priority to US17/249,671 priority patent/US11481875B2/en
Publication of TW202147192A publication Critical patent/TW202147192A/zh
Application granted granted Critical
Publication of TWI768364B publication Critical patent/TWI768364B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/39Control of the bit-mapped memory
    • G09G5/391Resolution modifying circuits, e.g. variable screen formats
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/04Changes in size, position or resolution of an image
    • G09G2340/0407Resolution change, inclusive of the use of different resolutions for different screen areas

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一種可播放於一虛擬實境裝置(VR)的圖像的處理方法,包括:取得一超解析度深度學習網路模型,經訓練用以學習將圖像從低解析度重建為高解析度的能力,其中,該超解析度深度學習網路模型包括複數特徵過濾器,用以擷取圖像的特徵;將該等複數特徵過濾器的解析度係由一預設值修改為一既定值,並且該既定值大於該預設值;將一低解析度圖像輸入於該超解析度深度學習網路模型;透過該超解析度深度學習網路模型,將該低解析度圖像的解析度提升,而成為一高解析度圖像。

Description

處理可播放於一虛擬裝置的圖片的方法及電子裝置
本發明係有關於一種圖片的處理方法,特別是有關於一種處理可播放於一虛擬裝置的圖片的方法及電子裝置。
在現有的技術中,將全景攝影裝置所拍攝的影片或圖像輸出到電腦後,雖然其解析度都很高(例如解析度4K或6K),但由於該影片或圖像皆為等距長方投影(equirectangular)的形式,係很難在平面的螢幕上瀏覽。當利用一虛擬實境裝置播放該些全景影像或全景圖像時,由於該些全景影像或全景圖像係以「球狀」畫面方式進行播放,因此其解析度會被除以4(即上下左右),而導致在該虛擬實境裝置中的播放畫面發生畫面模糊的情況。
目前公開資訊中的超解析度深度學習網路模型的應用,都是用以處理正常圖像或影片(視野90度),係無法處理全景圖像或全景影像(視野360度)。
依據本發明一實施例之可播放於一虛擬實境裝置(VR)的圖像的處理方法,包括:取得一超解析度深度學習網路模型,經訓練用以學習將圖像從低解析度重建為高解析度的能力,其中,該超解析度深度學習網路模型包括複數特徵過濾器,用以擷取圖像的特徵;將該等複數特徵過濾器的解析度由一預設值修改為一既定值,並且該既定值大於該預設值;將一低解析度圖像輸入於該超解析度深度學習網路模型;透過該超解析度深度學習網路模型,將該低解析度圖像的解析度提升,而成為一高解析度圖像。
如上述之處理方法,更包括:將該高解析度圖像的解析度降低,而產生一中解析度圖像;將該中解析度圖像輸入至該虛擬實境裝置以供顯示。
如上述之處理方法,其中,該超解析度深度學習網路模型之訓練,包括:從一圖像集中選擇一訓練圖像;在該訓練圖像中隨機裁切出解析度為384*384像素的一第一取樣圖像;將該第一取樣圖像的解析度降低至96*96像素,而得到一第二取樣圖像;利用該超解析度深度學習網路模型中的一解析度提升演算法將該第二取樣圖像的解析度提升回384*384像素,而得到一虛擬圖像;將該虛擬圖像與該第一取樣圖像做比較,用以計算該虛擬圖像相對於該第一取樣圖像的一失真程度;重複調整該解析度提升演算法的特徵權重,直到所得到的該虛擬圖像相對於該第一取樣圖像的該失真程度小於一閾值;從該圖像集中選擇另一訓練圖像,並重複執行該訓練。
如上述之處理方法,其中,該低解析度圖像及該訓練圖像為視野360度解析度4K的圖像,以及該高解析度圖像為視野360度解析度16K的圖像;該預設值為3*3像素,該既定值為5*5像素;該中解析度圖像的視野為360度,並且其解析度為該高解析度圖像的二分之一;以及該超解析度深度學習網路模型為一超解析度生成對抗網路(super resolution generative adversarial network:SRGAN)。
依據本發明一實施例之電子裝置,用以處理可播放於一虛擬實境裝置的圖像,包括:一處理器,用以執行一超解析度深度學習網路模型;其中,該超解析度深度學習網路模型經訓練用以學習將圖像從低解析度重建為高解析度;該超解析度深度學習網路模型包括複數特徵過濾器,用以擷取圖像的特徵;該等複數特徵過濾器的解析度係由一預設值修改為一既定值,並且該既定值大於該預設值;該處理器將一低解析度圖像輸入於該超解析度深度學習網路模型;並且該處理器透過該超解析度深度學習網路模型,將該低解析度圖像的解析度提升,而成為一高解析度圖像。
如上述之處理方法,更包括:該處理器將該高解析度圖像的解析度降低,而產生一中解析度圖像;該處理器透過有線或無線的通訊方式將該中解析度圖像傳輸至該虛擬實境裝置以供顯示。
如上述之處理方法,其中,該超解析度深度學習網路模型之訓練係透過該處理器以執行包括:從一圖像集中選擇一訓練圖像;在該訓練圖像中隨機裁切出解析度為384*384像素的一第一取樣圖像;將該第一取樣圖像的解析度降低至96*96像素,而得到一第二取樣圖像;利用該超解析度深度學習網路模型中的一解析度提升演算法將該第二取樣圖像的解析度提升回384*384像素,而得到一虛擬圖像;將該虛擬圖像與該第一取樣圖像做比較,用以計算該虛擬圖像相對於該第一取樣圖像的一失真程度;重複調整該解析度提升演算法的特徵權重,直到所得到的該虛擬圖像相對於該第一取樣圖像的該失真程度小於一閾值;從該圖像集中選擇另一訓練圖像,並重複執行該訓練。
如上述之處理方法,其中,該低解析度圖像及該訓練圖像為視野360度解析度4K的圖像,以及該高解析度圖像為視野360度解析度16K的圖像;該預設值為3*3像素,該既定值為5*5像素;該中解析度圖像的視野為360度,並且其解析度為該高解析度圖像的二分之一;以及該超解析度深度學習網路模型為一超解析度生成對抗網路。
本發明係參照所附圖式進行描述,其中遍及圖式上的相同參考數字標示了相似或相同的元件。上述圖式並沒有依照實際比例大小描繪,其僅僅提供對本發明的說明。一些發明的型態描述於下方作為圖解示範應用的參考。這意味著許多特殊的細節,關係及方法被闡述來對這個發明提供完整的了解。無論如何,擁有相關領域通常知識的人將認識到若沒有一個或更多的特殊細節或用其他方法,此發明仍然可以被實現。以其他例子來說,眾所皆知的結構或操作並沒有詳細列出以避免對這發明的混淆。本發明並沒有被闡述的行為或事件順序所侷限,如有些行為可能發生在不同的順序亦或同時發生在其他行為或事件之下。此外,並非所有闡述的行為或事件都需要被執行在與現有發明相同的方法之中。
第1圖為本發明實施例之可播放於一虛擬實境裝置的圖像的處理方法的流程圖。如第1圖所示,本發明的處理方法首先取得一超解析度深度學習網路模型(super resolution deep learning network model)(步驟S100)。在本實施例中,本發明自公開資料中取得由谷歌(Google)公司參考一學術論文(論文網址:https://arxiv.org/abs/1609.04802)所釋出的該超解析度深度學習網路模型的演算法,並且經修改使得該超解析度深度學習網路模型可將一低解析度圖像的解析度提升,而成為一高解析度圖像。在本實施例中,該低解析度圖像為視野360度解析度4K的圖像,該高解析度圖像為視野360度解析度16K的圖像。
該超解析度深度學習網路模型包括複數特徵過濾器(feature filter),用以擷取所輸入圖像的特徵。在本實施例中,自公開資料中所取得的該超解析度深度學習網路模型係以視野90度解析度2K的圖像作為其訓練圖像,並且其特徵過濾器大小為3*3像素,被訓練用以擷取視野90度解析度2K圖像的特徵。為了滿足本發明的應用,致力於將全景圖像或全景影像的解析度提升,本發明係以視野360度解析度4K圖像作為該超解析度深度學習網路模型的訓練圖像,並且將該超解析度深度學習網路模型的特徵過濾器大小調整為5*5像素(步驟S102),用以符合擷取全景圖像或全景影像的需求。舉例來說,假設以3*3像素的特徵過濾器來擷取一張視野90度解析度2K的一第一圖像時,可擷取到該第一圖像中完整的一臉部特徵。然而,當以3*3像素的特徵過濾器來擷取一張視野360度解析度4K的一第二圖像(該第二圖像的內容係與該第一圖像相同,僅視野解析度不同)時,僅能擷取到該臉部特徵的部分,例如僅能擷取到單獨眼睛、鼻子或耳朵的特徵。因此,為了符合本發明處理全景圖像或全景影像的應用,本發明的處理方法係將特徵過濾器的大小調整為5*5像素,使得特徵過濾器能例如擷取到完整的該臉部特徵。
在本實施例中,並非將特徵過濾器的像素大小無限制調大就能擷取更多的特徵。舉例來說,假設該特徵過濾器所需擷取的特徵僅為該臉部特徵,若將特徵過濾器的像素大小再加大,例如調整為10*10像素或15*15像素,特徵過濾器由於擷取到除了該臉部特徵以外的許多雜訊(例如背景或背景中的其他物件等),反而會使得該超解析度深度學習網路模型將圖像由低解析度重建至高解析度的能力打折。
該超解析度深度學習網路模型在完成以視野360度解析度4K圖像作為訓練圖像的訓練(學習)後,並且將特徵過濾器的像素大小調整為5*5像素後,本發明的處理方法接著將一低解析度圖像(例如視野360度解析度4K的圖像)輸入於該經訓練後的該超解析度深度學習網路模型(步驟S104)。之後,本發明的處理方法透過該超解析度深度學習網路模型將該低解析度圖像的解析度提升,而成為一高解析度圖像(例如視野360度解析度16K的圖像)(步驟S106)。在本實施例中,本發明是利用該超解析度深度學習網路模型而將一視野360度解析度4K圖像的解析度提升至一視野360度解析度16K的圖像(亦即,解析度放大為原來的4倍)。換句話說,若要使用該超解析度深度學習網路模型處理視野360度解析度4K的圖像,則該超解析度深度學習網路模型的訓練圖像也必須為視野360度解析度4K的訓練圖像,並且適當地調整特徵過濾器的像素大小,才能得到最好的解析度提升效果。
在一些實施例中,本發明的處理方法更包括將該高解析度圖像的解析度降低,而產生一中解析度圖像(例如視野360度解析度8K的圖像),並且將該中解析度圖像輸入至該虛擬實境裝置以供顯示。一般來說,現有的該虛擬實境裝置的顯示解析度為上下左右(球狀)各為1024*1024像素。本發明的處理方法將該高解析度圖像(例如視野360度解析度16K的圖像)降低為該中解析度圖像(例如視野360度解析度8K的圖像)的目的在於,一、將視野360度解析度8K的圖像塞入該虛擬實境裝置中,使得上下左右分別顯示視野90度解析度為2048*1024像素的一第三圖像,由於該第三圖像的解析度仍大於該虛擬裝置的顯示解析度,因此當在該虛擬裝置顯示該第三圖像時,使用者在視覺上仍會覺得清晰。二、可降低因解析度提升所產生的雜訊。該超解析度深度學習網路模型將該低解析度圖像提升至該高解析度圖像的過程中,透過特徵過濾器擷取該低解析度圖像的細部特徵,並且再依據所取得的該細部特徵,使用補點的方式,將該低解析度圖像重建為該高解析度。在此過程中,常會有雜訊存在於該高解析度圖像的非特徵的區域(例如背景)。因此,本發明的處理方法將該高解析度圖像(例如視野360度解析度16K的圖像)降低為該中解析度圖像(例如視野360度解析度8K的圖像),係可達成降低背景雜訊的特殊技術功效。
第2圖為本發明實施例之一超解析度深度學習網路模型的訓練方法的流程圖。如第2圖所示,本發明的該超解析度深度學習網路模型的訓練方法首先從一圖像集中選擇一訓練圖像(步驟S200)。在一些實施例中,若該超解析度深度學習網路模型是用於將一車輛圖像的解析度放大,則在該圖像集中必須盡可能包括各式車輛的圖像,供該超解析度深度學習網路模型學習車輛的細部特徵。在一些實施例中,若該超解析度深度學習網路模型是用於將一人臉圖像放大,則在該圖像集中必須盡可能包括各種人臉的圖像,供該超解析度深度學習網路模型學習人臉的細部特徵。在另一實施例中,當該圖像集中的圖像包括各式特徵(例如人、貓、狗、汽車等特徵),則該超解析度深度學習網路模型會在訓練(學習)的過程中,適度地調整對應於各式特徵的特徵權重。在本實施例中,該圖像集中的圖像為視野360度解析度4K的圖像。
本發明的該超解析度深度學習網路模型的訓練方法接著在該訓練圖像中隨機裁切出解析度為384*384像素的一第一取樣圖像(步驟S202)。再者,本發明的訓練方法將該第一取樣圖像的解析度降低至96*96像素,而得到一第二取樣圖像(步驟204)。步驟S202及步驟S204的目的是為了節省在該超解析度深度學習網路模型的訓練過程中所占用的記憶體空間,並且使得訓練的速度加快。由於該訓練圖像為視野360度解析度4K的圖像,其檔案大小很大,因此幾乎不可能使用該訓練圖像的原圖直接進行訓練。接著,本發明的訓練方法利用該超解析度深度學習網路模型中的一解析度提升演算法將該第二取樣圖像的解析度提升回384*384像素,而得到一虛擬圖像(步驟S206)。該解析度提升演算法紀錄了對應於該圖像集中的訓練圖像的各式特徵的特徵權重。舉例來說,假設該第一取樣圖像的內容為一汽車,則該解析度提升演算法則使用70%的汽車特徵權重、20%的小貨車特徵權重、以及10%的大卡車特徵權重去將該第二取樣圖像重建成為384*384像素的該虛擬圖像。在本實施例中,該圖像集中包括各式汽車、小貨車、或大卡車的圖像。
本發明的訓練方法接著將該虛擬圖像與該第一取樣圖像做比較,用以計算該虛擬圖像相對於該第一取樣圖像的一失真程度(步驟S208),並且繼續執行步驟S210。在步驟S210中,本發明的該超解析度深度學習網路模型的訓練方法判斷該虛擬圖像相對於該第一取樣圖像的該失真程度是否小於一閾值。當該失真程度並沒有小於該閾值,則表示該虛擬圖像與該第一取樣圖像之間的差異仍大,需執行步驟S212,用以調整該解析度提升演算法的特徵權重。延續上段的例子,當解析度提升演算法使用70%的汽車特徵權重、20%的小貨車特徵權重、以及10%的大卡車特徵權重所重建的該虛擬圖像與該第一取樣圖像的失真程度仍大於等於該閾值時,此時該解析度提升演算法會調整該特徵權重的分配,例如使用80%的汽車特徵權重、10%的小貨車特徵權重、以及10%的大卡車權重再去將該第二取樣圖像重建回該虛擬圖像(回到步驟S206),並且於步驟S208中繼續比較該再次重建的該虛擬圖像與該第一取樣圖像的失真程度。當該失真程度已經小於該閾值,亦即該超解析度深度學習網路模型判斷該虛擬圖像已與該第一取樣圖像非常相似,則本發明的訓練方法會執行步驟S214,從該圖像集中選擇另一訓練圖像,並且重複執行步驟S202。
在另一實施例中,舉例來說,假設該第一取樣圖像的內容為一棟摩天大樓,在步驟S206中,該超解析度深度學習網路模型的該解析度提升演算法使用60%的房屋特徵權重、20%的橋樑特徵權重、以及10%的背景特徵權重將96*96像素的該第二取樣圖像重建成為384*384像素的該虛擬圖像。在步驟S208中,該超解析度深度學習網路模型比較並計算該虛擬圖像與該第一取樣圖像的失真程度。在步驟S210中,當失真程度小於該閾值,則該超解析度深度學習網路模型學習到使用60%的房屋特徵權重、20%的橋樑特徵權重、以及10%的背景特徵權重的權重設定去將具有摩天大樓的輸入圖像的解析度提升。相反地,當失真程度仍大於等於該閾值,則該超解析度深度學習網路模型學習會繼續執行步驟S212,例如使用90%的房屋特徵權重、5%的橋樑特徵權重、以及5%的背景特徵權重的權重設定去將具有摩天大樓的輸入圖像的解析度提升,而產生另一虛擬圖像。當該另一虛擬圖像與該第一取樣圖像的失真程度小於該閾值時,該超解析度深度學習網路模型就會以最新調整過的該特徵權重的權重設定去將具有摩天大樓的輸入圖像的解析度提升。
換句話說,本發明的訓練方法會重複調整該解析度提升演算法的特徵權重(步驟S212),直到所得到的該虛擬圖像相對於該第一取樣圖像的該失真程度小於該閾值(步驟S210符合「是」的情況)。當完成該圖像集中所有訓練圖像的學習後,本發明的該超解析度深度學習網路模型的訓練方法已完成,並且結束訓練程序(步驟S216)。在一些實施例中,公開資料所揭露該超解析度深度學習網路模型是以視野90度解析度2K的圖像作為圖像集中的一訓練圖像,此時該超解析度深度學習網路模型的該訓練圖像的每度像素(pixel per degree:PPD)為「5.7」[(96*2048)/(90*384)=5.7]。本發明的應用是以視野360度解析度4K的圖像作為圖像集中的該訓練圖像,此時該超解析度深度學習網路模型的該訓練圖像的每度像素(PPD)為「2.8」[(96*4096)/(360*384)=2.8]。換句話說,本發明的該超解析度深度學習網路模型的該訓練圖像的每度像素值(2.8)已經很接近於公開資料中的該超解析度深度學習網路模型的該訓練圖像的每度像素值(5.7)。因此,經過本發明的處理方法所修改及訓練的該超解析度深度學習網路模型係可將視野360度的全景圖像或全景影像的解析度提升至原有的4倍,並且能維持該全景圖像或全景影像的圖像銳利度。
在一些實施例中,該超解析度深度學習網路模型為一超解析度生成對抗網路(super resolution generative adversarial network:SRGAN)。該解析度生成對抗網路包括一生成器網路(generator network),以及一鑑別器網路(discriminator network)。該生成器網路係可執行本發明的該超解析度深度學習網路模型的訓練方法中的步驟S206、步驟S212。換句話說,該生成器網路包括該解析度提升演算法,用以將該第二取樣圖像的解析度提升回384*384,而得到該虛擬圖像。並且,當該虛擬圖像相對於該第一取樣圖像的失真程度大於等於該閾值時,該生成器網路會調整該解析度提升演算法的特徵權重的配置,並以新的特徵權重的配置重新產生該虛擬圖像。該鑑別器網路係可執行本發明的該超解析度深度學習網路模型的訓練方法中的步驟S210,用以比較由該生成器網路所產生的該虛擬圖像與該第一取樣圖像之間的差異,並且計算該虛擬圖像相對於該第一取樣圖像的失真程度。
在一些實施例中,該超解析度生成對抗網路總共具有19層的資料結構。第1層為一輸入層,用以接收一輸入圖像。第2層至第17層為卷積運算層,可擷取該輸入圖像的特徵,並且將所擷取的該輸入圖像的特徵標準化(normalize)。第18、19層為解析度提升層,依據標準化後的該輸入圖像的特徵、以及經學習後的特徵權重,以補點的方式,將該輸入圖像的解析度提升。第2層至第17層的每一層中皆包括一卷積層和一標準化層。該卷積層係透過該超解析度生成對抗網路的特徵過濾器與該輸入圖像做卷積運算,用以擷取該輸入圖像的特徵。該標準化層係將所擷取的該輸入圖像的特徵標準化。例如,該標準化層可包括一S(Sigmoid)函數,用以將該輸入圖像的特徵標準化,方便後續第18、19層的解析度提升層的運算。換句話說,第18、19層的解析度提升層係執行第1圖的步驟S106、以及第2圖的步驟S206。
本發明亦揭露一種電子裝置,用以處理可播放於一虛擬實境裝置的圖像。該電子裝置(例如筆記型電腦、桌上型電腦、伺服器、或行動裝置…等),包括一處理器用以執行一超解析度深度學習網路模型。在一些實施例中,該超解析度深度學習網路模型為一超解析度生成對抗網路。當該處理器執行該超解析度深度學習網路模型時,該處理器係執行第1圖的步驟S100、步驟S102、步驟S104、及步驟S106,用以將一低解析度圖像的解析度提升,而成為一高解析度圖像。此外,該電子裝置的該處理器更將該高解析度圖像的解析度降低,而產生一中解析度圖像,用以減少在解析度提升過程中所產生的背景雜訊。該電子裝置的該處理器更透過有線或無線的通訊方式將該中解析度圖像傳輸至該虛擬實境裝置以供顯示。
本發明的該電子裝置中所儲存的該超解析度深度學習網路模型之訓練係透過該處理器以執行包括第2圖中的步驟S200、步驟S202、步驟S204、步驟S206、步驟S208,以及步驟S210。並且,在步驟S210中,當該超解析度深度學習網路模型的該解析度提升演算法所產生的該虛擬圖像相對於由一訓練圖像隨機裁切而成的該第一取樣圖像的失真程度不小於該閾值,則該處理器繼續執行步驟S212,並且重複執行步驟S206、步驟S208、及步驟S210,直到在步驟S210中所計算出的該失真程度小於該閾值。當該虛擬圖像相對於該第一取樣圖像的失真程度小於該閾值,該處理器繼續執行步驟S214,並且重複執行S202及其後續步驟,直到該超解析度深度學習網路完成對所有訓練圖像的學習(步驟S216)。
依據本發明所揭露的處理可播放於一虛擬裝置的圖片的方法及電子裝置,經本發明調整及訓練後的該超解析度深度學習網路模型所輸出圖像(最終放置在該虛擬實境裝置內的圖像)可解決圖像的垂直線條不一致、解決該圖像色彩不鮮明的問題(亦即圖像的還原度高),以及減少該圖像中錯誤點的發生機率,更可增加6%的圖像銳利度,使得使用者可在該虛擬實境裝置中看到高解析度的360度全景圖像或全景影像。
雖然本發明的實施例如上述所描述,我們應該明白上述所呈現的只是範例,而不是限制。依據本實施例上述示範實施例的許多改變是可以在沒有違反發明精神及範圍下被執行。因此,本發明的廣度及範圍不該被上述所描述的實施例所限制。更確切地說,本發明的範圍應該要以以下的申請專利範圍及其相等物來定義。
儘管上述發明已被一或多個相關的執行來圖例說明及描繪,等效的變更及修改將被依據上述規格及附圖且熟悉這領域的其他人所想到。此外,儘管本發明的一特別特徵已被相關的多個執行之一所示範,上述特徵可能由一或多個其他特徵所結合,以致於可能有需求及有助於任何已知或特別的應用。
本說明書所使用的專業術語只是為了描述特別實施例的目的,並不打算用來作為本發明的限制。除非上下文有明確指出不同,如本處所使用的單數型,一、該及上述的意思係也包含複數型。再者,用詞「包括」,「包含」,「(具、備)有」,「設有」,或其變化型不是被用來作為詳細敘述,就是作為申請專利範圍。而上述用詞意思是包含,且在某種程度上意思是等同於用詞「包括」。
除非有不同的定義,所有本文所使用的用詞(包含技術或科學用詞)是可以被屬於上述發明的技術中擁有一般技術的人士做一般地了解。我們應該更加了解到上述用詞,如被定義在眾所使用的字典內的用詞,在相關技術的上下文中應該被解釋為相同的意思。除非有明確地在本文中定義,上述用詞並不會被解釋成理想化或過度正式的意思。
S101、S102、S104、S106:步驟 S200、S202、S204、S206:步驟 S208、S210、S212、S214:步驟 S216:步驟
第1圖為本發明實施例之可播放於一虛擬實境裝置的圖像的處理方法的流程圖。 第2圖為本發明實施例之一超解析度深度學習網路模型的訓練方法的流程圖。
S101、S102、S104、S106:步驟

Claims (12)

  1. 一種可播放於一虛擬實境裝置(VR)的圖像的處理方法,包括:取得一超解析度深度學習網路模型,經訓練用以學習將圖像從低解析度重建為高解析度的能力;其中,該超解析度深度學習網路模型包括複數特徵過濾器,用以擷取圖像的特徵;將該等複數特徵過濾器的解析度由一預設值修改為一既定值,並且該既定值大於該預設值;將一低解析度圖像輸入於該超解析度深度學習網路模型;透過該超解析度深度學習網路模型,將該低解析度圖像的解析度提升,而成為一高解析度圖像;其中,該超解析度深度學習網路模型之訓練,包括:從一圖像集中選擇一訓練圖像;在該訓練圖像中隨機裁切出解析度為384 * 384像素的一第一取樣圖像;將該第一取樣圖像的解析度降低至96 * 96像素,而得到一第二取樣圖像;利用該超解析度深度學習網路模型中的一解析度提升演算法將該第二取樣圖像的解析度提升回384 * 384像素,而得到一虛擬圖像;將該虛擬圖像與該第一取樣圖像做比較,用以計算該虛擬圖像相對於該第一取樣圖像的一失真程度; 重複調整該解析度提升演算法的特徵權重,直到所得到的該虛擬圖像相對於該第一取樣圖像的該失真程度小於一閾值;從該圖像集中選擇另一訓練圖像,並重複執行該訓練。
  2. 如申請專利範圍第1項所述之處理方法,更包括:將該高解析度圖像的解析度降低,而產生一中解析度圖像;將該中解析度圖像輸入至該虛擬實境裝置以供顯示。
  3. 如申請專利範圍第1項所述之處理方法,其中,該低解析度圖像及該訓練圖像為視野360度解析度4K的圖像,以及該高解析度圖像為視野360度解析度16K的圖像。
  4. 如申請專利範圍第1項所述之處理方法,其中,該預設值為3 * 3像素,該既定值為5 * 5像素。
  5. 如申請專利範圍第2項所述之處理方法,其中,該中解析度圖像的視野為360度,並且其解析度為該高解析度圖像的二分之一。
  6. 如申請專利範圍第1項所述之處理方法,其中,該超解析度深度學習網路模型為一超解析度生成對抗網路(super resolution generative adversarial network:SRGAN)。
  7. 一種電子裝置,用以處理可播放於一虛擬實境裝置的圖像,包括:一處理器,用以執行一超解析度深度學習網路模型;其中,該超解析度深度學習網路模型經訓練用以學習將圖像從低解析度重建為高解析度;該超解析度深度學習網路模型包括複數特徵 過濾器,用以擷取圖像的特徵;該等複數特徵過濾器的解析度係由一預設值修改為一既定值,並且該既定值大於該預設值;該處理器將一低解析度圖像輸入於該超解析度深度學習網路模型;並且該處理器透過該超解析度深度學習網路模型,將該低解析度圖像的解析度提升,而成為一高解析度圖像;其中,該超解析度深度學習網路模型之訓練係透過該處理器以執行包括:從一圖像集中選擇一訓練圖像;在該訓練圖像中隨機裁切出解析度為384 * 384像素的一第一取樣圖像;將該第一取樣圖像的解析度降低至96 * 96像素,而得到一第二取樣圖像;利用該超解析度深度學習網路模型中的一解析度提升演算法將該第二取樣圖像的解析度提升回384 * 384像素,而得到一虛擬圖像;將該虛擬圖像與該第一取樣圖像做比較,用以計算該虛擬圖像相對於該第一取樣圖像的一失真程度;重複調整該解析度提升演算法的特徵權重,直到所得到的該虛擬圖像相對於該第一取樣圖像的該失真程度小於一閾值;從該圖像集中選擇另一訓練圖像,並重複執行該訓練。
  8. 如申請專利範圍第7項所述之電子裝置,更包括:該處理器將該高解析度圖像的解析度降低,而產生一中解析 度圖像;該處理器透過有線或無線的通訊方式將該中解析度圖像傳輸至該虛擬實境裝置以供顯示。
  9. 如申請專利範圍第7項所述之電子裝置,其中,該低解析度圖像及該訓練圖像為視野360度解析度4K的圖像,以及該高解析度圖像為視野360度解析度16K的圖像。
  10. 如申請專利範圍第7項所述之電子裝置,其中,該預設值為3 * 3像素,該既定值為5 * 5像素。
  11. 如申請專利範圍第8項所述之電子裝置,其中,該中解析度圖像的視野為360度,並且其解析度為該高解析度圖像的二分之一。
  12. 如申請專利範圍第10項所述之電子裝置,其中,該超解析度深度學習網路模型為一超解析度生成對抗網路。
TW109118257A 2020-06-01 2020-06-01 處理可播放於一虛擬裝置的圖片的方法及電子裝置 TWI768364B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109118257A TWI768364B (zh) 2020-06-01 2020-06-01 處理可播放於一虛擬裝置的圖片的方法及電子裝置
US17/249,671 US11481875B2 (en) 2020-06-01 2021-03-09 Method and electronic device for processing images that can be played on a virtual device by using a super-resolution deep learning network model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109118257A TWI768364B (zh) 2020-06-01 2020-06-01 處理可播放於一虛擬裝置的圖片的方法及電子裝置

Publications (2)

Publication Number Publication Date
TW202147192A TW202147192A (zh) 2021-12-16
TWI768364B true TWI768364B (zh) 2022-06-21

Family

ID=78705043

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109118257A TWI768364B (zh) 2020-06-01 2020-06-01 處理可播放於一虛擬裝置的圖片的方法及電子裝置

Country Status (2)

Country Link
US (1) US11481875B2 (zh)
TW (1) TWI768364B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102818265B1 (ko) * 2020-08-26 2025-06-11 삼성디스플레이 주식회사 표시 장치
US11823350B2 (en) * 2021-01-25 2023-11-21 Lemon Inc. Image/video processing
CN114359051B (zh) * 2022-01-05 2025-09-12 京东方科技集团股份有限公司 图像处理方法及装置和系统、存储介质
CN114549305A (zh) * 2022-01-19 2022-05-27 瑞芯微电子股份有限公司 实现超分辨率的方法和电子设备
CN114998666B (zh) * 2022-04-29 2024-08-06 西安交通大学 一种用于图像盲超分辨率增强网络的退化核提取方法
CN115100031B (zh) * 2022-08-23 2023-03-14 摩尔线程智能科技(北京)有限责任公司 图像处理方法以及图像处理装置
CN115546033B (zh) * 2022-12-05 2023-03-03 耕宇牧星(北京)空间科技有限公司 一种基于遥感图像的图像矫正方法
CN116258669B (zh) * 2022-12-08 2025-12-19 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 一种基于深度学习的超高清视频模糊质量评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201837854A (zh) * 2017-04-10 2018-10-16 南韓商三星電子股份有限公司 用於深度學習影像超解析度的系統及方法
US20190095795A1 (en) * 2017-03-15 2019-03-28 Samsung Electronics Co., Ltd. System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions
KR20190053074A (ko) * 2017-11-09 2019-05-17 삼성전자주식회사 2-단계 모션 보상을 가진 콘볼루션 뉴럴 네트워크를 사용하는 비디오 슈퍼 해상도를 위한 방법 및 장치
TW201926989A (zh) * 2017-12-08 2019-07-01 美商松下電器(美國)知識產權公司 圖像編碼裝置、圖像解碼裝置、圖像編碼方法、以及圖像解碼方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016132152A1 (en) * 2015-02-19 2016-08-25 Magic Pony Technology Limited Interpolating visual data
WO2018053340A1 (en) * 2016-09-15 2018-03-22 Twitter, Inc. Super resolution using a generative adversarial network
WO2019118399A1 (en) * 2017-12-15 2019-06-20 Walmart Apollo, Llc Systems and methods for conserving user device resources during an online or virtual shopping session
CN110519652B (zh) * 2018-05-22 2021-05-18 华为软件技术有限公司 Vr视频播放方法、终端及服务器
DE112019002749T5 (de) * 2018-05-29 2021-04-08 Lg Electronics Inc. Signalverarbeitungsvorrichtung und bildanzeigegerät mit selbiger
US11284054B1 (en) * 2018-08-30 2022-03-22 Largo Technology Group, Llc Systems and method for capturing, processing and displaying a 360° video
US20200162789A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Method And Apparatus Of Collaborative Video Processing Through Learned Resolution Scaling
US10877540B2 (en) * 2019-10-04 2020-12-29 Intel Corporation Content adaptive display power savings systems and methods

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095795A1 (en) * 2017-03-15 2019-03-28 Samsung Electronics Co., Ltd. System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions
TW201837854A (zh) * 2017-04-10 2018-10-16 南韓商三星電子股份有限公司 用於深度學習影像超解析度的系統及方法
KR20190053074A (ko) * 2017-11-09 2019-05-17 삼성전자주식회사 2-단계 모션 보상을 가진 콘볼루션 뉴럴 네트워크를 사용하는 비디오 슈퍼 해상도를 위한 방법 및 장치
TW201926989A (zh) * 2017-12-08 2019-07-01 美商松下電器(美國)知識產權公司 圖像編碼裝置、圖像解碼裝置、圖像編碼方法、以及圖像解碼方法

Also Published As

Publication number Publication date
US11481875B2 (en) 2022-10-25
TW202147192A (zh) 2021-12-16
US20210374908A1 (en) 2021-12-02

Similar Documents

Publication Publication Date Title
TWI768364B (zh) 處理可播放於一虛擬裝置的圖片的方法及電子裝置
KR102697331B1 (ko) 인물 이미지 복원 방법, 장치, 전자 기기, 기억 매체 및 프로그램 제품
CN110033410B (zh) 图像重建模型训练方法、图像超分辨率重建方法及装置
CN107154023B (zh) 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN111429371B (zh) 图像处理方法、装置及终端设备
WO2019153671A1 (zh) 图像超分辨率方法、装置及计算机可读存储介质
CN108074215A (zh) 图像升频系统及其训练方法、以及图像升频方法
CN110246084A (zh) 一种超分辨率图像重构方法及其系统、装置、存储介质
CN109272452A (zh) 小波域中基于集团结构子带共同学习超分辨率网络的方法
CN111951165A (zh) 图像处理方法、装置、计算机设备和计算机可读存储介质
CN104036468A (zh) 基于预放大非负邻域嵌入的单帧图像超分辨重建方法
CN115131218A (zh) 图像处理方法、装置、计算机可读介质及电子设备
Hung et al. Image interpolation using convolutional neural networks with deep recursive residual learning
CN108876716B (zh) 超分辨率重建方法及装置
CN113674154B (zh) 一种基于生成对抗网络的单幅图像超分辨率重建方法及系统
CN115471736A (zh) 基于注意力机制和知识蒸馏的伪造图像检测方法和装置
CN116051377A (zh) 图像模型处理方法、图像处理方法及相关装置
CN115311152A (zh) 图像处理方法、装置、电子设备以及存储介质
Jiaxing et al. A review of single-image super-resolution reconstruction algorithms based on deep learning [J]
CN115311145B (zh) 图像处理方法及装置、电子设备、存储介质
KR20090078617A (ko) 주파수 기반 영상 모델을 이용한 영상 복원 방법 및 시스템
CN112839174B (zh) 用于云手机的人物图像的预览图生成方法和系统
CN114078089A (zh) 处理可播放于一虚拟装置的图片的方法及电子装置
CN114663937A (zh) 模型训练及图像处理方法、介质、装置和计算设备
CN116503260B (zh) 一种图像超分辨率重建方法、装置和设备