[go: up one dir, main page]

WO2008035654A1 - Procédés et dispositifs de codage et de décodage d'image, dispositif et programmes de décodage d'image, et support de stockage desdits programmes - Google Patents

Procédés et dispositifs de codage et de décodage d'image, dispositif et programmes de décodage d'image, et support de stockage desdits programmes Download PDF

Info

Publication number
WO2008035654A1
WO2008035654A1 PCT/JP2007/068041 JP2007068041W WO2008035654A1 WO 2008035654 A1 WO2008035654 A1 WO 2008035654A1 JP 2007068041 W JP2007068041 W JP 2007068041W WO 2008035654 A1 WO2008035654 A1 WO 2008035654A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
viewpoint
information
encoding
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2007/068041
Other languages
English (en)
French (fr)
Inventor
Shinya Shimizu
Masaki Kitahara
Kazuto Kamikura
Yoshiyuki Yashima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008535345A priority Critical patent/JP4999853B2/ja
Priority to US12/441,234 priority patent/US8385628B2/en
Priority to CN2007800412118A priority patent/CN101536529B/zh
Priority to BRPI0716814-4A2A priority patent/BRPI0716814A2/pt
Priority to EP07807442A priority patent/EP2066132A4/en
Priority to CA 2663084 priority patent/CA2663084C/en
Publication of WO2008035654A1 publication Critical patent/WO2008035654A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • the present invention relates to a technique for encoding and decoding a multi-view image and a multi-view video.
  • a multi-view image is a plurality of images obtained by photographing the same subject and background with a plurality of cameras
  • a multi-view video (multi-view video) is a moving image.
  • a moving image shot with one power camera is called a “two-dimensional moving image”
  • a two-dimensional moving image group in which the same subject and background are shot is called a multi-view moving image.
  • a two-dimensional moving image has a strong correlation in the time direction, and the encoding efficiency is improved by using the correlation.
  • multi-viewpoint images and multi-viewpoint moving images if each camera is synchronized, the video of each camera corresponding to the same time is taken from the same subject and background from different positions. There is a strong correlation. In coding multi-viewpoint images and multi-viewpoint moving images, this correlation can be used to increase the coding efficiency by using S.
  • the encoding target frame is divided into blocks of various sizes, and an already encoded frame called a reference frame is selected for each block.
  • a video is predicted using vector information indicating corresponding points called “toll”.
  • Block damage ij allowed at this time is 7 types of 16 X 16 (Pixenore), 16 X 8, 8 X 16, 8 X 8, 8 X 4, 4 X 8, 4 X 4, and It is now possible to predict images by dealing with differences in orientation and size in fine units. As a result, the residual of the encoding target represented by the difference between the predicted image and the original image becomes small, and high encoding efficiency is achieved.
  • the difference between the multi-view image encoding method and the multi-view image encoding method is that in the multi-view image, in addition to the correlation between cameras, there is a correlation in the time direction at the same time. is there. However, the same method can be used in both cases using the correlation between cameras. Therefore, here, a method used in encoding multi-view video is described.
  • multi-view video is encoded with high efficiency by "parallax compensation" in which motion compensation is applied to images from different cameras at the same time.
  • parallax is a difference between positions at which the same position on the subject is projected on the image planes of cameras arranged at different positions.
  • FIG. 21 shows a conceptual diagram of parallax generated between the cameras.
  • the image plane of a camera with parallel optical axes is viewed vertically.
  • a position where the same position on the subject is projected on the image plane of different cameras is generally called a corresponding point.
  • each pixel value of the encoding target frame is predicted from the reference frame based on the correspondence relationship, and the prediction residual and the disparity information indicating the correspondence relationship are encoded.
  • parallax is expressed as a vector on an image plane.
  • the force that includes a mechanism for performing parallax compensation in units of blocks, and parallax in units of blocks are represented by two-dimensional vectors, that is, two parameters (X component and y component).
  • this method encodes disparity information consisting of two parameters and the prediction residual.
  • Non-Patent Document 3 by using camera parameters for encoding and expressing disparity vectors as one-dimensional information based on epipolar geometric constraints, prediction information is efficiently Encode.
  • Figure 22 shows a conceptual diagram of the epipolar geometric constraint.
  • the epipolar geometric constraint in two cameras (camera A and camera B), a point on the other image corresponding to a point on one image is constrained on a straight line called an epipolar line.
  • the parallax with respect to all the encoding target frames is expressed by one parameter, that is, the distance from the camera capturing the reference frame to the subject.
  • Non-Patent Document 1 ITU-T Rec. H.264 / ISO / IEC 11496-10, "Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO / IEC 14496-1 0 AVC ), Draft 7 ", Final Committee Draft, Document JVT-E022, pp. 10-13, and 62 -68, September 2002.
  • Non-Patent Document 2 Hideaki imata and Masaki itahara, "Preliminary results on multiple view video coding (3DAV)", document M10976 MPEG Redmond Meeting, July, 2004
  • Non-Patent Document 3 Shinya SHIMIZU, Masaki KITAHARA, azuto AMI URA and Yoshi yuki YASHIMA, "Multi-view Video Coding based on 3_D Warping with Depth Map ,, In Proceedings of Picture Coding Symposium 2006, SS3-6, April, 2006.
  • the epipolar geometric constraint is used to determine the reference frame from the camera to the subject regardless of the number of cameras.
  • the camera parameters include not a few errors.
  • the error of the camera parameter of this camera will be included.
  • the prediction accuracy of disparity compensation when one encoding target frame is selected is affected by errors related to other cameras, and the disparity information obtained for the pair of the encoding target frame and the reference frame is used. It will be lower than.
  • the present invention has been made in view of such circumstances, and has high accuracy even when encoding distortion of a reference frame or measurement error of a camera parameter exists in encoding of a multi-view video.
  • An object of the present invention is to achieve higher coding efficiency than before by realizing disparity compensation with less disparity information.
  • the global disparity information and camera parameters are used to obtain and encode global disparity information, which is plausible disparity information, and the images of all other cameras with respect to the camera image.
  • the step of generating base disparity information which is plausible disparity information and the disparity information between the camera image and the already encoded reference viewpoint image used for disparity compensation are obtained.
  • the corrected parallax information is obtained in view of only the reference destination image (reference viewpoint image) at the time of parallax compensation with respect to the encoding target image, it is included in the global parallax information.
  • the effects of all camera parameter errors and reference frame coding distortion can be eliminated for each camera, and high coding efficiency can be achieved.
  • the correction amount of the base parallax information is small, and the code amount of the corrected parallax information is small.
  • the amount of code for the common portion can be saved, so that the amount of code can be reduced as a whole.
  • one criterion is obtained from the entire multi-viewpoint image.
  • Selecting a viewpoint and encoding global parallax information, which is likely to be disparity information when considering the epipolar geometric constraints with the images of all other cameras with respect to the camera of the reference viewpoint, and a camera other than the reference viewpoint Generating base disparity information that is plausible disparity information from the global disparity information and camera parameters in view of epipolar geometric constraints with all other camera images for that camera image;
  • a correction parallax vector for correcting the corresponding point given by the base parallax information is obtained and coded. Parallax compensation is performed by correcting the corresponding points obtained from the base parallax information with the corrected parallax vector. While, and a step of encoding the image of the camera.
  • the corrected disparity vector is obtained in consideration of only the reference image (reference viewpoint image) at the time of disparity compensation with respect to the encoding target image, it is included in the global disparity information.
  • the effects of all camera parameter errors and reference frame coding distortion can be removed for each camera, and high coding efficiency can be achieved.
  • global disparity information represents rough disparity information that is common throughout, the correction amount of the correspondence given by the base disparity information is small, and the code amount of the corrected disparity vector is small! /.
  • the amount of code for the common portion can be saved, so that the amount of code can be reduced as a whole.
  • a two-dimensional correction vector is obtained. And encoding.
  • the method includes a step of setting region division for the image of the camera at the reference viewpoint, and a step of encoding information indicating the region division, and global disparity information for each set region division May be set for encoding.
  • region division for encoding the image of the reference viewpoint is performed.
  • the information indicating the region division of the image of the camera at the reference viewpoint may not be newly encoded by matching the region division representing the unit for setting the global parallax information.
  • the reference viewpoint image is encoded. There are cases where it is better to change the area division slightly without matching the area division completely.
  • the method includes a step of setting region division for the image of the camera at the encoding target viewpoint, and a step of encoding information indicating the region division.
  • a correction parallax vector or a correction vector may be set and encoded.
  • the image of the encoding target viewpoint is divided into regions as a whole, processed for each region, and encoded together with the region division information, the image is encoded. It is possible not to encode the information indicating the region division representing the unit for setting the difference information by matching the region division for matching with the region division representing the unit for setting the parallax information.
  • region division for encoding the image since the properties of the video itself and the disparity information are not exactly the same, if the region having the same image property and the region having the same disparity information property do not match, region division for encoding the image In some cases, it is better to slightly change the region division without completely matching the region division representing the unit for setting the parallax information. In that case, it is possible to reduce the amount of codes by coding only the difference in area division.
  • corrected parallax information obtained for each encoding target image including a step of setting a camera to be referred to at the time of parallax compensation and a step of encoding an index indicating the camera.
  • the correction parallax vector and the correction vector may be obtained so as to be optimal when performing parallax compensation using the encoded image of the camera indicated by the index.
  • the global disparity information and the base disparity information according to the present invention are the ray information depending on the reference object, the code amount of the corrected disparity information and the correction vector can be suppressed to be small regardless of which reference object is used.
  • a step of obtaining local disparity information which is disparity information for the image of each camera, based on epipolar geometric constraints, and for each camera Generating the global parallax information candidates using the local parallax information and camera parameters obtained in step S3, and in the step of obtaining global parallax information, the global parallax information candidates obtained for the same region Flat
  • the average value may be set as the global parallax information of the area.
  • low-power parallax information that should be optimal parallax information used in each camera at the time of parallax compensation is calculated first, and global parallax information is generated using them.
  • the difference disparity information in the step of setting the difference disparity information from the difference between the local disparity information and the base disparity information, and in the step of setting the region division for the camera image of the encoding target viewpoint, the difference disparity information In the step of setting the maximum region division so that the values are substantially the same in the region and obtaining the corrected parallax information, it is possible to set the corrected parallax plus the green parallax from the differential parallax information in the region.
  • the variance of the differential parallax information is obtained for each area division, and the area division is selected based on the value of the variance. Calculations that determine the division can also be performed at high speed.
  • the continuity in an image to which disparity information before conversion is given is used to perform post-conversion.
  • the disparity information can be set continuously on the image.
  • disparity information that indicates three-dimensional information that links continuity only with the adjacency relationship can also be used for more accurate determination, erroneous base information and global disparity information candidates are generated and conversely It is possible to prevent an increase in information to be corrected.
  • V coding efficiency
  • the image encoding method (image decoding method) of the present invention can be applied by regarding the frame set at each time as a multi-view image. . Furthermore, in multi-view video, other methods such as motion compensation using time direction correlation are selected for each encoding target rather than encoding the entire image by the method of the present invention. Thus, the encoding efficiency can be increased.
  • FIG. 1 is an image diagram of information used for parallax compensation defined in the present invention.
  • FIG. 2 is a conceptual diagram of a camera configuration example in the embodiment.
  • FIG. 3 is a diagram showing a video encoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 4 is a diagram showing details of the global parallax compensation information setting unit in FIG. 3.
  • FIG. 5 is a diagram showing details of the parallax compensation information setting unit in FIG.
  • FIG. 6 is a video encoding flowchart according to the first embodiment.
  • FIG. 7 is a detailed flowchart regarding the process of step S2 of FIG.
  • FIG. 8 is a diagram illustrating an example of block division in a macroblock.
  • FIG. 9 is a detailed flowchart regarding the process of step S4 of FIG.
  • FIG. 10 is a detailed flowchart regarding the process of step S5 of FIG.
  • FIG. 11 is a diagram showing a video encoding apparatus according to Embodiment 2 of the present invention.
  • FIG. 12 is a diagram showing details of a local parallax compensation information setting unit in FIG.
  • FIG. 13 is a diagram showing details of the global parallax compensation information setting unit in FIG. 11.
  • FIG. 14 is a diagram showing details of the disparity compensation information setting unit in FIG. 11.
  • FIG. 15 is a video encoding flowchart according to the second embodiment.
  • FIG. 16 is a detailed flowchart related to the process of step S402 of FIG.
  • FIG. 17 is a detailed flowchart regarding the process of Step S403 in FIG.
  • FIG. 18 is a detailed flowchart regarding the process of Step S406 in FIG.
  • FIG. 19 shows a video decoding apparatus according to Embodiment 3 of the present invention.
  • FIG. 20 is a video decoding flowchart in the third embodiment.
  • [Gakuen 21] It is a conceptual diagram of parallax generated between cameras.
  • the most different point of the present invention from the prior art is that one reference viewpoint is set and an epipolarizer is used to perform parallax compensation for all other encoding target images at the same time with respect to an encoded image of the reference viewpoint.
  • Obtain global disparity information according to geometric constraints convert this global disparity information into base disparity information according to epipolar geometric constraints for each encoding target image, and depending on the nature of each encoding target image and camera parameter error
  • the parallax information for correcting the base visual difference information is encoded for each encoding target image.
  • the disparity information in accordance with the epipolar geometric constraint can be expressed by a distance from the viewpoint of the image to the subject, a distance from a reference point on the epipolar line, and an index value associated with these distances.
  • disparity information when disparity information is described, a view based on these epipolar geometric constraints is used. It refers to difference information.
  • difference information The concept of global disparity information and base disparity information used in the present invention will be described.
  • the global parallax information is parallax information given to the image of the reference viewpoint.
  • the image dissimilarity between the corresponding regions can be evaluated by a sum of absolute differences, a sum of squares of differences, a variance of differences, a weighted sum of a plurality of standards, or the like.
  • an evaluation value may be calculated by adding a correction term to the disparity information d assuming the continuity of the object in real space.
  • the disparity information d that minimizes ate (A, d, k) may not be the global disparity information D.
  • the global disparity information D is disparity information that provides the highest degree of similarity between the region and the corresponding regions in the images of all other viewpoints with respect to the region.
  • the reference viewpoint is the reference viewpoint in the case of global disparity information
  • the base disparity information is a viewpoint other than the reference viewpoint.
  • the global disparity information and the base disparity information in the corresponding castle are information representing the same three-dimensional position, but in general, the disparity information is the distance from the camera to the subject. Therefore, the specific value of the disparity information varies depending on the viewpoint.
  • FIG. 1 is an image diagram of information used for parallax compensation defined in the present invention.
  • one reference viewpoint is selected from the multi-view images to be encoded and encoded.
  • encoding is performed by predicting video from an image of another viewpoint that has already been encoded.
  • FIG. 1 An image of another viewpoint that has been encoded and used for video prediction is referred to as a reference viewpoint image.
  • the reference viewpoint image may be the same as or different from the base viewpoint image.
  • Figure 1 shows images from different viewpoints to show the general case.
  • the global parallax information power described above is given to the image of the reference viewpoint.
  • the three-dimensional position of the subject given by the global disparity information becomes base disparity information when viewed from the encoding target viewpoint.
  • parallax information this is referred to as local parallax information
  • the difference between the information and the base parallax information is called corrected parallax information.
  • the corresponding region on the reference viewpoint image is referred to regardless of the disparity information given as shown in FIG. If the camera is constrained on a straight line in the viewpoint image and there is an error in the given camera parameter, there is no true corresponding point on the straight line.
  • the solid from the corresponding point given by the local disparity information to the true corresponding point is called a correction vector.
  • the image of the pixel is predicted using the image information of the corresponding point above.
  • global disparity information is encoded for one image of a multi-view image (an image group having the same display time of a multi-view moving image), and supplemented with corrected disparity information.
  • the positive vector is encoded for each image for each viewpoint except the reference viewpoint.
  • the base disparity information is obtained from the global disparity information and is not encoded.
  • FIG. 2 shows a conceptual diagram of a camera configuration used in the example of the present embodiment. Note that the square figure in the figure represents the frame of each camera, and the images from camera B and camera C are input in the order of the numbers in the figure.
  • Example 1 a first example (hereinafter referred to as Example 1) will be described.
  • Configuration diagrams of the video encoding apparatus according to Embodiment 1 of the present invention are shown in FIGS.
  • the video encoding apparatus 100 includes an image input unit 101 that inputs original images of cameras B and C to be encoded, and an image memory that stores the input images. 102, a reference viewpoint image input unit 103 that inputs a decoded image of camera A, which is a reference viewpoint, a reference viewpoint image memory 104 that stores a decoded image of the input reference viewpoint, and a disparity based on epipolar geometric constraints with respect to the reference viewpoint Global disparity compensation information setting section 105 that sets global disparity information that is information, and base disparity information setting that sets base disparity information that is disparity information based on epipolar geometric constraints on the viewpoint of the encoding target image from the global disparity information Unit 106, a parallax compensation information setting unit 107 that sets information for performing parallax compensation on the encoding target image, and an image encoding unit 108 that actually predictively encodes the input image. And a decoded image memory 109 for storing an image obtained by decoding the encoded
  • FIG. 4 is a diagram showing details of the configuration of the global parallax compensation information setting unit 105.
  • the global parallax compensation information setting unit 105 is a reference viewpoint image block division setting unit that sets block division for the reference viewpoint image; L051, and block division information that encodes the determined block division information Encoding unit 1052 and global disparity information estimating unit 10 for estimating global disparity information for each block from the input image group 10 53 and a global disparity information encoding unit 1054 that encodes the obtained global disparity information.
  • the global parallax information obtained by the global parallax information estimation unit 1053 is notified to the base parallax information setting unit 106.
  • the encoded data output by the block division information encoding unit 1052 and the global disparity information encoding unit 1054 constitutes a part of the output of the video encoding apparatus 100.
  • FIG. 5 is a diagram showing details of the configuration of the parallax compensation information setting unit 107.
  • a disparity compensation information setting unit 107 includes an encoding target image block division setting unit 1071 that sets block division for an encoding target image, and block division information that encodes the determined block division information.
  • the image encoding unit 108 is notified of the parallax compensation image when the parallax compensation efficiency evaluation unit 1079 determines that the parallax compensation efficiency is the best.
  • the encoded data output from the block division information encoding unit 1072, the view index encoding unit 1074, the corrected disparity information encoding unit 1076, and the correction vector encoding unit 1078 are the same as those of the video encoding device 100. Part of the output.
  • FIGS. 6 to 10 show processing flows executed by the video encoding apparatus 100 configured as described above.
  • the processing executed by the video encoding device 100 according to the first embodiment will be described in detail according to these processing flows.
  • FIG. 6 shows an overview of the entire encoding process performed by the video encoding device 100 according to the first embodiment. Also, in this flow, a process for encoding one image at a time taken by camera B and camera C will be described.
  • the image input unit 101 inputs the images of camera B and camera C taken at the same time one by one and stores them in the image memory 102 [step Sl]. It is assumed that the decoded image of camera A taken at the same time as the input image is input by the reference viewpoint image input unit 103 and stored in the reference viewpoint image memory 104.
  • the global parallax compensation information setting unit 105 obtains global parallax information satisfying the epipolar geometric constraint in the reference viewpoint image from the images on the image memory 102 and the reference viewpoint image memory 104, and encodes them. Step S2]. Details of the processing performed here will be described later with reference to FIG.
  • the subsequent steps S 4 to S 7 are performed for each image on the image memory 102.
  • the description will be made assuming that the image of camera B is encoded prior to the image of camera C.
  • the image of camera B is extracted from the image memory 102 and set as an encoding target image [Step S3], and the global disparity information obtained in the process of Step S2 is encoded by the base disparity information setting unit 106.
  • the corrected disparity information which are other disparity compensation information, A correction vector etc. is obtained and encoded [Step S5], and the image to be encoded is encoded by the image encoding unit 108 using the obtained disparity compensation information [Step S6].
  • step S7 The encoded image is decoded and stored in the decoded image memory 109 [step S7]. If the encoded image is an image of camera B [step S8], then the image of camera C is taken out of image memory 102 and encoded by the same procedure [steps S4 to S7]. The process ends. The processing performed in step S4 and step S5 will be described in detail later.
  • FIG. 7 shows a detailed process flow of the process of step S 2 performed by the global parallax compensation information setting unit 105.
  • block division is specified in units of macroblocks composed of 16 pixels vertically and horizontally, and blocks within the macroblock created by the block division (for convenience, in the following, a single block). (Referred to as “block”), and global parallax information is obtained and encoded. Of course, you can use a larger block than the macro block.
  • block divisions There are various possible block divisions that can be applied in a macroblock.
  • the block division shown in FIG. 8 can be considered.
  • the index related to the type of block division is WkMode
  • the number of blocks in block detriment iJblkMode is maxBlk [blkmode].
  • the number of block division types is represented by maxBlkMode.
  • the macroblock index is represented as MBBlk, and the number of macroblocks is represented as maxMBBlk.
  • Step S 101 After initializing the macroblock index MBBlk to 0 [Step S 101], adding 1 to MBBlk [Step S116], until MBBlk reaches maxM BBlk [Step S 117] The following processing [Steps S102 to S115] is repeated. Thereafter, the obtained block division information BLKMode and global disparity information GDispInfo are encoded by the block division information encoding unit 1052 and the global disparity information encoding unit 1054, respectively [step S 118].
  • the division is evaluated for each block division candidate, and the block with the best evaluation is set as the block division of the macroblock.
  • Step SI 14 until blkMode reaches maxBlkMode [Step S 115], obtain the evaluation value value for block denomination iJblkMode [Step S 103-S 111], and compare the value with bValue for the best evaluation Find the block partition that gives the value [Step S 112], store the macro block partition in BLKMode [MBBlk], and store the global disparity information in GDispInfo [MBBlk] [Step S 113]! repeat.
  • the evaluation value value for block denomination iJblkMode is obtained by summing the rate distortion costs of visual compensation in each divided block.
  • InitValue [blkMode] is assumed to have a predetermined value depending on the code amount necessary for encoding the information for indicating that the block dividing power is 3 ⁇ 4lkMode.
  • Lagrange's undetermined multiplier, and a preset value is used.
  • e () represents a function that returns the amount of code necessary to encode the global disparity information given by the argument or its predicted value.
  • ⁇ ⁇ represents the sum of cam e ⁇ camera B, camera C ⁇ , and ⁇ represents pix E ⁇ pixel in block ⁇ Represents the sum of
  • base 0 represents a function that returns the distance from the reference viewpoint indicated by the global disparity information index given as an argument to the subject.
  • A, R, and t are camera parameters, which respectively indicate an internal parameter, a rotation parameter, and a translation parameter.
  • Internal parameters and rotation parameters are 3 X 3 matrices, and t is a 3D vector vector.
  • P to which the above “to” is added represents the homogeneous coordinates of p. Also, “P k with ⁇ represents the coordinate of the pix, especially the third component is 1.
  • Homogeneous coordinates are also called homogeneous coordinates.
  • a homogeneous coordinate for a two-dimensional coordinate has three components. The value obtained by dividing the value of the first component and the value of the second component by the value of the third component of the homogeneous coordinate, and the coordinates having the first component and the second component are the normal coordinates for the homogeneous coordinate. Become. It should be noted that there are various ways of expressing camera parameters, and in this embodiment, it is assumed that the camera parameters are such that corresponding points between cameras can be calculated by the above formula.
  • FIG. 9 shows a detailed processing flow of the processing in step S 4 performed by the base disparity information setting unit 106.
  • the processing here is performed for each pixel of the image taken from the reference viewpoint.
  • Step S201 After initializing the pixel index bp to 0 [Step S201], adding 1 to bp [Step S213], until bp reaches the number of pixels in the image numPix [Step S214], the following processing [ Steps S202 to S212] are repeated.
  • the entire base disparity information is represented as BDispInfo, and the position at the position specified using [] is used. It represents source parallax information.
  • This base disparity information is initialized with a large value that cannot be obtained at the beginning of the flow [step S201].
  • the processing is performed in the raster scan order.
  • tar 0 represents a function that returns the distance from the viewpoint of the encoding target image indicated by the disparity information index (ie, base disparity information candidate bDispInfo) given as an argument to the subject.
  • the bDispInfo obtained in this way is compared with the base disparity information BDispInfo [tp] that has already been obtained at that position on the basis of the distance from the viewpoint of the encoding target image that they represent to the subject [Step] S204], the distance represented by bDispInfo is smaller. In this case, occlusion (the part that was visible with the camera! finish. [0093] If the distance represented by bDispInfo is smaller, the value of BDispInfo [tp] is updated with bDispInfo [step S205].
  • BDispInfo is updated using the continuity of the object in real space. That is, a set NEIGHBOR of pixels adjacent to the left or top of bp is generated [Step S206], and until the NEI GHBOR becomes an empty set [Step S207], the processed pixels are removed from NEIGHBO R [Step S212]. Then, repeat the next process [Steps S208 to S211].
  • the threshold value If it is equal to or greater than the threshold value, it means that the object is not continuous in real space, and the process for that element ends.
  • step S210 If it is smaller than the threshold value, the pixel ntp corresponding to the pixel nb P in the encoding target image and the base disparity information nbDispInfo there are obtained using the expression in the process of step S203 [step S210].
  • the base disparity information of the pixel existing between tp and ntp is complemented using bDsipInfo and nbDispInfo [step S 211].
  • Any method can be used as long as it is a method of complementing values between the information at both ends, but the simplest method is a method of linearly complementing between the base disparity information at both ends. Note that if there is already a base disparity information smaller than the calculated complementary value, occlusion has occurred and no update is performed.
  • step S210 the calculation for obtaining the corresponding pixel and base disparity information in the encoded image from the pixel position and the global disparity information for each pixel is applied many times, but the process of step S210 is performed. Since the calculation of step S203 is performed using the processing formula of step S203, if the result of the processing of step S203 can be stored, the value at that time can be used for each pixel. All you need to do is a single calculation. It is.
  • FIG. 10 shows a detailed flow of the process of step S 5 performed by the parallax compensation information setting unit 107.
  • block division is determined for each macroblock, and a reference viewpoint index, corrected disparity information, and a correction vector are obtained and encoded for each block.
  • the reference viewpoint index obtained for each block, the corrected parallax information, and the correction vector are referred to as parallax compensation information.
  • information used for parallax compensation in a certain block includes base parallax information in addition to the parallax compensation information. That is, here, the information for correcting the base parallax information is the parallax compensation information.
  • block division information WkMode is initialized to 0 [Step S302], and 1 is added to blkMode [Step S314], and blkMode force 3 ⁇ 4iaxBlkMode Until [Step S315], the rate distortion cost MBCost of the macroblock with disparity compensation information is calculated [Steps S303 to S311], compared to the previous minimum cost bestMBCost [Step S312], which is a smaller cost.
  • Block division iJ e BLKMode [MBBlk] for that macroblock is determined [Step S313] and! / ⁇ ⁇ processing are repeated.
  • bestMBCost is first initialized with a maximum value wMBCost that cannot be obtained [step S302].
  • the block index blk is initialized to 0 [step S303], and 1 is added to blk [step S310]. Until blk reaches maxBlk [blkMode] [step S311], disparity compensation information bestEDispInfo that gives the minimum rate distortion cost for each block and the rate at that time Processing for obtaining the distortion cost bestBlkECost [Steps S304 to S309] is repeated.
  • rate distortion cost MBCost for the macroblock is initially initialized to 0 [step S303], and when the processing for each block is completed, the minimum rate distortion cost bestBlkECost for the block is added. Calculated [Step S310].
  • the disparity compensation information determined here is stored in tempEDispInfo [blk] [step S310], and in view of the final macroblock rate distortion cost, the best one is stored in E Displnfo [MBBlk] [ Step S313].
  • the disparity compensation information index eDispInfo associated with the reference viewpoint index, the corrected disparity information, and the set of correction vectors is initialized with 0. Later [Step S305], power without adding 1 to eDispInfo 3 ⁇ 4 [Step S308], until eDispInfo reaches maxEDispInfo, the number of combinations of reference viewpoint index, corrected disparity information, and correction vector [Step S309], eDispInfo Calculate the rate distortion cost blkECost in the corresponding disparity compensation information [Step S305], and if blkE Cost is smaller than the previous minimum rate distortion cost bestBlkECost [Step S306], store eDispInfo in bestEDispInfo and set bestBlkECost to WkECost Repeat the process [Step S307] to be updated with.
  • bestBlkECost is first initialized with a maximum value wBlkECost that cannot be taken [step S 304].
  • ⁇ 2 is Lagrange's undetermined multiplier, and a preset value is used.
  • tar indicates the viewpoint of the encoding target image
  • ref, md, and cmv indicate the reference viewpoint index, the corrected parallax information, and the correction vector that are indicated by the parallax compensation information e Displnfo, respectively.
  • Example 2 a second example (hereinafter referred to as Example 2) will be described.
  • the block diagram of the video encoding device is shown in FIG. 11, FIG. 12, FIG. 13, and FIG.
  • the video encoding device 200 stores the input image by the camera B to be encoded and the image input unit 201 that inputs the original image of the camera C.
  • An image memory 202 for inputting a decoded image of camera A as a reference viewpoint, a reference viewpoint image memory 204 for storing the input decoded image of the reference viewpoint, and an image to be encoded
  • Local disparity compensation information setting unit 205 for setting local disparity information, which is disparity information based on epipolar geometric constraints on the image, and local disparity information set for each image to be encoded.
  • Global disparity compensation information setting unit 206 that sets and encodes global disparity information that is based on disparity information and the viewpoint of the encoding target image by converting the global disparity information
  • Base disparity information setting unit 207 for setting base disparity information that is disparity information based on epipolar geometric constraints
  • visual compensation information setting unit 208 for setting information for performing disparity compensation on the encoding target image
  • actual input image Are provided with an image encoding unit 209 that performs predictive encoding, and a decoded image memory 210 that stores an image obtained by decoding the encoded input image.
  • the decoded image memory 210 may also serve as the memory.
  • FIG. 12 is a diagram showing details of the configuration of the local parallax compensation information setting unit 205.
  • the local disparity compensation information setting unit 205 performs the disparity compensation with the local disparity information block division setting unit 2051 that sets the block division of the encoding target image for obtaining the local disparity information.
  • a reference viewpoint index setting unit 2052 that sets a viewpoint index indicating a viewpoint of an image used as a reference image
  • a local disparity information setting unit 2053 that sets disparity information based on epipolar geometric constraints
  • a set block A parallax compensation efficiency evaluation unit 2054 that evaluates the efficiency when performing parallax compensation using lock partitioning, a reference viewpoint index, and parallax information and applies feedback to each setting unit is provided.
  • FIG. 13 is a diagram showing details of the configuration of the global parallax compensation information setting unit 206.
  • the global disparity compensation information setting unit 206 includes a reference viewpoint image block division setting unit 2061 that sets block division for the image of the reference viewpoint, and a block division information code that encodes the determined block division information.
  • the global disparity information estimating unit 2063 that estimates the global disparity information for each block
  • a global disparity information encoding unit 2064 that encodes the obtained global disparity information.
  • the global parallax information obtained by the global parallax information estimation unit 2063 is notified to the base parallax information setting unit 207.
  • the encoded data output by the block division information encoding unit 2062 and the global disparity information encoding unit 2064 is one of the outputs of the video encoding apparatus 200.
  • FIG. 14 is a diagram showing details of the configuration of the parallax compensation information setting unit 208.
  • the disparity compensation information setting unit 208 is notified from the base disparity information notified from the base disparity information setting unit 207 and from the local difference information setting unit 2053 in the local disparity compensation information setting unit 205.
  • An encoding target image block division setting unit 2081 that sets block division for the image to be encoded using a difference with the local disparity information, and a block division information encoding unit 2082 that encodes the determined block division information;
  • a corrected disparity information setting unit 2083 that sets corrected disparity information that is information for correcting the base disparity information based on the epipolar geometric constraint based on the determined block division information and the difference, and the determined corrected disparity information is encoded.
  • a reference view index setting unit 2085 that sets a reference view index for each block, a view index encoding unit 2086 that encodes the determined view index, and an epipolar geometric constraint.
  • a correction vector setting unit 2087 for setting a correction vector for correcting the correspondence given by! /, Information regardless of epipolar geometric constraints, and a correction vector encoding unit 2088 for encoding the determined correction vector Disparity compensation is performed using information set by each unit.
  • a parallax compensation efficiency evaluation unit 2089 that evaluates the prediction efficiency at that time and applies feedback to the correction vector setting unit 2087.
  • the parallax compensation image when the parallax compensation efficiency evaluation unit 2089 determines that the parallax compensation efficiency is the best is notified to the image coding unit 209.
  • the encoded data output by the block division information encoding unit 2082, the corrected disparity information encoding unit 2084, the viewpoint indexed encoding unit 2086, and the correction vector encoding unit 2088 is the video encoding device.
  • FIGS. 15 to 18 show processing flows executed by the video encoding apparatus 200 configured as described above.
  • the processing executed by the video encoding device 200 according to the second embodiment will be described in detail according to these processing flows.
  • FIG. 15 shows an overview of the entire encoding process performed by the video encoding device 200 according to the second embodiment. Also, in this flow, a process for encoding one image at a time taken by camera B and camera C will be described.
  • the image input unit 201 inputs the images of camera B and camera C taken at the same time one by one and stores them in the image memory 202 [step S401]. It is assumed that the decoded image of camera A taken at the same time as the image input here is input by the reference viewpoint image input unit 203 and stored in the reference viewpoint image memory 204.
  • the local parallax compensation information setting unit 205 obtains local parallax information for each image on the image memory from the images in the image memory 202 and the reference viewpoint image memory 204 [step S402]. Details of the processing performed here will be described later with reference to FIG.
  • the global parallax compensation information setting unit 206 obtains global parallax information satisfying the epipolar geometric constraint in the reference viewpoint image using the local parallax information.
  • step S403 encoding is performed [step S403]. Details of the processing performed here will be described later with reference to FIG.
  • Step S405 to S408 Subsequent processing [Steps S405 to S408] is performed for each image on the image memory 202.
  • the image of camera B is encoded prior to the image of camera C. That is, the image of camera B is extracted from the image memory 202 and set as an encoding target image [step S404], and the global disparity information obtained in the process of step S403 is converted into the base disparity information.
  • the information setting unit 207 converts the information to be encoded into base disparity information in accordance with epipolar geometric constraints [step S405], and from the local disparity compensation information and the base disparity information, the disparity compensation information is obtained in consideration of the encoding efficiency.
  • a certain reference viewpoint index, corrected parallax information, correction vector, and the like are obtained by the parallax compensation information setting unit 208 and encoded [step S406], and the encoding target image is imaged using the obtained parallax compensation information.
  • Encoding is performed by the encoding unit 209 [step S407].
  • the encoded image is decoded and stored in the decoded image memory 210 [Step S408L
  • the encoded image is an image of camera B [step S409]
  • the image of camera C is extracted from image memory 202 [step S410] and encoded by the same hand J jet [steps S405 to S408]. To finish all processing.
  • step S405 is the same processing as the processing performed in step S4 already described (FIG. 6), and thus description thereof is omitted.
  • step S406 Details of the process performed in step S406 will be described later with reference to FIG.
  • FIG. 16 shows a detailed process flow of the process of step S 402 performed by the local parallax compensation information setting unit 205. Note that the local parallax compensation information setting unit 205 applies the processing shown here for each image on the image memory 202.
  • block division is specified in units of macroblocks composed of 16 pixels vertically and horizontally, and local disparity information is obtained in units of blocks created by the block division.
  • block divisions There are various possible block divisions that can be applied in a macroblock.
  • the index related to the type of block division is represented by WkMode
  • the number of blocks in block denomination iJblkMode is represented by maxBlk [blkMode]
  • maxBlkMode the number of types of block division
  • the macroblock index MBBlk is initialized to 0 [Step S501], and 1 is added to MBBlk [Step S516], and MBBlk is the number of macroblocks in the image maxMBBlk. Until [Step S517], the process of obtaining block division and local disparity information [Steps S502 to S515] is repeated.
  • block harm iJblkMode is set to 0, the best bestM BLCost of the evaluation value in the macroblock is absolutely obtained! /, And after initialization to the maximum evaluation value wMBLCost [Step S502], 1 is set to blkMode.
  • Step S514 until the blkMode force 3 ⁇ 4 naxBlkMode is reached [Step S515], the evaluation value MBLCost for the block denomination iJblkMode is obtained [Steps S503 to S511], and if MBLCost becomes smaller than bestMBLCost [Step S514] S512], MBLCost is stored in bestMBLCost, block damage iJblkMode is stored in IB LKMode [MBBlk], and local disparity compensation information tempLDispI nfo for each block is stored in LDispInfo [cam] [step S 513 ], And! /, Repeat the process.
  • cam represents an index for the image on the image memory 202.
  • Step S503 After the block index blk is initialized to 0 and the evaluation value MBLCost for block partitioning is initialized to 0 [Step S503], while adding 1 to blk [Step S510], until blk becomes maxBlk [blkMode] [ Step S511] finds the best local disparity compensation information bestLDispInfo and evaluation value bestBlkLCost for the block blk [Steps S504 to S509], adds bestBlkLCost to MBLCost, and stores bestLDisp Info in tempLDispInfo [blk] [Step S510 ], And! /, Repeat the process.
  • the best local parallax compensation information for a certain block indicates an image used for prediction that minimizes the rate distortion cost when predicting the target block from another image.
  • Information and local disparity information based on epipolar geometric constraints.
  • the rate distortion cost becomes an evaluation value for each local disparity compensation information, and the process of obtaining the best local disparity compensation information and evaluation value for a certain block includes the reference viewpoint index and local disparity information that minimize the rate distortion cost. This is the process for finding
  • the default disparity compensation information index IDispInfo is initialized to 0 and the best rate distortion cost bestBl kLCost is absolutely unacceptable.
  • IDispInfo After initializing to wBlkLCost [Step S 504], 1 is added to 1 Displnfo [Step S 508] Until IDispInfo reaches the number maxLDispInfo of the combination of viewpoint index and local disparity information [Step S509], the rate distortion cost blkLCost for IDispInfo is obtained [Step S505], and if blkLCost is less than bestBlkL Cost [Step S506] , BlkLCost is stored in bestBlkLCost, and IDis plnfo is stored in bestLDispInfo [Step S507].
  • Rate distortion cost blkLCost for IDispInfo is obtained by the following equation.
  • is Lagrange's undetermined multiplier, and a preset value is used. Also
  • Dist () and refer () represent functions that return the viewpoint cam force, the distance to the subject, and the reference viewpoint, respectively, for the local disparity compensation information given as an argument.
  • FIG. 17 shows a detailed process flow of the process of step S 403 performed by the global parallax compensation information setting unit 206.
  • block division is designated in units of macroblocks, and global disparity information is obtained and encoded in units of blocks created by the block division.
  • a global disparity information candidate tGDispInfo is generated from local disparity information based on epipolar geometric constraints, which is one element of the local disparity compensation information LDi splnfo set by the local disparity compensation information setting unit 205 [step S 601].
  • This process assumes that the local disparity information is global disparity information, the viewpoint given the local disparity information is the reference viewpoint, and the reference viewpoint is the encoding target viewpoint. This is done by applying the process (Fig. 9). When processing is performed in this way, the one corresponding to the base disparity information becomes a global disparity information candidate. This process is performed for each image on the image memory 202, and the global disparity information candidate for each image is represented as tGDispInfo [cam] using the image index cam.
  • Example 2 using tGDispInfo obtained in this way, block division information is set for each macroblock, and global disparity information is set for each block.
  • step S602 After initializing macroblock index MBBlk to 0 [step S602], adding 1 to MBBlk [step S613], until MBBlk reaches the maximum number of macroblocks maxM BBlk [step S614], all Processing for obtaining the best block division and global disparity information among the block divisions [steps S603 to S612] is performed.
  • step S615 the obtained block division information BLKMode and global disparity information GDispInfo are encoded by the block division information encoding unit 2062 and the global disparity information encoding unit 2064, respectively [step S615].
  • the partition is evaluated for each block partition candidate, and the best block partition is the best block partition. Do things.
  • block harm iJblkMode is initialized to 0, and the best evaluation value bestValue for the macroblock can never be obtained! /, And the worst evaluation value wValue is initialized [Step S603], then blkMode is set to 1. Shinaka et al.
  • Step S611 until the blkMode force 3 ⁇ 4 naxBlkMode is reached [Step S612], obtain the evaluation value value for the block detriment ijblkMode [Steps S604 to S608], ], Value is stored in bestValue, blkMode is stored in BLKMode [MBBlk], and the global disparity information tmpGDispInfo obtained at that time is stored in GDispInfo [MBBlk] [Step S610].
  • the evaluation value value for block harm IjblkMode is obtained by summing the rate distortion costs of visual compensation in each divided block.
  • Step S604 After initializing the block index blk to 0 and value to the evaluation value InitValue [blkMode] based on the block division power 3 ⁇ 4lkMode [step S604], 1 is set to blk, Add the rate distortion cost WkCost for block blk to value and store the global disparity information gDispInfo at that time in tmpGDispInfo [blk] [step S607], until blk reaches maxBlk [blkMode] [step S608] The process of obtaining gDispInfo from tGDispInfo [Step S605] and obtaining blkCost at that time [Step S606] is repeated.
  • InitValue [blkMode] is a predetermined value that depends on the amount of code required to encode the information for indicating that the block dividing power is lklk.
  • the average value of tGDispInfo in block blk is obtained and used as gDispInfo.
  • the method of calculating the rate distortion cost between the two and selecting the better one and the method of calculating the rate distortion cost for all the surrounding values and selecting the best one can be considered. Can be easily applied as a modification of the present embodiment, and the description thereof is omitted.
  • the rate distortion cost blk Cost when the global disparity information for the block blk is gDispInfo can be obtained using the same expression as that used in the processing of step S105 (Fig. 7) in the first embodiment.
  • evaluation may be performed using the following formula.
  • FIG. 18 shows a detailed flow of the process of step S 406 performed by the parallax compensation information setting unit 208.
  • block division is determined for each macroblock, and disparity compensation information including a reference viewpoint index, corrected disparity information, and a correction vector is obtained for each block.
  • disparity compensation information including a reference viewpoint index, corrected disparity information, and a correction vector is obtained for each block.
  • the difference from the first embodiment is that, using the local disparity information notified from the local disparity information setting unit 2053 in the local disparity compensation information setting unit 205, block division, reference viewpoint The point is that the correction vector is obtained after determining the ndettas and the corrected parallax information.
  • a corrected difference information candidate tEDispInfo is generated by taking a difference between the local disparity information and the base disparity information [step S701].
  • Step S702 After initializing the macroblock index MBBlk to 0 [Step S702], adding 1 to M BBlk [Step S710], until MBBlk reaches the maximum number of macroblocks contained in the image [Step S711], Block harm iJeBLKMode [MBBlk] is determined [Step S703], and processing for obtaining disparity compensation information EDispInfo [Steps S704 to S709] is repeated.
  • step S703 the block division is determined to have the smallest number of blocks among the block divisions in which tEDispInfo for all the pixels included in the block has the same value.
  • each block is determined to have the largest block size. If it still cannot be determined, it is determined to be an arbitrary block division that satisfies the conditions.
  • the block with the largest number of blocks and the smallest block size is determined.
  • the best parallax compensation information is obtained for each block according to the block division e BLKMode [MBBlk] determined for the macroblock.
  • the corrected parallax information md is obtained from tEDispInfo
  • the reference viewpoint index ref is obtained from the primary viewpoint index notified from the reference viewpoint index setting unit 2052 in the local parallax compensation information setting unit 205 [step S705]
  • the block is used to block it.
  • the disparity compensation information corresponding to the set of ⁇ md, ref, cmv ⁇ is obtained and stored in EDispInfo [MBBlk] [blk] Repeat [Step S707].
  • the rate distortion cost for the block used in the process of step S706 can be calculated using an expression similar to the expression used when determining the cost in the process of step S306 (FIG. 10) of the first embodiment.
  • the corrected disparity information is determined to be the one that appears most frequently in the tED isplnfo corresponding to the pixels in the block, and the reference viewpoint index has the same value for the determined corrected disparity information and tEDispInfo.
  • the primary viewpoint index corresponding to the pixels in the block is determined. Here, you can use the average value of the values in the force block that have been determined to appear the most frequently!
  • the disparity compensation information setting unit 208 of the second embodiment using the information notified from the local disparity compensation information misdetermining unit 205, the block distortion, the corrected disparity information, and the reference viewpoint index are converted into a rate distortion cost. However, as with the parallax compensation information setting unit 107 of the first embodiment, they may be determined in consideration of the rate distortion cost.
  • Example 1 it is possible to consider a method of determining only part of the block division, corrected disparity information, and reference viewpoint index in consideration of the rate distortion cost.
  • Examples 1 and 2 Since it can be easily applied as a modified example in which is partially fused, description thereof will be omitted.
  • Example 1 and Example 2 the reference viewpoint image block division setting unit 1051 or 2061 inside the global parallax compensation information setting unit 105 or 206 determines the block division method, and the resulting block division information Is encoded by the block division information encoding unit 1052 or 2062.
  • the block division set by the reference viewpoint image block division setting unit 1051 or 2061 matches the block division when the reference viewpoint image is block-encoded, the block division information is not encoded.
  • the code amount can be reduced by the amount of code for indicating the block division information.
  • the encoding target image is encoded by performing parallax compensation from an image of another viewpoint that has already been encoded, but for each block of the encoding target image, With parallax compensation and motion compensation, select a method with good prediction efficiency and encode Also good. in this case
  • the disparity compensation information for the non-applicable block can be set so that the code amount is minimized, and can be easily applied as a modification of the present embodiment, and thus the description thereof is omitted.
  • the types of block division used in each part of the encoding device need not all be the same.
  • the size of the block division of the reference viewpoint image when obtaining global disparity information compared to the size of other block divisions, the amount of code of the global disparity information is suppressed, and camera parameter errors, etc.
  • the overall parallax information that does not depend on the image is displayed.
  • FIG. 19 shows an example (Example 3) of an embodiment of the video decoding apparatus 300 of the present invention.
  • the video decoding apparatus 300 includes an encoded data input unit 301 that inputs encoded data, a reference viewpoint image input unit 302 that inputs a decoded image of the camera A that is a reference viewpoint, and all images including images of the reference viewpoint.
  • An image memory 30 3 for storing an image that can be a reference target for disparity compensation, and a global disparity compensation information decoding unit that decodes block division information for a reference viewpoint and global disparity information based on epipolar geometric constraints from input encoded data 304, a base disparity information setting unit 305 for setting base disparity information based on epipolar geometric constraints on the viewpoint of the image to be decoded from the global disparity information, and block division information for the image to be decoded from the input encoded data
  • the reference viewpoint index indicating the reference image for parallax compensation and the parallax information are compensated according to epipolar geometric constraints.
  • a disparity compensation information decoding unit 306 that decodes the corrected disparity information to be performed and a correction vector for correcting the corresponding point when performing disparity compensation, and a disparity for generating a disparity compensation image for the viewpoint of the image to be decoded based on the decoded data
  • a compensation image generation unit 307, and an image decoding unit 3008 that decodes an image to be decoded from the input encoded data and the generated parallax compensation image.
  • the image decoding unit 308 may have a memory for storing the decoded image therein.
  • the memory may be used as the image memory 303.
  • FIG. 20 shows a decryption process flow of the present embodiment. This shows the flow when decoding frames of camera B and camera C at the same time one frame at a time. The flow is explained in detail below I will shine.
  • encoded data is input to the encoded data input unit 301 [step S801]. It is also assumed that the decoded image power of the camera A at the same time as the frame included in the encoded data input here is input by the reference viewpoint image input unit 302 and stored in the image memory 303.
  • the encoded data that is input is all the encoded data for one frame that is output from the video encoding device of the first embodiment or the second embodiment.
  • global parallax compensation information decoding section 304 decodes block division information for the reference viewpoint image in the input encoded data, and decodes the global parallax information for each block according to the block division. Then, global difference information decGDispInfo for each pixel with respect to the reference viewpoint image is obtained [step S802].
  • the base disparity information setting unit 305 obtains the base disparity information decBDispInfo for the viewpoint of the camera B from decGDispInfo [step S803L
  • BDispInfo in 9 is decBDispInfo
  • GDispInfo is decGDispInfo
  • the image to be encoded is the image to be decoded.
  • the disparity compensation information decoding unit 306 decodes the block division information for the camera B in the input encoded data, and according to the block division, the reference viewpoint index and the correction The disparity information and the correction vector are decoded, and the reference viewpoint index decRef for each pixel for the camera B, the corrected disparity information decMd, and the correction vector d ecCmv are obtained [step S804].
  • the parallax compensation image generation unit 307 refers to the image in the image memory 303, and the camera
  • camB represents the viewpoint of camera B
  • PIX represents the pixel position of the decoding target image.
  • the image decoding unit 308 decodes the image of camera B from the input encoded data. [Step S806].
  • the decoded image is stored in the image memory 303.
  • steps S803 to S806 are performed on the camera C, whereby the decoded image of the camera C is decoded [steps S807 to S810].
  • the above video encoding and video decoding processes can be realized by hardware or firmware, but can also be realized by a computer and a software program.
  • the program can be stored in a computer-readable recording medium. It can be recorded and provided via a network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

明 細 書
画像符号化方法及び復号方法、それらの装置、画像復号装置、及びそ れらのプログラム並びにプログラムを記録した記憶媒体
技術分野
[0001] 本発明は、多視点画像および多視点動画像の符号化および復号技術に関するも のである。 本願 (ま、 2006年 9月 20曰 ίこ出願された特願 2006— 254023号 ίこ基づ き優先権を主張し、その内容をここに援用する。
背景技術
[0002] 多視点画像とは、複数のカメラで同じ被写体と背景を撮影した複数の画像のことで あり、多視点動画像(多視点映像)とは、その動画像のことである。以下では 1つの力 メラで撮影された動画像を" 2次元動画像"と呼び、同じ被写体と背景を撮影した 2次 元動画像群を多視点動画像と呼ぶ。
[0003] 2次元動画像は、時間方向に関して強い相関があり、その相関を利用することによ つて符号化効率を高めている。一方、多視点画像や多視点動画像では、各カメラが 同期されていた場合、同じ時間に対応した各カメラの映像は全く同じ状態の被写体と 背景を別の位置から撮影したものなので、カメラ間で強い相関がある。多視点画像や 多視点動画像の符号化においては、この相関を利用することによって符号化効率を 高めること力 Sでさる。
[0004] まず、 2次元動画像の符号化技術に関する従来技術を述べる。
[0005] 国際符号化標準である Η. 264、 MPEG— 2、 MPEG— 4をはじめとした従来の多 くの 2次元動画像符号化方式では、動き補償、直交変換、量子化、エントロピー符号 化という技術を利用して、高効率な符号化を行う。動き補償と呼ばれる技術が、フレ ーム間の時間相関を利用する方法である。
[0006] H. 264で使われている動き補償技術の詳細については、下記の非特許文献 1に 記載されているが、以下で概要を説明する。
H. 264の動き補償では、符号化対象フレームを様々なサイズのブロックに分割し、 ブロックごとに、参照フレームと呼ばれる既に符号化済みのフレームを選び、動きべク トルと呼ばれる対応点を示すベクトル情報を用いて、映像を予測する。このときに許さ れるブロック分害 ijは 16 X 16 (ピクセノレ)、 16 X 8、 8 X 16、 8 X 8、 8 X 4、 4 X 8、 4 X 4 の 7種類であり、被写体の動きの向きや大きさの違いに細かい単位で対応して映像を 予測できるようになつている。これによつて、予測画像と原画像の差分で表される符号 化対象の残差が小さくなるため、高い符号化効率を達成している。
[0007] 次に、従来の多視点画像や多視点動画像の符号化方式について説明する。
[0008] 多視点画像の符号化方法と、多視点動画像の符号化方法との違いは、多視点動 画像にはカメラ間の相関に加えて、時間方向の相関が同時に存在するということであ る。しかし、カメラ間の相関を利用する方法はどちらの場合でも、同じ方法を用いるこ とができる。そのため、ここでは多視点動画像の符号化において用いられる方法につ いて説明する。
[0009] 多視点動画像の符号化については、カメラ間の相関を利用するために、動き補償 を同じ時刻の異なるカメラの画像に適用した"視差補償"によって高効率に多視点動 画像を符号化する方式が従来から存在する。ここで、視差とは、異なる位置に配置さ れたカメラの画像平面上で、被写体上の同じ位置が投影される位置の差である。
[0010] このカメラ間で生じる視差の概念図を図 21に示す。
この概念図では、光軸が平行なカメラの画像平面を垂直に見下ろしたものとなって いる。このように、異なるカメラの画像平面上で被写体上の同じ位置が投影される位 置は、一般的に対応点と呼ばれる。
視差補償はこの対応関係に基づいて、符号化対象フレームの各画素値を参照フレ ームから予測して、その予測残差と、対応関係を示す視差情報とを符号化する。
[0011] 多くの手法では、視差を画像平面上でのベクトルとして表現する。例えば、非特許 文献 2では、ブロック単位で視差補償を行う仕組みが含まれている力、ブロック単位 の視差を 2次元ベクトルで、すなわち 2つのパラメータ(X成分および y成分)で表現す る。つまり、この手法では、 2パラメータで構成される視差情報と予測残差を符号化す
[0012] 一方、非特許文献 3では、カメラパラメータを符号化に利用し、ェピポーラ幾何拘束 に基づき視差ベクトルを 1次元の情報として表現することにより、予測情報を効率的に 符号化する。ェピポーラ幾何拘束の概念図を図 22に示す。
ェピポーラ幾何拘束によれば、 2台のカメラ(カメラ Aとカメラ B)において、片方の画 像上の点に対応するもう片方の画像上の点は、ェピポーラ線という直線上に拘束さ れる。非特許文献 3の手法では、ェピポーラ線上での位置を示すために、参照フレー ムを撮影しているカメラから被写体までの距離という 1つのパラメータで全符号化対象 フレームに対する視差を表現している。
非特許文献 1 : ITU-T Rec.H.264/ISO/IEC 11496-10, "Editor's Proposed Draft Tex t Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO/IEC 14496-1 0 AVC), Draft 7", Final Committee Draft, Document JVT-E022, pp. 10-13, and 62 -68, September 2002.
非特許文献 2: Hideaki imata and Masaki itahara, "Preliminary results on multiple view video coding(3DAV)", document M10976 MPEG Redmond Meeting, July, 2004 非特許文献 3: Shinya SHIMIZU, Masaki KITAHARA, azuto AMI URA and Yoshi yuki YASHIMA, "Multi-view Video Coding based on 3_D Warping with Depth Map ,,, In Proceedings of Picture Coding Symposium 2006, SS3-6, April, 2006.
発明の開示
発明が解決しょうとする課題
[0013] 従来の多視点動画像の符号化方法によれば、カメラパラメータが既知である場合、 ェピポーラ幾何拘束を利用して、カメラの台数にかかわらず、参照フレームに対して カメラから被写体までの距離という 1次元情報を符号化するだけで、全符号化対象フ レームに対する視差補償が実現でき、視差情報を効率的に符号化することが可能で ある。
[0014] しかしながら、カメラパラメータを正確に測定するのは困難であるため、カメラパラメ 一タには少なからず誤差が含まれる。その結果、参照フレームに対するェピポーラ幾 何拘束に基づレ、た視差情報を、同じ時刻の全符号化対象フレームを視差補償する 場合に最も効率よくなるように求める場合、求められる視差情報には、全てのカメラの カメラパラメータの誤差が含まれることになる。 そのため、 1つの符号化対象フレームを選んだときの視差補償の予測精度は他の カメラに関する誤差の影響を受けて、その符号化対象フレームと参照フレームの組に 対して求めた視差情報を用いる場合よりも低下してしまう。
[0015] 本発明は係る事情に鑑みてなされたものであって、多視点動画像の符号化におい て、参照フレームの符号化歪みやカメラパラメータの測定誤差が存在する場合にも、 精度の高い視差補償を、少ない視差情報で実現することで、従来よりも高い符号化 効率を達成することを目的とする。
課題を解決するための手段
[0016] 本発明による画像符号化方法の第 1の態様では、多視点画像全体から 1つの基準 視点を選び、基準視点のカメラに対する他の全てのカメラの画像とのェピポーラ幾何 拘束を鑑みた際に、尤もらしい視差情報であるグローバル視差情報を求めて符号化 するステップと、基準視点以外のカメラごとに、グローバル視差情報とカメラパラメータ とから、そのカメラの画像に対する他の全てのカメラの画像とのェピポーラ幾何拘束 を鑑みた際に、尤もらしい視差情報であるベース視差情報を生成するステップと、そ のカメラの画像に対し、視差補償に用いる既に符号化済みの参照視点画像との視差 情報を示すために、ベース視差情報を補正する補正視差情報を求めて符号化する ステップと、ベース視差情報を補正視差情報で補正することで得られる視差情報を 用いて、そのカメラの画像を符号化するステップとを有する。
[0017] これによれば、補正視差情報が、符号化対象の画像に対して、視差補償の際の参 照先の画像 (参照視点画像)のみを鑑みて求められるため、グローバル視差情報に 含まれる全てのカメラパラメータの誤差の影響や参照フレームの符号化歪みの影響 を、カメラごとに取り除くことができ、高い符号化効率を達成することができる。
また、グローバル視差情報が全体で共通するようなおおまかな視差情報を表すの で、ベース視差情報の補正量は少なくて済み、補正視差情報の符号量は少ない。 つまり、符号化対象の画像ごとに視差情報を求めて符号化する場合と比べて、共 通部分にかかる符号量を節約できるので、全体として符号量を削減することができる
[0018] 本発明による画像符号化方法の第 2の態様では、多視点画像全体から 1つの基準 視点を選び、基準視点のカメラに対する他の全てのカメラの画像とのェピポーラ幾何 拘束を鑑みた際に、尤もらしい視差情報であるグローバル視差情報を求めて符号化 するステップと、基準視点以外のカメラごとに、グローバル視差情報とカメラパラメータ とから、そのカメラの画像に対する他の全てのカメラの画像とのェピポーラ幾何拘束 を鑑みた際に、尤もらしい視差情報であるベース視差情報を生成するステップと、そ のカメラの画像に対し、視差補償に用いる既に符号化済みの参照視点画像の最適 な視差補償対応点を示すために、ベース視差情報によって与えられる対応点を補正 する補正視差ベクトルを求めて符号化するステップと、ベース視差情報によって得ら れる対応点を補正視差ベクトルで補正することで視差補償を行レ、ながら、そのカメラ の画像を符号化するステップとを有する。
[0019] これによれば、補正視差ベクトルが、符号化対象の画像に対して、視差補償の際の 参照先の画像 (参照視点画像)のみを鑑みて求められるため、グローバル視差情報 に含まれる全てのカメラパラメータの誤差の影響や参照フレームの符号化歪みの影 響を、カメラごとに取り除くことができ、高い符号化効率を達成することができる。 また、グローバル視差情報が全体で共通するようなおおまかな視差情報を表すの で、ベース視差情報によって与えられる対応関係の補正量は少なく済み、補正視差 ベクトルの符号量は少な!/、。
つまり、符号化対象の画像ごとに視差情報を求めて符号化する場合と比べて、共 通部分にかかる符号量を節約できるので、全体として符号量を削減することができる
[0020] 前記第 1の態様において、ベース視差情報と補正視差情報とから得られる視差情 報によって示される対応点情報(対応点ベクトル)を、さらに補正するために、 2次元 の補正ベクトルを求めて、符号化するステップを有する。
[0021] これによれば、符号化対象画像を撮影するカメラのカメラパラメータの誤差やカメラ のレンズ歪みによるェピポーラ幾何拘束に従った表現では補正できない微小な対応 点の不一致を補正できるため、視差補償の予測効率が向上し、高い符号化効率の 達成が可能である。
従来の 2次元のベクトルだけで補正を行う方式と異なり、幾何拘束による誤差が補 正視差情報で取り除かれているため、補正に必要なベクトルは非常に小さくなり、より 少な!/、符号量で精度の高!、予測を実現することができる。
[0022] 上記各態様に関し、基準視点のカメラの画像に対する領域分割を設定するステツ プと、その領域分割を示す情報を符号化するステップとを有し、設定された領域分割 ごとにグローバル視差情報を設定して符号化するようにしても良い。
[0023] これによれば、画像に映っている被写体によって変化する視差情報を正確に表す ことができるため、グローバル視差情報の精度が向上することで、ベース視差情報を 補正するための情報に必要な符号量を削減でき、高!/、符号化効率の達成が可能で ある。
[0024] ここで、基準視点の画像が、画像全体を領域分割されて、領域ごとに処理を加えて 符号化されている場合には、その基準視点の画像を符号化するための領域分割と、 グローバル視差情報を設定する単位を表す領域分割とを一致させることで、基準視 点のカメラの画像の領域分割を示す情報を新たに符号化しないことも可能である。
[0025] また、映像自体と視差情報とでは性質が全く同じではないため、同じ映像の性質を 持つ領域と同じ視差情報の性質を持つ領域が一致しない場合、基準視点の画像を 符号化するための領域分割と完全に一致させずに、少しだけ領域分割を変更したほ うがよい場合がある。
その場合、領域分割の違いのみを符号化することで、符号量を削減することが可能 である。
[0026] また、符号化対象視点のカメラの画像に対する領域分割を設定するステップと、そ の領域分割を示す情報を符号化するステップとを有し、設定された領域分割ごとに 補正視差情報や、補正視差ベクトルや、補正ベクトルを設定して符号化するようにし ても良い。
[0027] これによれば、画像に映っている被写体によって変化する視差補償に用いる対応 点の情報を正確に表すことができるため、視差補償時の映像予測精度が向上し、高 V、符号化効率の達成が可能である。
[0028] ここで、符号化対象視点の画像が、画像全体を領域分割されて、領域ごとに処理を 加えて、この領域分割情報と共に符号化される場合には、その画像を符号化するた めの領域分割と、視差情報を設定する単位を表す領域分割を一致させることで、視 差情報を設定する単位を表す領域分割を示す情報を符号化しないことが可能である
[0029] また、映像自体と視差情報とでは性質が全く同じではないため、同じ映像の性質を 持つ領域と同じ視差情報の性質を持つ領域が一致しない場合、画像を符号化する ための領域分割と、視差情報を設定する単位を表す領域分割とを完全に一致させず に、少しだけ領域分割を変更したほうがよい場合がある。その場合、領域分割の違い のみを符号化することで、符号量を削減することが可能である。
[0030] また、上記各態様に関し、視差補償時に参照するカメラを設定するステップと、その カメラを示すインデックスを符号化するステップとを有し、符号化対象の画像ごとに求 める補正視差情報や補正視差ベクトルや補正ベクトルを、上記インデックスで示され るカメラの符号化済みの画像を用いて視差補償する際に最適となるように求めるよう にしても良い。
[0031] これによれば、基準視点のカメラだけでなぐ符号化対象の画像のカメラに近いカメ ラの映像を参照画像とすることができるため、ォクルージョンなどの影響で対応点の 取れない部分が少なぐ正確な予測が可能になる。つまり、符号化する視差補償残 差を減らし、効率的な符号化を実現することができる。
また、本発明におけるグローバル視差情報やベース視差情報は、参照対象によら なレヽ情報であるため、どの参照対象を用いても補正視差情報や補正ベクトルの符号 量は少なく抑えることができる。
[0032] また、符号化対象画像に対して視差情報を求める際に、領域分割が設定されて!/、 る場合、その領域ごとに最適な参照先を選択できるようにすることで、より正確な予測 が可能となり、効率的な符号化を実現できる。
[0033] また、上記各態様に関し、グローバル視差情報を求める前に、各カメラの画像に対 する視差情報であるローカル視差情報をェピポーラ幾何拘束に基づいて求めるステ ップと、その各カメラに対して求められたローカル視差情報とカメラパラメータを用い て、前記グローバル視差情報の候補を生成するステップとを有し、グローバル視差情 報を求めるステップでは、同じ領域に対して得られたグローバル視差情報候補の平 均値を、その領域のグローバル視差情報と設定するようにしても良い。
[0034] これによれば、視差補償時に各カメラで用いる最適な視差情報となるはずのロー力 ル視差情報を最初に計算し、それらを用いてグローバル視差情報を生成することに なる。
そのため、後続の処理で補正すべき視差情報を極力少なくするようなグローバル視 差情報を求めることができる。つまり、無駄な情報を符号化することがなくなり、効率 的な符号化を実現できる。
[0035] なお、グローバル視差情報候補からグローバル視差情報を決定する際に、平均値 の代わりに、領域内で最も多く現れているグローバル視差情報候補に決定することで 、後続の処理で補正すべき視差情報を少なくすることもできる。
[0036] さらに、ローカル視差情報とベース視差情報との差から、差分視差情報を設定する ステップを有し、符号化対象視点のカメラの画像に対する領域分割を設定するステツ プにおいて、この差分視差情報が領域内でほぼ同じになるような最大の領域分割を 設定し、補正視差情報を求めるステップでは、領域内の差分視差情報から補正視差 十青幸を設定するようにすることあできる。
[0037] このようにすれば、グローバル視差情報と補正視差情報とを一度の演算で求めるこ とができるため、それらを個々に求める場合(大量の演算が必要)と比べ、演算量の 削減を実現することができる。
[0038] また、領域分割の種類が限られて!/、る場合などでは、領域分割ごとに差分視差情 報の分散を求めて、その分散の値を基準に領域分割を選ぶことで、領域分割を決め る演算も高速に行うことが可能となる。
[0039] また、上記各態様に関し、ベース視差情報を設定するステップや、グローバル視差 情報候補を設置するステップにおいて、変換前の視差情報が与えられた画像におけ る連続性を用いて、変換後の画像上で視差情報が連続的に設定できるようにするこ ともできる。
[0040] 例えば、変換前で隣接する画素に対する視差情報がほぼ同じであるにもかかわら ず、変換後では隣接しない画素に対して視差情報を設定するような場合に、その間 に存在する画素に対する視差情報を、その両者の変換後の視差情報力 補間して 生成する。
[0041] このようにすれば、ベース視差情報やグローバル視差情報候補が与えられる領域 が多くなり、補正すべき情報を少なくすることが可能となるため、符号量を抑え、高い 符号化効率を達成することができる。
また連続性を隣接関係だけでなぐ三次元的な情報を示すことになる視差情報も用 いてより正確に判断することができるため、誤ったベース情報やグローバル視差情報 候補を生成して、逆に補正すべき情報を増加させることを防ぐことができる。
[0042] 以上の本発明による画像(映像を含む)符号化、および対応する画像復号では、各 種の視差情報や視差情報を補正する情報や領域分割情報を、空間的変化もしくは 時間的変化を鑑みて符号化することもできる。
[0043] 各種の視差情報や視差情報を補正する情報や領域分割情報は、映って!/、る映像 に依存した情報であるため、画像内の相関や時間的な相関が非常に高い。
そのため、これによれば、各種の視差情報や視差情報を補正する情報や領域分割 情報の冗長性を取り除いて符号化することができるため、その符号量を少なくし、高
V、符号化効率を達成することができる。
[0044] また、基準視点の符号化済み画像を縮小するステップを有し、グローバル視差情 報を求める際に、生成した縮小画像に対して基準視点のカメラ力 被写体までの距 離を求めるようにする実施も可能である。
[0045] このようにすれば、画像を縮小して映像の細かい情報を削除することで、カメラパラ メータ誤差などによって生じる視差情報の誤差や細かい変化を取り除くことができる。 このような性質を持つグローバル視差情報によると、カメラパラメータの誤差等に左右 されない大まかなカメラ間の対応関係が得られる。
そのため、カメラ毎に符号化する補正視差情報や補正ベクトルで重複して修正しな ければならない誤差情報を減らし、全体としての符号化効率を向上させることが可能 となる。また、縮小画像を用いることにより、視差情報を求める際に演算対象となる画 素が減るため、演算量を削減することも可能となる。
[0046] なお、多視点動画像を符号化 (復号)する場合、各時刻のフレーム集合を多視点画 像とみなして、本発明の画像符号化方法(画像復号方法)を適用することができる。 さらに、多視点動画像では本発明の方法で画像全体を符号化するのではなぐ時 間方向の相関を利用した動き補償など他の手法などを符号化処理対象ごとに選択し て符号化することで、符号化効率を高めることもできる。
発明の効果
[0047] 本発明によれば、視差補償を行うための情報の大幅な増加を防ぎながら、カメラパ ラメータの推定誤差の影響を考慮した予測精度の高い視差補償を実現することで、 多視点画像全体や多視点動画像全体としての高効率な符号化を実現することがで きる。
図面の簡単な説明
[0048] [図 1]本発明において定義した視差補償に用いる各情報のイメージ図である。
[図 2]実施例におけるカメラ構成例の概念図である。
[図 3]本発明の実施例 1の映像符号化装置を示す図である。
[図 4]図 3のグローバル視差補償情報設定部の詳細を示す図である。
[図 5]図 3の視差補償情報設定部の詳細を示す図である。
[図 6]実施例 1における映像符号化フローチャートである。
[図 7]図 6のステップ S2の処理に関する詳細フローチャートである。
[図 8]マクロブロックにおけるブロック分割の一例を示す図である。
[図 9]図 6のステップ S4の処理に関する詳細フローチャートである。
[図 10]図 6のステップ S5の処理に関する詳細フローチャートである。
[図 11]本発明の実施例 2の映像符号化装置を示す図である。
[図 12]図 11のローカル視差補償情報設定部の詳細を示す図である。
[図 13]図 11のグローバル視差補償情報設定部の詳細を示す図である。
[図 14]図 11の視差補償情報設定部の詳細を示す図である。
[図 15]実施例 2における映像符号化フローチャートである。
[図 16]図 15のステップ S402の処理に関する詳細フローチャートである。
[図 17]図 15のステップ S403の処理に関する詳細フローチャートである。
[図 18]図 15のステップ S406の処理に関する詳細フローチャートである。
[図 19]本発明の実施例 3の映像復号装置を示す図である。 [図 20]実施例 3における映像復号フローチャートである。 園 21]カメラ間で生じる視差の概念図である。
[図 22]ェピポ' —ラ幾何拘束の概念図である。
符号の説明
100、 200 映像符号化装置
皿、 201 画像入力部
102、 202 画像メモリ
103、 203 基準視点画像入力部
104、 204 基準視点画像メモリ
105、 206 グロ一バル視差補償情報設定部
106、 207 ベース視差情報設定部
107、 208 視差補償情報設定部
108、 209 画像符号化部
109、 210 復号画像メモリ
205 ロー 'カル視差補償情報設定部
1051 基準視点画像ブロック分割設定部
1052 ブロック分割情報符号化部
1053 グロ一.バル視差情報推定部
1054 グロ一.バル視差情報符号化部
1071、 2081 符号化対象画像ブロック分割設定部
1072、 2082 ブロック分割情報符号化部
1073、 2085 参照視点インデックス設定部
1074、 2086 視点インデックス符号化部
1075、 2083 補正視差情報設定部
1076、 2084 補正視差情報符号化部
1077、 2087 補正ベクトル設定部
1078、 2088 補正ベクトル符号化部
1079、 2089 視差補償効率評価部 2051 ローカル視差情報ブロック分割設定部
2052 参照視点インデックス設定部
2053 ローカル視差情報設定部
2054 視差補償効率評価部
2061 基準視点画像ブロック分割設定部
2062 ブロック分割情報符号化部
2063 グローバル視差情報推定部
2064 グローバル視差情報符号化部
300 映像復号装置
301 符号化データ入力部
302 基準視点画像入力部
303 画像メモリ
304 グローバル視差補償情報復号部
305 ベース視差情報設定部
306 視差補償情報復号部
307 視差補償画像生成部
308 画像復号部
発明を実施するための最良の形態
本発明が従来技術と最も異なる点は、 1つの基準視点を設定し、その基準視点の 符号化済み画像に対して、同時刻の他の全ての符号化対象画像を視差補償するた めにェピポーラ幾何拘束に従ったグローバル視差情報を求め、このグローバル視差 情報を各符号化対象画像に対するェピポーラ幾何拘束に従ったベース視差情報へ 変換し、各符号化対象画像の性質や、カメラパラメータ誤差に応じて、そのベース視 差情報を補正するための視差情報を、符号化対象画像ごとに符号化する点である。 このェピポーラ幾何拘束に従った視差情報は、その画像の視点から被写体までの 距離や、ェピポーラ直線上の基準点からの距離や、それらの距離に対応付けられた インデックス値で表すことができる。
なお、以下で、視差情報と述べた場合、これらのェピポーラ幾何拘束に基づいた視 差情報を指すこととする。本発明で用いるグローバル視差情報とベース視差情報の 概念について説明する。
[0051] 〔グローバル視差情報〕
グローバル視差情報は、基準視点の画像に対して与えられる視差情報のことである
。以下では、領域毎に視差情報が与えられるとして説明する。
[0052] ある領域 Aが視差情報 dを持つとすると、同時刻に撮影された他の視点(i= 1、 2、 3 、 ' · ·、Ν)の画像に対する対応領域 R (d、 i)がェピボーラ幾何拘束に従って得られる
A
。このとき、各対応領域間の画像の相違度を差分絶対値和や差分二乗和や差分の 分散などや複数の基準の重み付和などで評価することができる。
[0053] この相違度を {A、 R (d、 i)
A I i= l、 2、 · · ·、 N}の全ての組合せに対して合計したも のを、領域 Aにおける視差情報 dの評価値と呼ぶとすると、最も小さな評価値を与え る視差情報をグローバル視差情報 Dと呼ぶ。
また、誤差の影響を減少させるために、実空間における物体の連続性を仮定して 視差情報 dに対して補正項を追加して評価値を算出する場合もある。
[0054] 上記対応領域を求めるためにェピポーラ幾何拘束を利用する際に、カメラパラメ一 タゃ計算に誤差が生じるため、特定の視点 i = kを考えた際に、符号化時の符号量 R ate (A、 d、 k)を最小化させる視差情報 dは、グローバル視差情報 Dでない場合があ
[0055] したがって、グローバル視差情報 Dは、その領域、およびその領域に対する他の全 ての視点の画像における対応領域間で、類似度が最も高くなるような視差情報となる 。概念的に述べるならば、その領域におけるカメラから被写体までのおよその距離と 、精度の粗い距離を示すと言える。
[0056] 〔ベース視差情報〕
ベース視差情報が指すものは、グローバル視差情報と同じものである。ただ、その 基準となる視点が、グローバル視差情報の場合は基準視点であり、ベース視差情報 が基準視点以外の視点であるという点だけが異なる。
[0057] なお、対応している領城におけるグローバル視差情報とベース視差情報は、同じ 3 次元位置を表す情報となるが、一般に、視差情報はカメラから被写体までの距離で 表されるため、視点が変わることによって、視差情報の具体的な値は異なるものとな
[0058] 図 1は、本発明において定義した視差補償に用いる各情報のイメージ図である。
本発明の画像符号化方法では、符号化対象の多視点画像の中から、 1つの基準 視点を選んで符号化する。そして、基準視点以外の視点の画像を符号化する際に、 既に符号化済みの他の視点の画像から映像予測をして符号化を行う。
この映像予測をするために用いる符号化済みの他の視点の画像を、参照視点画像 と呼ぶ。この参照視点画像は、基準視点の画像と同じであっても、異なっていてもよ い。図 1では、一般的な場合を示すために、異なる視点の画像であるように示してい
[0059] まず、上記で説明したグローバル視差情報力 基準視点の画像に対して与えられ る。グローバル視差情報によって与えられる被写体の 3次元位置は、符号化対象視 点から見ればベース視差情報となる。そして、符号化対象画像上の画素に対して、 参照視点画像だけを考えた際に、対応画素間の類似度が最も高くなる視差情報 (こ れをローカル視差情報と呼ぶ)を求め、その視差情報とベース視差情報の差分を補 正視差情報と呼ぶ。
[0060] この符号化対象画像上の画素に対する視差情報はェピポーラ幾何拘束に従うため 、図 22に示したとおり、どのような視差情報を与えたとしても、参照視点画像上の対 応領域は、参照視点画像上で直線上に拘束されてしまい、与えられたカメラパラメ一 タの誤差があると、その直線上に真の対応点が存在しなレ、。
そこで、ローカル視差情報によって与えられた対応点から真の対応点までのベタト ルを補正ベクトルと呼ぷ。
[0061] グローバル視差情報(およびそれを変換したベース視差情報)だけでなぐこのよう にして符号化対象画像上のある画素に対して、補正視差情報と補正ベクトルを与え て求められた参照視点画像上の対応点の画像情報を用いて、その画素の映像を予 測する。
[0062] なお、この図 1では表されていないが、グローバル視差情報は多視点画像(多視点 動画像の表示時刻が同じ画像群)に対して 1画像分を符号化し、補正視差情報と補 正ベクトルは、基準視点を除く各視点に対して、 1画像分ずつ符号化される。また、ベ ース視差情報はグローバル視差情報から求められらるものであって、符号化されるも のではない。
[0063] 以下、実施の形態に従って本発明を詳細に説明する。
ここで、以下に説明する実施の形態の例では、 3つのカメラで撮影された多視点動 画像を符号化する場合を想定し、カメラ Aの基準視点としてカメラ Bとカメラ Cの画像 を符号化する方法について説明を行う。
図 2に、本実施の形態の例で使用するカメラ構成の概念図を示す。なお、図中の四 角型の図形は各カメラのフレームを表し、カメラ Bとカメラ Cの画像が図中の番号の順 に入力されるものとして説明を行う。
[0064] まず、第 1の実施例(以下、実施例 1)について説明する。本発明の実施例 1に係る 映像符号化装置の構成図を、図 3、図 4、図 5に示す。
図 3に示すように、実施例 1の映像符号化装置 100は、符号化対象となるカメラ Bと カメラ Cの原画像を入力する画像入力部 101と、入力された画像を格納する画像メモ リ 102と、基準視点であるカメラ Aの復号画像を入力する基準視点画像入力部 103と 、入力された基準視点の復号画像を格納する基準視点画像メモリ 104と、基準視点 に対するェピポーラ幾何拘束に基づく視差情報であるグローバル視差情報を設定す るグローバル視差補償情報設定部 105と、グローバル視差情報から符号化対象画 像の視点に対するェピポーラ幾何拘束に基づく視差情報であるベース視差情報を 設定するベース視差情報設定部 106と、符号化対象画像を視差補償するための情 報を設定する視差補償情報設定部 107と、入力画像を実際に予測符号化する画像 符号化部 108と、符号化した入力画像を復号した画像を格納する復号画像メモリ 10 9とを備える。
[0065] 図 4は、グローバル視差補償情報設定部 105の構成の詳細を示す図である。
この図に示すように、グローバル視差補償情報設定部 105は、基準視点の画像に 対するブロック分割を設定する基準視点画像ブロック分割設定部; L051と、決定した ブロック分割情報を符号化するブロック分割情報符号化部 1052と、入力された画像 群から、ブロック毎にグローバル視差情報を推定するグローバル視差情報推定部 10 53と、求められたグローバル視差情報を符号化するグローバル視差情報符号化部 1 054とを備える。
[0066] ここで、グローバル視差情報推定部 1053によって求められたグローバル視差情報 は、ベース視差情報設定部 106に通知されることになる。
また、ブロック分割情報符号化部 1052と、グローバル視差情報符号化部 1054とが 出力する符号化データは、本映像符号化装置 100の出力の一部を構成する。
[0067] 図 5は、視差補償情報設定部 107の構成の詳細を示す図である。
この図に示すように、視差補償情報設定部 107は、符号化対象画像に対するプロ ック分割を設定する符号化対象画像ブロック分割設定部 1071と、決定したブロック 分割情報を符号化するブロック分割情報符号化部 1072と、視差補償を行う際に参 照画像として用いる画像の視点を示す視点インデックスを設定する参照視点インデッ タス設定部 1073と、決定した視点インデックスを符号化する視点インデックス符号化 部 1074と、ベース視差情報をェピポーラ幾何拘束に基づいて補正するための情報 である補正視差情報を設定する補正視差情報設定部 1075と、決定した補正視差情 報を符号化する補正視差情報符号化部 1076と、ベース視差情報と補正視差情報 によって与えられる対応関係をェピポーラ幾何拘束とは関係なく補正するための補 正ベクトルを設定する補正ベクトル設定部 1077と、決定した補正ベクトルを符号化 する補正ベクトル符号化部 1078と、各部によって設定される視差補償のための情報 で視差補償を行ったときの予測効率を評価する視差補償効率評価部 1079とを備え
[0068] ここで、視差補償効率評価部 1079によって、最も視差補償効率がよいと判断され たときの視差補償画像は、画像符号化部 108に通知されることになる。
また、ブロック分割情報符号化部 1072と、視点インデックス符号化部 1074と、補正 視差情報符号化部 1076と、補正ベクトル符号化部 1078とが出力する符号化データ は、本映像符号化装置 100の出力の一部を構成する。
[0069] 図 6〜図 10に、このように構成される映像符号化装置 100の実行する処理フローを 示す。これらの処理フローに従って、実施例 1の映像符号化装置 100が実行する処 理について詳細に説明する。 [0070] 図 6は、実施例 1の映像符号化装置 100で行われる、符号化処理全体の概要を示 している。また、このフローでは、カメラ Bとカメラ Cで同時刻に撮影された 1枚ずつの 画像を符号化する処理を説明する。
[0071] まず、画像入力部 101により、同時刻に撮影されたカメラ Bとカメラ Cの画像が 1枚 ずつ入力され、画像メモリ 102に格納される [ステップ Sl]。なお、ここで入力された 画像と同時刻に撮影されたカメラ Aの復号画像が、基準視点画像入力部 103によつ て入力され、基準視点画像メモリ 104に格納されているものとする。
[0072] 次に、グローバル視差補償情報設定部 105において、画像メモリ 102と基準視点 画像メモリ 104上の画像から、基準視点画像におけるェピポーラ幾何拘束を満たす グローバル視差情報を求め、それを符号化する [ステップ S2]。ここで行われる処理 の詳細は、後で図 7を用いて説明する。
[0073] 以降のステップ S4〜S7の処理は、画像メモリ 102上の画像ごとに行われる。ここで は、カメラ Bの画像をカメラ Cの画像に先立って符号化するとして説明を行う。
つまり、画像メモリ 102からカメラ Bの画像を取り出して符号化対象画像に設定し [ス テツプ S3]、ステップ S2の処理で求めたグローバル視差情報を、ベース視差情報設 定部 106で符号化対象画像に対するェピポーラ幾何拘束に従ったベース視差情報 に変換し [ステップ S4]、そのベース視差情報をもとに符号化効率を鑑みて、その他 の視差補償情報であるところの参照視点インデックス、補正視差情報、補正べクトノレ 等を求めて符号化し [ステップ S5]、それらの求められた視差補償情報を用いながら 、符号化対象画像を画像符号化部 108で符号化する [ステップ S6]。
符号化した画像は復号され、復号画像メモリ 109に格納される [ステップ S 7]。そし て、符号化した画像がカメラ Bの画像なら [ステップ S8]、次に、カメラ Cの画像を画像 メモリ 102から取り出して、同様の手順 [ステップ S4〜S7]で符号化を行い、全ての 処理を終了する。ステップ S4、ステップ S5で行う処理は、後で詳細に説明する。
[0074] 図 7に、グローバル視差補償情報設定部 105で行われるステップ S2の処理の詳細 な処理フローを示す。
[0075] 本実施例 1では、縦横 16画素で構成されるマクロブロック単位でブロック分割を指 定し、そのブロック分割で作成されるマクロブロック内のブロック(便宜上、以下では単 に"ブロック"と呼ぶ)単位でグローバル視差情報を求めて符号化する。もちろん、マク ロブロックより大きなサイズのブロックを用いてもょレ、。
[0076] マクロブロックで適用可能なブロック分割としては様々なものが考えられるが、例え ば、図 8に示すようなものが考えられる。なお、図 8に記載のように、ブロック分割の種 類に関するインデックスを WkModeとし、ブロック分害 iJblkModeにおけるブロック数を maxBlk[blkmode]と表す。ブロック分割の種類の数は maxBlkModeで表す。
[0077] また、マクロブロックのインデックスを MBBlkと表し、マクロブロック数を maxMBBlk と表す。
したがって、ここでの処理は、マクロブロックのインデックス MBBlkを 0に初期化した 後 [ステップ S 101]、 MBBlkに 1を加算しながら [ステップ S116]、 MBBlkが maxM BBlkになるまで [ステップ S 117]、以下の処理 [ステップ S 102〜S 115]を繰り返す。 その後、求まったブロック分割情報 BLKModeとグローバル視差情報 GDispInfoを 、それぞれブロック分割情報符号化部 1052と、グローバル視差情報符号化部 1054 で符号化する [ステップ S 118]。
[0078] マクロブロック毎に繰り返される処理では、ブロック分割候補ごとに、その分割を評 価し、最も評価の良いものをそのマクロブロックのブロック分割に設定するということを 行う。
つまり、ブロック分害 iJblkModeを 0に、そのマクロブロックでの評価値の最良値 bVal ueを絶対に取り得ない最悪の評価値 wValueに初期化した後 [ステップ S102]、blk Modeに 1を加算しながら [ステップ SI 14]、 blkModeが maxBlkModeになるまで [ ステップ S 115]、ブロック分害 iJblkModeに対する評価値 valueを求め [ステップ S 10 3〜S 111]、 valueと bValueとを比較することで最良の評価値を与えるブロック分割 を求め [ステップ S 112]、そのマクロブロックの分割を BLKMode [MBBlk]に、グロ 一バル視差情報を GDispInf o [MBBlk]に格納する [ステップ S 113]と!/、う処理を繰 り返す。
[0079] ブロック分害 iJblkModeに対する評価値 valueは、分割された各ブロックにおける視 差補償のレート歪みコストを合計することで求められる。
すなわち、分割されたブロックのインデックスを blkで表すとすると、 blkを 0に初期化 し、 valueを、ブロック分割力 ¾lkModeであることによる評価値 InitValue [blkMode] に初期化した後 [ステップ S 103]、 blkに 1を加え、 valueにブロック毎の最良レート歪 みコスト bestBlkCostを加え、各ブロックの最良レート歪みコストを与えるグローバル 視差情報を tempGDispInfo [blk]に格納しながら [ステップ S 110]、 blkが maxBlk [blkMode]になるまで [ステップ S 111]、各ブロックで最良レート歪みコストを与える グローバル視差情報を求める処理 [ステップ S 104〜S 109]を繰り返す。
なお、 InitValue [blkMode]は、ブロック分割力 ¾lkModeであることを示すための 情報を符号化するために必要な符号量に依存した値が予め定められているものとす
^ o
[0080] ブロックに対して、最良レート歪みコストを与えるグローバル視差情報を求める処理 では、グローバル視差情報候補のインデックス gDispInfoの最大値を maxGDispInf oと表すとすると、 gDispInfoを 0に、そのブロックでのレート歪みコストの最良値 best BlkCostを絶対に取り得ない最悪の値 wBlkCostに初期化した後 [ステップ S 104]、 gDispInfoに 1を加算しながら [ステップ S 108]、 gDispInfoが maxGDispInfoを超 えるまで [ステップ S 109]、グローバル視差情報 gDispInfoに対するレート歪みコスト WkCostを求め [ステップ S 105]、 blkCostと bestBlkCostとを比較することで、最良 のレート歪みコストを与えるグローバル視差情報を求め [ステップ S 106]、そのグロ一 バル視差情報を bestGDispInfoに保存する [ステップ S 107]という処理を繰り返す。
[0081] なお、グローバル視差情報 gDispInfoに対するレート歪みコスト blkCostは、以下 の式に従って求められる。
[0082] [数 1] blkCost - Dj + λ - Rate{
Figure imgf000021_0001
Value cam. Trans pose, c mtpix, rf {gDispInfo
[0083] ここで、 λ はラグランジュの未定乗数であり、予め設定された値が利用される。 Rat
1
e ()は引数で与えられるグローバル視差情報を符号化するのに必要な符号 量またはその予測値を返す関数を表す。
[0084] ∑ は、 cam e {カメラ B、カメラ C }の和を表し、∑ は、 pix E {ブロック内の画素 } の和を表す。
d
base 0は引数として与えられるグローバル視差情報インデックスの示す基準視点か ら被写体までの距離を返す関数を表す。
Value ()は第一引数として与えられる視点における画像上の、第二引数として与え られる画素位置の画素値を返す関数を表し、 Trans (src、 dst、 pix、 d)は、視点 src における画像上の、位置 pixの画素の視点から被写体までの距離力 の場合に、画 素 pixの視点 dstにおける画像上における対応画素 pを返す関数を表している。この p は、以下の式で求められる。
[0085] [数 2]
Figure imgf000022_0001
[0086] ここで A、 R、 tはカメラパラメータであり、それぞれ内部パラメータ、回転パラメータ、 並進パラメータを示す。内部パラメータと回転パラメータは 3 X 3行列であり、 tは 3次 元のベクトノレである。
上記の「〜」が付加された pは、 pの斉次座標を示している。また、「Ίが付加された P kは、 pixの斉次座標のうち、特に第 3成分が 1であるものを表している。
斉次座標は、同次座標とも呼ばれる。 2次元座標に対する斉次座標は 3個の成分を 持つ。この斉次座標の第 3成分の値で、第 1成分および第 2成分の値をそれぞれ除 算した値を、第 1成分および第 2成分として持つ座標が、斉次座標に対する普通の座 標となる。なお、カメラパラメータの表し方は様々であり、本実施例では、上記式によ つてカメラ間の対応点が計算できるようなカメラパラメータであるとする。
[0087] 図 9に、ベース視差情報設定部 106で行われるステップ S4の処理の詳細な処理フ ローを示す。
[0088] ここでの処理は、基準視点から撮影された画像の画素ごとに行われる。
つまり、画素インデックス bpを 0に初期化した後 [ステップ S201]、 bpに 1を加算しな がら [ステップ S213]、 bpが画像内画素数 numPixになるまで [ステップ S214]、以 下の処理 [ステップ S202〜S212]を繰り返す。
また、ベース視差情報全体を BDispInfoと表し、 []を用いて指定された位置のベ ース視差情報を表すものとする。このベース視差情報はフローの最初で絶対に取り 得ない大きな値で初期化される [ステップ S201]。
なお、処理を行う画素の順番はどのような順番でも問題ないが、本実施例 1では、ラ スタースキャン順に処理を行うものとする。
[0089] 画素ごとに繰り返し行われる処理では、まず、画素 bpが含まれるマクロブロック MB
Blkと、グローバル視差情報を設定する際に求められたブロック分割に従った場合の ブロックインデックス blkを求める [ステップ S202]。
次に、画素 bpが符号化対象画像で対応する画素 tpと、そこでのベース視差情報候 補 bDispInfoを、グローバル視差情報 GDispInfo [MBBlk] [blk]から、次の数式を 用いて求める [ステップ S203]。
[0090] 園 t dj p!nfo A
Figure imgf000023_0001
[0091] ここで tarは、符号化対象画像の視点を表し、 d
tar 0は、引数として与えられる視差 情報インデックス(即ち、ベース視差情報候補 bDispInfo)の示す符号化対象画像の 視点から被写体までの距離を返す関数を表す。
即ち、(i)画素 bp (の位置)、(ii)画素 bpにおけるグローバル視差情報が示す基準視 点から被写体までの距離、(iii)基準視点のカメラパラメータ、および、(iv)符号化対象 画像の視点のカメラパラメータから、画素 tp (の位置)および画素 tpにおけるベース 視差情報候補を求める。
ただし、直接得られるのは画素 tp (の位置)と画素 tpにおける符号化対象画像の視 点から被写体までの距離であり、後者が、関数 d の逆関数を用いて、上記の、画素
tar
tpにおけるベース視差情報候補 (bDispInfo)に変換される。
[0092] このようにして求められた bDispInfoは、その位置における既に求められたベース 視差情報 BDispInfo [tp]と、それらが表す符号化対象画像の視点から被写体まで の距離を尺度として比較され [ステップ S204]、 bDispInfoの表す距離のほうが小さ くなレ、場合には、ォクルージョン (カメラで見えて!/、なかった部分)が発生して!/、るとレヽ うことで、その画素に対する処理を終了する。 [0093] bDispInfoの表す距離のほうが小さい場合には、 bDispInfoで BDispInfo[tp]の 値を更新する [ステップ S 205]。
次に、実空間上での物体の連続性を用いて、 BDispInfoの更新を行う。つまり、 bp の左もしくは上で隣接する画素の集合 NEIGHBORを生成し [ステップ S206]、 NEI GHBORが空集合になるまで [ステップ S207]、処理の完了した画素を NEIGHBO Rから取り除きながら [ステップ S212]、次の処理 [ステップ S208〜S211]を繰り返 す。
[0094] NEIGHBORの要素ごとに行われる処理では、まず、 NEIGHBORの 1要素を nbp としたとき、 nbpにおけるグローバル視差情報を GDispInfoより求め、 nGDispInfoと する [ステップ S208]。
次に、 nGDispInfoと GDispInfo [MBBlk] [blk]との差分絶対値と予め与えられる 閾値 THとを比較する [ステップ S209L
閾値以上の場合には、実空間上で物体は連続でないということなので、その要素に 対する処理は終了する。
閾値より小さい場合には、上記ステップ S203の処理における式を用いて、画素 nb Pが符号化対象画像で対応する画素 ntpと、そこでのベース視差情報 nbDispInfoを 求める [ステップ S210]。
そして、 tpと ntpとの間に存在する画素のベース視差情報を bDsipInfoと nbDispIn f oを用レ、て補完する [ステップ S 211]。
両端の情報から間の値を補完する方法であれば、どのような方法を用いることもで きるが、最も単純な方法として、両端のベース視差情報から間を線形補完する方法 力 る。なお、計算される補完値に対して、それよりも小さなベース視差情報が既に ある場合には、ォクルージョンが発生しているということで、更新を行わない。
[0095] 本実施例 1では、各画素に関して画素位置とグローバル視差情報から、符号化対 象画像での対応画素とベース視差情報を求める計算が何度も適用されるが、ステツ プ S210の処理の計算は、上記ステップ S203の処理の式を用いて行われるため、ス テツプ S203の処理での結果を格納しておくことができるならば、そのときの値を用い ることで各画素に対して一度の計算だけで全て済み、演算量を節約することが可能 である。
[0096] 図 10に、視差補償情報設定部 107で行われるステップ S5の処理の詳細なフロー を示す。
[0097] 本実施例 1では、マクロブロック毎にブロック分割を決定し、ブロック毎に参照視点ィ ンデッタスと、補正視差情報と、補正ベクトルとを求めて符号化する。本実施例では、 このブロック毎に求める参照視点インデックスと、補正視差情報と、補正ベクトルとを 視差補償情報と呼ぶことにする。なお、あるブロックにおいて視差補償に用いる情報 には、この視差補償情報の他に、ベース視差情報も含まれる。即ち、ここでは、ベー ス視差情報を補正するための情報が視差補償情報である。
したがって、マクロブロックインデックス MBBlkを 0で初期化した後 [ステップ S301] 、 MBBlkに 1を加算しながら [ステップ S316]、 MBBlkが maxMBBlkになるまで [ス テツプ S317]、視差補償情報を加味しながらブロック分割を決定する処理 [ステップ S302〜S315]を繰り返し、求められた視差補償情報を、ブロック分割情報符号化部 1072、視点インデックス符号化部 1074、補正視差情報符号化部 1076、補正べタト ル符号化部 1078で符号化する [ステップ S318]。
[0098] 視差補償情報を加味しながらブロック分割を決定する処理では、ブロック分割情報 WkModeを 0に初期化した後 [ステップ S302]、 blkModeに 1を加算しながら [ステツ プ S314]、 blkMode力 ¾iaxBlkModeになるまで [ステップ S315]、視差補償情報を 加味したマクロブロックのレート歪みコスト MBCostを求め [ステップ S303〜S311]、 それまでの最小コスト bestMBCostと比較して [ステップ S312]、より小さなコストとな るブロック分割を、そのマクロブロックのブロック分害 iJeBLKMode [MBBlk]に決定す る [ステップ S313]と!/ヽぅ処理を繰り返す。
なお bestMBCostは最初に絶対に取り得ない最大値 wMBCostで初期化される [ ステップ S 302]。
[0099] 視差補償情報を加味したマクロブロックのレート歪みコストを求める処理では、プロ ックインデックス blkを 0に初期化した後 [ステップ S303]、blkに 1を加算しながら [ス テツプ S310]、 blkが maxBlk[blkMode]になるまで [ステップ S311]、ブロック毎に 最小のレート歪みコストを与える視差補償情報 bestEDispInfoと、そのときのレート 歪みコスト bestBlkECostを求める処理 [ステップ S304〜S309]を繰り返す。
なお、マクロブロックに対するレート歪みコスト MBCostは、最初に 0で初期化され た後 [ステップ S303]、ブロック毎の処理が終了した際に、ブロックに対する最小レー ト歪みコスト bestBlkECostを加算していくことで計算される [ステップ S310]。
また、ここで決定した視差補償情報は tempEDispInfo [blk]に格納され [ステップ S310]、最終的なマクロブロックのレート歪みコストを鑑みて、最良のものであれば E Displnfo [MBBlk]に格納する [ステップ S313]。
[0100] ブロックの最小レート歪みコストを与える視差情報を求める処理では、参照視点イン デッタスと、補正視差情報と、補正ベクトルの組と対応付けられた視差補償情報イン デッタス eDispInfoを 0で初期化した後 [ステップ S305]、 eDispInfoに 1を加算しな 力 ¾ [ステップ S308]、 eDispInfoが参照視点インデックスと、補正視差情報と、補正 ベクトルの組合せの数 maxEDispInfoになるまで [ステップ S 309]、 eDispInfoに対 応する視差補償情報でのレート歪みコスト blkECostを求め [ステップ S305]、 blkE Costがそれまでの最小レート歪みコスト bestBlkECostよりも小さいならば [ステップ S306]、 bestEDispInfoに eDispInfoを格納し、 bestBlkECostを WkECostで更 新する処理 [ステップ S307]を、繰り返す。
なお、 bestBlkECostは、最初に絶対に取り得ない最大値 wBlkECostで初期化さ れる [ステップ S 304]。
[0101] ステップ S306の処理におけるレート歪みコストの計算には、以下の式が用いられる
[0102] [数 4]
Figure imgf000026_0001
[0103] ここで、 λ 2はラグランジュの未定乗数であり、予め設定された値が利用される。また 、 tarは符号化対象画像の視点を示し、 ref、 md、 cmvはそれぞれ、視差補償情報 e Displnfoで示される参照視点インデックス、補正視差情報、補正ベクトルを示す。
[0104] 次に、第 2の実施例(以下、実施例 2)について説明する。本発明の実施例 2に係る 映像符号化装置の構成図を、図 11、図 12、図 13、図 14に示す。
[0105] 図 11に示すように、実施例 2の映像符号化装置 200は、符号化対象となるカメラ B とカメラ Cの原画像を入力する画像入力部 201と、入力された画像を格納する画像メ モリ 202と、基準視点であるカメラ Aの復号画像を入力する基準視点画像入力部 20 3と、入力された基準視点の復号画像を格納する基準視点画像メモリ 204と、符号化 対象の画像に対するェピポーラ幾何拘束に基づく視差情報であるローカル視差情 報を設定するローカル視差補償情報設定部 205と、各符号化対象の画像に対して 設定されたローカル視差情報から、基準視点に対するェピポーラ幾何拘束に基づく 視差情報であるグローバル視差情報を設定し符号化するグローバル視差補償情報 設定部 206と、グローバル視差情報を変換することで、符号化対象画像の視点に対 するェピポーラ幾何拘束に基づく視差情報であるベース視差情報を設定するベース 視差情報設定部 207と、符号化対象画像を視差補償するための情報を設定する視 差補償情報設定部 208と、入力画像を実際に予測符号化する画像符号化部 209と 、符号化した入力画像を復号した画像を格納する復号画像メモリ 210とを備える。
[0106] なお、復号画像メモリ 210は、画像符号化部 209が既に符号化済みの画像を利用 するために復号画像を蓄えるメモリを有する場合には、そのメモリと兼ねてもよい。
[0107] 図 12は、ローカル視差補償情報設定部 205の構成の詳細を示す図である。
この図に示すように、ローカル視差補償情報設定部 205は、ローカル視差情報を 求める上での符号化対象画像のブロック分割を設定するローカル視差情報ブロック 分割設定部 2051と、視差補償を行う際に参照画像として用いる画像の視点を示す 視点インデックスを設定する参照視点インデックス設定部 2052と、ェピポーラ幾何拘 束に基づ!/、た視差情報を設定するローカル視差情報設定部 2053と、設定されたブ ロック分割と、参照視点インデックスと、視差情報とで視差補償を行う場合の効率を評 価し、各設定部にフィードバックをかける視差補償効率評価部 2054とを備える。
[0108] ここで、参照視点インデックス設定部 2052によって設定された一次視点インデック スは、視差補償情報設定部 208に通知され、ローカル視差情報設定部 2053によつ て設定されたローカル視差情報は、グローバル視差補償情報設定部 206と視差補 償情報設定部 208に通知される。 [0109] 図 13は、グローバル視差補償情報設定部 206の構成の詳細を示す図である。 この図に示すように、グローバル視差補償情報設定部 206は、基準視点の画像に 対するブロック分割を設定する基準視点画像ブロック分割設定部 2061と、決定した ブロック分割情報を符号化するブロック分割情報符号化部 2062と、ローカル視差補 償情報設定部 205内のローカル視差情報設定部 2053から通知されるローカル視差 情報を用いて、ブロック毎にグローバル視差情報を推定するグローバル視差情報推 定部 2063と、求められたグローバル視差情報を符号化するグローバル視差情報符 号化部 2064とを備える。
[0110] ここで、グローバル視差情報推定部 2063によって求められたグローバル視差情報 は、ベース視差情報設定部 207に通知されることになる。
また、ブロック分割情報符号化部 2062と、グローバル視差情報符号化部 2064とが 出力する符号化データは、本映像符号化装置 200の出力の 1つとなる。
[0111] 図 14は、視差補償情報設定部 208の構成の詳細を示す図である。
この図に示すように、視差補償情報設定部 208は、ベース視差情報設定部 207か ら通知されるベース視差情報と、ローカル視差補償情報設定部 205内のローカル視 差情報設定部 2053から通知されるローカル視差情報との差分を用いて、符号化対 象画像に対するブロック分割を設定する符号化対象画像ブロック分割設定部 2081 と、決定したブロック分割情報を符号化するブロック分割情報符号化部 2082と、決 定されたブロック分割情報と上記差分からベース視差情報をェピポーラ幾何拘束に 基づいて補正するための情報である補正視差情報を設定する補正視差情報設定部 2083と、決定した補正視差情報を符号化する補正視差情報符号化部 2084と、ロー カル視差補償情報設定部 205内の参照視点インデックス設定部 2052から通知され る一次視点インデックスとブロック分割情報とを用いて、ブロック毎に参照視点インデ ックスを設定する参照視点インデックス設定部 2085と、決定した視点インデックスを 符号化する視点インデックス符号化部 2086と、ェピポーラ幾何拘束に基づ!/、た情報 によって与えられる対応関係をェピポーラ幾何拘束とは関係なく補正するための補 正ベクトルを設定する補正ベクトル設定部 2087と、決定した補正ベクトルを符号化 する補正ベクトル符号化部 2088と、各部によって設定された情報で視差補償を行つ たときの予測効率を評価し補正ベクトル設定部 2087にフィードバックをかける視差補 償効率評価部 2089とを備える。
[0112] ここで、視差補償効率評価部 2089によって、最も視差補償効率がよいと判断され たときの視差補償画像は画像符号化部 209に通知されることになる。
また、ブロック分割情報符号化部 2082と、補正視差情報符号化部 2084と、視点ィ ンデッタス符号化部 2086と、補正ベクトル符号化部 2088とが出力する符号化デー タは、本映像符号化装置 200の出力の 1つとなる。
[0113] 図 15〜図 18に、このように構成される映像符号化装置 200の実行する処理フロー を示す。これらの処理フローに従って、実施例 2の映像符号化装置 200の実行する 処理について詳細に説明する。
[0114] 図 15は、実施例 2の映像符号化装置 200で行われる、符号化処理全体の概要を 示している。また、このフローでは、カメラ Bとカメラ Cで同時刻に撮影された 1枚ずつ の画像を符号化する処理を説明する。
[0115] まず、画像入力部 201により、同時刻に撮影されたカメラ Bとカメラ Cの画像が 1枚 ずつ入力され、画像メモリ 202に格納される [ステップ S401]。なお、ここで入力され た画像と同時刻に撮影されたカメラ Aの復号画像が基準視点画像入力部 203によつ て入力され、基準視点画像メモリ 204に格納されているものとする。
[0116] 次に、ローカル視差補償情報設定部 205において、画像メモリ 202と基準視点画 像メモリ 204の画像から、画像メモリ上の画像ごとにローカル視差情報を求める [ステ ップ S402]。ここで行われる処理の詳細は後で図 16を用いて説明する。
[0117] そして、グローバル視差補償情報設定部 206において、ローカル視差情報を用い て、基準視点画像におけるェピポーラ幾何拘束を満たすグローバル視差情報を求め
、符号化する [ステップ S403]。ここで行われる処理の詳細は後で図 17を用いて説 明する。
[0118] 以降の処理 [ステップ S405〜S408]は画像メモリ 202上の画像ごとに行われる。こ こでは、カメラ Bの画像をカメラ Cの画像に先立って符号化するとして説明を行う。 つまり、画像メモリ 202よりカメラ Bの画像を取り出して符号化対象画像に設定し [ス テツプ S404]、ステップ S403の処理で求めたグローバル視差情報を、ベース視差情 報設定部 207で符号化対象画像に対するェピポーラ幾何拘束に従ったベース視差 情報に変換し [ステップ S405]、ローカル視差補償情報とベース視差情報とから、符 号化効率を鑑みて、視差補償情報であるところの参照視点インデックス、補正視差情 報、補正ベクトル等を視差補償情報設定部 208で求めて符号化し [ステップ S406]、 それらの求められた視差補償情報を用いながら、符号化対象画像を画像符号化部 2 09で符号化する [ステップ S407]。符号化した画像は復号され、復号画像メモリ 210 に格納される [ステップ S408L
そして、符号化した画像がカメラ Bの画像なら [ステップ S409]、カメラ Cの画像を画 像メモリ 202力、ら取り出して [ステップ S410]、同様の手 J噴 [ステップ S405〜S408] で符号化を行い、全ての処理を終了する。
ここで、ステップ S405で行われる処理は、既に説明したステップ S4で行われる処 理(図 6)と同様の処理であるため説明を省略する。
なお、ステップ S406で行われる処理の詳細は、後で図 18を用いて説明する。
[0119] 図 16に、ローカル視差補償情報設定部 205で行われるステップ S402の処理の詳 細な処理フローを示す。なお、ローカル視差補償情報設定部 205は、ここで示される 処理を、画像メモリ 202上の画像ごとに適用する。
[0120] 本実施例 2では、縦横 16画素で構成されるマクロブロック単位でブロック分割を指 定し、そのブロック分割で作成されるブロック単位でローカル視差情報を求める。マク ロブロックで適用可能なブロック分割としては様々なものが考えられる力 S、例えば、図
8に示すようなものが考えられる。
実施例 1のときと同様に、ブロック分割の種類に関するインデックスを WkMode、ブ ロック分害 iJblkModeにおけるブロック数を maxBlk[blkMode]、ブロック分割の種類 の数は maxBlkModeで表す。
[0121] ここでの処理は、まずマクロブロックのインデックス MBBlkを 0に初期化した後 [ステ ップ S501]、 MBBlkに 1を加算しながら [ステップ S516]、 MBBlkが画像内のマクロ ブロック数 maxMBBlkになるまで [ステップ S517]、ブロック分割とローカル視差情 報を求める処理 [ステップ S502〜S515]を繰り返す。
[0122] ブロック分割とローカル視差情報を求める処理では、各ブロック分割に対して最適 なローカル視差補償情報を求め、その中から最も評価の良いブロック分割を決定す るということをネ亍う。
つまり、ブロック分害 iJblkModeを 0に、そのマクロブロックでの評価値の最良 bestM BLCostを絶対に取り得な!/、最大の評価値 wMBLCostに初期化した後 [ステップ S 502]、 blkModeに 1をカロ算しなカら [ステップ S514]、 blkMode力 ¾naxBlkModeに なるまで [ステップ S515]、ブロック分害 iJblkModeに対する評価値 MBLCostを求め [ステップ S503〜S511]、 MBLCostが bestMBLCostよりも小さくなるようなら [ステ ップ S512]、 MBLCostを bestMBLCostに、そのときのブロック分害 iJblkModeを IB LKMode [MBBlk]に、そのときのブロック毎のローカル視差補償情報 tempLDispI nf oを LDispInf o [cam]に格納する [ステップ S 513]、と!/、う処理を繰り返す。
ここで camは画像メモリ 202上の画像に対するインデックスを表している。
[0123] ブロック分割に対する評価値を求める処理では、ブロック毎に最適なローカル視差 補償情報を求め、その合計値をブロック分割に対する評価値とすることを行う。
つまり、ブロックインデックス blkを 0に、ブロック分割に対する評価値 MBLCostを 0 に初期化した後 [ステップ S503]、 blkに 1を加算しながら [ステップ S510]、 blkが ma xBlk[blkMode]になるまで [ステップ S511]、ブロック blkに対する最良のローカル 視差補償情報 bestLDispInfoと評価値 bestBlkLCostとを求め [ステップ S504〜S 509]、 MBLCostに bestBlkLCostを加算し、 tempLDispInfo [blk]に bestLDisp Infoを格納する [ステップ S 510]、と!/、う処理を繰り返す。
[0124] ここでは、あるブロックに対する最良のローカル視差補償情報とは、対象となってい るブロックを別の画像から予測する際に、レート歪みコストが最小となるような、予測に 用いる画像を示す情報と、ェピポーラ幾何拘束に基づくローカル視差情報の組であ るとする。
したがって、レート歪みコストが各ローカル視差補償情報に対する評価値となり、あ るブロックに対する最良のローカル視差補償情報と評価値を求める処理は、レート歪 みコストを最小化する参照視点インデックスとローカル視差情報との組を求める処理 となる。
[0125] つまり、視点インデックスとローカル視差情報との組に対して対応付けられたロー力 ル視差補償情報インデックス IDispInfoを 0に初期化し、最良レート歪みコスト bestBl kLCostを絶対に取り得ない最大値 wBlkLCostに初期化した後 [ステップ S 504]、 1 Displnfoに 1を加算しながら [ステップ S 508]、 IDispInfoが視点インデックスとロー カル視差情報の組合せの数 maxLDispInfoになるまで [ステップ S 509]、 IDispInfo に対するレート歪みコスト blkLCostを求め [ステップ S505]、 blkLCostが bestBlkL Costよりも小さければ [ステップ S 506]、 blkLCostを bestBlkLCostに格納し、 IDis plnfoを bestLDispInfoに格納する [ステップ S 507]、という処理を繰り返す。
[0126] IDispInfoに対するレート歪みコスト blkLCostは以下の式で求められる。
[0127] [数 5] blkLCost = £>3 + · CoifeilDispInfo )
i¾. ^ ^ IValue^amy p)- Valuefyeference, Rp
Figure imgf000032_0001
[0128] ここで、 λ はラグランジュの未定乗数であり、予め設定された値が利用される。また
、 dist ()と refer ()は、引数として与えられるローカル視差補償情報に対して、それ ぞれ、視点 cam力 被写体までの距離、参照する視点を返す関数を表す。
[0129] なお、実際の符号化時には既に符号化済みの画像しか参照することができないの で、本実施例 2においては、 camがカメラ Bのときには基準視点のみ、 camがカメラ C のときには基準視点とカメラ Bの視点が、参照視点の候補となる。
[0130] 図 17に、グローバル視差補償情報設定部 206で行われるステップ S403の処理の 詳細な処理フローを示す。実施例 2でも、実施例 1と同様に、マクロブロック単位でブ ロック分割を指定し、そのブロック分割で作成されるブロック単位でグローバル視差情 報を求めて符号化する。
[0131] まず、ローカル視差補償情報設定部 205で設定されたローカル視差補償情報 LDi splnfoの 1要素であるェピポーラ幾何拘束に基づくローカル視差情報から、グローバ ル視差情報候補 tGDispInf oを生成する [ステップ S 601 ]。
この処理は、ローカル視差情報をグローバル視差情報、ローカル視差情報が与え られた視点を基準視点、基準視点を符号化対象視点と見立てて、ベース視差情報を 求める際の処理(図 9)を適用することで行われる。このように見立てて処理が行われ た際に、ベース視差情報に該当するものがグローバル視差情報候補となる。なお、こ の処理は、画像メモリ 202上の画像ごとに行い、それぞれの画像に対するグローバル 視差情報候補は、画像インデックス camを用いて tGDispInfo [cam]と表す。
[0132] 実施例 2では、このように求められた tGDispInfoを用いて、マクロブロック毎にブロ ック分割情報を設定し、ブロック毎にグローバル視差情報を設定する。
そのために、マクロブロックのインデックス MBBlkを 0に初期化した後 [ステップ S60 2]、 MBBlkに 1を加算しながら [ステップ S613]、 MBBlkがマクロブロック数 maxM BBlkになるまで [ステップ S614]、全てのブロック分割の中で最良のブロック分割と グローバル視差情報を求める処理 [ステップ S603〜S612]を行う。
その後、求められたブロック分割情報 BLKModeとグローバル視差情報 GDispInf oを、それぞれ、ブロック分割情報符号化部 2062と、グローバル視差情報符号化部 2 064で符号化する [ステップ S 615]。
[0133] 全てのブロック分割の中から最良のブロック分割とグローバル視差情報を求める処 理では、ブロック分割候補ごとに、その分割を評価し、最も評価の良いものを最良の ブロック分割とするとレ、うことを行う。
つまり、ブロック分害 iJblkModeを 0に初期化し、マクロブロックに対する最良の評価 値 bestValueを絶対に取り得な!/、最悪の評価値 wValueに初期化した後 [ステップ S 603]、 blkModeに 1をカロ算しなカら [ステップ S611]、 blkMode力 ¾naxBlkModeに なるまで [ステップ S 612]、ブロック分害 ijblkModeに対する評価値 valueを求め [ステ ップ S604〜S608]、 value力 ¾estValueより小さいならば [ステップ S609]、 valueを bestValueに、 blkModeを BLKMode [MBBlk]に格納し、そのときに求められたグ ローバル視差情報 tmpGDispInfoを GDispInfo [MBBlk]に格納する [ステップ S6 10]、という処理を繰り返す。
[0134] ブロック分害 IjblkModeに対する評価値 valueは、分割された各ブロックにおける視 差補償のレート歪みコストを合計することで求められる。
すなわち、ブロックインデックス blkを 0に、 valueをブロック分割力 ¾lkModeであるこ とによる評価値 InitValue [blkMode]に初期化した後 [ステップ S604]、 blkに 1を、 valueにブロック blkに対するレート歪みコスト WkCostを加え、そのときのグローバル 視差情報 gDispInfoを tmpGDispInfo [blk]に格納しながら [ステップ S607]、 blk が maxBlk[blkMode]になるまで [ステップ S608]、ブロック blkに対する tGDispInf oから gDispInfoを求め [ステップ S605]、そのときの blkCostを求める [ステップ S60 6]、という処理を繰り返す。
なお、 InitValue [blkMode]は、ブロック分割力 ¾lkModeであることを示すための 情報を符号化するために必要な符号量に依存した、予め定められた値である。
[0135] ブロック blkに対する tGDispInfoから gDispInfoを求める処理では、ブロック blk内 の tGDispInf oの平均値を求め、 gDispInfoとする。このとき平均値ではなぐ最も多 く現れる値を使う方法もある。
また、両者でレート歪みコストを算出し良い方を選ぶという方法や、それぞれの周辺 の値全てに対してレート歪みコストを計算し最良のものを選ぶという方法も考えられる 力 S、これらのケースについては本実施例の変更例として容易に適用可能であるので 説明を省略する。
[0136] ブロック blkに対するグローバル視差情報が gDispInfoのときのレート歪みコスト blk Costは、実施例 1におけるステップ S 105 (図 7)の処理で用いる式と同様の式を用い て求めること力 Sできる。また、演算量を減らすために、次の数式を用いて評価を行つ てもよい。
[0137] [数 6]
Figure imgf000034_0001
[0138] 図 18に、視差補償情報設定部 208で行われるステップ S406の処理の詳細なフロ 一を示す。
[0139] 本実施例 2においても、実施例 1と同様に、マクロブロック毎にブロック分割を決定し 、ブロック毎に参照視点インデックスと、補正視差情報と、補正ベクトルとからなる視差 補償情報を求めて符号化する。
実施例 1と異なる点は、ローカル視差補償情報設定部 205内のローカル視差情報 設定部 2053から通知されるローカル視差情報を用いて、ブロック分割、参照視点ィ ンデッタス、補正視差情報を決定した後に、補正ベクトルを求める点である。
[0140] つまり、最初にローカル視差情報とベース視差情報との差分を取ることで、補正視 差情報候補 tEDispInfoを生成する [ステップ S 701]。
そして、マクロブロックインデックス MBBlkを 0に初期化した後 [ステップ S 702]、 M BBlkに 1を加算しながら [ステップ S710]、 MBBlkが画像に含まれるマクロブロック 数 maxMBBlkになるまで [ステップ S711]、ブロック分害 iJeBLKMode [MBBlk]を 決定し [ステップ S703]、視差補償情報 EDispInfoを求める処理 [ステップ S704〜 S709]を繰り返す。
その後、ブロック分割情報 eBLKModeと、視差補償情報 EDispInfoとを符号化す る [ステップ S 712]。
[0141] ステップ S703の処理において、ブロック分割は、ブロックに含まれる全ての画素に 対する tEDispInfoが同じ値となるようなブロック分割のなかで、ブロック数が最も少な いものに決定される。
上記の条件を満たすブロック分割が複数存在するときは、それぞれの最大ブロック サイズが大きいものに決定する。それでも決まらない場合には、条件を満たす任意の ブロック分割に決定する。
なお、最初の条件を満たすブロック分割が存在しない場合には、ブロック数が最も 多ぐ最小ブロックサイズが最も小さいものに決定する。
[0142] 視差補償情報を求める処理では、マクロブロックに対して決定されたブロック分割 e BLKMode [MBBlk]に従ったブロック毎に最良の視差補償情報を求める。
つまり、ブロックインデックス blkを 0に初期化した後 [ステップ S704]、 blkに 1を加 算しながら [ステップ S708]、 blkがブロック数 maxBlk[eBLKMode [MBBlk] ]にな るまで [ステップ S 709]、 tEDispInfoから補正視差情報 mdを、ローカル視差補償情 報設定部 205内の参照視点インデックス設定部 2052から通知される一次視点イン デッタスから参照視点インデックス refを求め [ステップ S705]、それらを用いてブロッ ク blkのレート歪みコストを最小化する補正ベクトル cmvを求めた後 [ステップ S 706] 、 {md、 ref、 cmv}の組に対応する視差補償情報を求め、 EDispInfo [MBBlk] [blk ]に格納する [ステップ S707]、という処理を繰り返す。 なお、ステップ S706の処理で用いられるブロックに対するレート歪みコストは、実施 例 1のステップ S306 (図 10)の処理でコストを求める際に用いる式と同様の式を用い て計算することができる。
[0143] ステップ S705の処理において、補正視差情報はブロック内の画素に対応する tED isplnfoの中で最も多く現れるものに決定され、参照視点インデックスは決定された補 正視差情報と tEDispInfoが同じ値を持つブロック内の画素に対応する一次視点ィ ンデッタスに決定される。なお、ここでは最も多く現れるものに決定した力 ブロック内 の値の平均値を用いてもよ!/、。
[0144] 本実施例 2の視差補償情報設定部 208では、ローカル視差補償情報誤定部 205 力、ら通知される情報を用いて、ブロック分割と補正視差情報と参照視点インデックスと をレート歪みコストを考慮せずに決定するが、実施例 1の視差補償情報設定部 107と 同様にそれらをレート歪みコストを考慮して決定してもよい。
また、実施例 1とも異なり、ブロック分割、補正視差情報、参照視点インデックスの一 部だけをレート歪みコストを考慮して決定する方法も考えられる力 このケースについ ては実施例 1と実施例 2とを部分的に融合させた変更例として容易に適用可能である ので説明を省略する。
[0145] 実施例 1および実施例 2では、グローバル視差補償情報設定部 105または 206の 内部の基準視点画像ブロック分割設定部 1051または 2061で、ブロック分割の方法 を決定し、その結果のブロック分割情報をブロック分割情報符号化部 1052または 20 62で符号化している。
しかし、基準視点画像ブロック分割設定部 1051または 2061で設定するブロック分 割を、基準視点画像をブロック符号化した際のブロック分割と一致させることで、プロ ック分割情報を符号化しなレ、ことにしてもょレ、。
その場合、ブロック分割情報を示すための符号量の分だけ符号量を削減することが 可能となる。
[0146] さらに、実施例 1および実施例 2では、符号化対象画像を既に符号化済みの他の 視点の画像から視差補償をして符号化しているが、符号化対象画像のブロック毎に 、視差補償と動き補償とで、予測効率のよい方法を選びながら符号化するようにして も良い。この場合
、適用外のブロックに対する視差補償情報は符号量が最も小さくなるように設定可能 である力 S、本実施例の変更例として容易に適用可能であるので説明を省略する。
[0147] また、符号化装置の各部分で用いるブロック分割の種類は全て同じである必要は ない。特に、他のブロック分割の大きさに比べて、グローバル視差情報を求める際の 基準視点画像のブロック分割の大きさを大きくすることで、グローバル視差情報の符 号量を抑え、カメラパラメータの誤差等に左右されない全体の大まかな視差情報を表 すことカでさるようになる。
[0148] 図 19に、本発明の映像復号装置 300の実施の形態の一例(実施例 3)を示す。
この映像復号装置 300は、符号化データを入力する符号化データ入力部 301と、 基準視点であるカメラ Aの復号画像を入力する基準視点画像入力部 302と、基準視 点の画像を含む全ての視差補償の参照対象になりうる画像を格納する画像メモリ 30 3と、入力された符号化データから基準視点に対するブロック分割情報とェピポーラ 幾何拘束に基づくグローバル視差情報とを復号するグローバル視差補償情報復号 部 304と、グローバル視差情報から復号対象の画像の視点に対するェピポーラ幾何 拘束に基づくベース視差情報を設定するベース視差情報設定部 305と、入力された 符号化データから、復号対象の画像に対するブロック分割情報と、視差補償を行う際 の参照画像を示す参照視点インデックスと、ェピポーラ幾何拘束に従い視差情報を 補正する補正視差情報と、視差補償をする際の対応点を補正する補正ベクトルとを 復号する視差補償情報復号部 306と、復号したデータに基づき復号対象の画像の 視点に対する視差補償画像を生成する視差補償画像生成部 307と、入力された符 号化データと生成した視差補償画像とから復号対象の画像を復号する画像復号部 3 08とを備える。
[0149] 画像を復号する際に、既に復号済みの画像を参照する場合、画像復号部 308はそ の内部に、復号画像を格納するメモリを有することがある。その場合、画像メモリ 303 として、そのメモリを用いてもよい。
[0150] 図 20に、本実施例の復号処理フローを示す。これはカメラ Bとカメラ Cの同時刻のフ レームを 1フレームずつ復号する際のフローを示している。以下でフローを詳細に説 明していく。
なお、復号するフレームと同時刻のカメラ Aのフレームが先立って復号されており、 各カメラのカメラパラメータも得られて!/、るものとする。
[0151] まず、符号化データ入力部 301に符号化データが入力される [ステップ S801]。ま た、ここで入力された符号化データに含まれるフレームと同時刻のカメラ Aの復号画 像力 基準視点画像入力部 302によって入力され、画像メモリ 303に格納されている ものとする。入力される符号化データは、実施例 1または実施例 2などの映像符号化 装置が出力する 1フレーム分の全符号化データである。
[0152] 次に、グローバル視差補償情報復号部 304で、入力された符号化データのうち、基 準視点画像に対するブロック分割情報を復号し、そのブロック分割に従って、ブロック 毎にグローバル視差情報を復号し、基準視点画像に対する画素ごとのグローバル視 差情報 decGDispInfoを得る [ステップ S802]。
[0153] そして、ベース視差情報設定部 305で、 decGDispInfoからカメラ Bの視点に対す るベース視差情報 decBDispInfoを得る [ステップ S803L
この処理は、上記で説明を行った図 9の処理フローに従って実現される。ただし、図
9における BDispInfoは decBDispInfo、 GDispInfoは decGDispInfo、符号化対 象画像は復号対象画像となる。
[0154] ベース視差情報が得られたら、視差補償情報復号部 306で、入力された符号化デ ータのうちカメラ Bに対するブロック分割情報を復号し、そのブロック分割に従って、 参照視点インデックスと、補正視差情報と、補正ベクトルとを復号し、カメラ Bに対する 画素ごとの参照視点インデックス decRefと、補正視差情報 decMdと、補正ベクトル d ecCmvとを得る [ステップ S804]。
[0155] そして、画像メモリ 303の画像を参照しながら、視差補償画像生成部 307で、カメラ
Bに対する視差補償画像 DCImageを次の式に従って生成する [ステップ S805L
[0156] DCImage [PIX] = Value (decRef [PIX] , RP)
RP = Trans (camB, decRef [PIX] , PIX,
d (decBDispInfo [PIX] + decMd [PIX] ) )
+ decCmv[PIX] ここで、 camBはカメラ Bの視点を表し、 PIXは復号対象画像の画素位置を示す この視差補償画像を用いて、画像復号部 308で、入力された符号化データからカメ ラ Bの画像が復号される [ステップ S806]。なお、復号された画像は画像メモリ 303に 格納される。
その後、ステップ S803〜S806と同様の処理をカメラ Cに対して施すことで、カメラ Cの復号画像が復号されることになる [ステップ S807〜S810]。
[0157] 以上の映像符号化および映像復号の処理は、ハードウェアやファームウェアによつ て実現できるが、コンピュータとソフトウェアプログラムとによっても実現することができ 、そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも、 ネットワークを通して提供することも可能である。
[0158] 以上、図面を参照して本発明の実施の形態を説明したが、上記実施の形態は本発 明の例示に過ぎず、本発明が上記実施の形態に限定されるものでないことは明らか である。したがって、本発明の精神および範囲を逸脱しない範囲で、上記実施の形 態に対し構成要素の追加、省略、置換、その他の変更を行ってもよい。
産業上の利用可能性
[0159] 本発明によれば、視差補償を行うための情報の大幅な増加を防ぎながら、カメラパ ラメータの推定誤差の影響を考慮した予測精度の高い視差補償を実現することで、 多視点画像全体や多視点動画像全体としての高効率な符号化を実現することがで きる。

Claims

請求の範囲
[1] 多視点画像を符号化するにあたり、一つの基準視点を定め、既に符号化済みの前 記基準視点の画像を用いて、前記基準視点以外の視点の画像を符号化する画像符 号化方法であって、
前記基準視点の符号化済み画像であるところの参照基準視点画像に対し、ェピポ ーラ幾何拘束に基づいて該基準視点以外の全ての視点の画像との視差を与えるグ ローバル視差情報を推定し設定するグローバル視差情報設定ステップと、
前記設定したグローバル視差情報を符号化するグローバル視差情報符号化ステツ プと、
前記設定したグローバル視差情報を、前記基準視点以外の視点の画像であるとこ ろの各符号化対象視点画像における、前記ェピポーラ幾何拘束に基づいて他の全 ての視点との視差を与えるベース視差情報へと変換するベース視差情報設定ステツ プと、
前記符号化対象視点画像を符号化する際に行う視差補償に用いる既に符号化済 みの参照視点画像と該符号化対象視点画像との視差を与える視差情報の、前記べ ース視差情報に対する差分で定められる補正視差情報を設定する補正視差情報設 前記補正視差情報を符号化する補正視差情報符号化ステップと、
前記ベース視差情報と前記補正視差情報とによって与えられる対応点情報を用い て、前記参照視点画像から視差補償を行いながら、前記符号化対象視点画像を符 号化する視点画像符号化ステップとを有する
ことを特徴とする画像符号化方法。
[2] 多視点画像を符号化するにあたり、一つの基準視点を定め、既に符号化済みの前 記基準視点の画像を用いて、前記基準視点以外の視点の画像を符号化する画像符 号化方法であって、
前記基準視点の符号化済み画像であるところの参照基準視点画像に対し、ェピポ ーラ幾何拘束に基づいて該基準視点以外の全ての視点の画像との視差を与えるグ ローバル視差情報を推定し設定するグローバル視差情報設定ステップと、 前記設定したグローバル視差情報を符号化するグローバル視差情報符号化ステツ プと、
前記設定したグローバル視差情報を、前記基準視点以外の視点の画像であるとこ ろの各符号化対象視点画像における、前記ェピポーラ幾何拘束に基づいて他の全 ての視点との視差を与えるベース視差情報へと変換するベース視差情報設定ステツ プと、
前記符号化対象視点画像を符号化する際に行う視差補償に用いる既に符号化済 みの参照視点画像と該符号化対象視点画像との対応点を与える視差ベクトルの、前 記ベース視差情報によって与えられる視差ベクトルに対する差分で定められる補正 視差ベクトルを設定する補正視差ベクトル設定ステップと、
前記補正視差ベクトルを符号化する補正視差ベクトル符号化ステップと、 前記ベース視差情報と前記補正視差ベクトルとを用いて、前記参照視点画像から 視差補償を行レ、ながら、前記符号化対象視点画像を符号化する視点画像符号化ス テツプとを有する
ことを特徴とする画像符号化方法。
[3] 請求項 1に記載の画像符号化方法にお!/、て、
前記ベース視差情報設定ステップで設定されたベース視差情報と、前記補正視差 情報設定ステップで設定された補正視差情報とを用いて表される視差情報によって 示される、前記符号化対象視点画像と前記参照視点画像との間の対応点ベクトルに 対し、前記視差補償に用いる視差補償ベクトルからの変位である補正ベクトルを設定 する補正ベクトル設定ステップと、
前記補正ベクトルを符号化するステップとを有し、
前記視点画像符号化ステップでは、前記補正ベクトルにより補正された前記視差 補償ベクトルを用いて視差補償を行う
ことを特徴とする画像符号化方法。
[4] 請求項 1および請求項 2のいづれかに記載の画像符号化方法において、
前記参照基準視点画像における領域分割を設定する基準視点領域分割設定ステ ップを有し、 前記グローバル視差情報設定ステップでは、前記基準視点領域分割設定ステップ で設定された領域ごとに、前記グローバル視差情報を推定し設定する
ことを特徴とする画像符号化方法。
[5] 請求項 4に記載の画像符号化方法において、
前記参照基準視点画像が、画像全体を領域分割されて各領域ごとに符号化処理 されている場合に、
前記基準視点領域分割設定ステップでは、前記参照基準視点画像の符号化デー タに含まれる領域分割情報に従って、同様の領域分割を設定する
ことを特徴とする画像符号化方法。
[6] 請求項 4に記載の画像符号化方法において,
前記参照基準視点画像が,画像全体を領域分割されて各領域ごとに符号化処理 されている場合に,
前記基準視点領域分割符号化ステップでは,前記参照基準視点画像の符号化デ ータに含まれる領域分割情報との違いを示す情報のみを符号化する
ことを特徴とする画像符号化方法。
[7] 請求項 4に記載の画像符号化方法において、
前記基準視点領域分割設定ステップで設定された領域分割を示す領域分割情報 を符号化する基準視点領域分割符号化ステップを更に有する
ことを特徴とする画像符号化方法。
[8] 請求項 1および請求項 2のいづれかに記載の画像符号化方法において、
前記符号化対象視点画像における領域分割を設定する符号化対象視点領域分 割設定ステップを有し、
前記視点画像符号化ステップでは、前記符号化対象視点領域分割設定ステップ で設定された領域ごとに、視差補償の参照先を変更しながら符号化対象視点画像を 符号化する
ことを特徴とする画像符号化方法。
[9] 請求項 8に記載の画像符号化方法において、
前記視点画像符号化ステップにおいて、前記符号化対象視点画像が、画像全体 を領域分割され、各領域ごとに、その領域分割情報と共に符号化されている場合に、 前記視点画像符号化ステップでは、前記符号化対象視点領域分割符号化ステツ プで設定された領域分割を用いて符号化を行う、
ことを特徴とする画像符号化方法。
[10] 請求項 8に記載の画像符号化方法において、
前記符号化対象視点領域分割設定ステップで設定された領域分割を示す領域分 割情報を符号化する符号化対象視点領域分割符号化ステップを更に有する ことを特徴とする画像符号化方法。
[11] 請求項 10に記載の画像符号化方法において、
前記視点画像符号化ステップにおいて、前記符号化対象視点画像が、画像全体 を領域分割され、各領域ごとに、その領域分割情報と共に符号化されている場合に、 前記符号化対象視点領域分割符号化ステップでは、前記視点画像符号化ステツ プで用いた領域分割との違!/、を示す情報のみを符号化する
ことを特徴とする画像符号化方法。
[12] 請求項 1および請求項 2のいづれかに記載の画像符号化方法において、
前記参照視点画像の視点となる参照視点を設定する参照視点設定ステップと、 前記参照視点を示す視点インデックスを符号化するステップとを有し、
前記視点画像符号化ステップでは、前記設定された参照視点の符号化済み画像 を前記参照視点画像として用いる
ことを特徴とする画像符号化方法。
[13] 請求項 8に記載の画像符号化方法において、
前記符号化対象視点領域分割設定ステップで設定された領域ごとに、前記参照視 点画像の視点となる参照視点を設定する参照視点設定ステップと、
前記参照視点を示す視点インデックスを符号化するステップとを有し、
前記視点画像符号化ステップでは、前記符号化対象視点領域分割設定ステップ で設定された領域ごとに、前記設定された参照視点の符号化済み画像を前記参照 視点画像として用いる
ことを特徴とする画像符号化方法。
[14] 請求項 1および請求項 2のいづれかに記載の画像符号化方法において、 前記符号化対象視点画像における領域分割を設定する領域分割設定ステップと、 前記領域分割設定ステップにおレ、て設定された領域ごとに、前記ェピポーラ幾何 拘束に基づいて、前記符号化対象視点画像を視差補償するための対応点を与える ローカル視差情報を求めるステップと、
前記ローカル視差情報を、前記グローバル視差情報へと変換するグローバル視差 情報候補を設定するグローバル視差情報候補設定ステップとを有し、
前記グローバル視差情報設定ステップでは、各領域内の前記グローバル視差情報 候補の平均値または各領域内のグローバル視差情報候補のうち最も多く現れる値を 前記グローバル視差情報として設定する
ことを特徴とする画像符号化方法。
[15] 多視点画像の符号化データを復号するにあたり、一つの基準視点が存在し、既に 復号済みの前記基準視点の画像であるところの参照基準視点画像を用いて、前記 基準視点以外の視点の画像を復号する画像復号方法であって、
符号化データから、前記参照基準視点画像における前記基準視点以外の全ての 視点の画像との視差をェピポーラ幾何拘束に基づいて与えるグローバル視差情報を 復号するグローバル視差情報復号ステップと、
前記復号したグローバル視差情報を、前記基準視点以外の視点の画像であるとこ ろの各復号対象視点画像における、前記ェピポーラ幾何拘束に基づいて他の全て の視点との視差を与えるベース視差情報へと変換するベース視差情報設定ステップ と、
前記符号化データから、前記復号対象視点画像を復号する際に行う視差補償に 用いる既に復号済みの参照視点画像と該復号対象視点画像との視差を与える視差 情報の、前記ベース視点情報に対する差分で定められた補正視差情報を復号する 補正視差情報復号ステップと、
前記ベース視差情報と前記補正視差情報とによって与えられる対応点情報を用い て、前記参照視点画像から視差補償を行いながら、前記符号化データから、前記復 号対象視点画像を復号する視点画像復号ステップとを有する ことを特徴とする画像復号方法。
[16] 多視点画像の符号化データを復号するにあたり、一つの基準視点が存在し、既に 復号済みの前記基準視点の画像であるところの参照基準視点画像を用いて、前記 基準視点以外の視点の画像を復号する画像復号方法であって、
符号化データから、前記参照基準視点画像における前記基準視点以外の全ての 視点の画像との視差をェピポーラ幾何拘束に基づいて与えるグローバル視差情報を 復号するグローバル視差情報復号ステップと、
前記復号したグローバル視差情報を、前記基準視点以外の視点の画像であるとこ ろの各復号対象視点画像における、前記ェピポーラ幾何拘束に基づいて他の全て の視点との視差を与えるベース視差情報へと変換するベース視差情報設定ステップ と、
前記符号化データから、前記復号対象視点画像を復号する際に行う視差補償に 用いる既に復号済みの参照視点画像と該復号対象視点画像との対応点を与える視 差ベクトルの、前記ベース視点情報によって与えられる視差ベクトルに対する差分で 定められた補正視差ベクトルを復号する補正視差ベクトル復号ステップと、
前記ベース視差情報と前記補正視差ベクトルとによって与えられる対応点情報を 用いて、前記参照視点画像から視差補償を行いながら、前記符号化データから、前 記復号対象視点画像を復号する視点画像復号ステップとを有する
ことを特徴とする画像復号方法。
[17] 請求項 15に記載の画像復号方法において、
前記符号化データから、前記視差補償に用いる視差補償ベクトルに対する、前記 ベース視差情報設定ステップで設定されたベース視差情報と、前記補正視差情報 復号ステップで復号された補正視差情報とを用いて表される、前記復号対象視点画 像と前記参照視点画像との間の対応点ベクトルからの差分で定められた補正べタト ルを復号する補正ベクトル復号ステップを有し、
前記視点画像復号ステップでは、前記補正ベクトルにより補正された前記視差補 償ベクトルを用いて視差補償を行う
ことを特徴とする画像復号方法。
[18] 請求項 15および請求項 16のいづれかに記載の画像復号方法において、 前記符号化データから、前記参照基準視点画像における領域分割を示す情報を 復号する基準視点領域分割復号ステップを有し、
前記グローバル視差情報復号ステップでは、前記基準視点領域分割復号ステップ で得られた領域分割の領域ごとに、前記グローバル視差情報を復号する
ことを特徴とする画像復号方法。
[19] 請求項 18に記載の画像復号方法において、
前記参照基準視点画像が、画像全体を領域分割されて各領域ごとに符号化処理 されている場合に、
前記基準視点領域分割復号ステップでは、前記参照基準視点画像の符号化デー タに含まれる領域分割を示す情報力 領域分割を設定する
ことを特徴とする画像復号方法。
[20] 請求項 18に記載の画像復号方法において,
参照基準視点画像が,画像全体を領域分割されて各領域ごとに符号化処理されて いる場合に,
前記基準視点領域分割復号ステップでは,前記参照基準視点画像の符号化デー タに含まれる領域分割を示す情報との違いを示す情報を復号し、該領域分割を示す 情報と該違レ、を示す情報とを用いることで、前記グローバル視差情報復号時の領域 分割を設定する
ことを特徴とする画像復号方法。
[21] 請求項 15および請求項 16のいづれかに記載の画像復号方法において、
前記符号化データから、前記復号対象視点画像における領域分割を示す情報を 復号する復号対象視点領域分割復号ステップを有し、
前記視点画像復号ステップでは、前記符号化対象視点領域分割復号ステップで 復号された情報によって示される領域分割の領域ごとに、前記視差補償に用いる視 差補償ベクトルを変更しながら復号対象視点画像を復号する
ことを特徴とする画像復号方法。
[22] 請求項 21に記載の画像復号方法におレ、て、 前記復号対象視点画像が、画像全体を領域分割され、各領域ごとに、その領域分 割情報と共に符号化されている場合に、
前記復号対象視点領域分割復号ステップでは、前記復号対象視点画像の符号化 データに含まれる領域分割を示す情報から、領域分割を設定する
ことを特徴とする画像復号方法。
[23] 請求項 21に記載の画像復号方法にお!/、て、
前記復号対象視点画像が、画像全体を領域分割され、各領域ごとに、その領域分 割情報と共に符号化されている場合に、
前記復号対象視点領域分割復号ステップでは、前記符号化データから、領域分割 に関する前記領域分割情報との違!/、を示す情報を復号し、該領域分割情報と該違 いを示す情報とを用いることで、前記視差補償ベクトル変更用の領域分割を設定す る
ことを特徴とする画像復号方法。
[24] 請求項 15および請求項 16のいづれかに記載の画像復号方法において、
前記符号化データから、前記参照視点画像の視点を示す視点インデックスを復号 する視点インデックス復号ステップと、
前記視点インデックスによって示される視点を参照視点として設定するステップとを 有し、
前記視点画像復号ステップでは、前記参照視点の復号済み画像を前記参照視点 画像として用いる
ことを特徴とする画像復号方法。
[25] 請求項 21に記載の画像復号方法にお!/、て、
前記復号対象視点領域分割復号ステップで設定された領域ごとに、符号化データ から、前記参照視点画像の視点を示す視点インデックスを復号する視点インデックス 復号ステップと、
前記復号対象視点領域分割復号ステップで設定された領域ごとに、前記視点イン デッタスによって示される視点を参照視点として設定するステップとを有し、
前記視点画像復号ステップでは、前記復号対象視点領域分割復号ステップで設 定された領域ごとに、前記設定された参照視点の復号済み画像を前記参照視点画 像として用いる
ことを特徴とする画像復号方法。
[26] 請求項 1および請求項 2のいづれかに記載の画像符号化方法における各ステップ を実行するための手段を備える
ことを特徴とする画像符号化装置。
[27] 請求項 1および請求項 2のいづれかに記載の画像符号化方法における各ステップ をコンピュータに実行させるための画像符号化プログラム。
[28] 請求項 1および請求項 2のいづれかに記載の画像符号化方法における各ステップ をコンピュータに実行させるための画像符号化プログラムを記録したコンピュータ読 み取り可能な記録媒体。
[29] 請求項 15および請求項 16のいづれかに記載の画像復号方法における各ステップ を実行するための手段を備える
ことを特徴とする画像復号装置。
[30] 請求項 15および請求項 16のいづれかに記載の画像復号方法における各ステップ をコンピュータに実行させるための画像復号プログラム。
[31] 請求項 15および請求項 16のいづれかに記載の画像復号方法における各ステップ をコンピュータに実行させるための画像復号プログラムを記録したコンピュータ読み 取り可能な記録媒体。
PCT/JP2007/068041 2006-09-20 2007-09-18 Procédés et dispositifs de codage et de décodage d'image, dispositif et programmes de décodage d'image, et support de stockage desdits programmes Ceased WO2008035654A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2008535345A JP4999853B2 (ja) 2006-09-20 2007-09-18 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
US12/441,234 US8385628B2 (en) 2006-09-20 2007-09-18 Image encoding and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
CN2007800412118A CN101536529B (zh) 2006-09-20 2007-09-18 图像编码方法和解码方法、其装置
BRPI0716814-4A2A BRPI0716814A2 (pt) 2006-09-20 2007-09-18 Método de codificação de imagem, e método de decodificação, aparelhos para isso, aparelho de decodificação de imagem, programas para isso, e mídias de armazenamento para armazenar os programas
EP07807442A EP2066132A4 (en) 2006-09-20 2007-09-18 BILDCODE AND DECODE PROCESSES, ITS DEVICES, IMAGE DECODING DEVICE, THEIR PROGRAMS, AND THE MEMORY MEDIUM IN WHICH PROGRAMS WILL BE RECORDED
CA 2663084 CA2663084C (en) 2006-09-20 2007-09-18 Image encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006254023 2006-09-20
JP2006-254023 2006-09-20

Publications (1)

Publication Number Publication Date
WO2008035654A1 true WO2008035654A1 (fr) 2008-03-27

Family

ID=39200480

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/068041 Ceased WO2008035654A1 (fr) 2006-09-20 2007-09-18 Procédés et dispositifs de codage et de décodage d'image, dispositif et programmes de décodage d'image, et support de stockage desdits programmes

Country Status (10)

Country Link
US (1) US8385628B2 (ja)
EP (1) EP2066132A4 (ja)
JP (1) JP4999853B2 (ja)
KR (1) KR101031624B1 (ja)
CN (1) CN101536529B (ja)
BR (1) BRPI0716814A2 (ja)
CA (1) CA2663084C (ja)
RU (1) RU2406257C2 (ja)
TW (1) TWI348320B (ja)
WO (1) WO2008035654A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009105894A (ja) * 2007-10-19 2009-05-14 Gwangju Inst Of Science & Technology 参照映像を用いた深さ映像生成方法およびその装置、生成された深さ映像を符号化/復号化する方法およびそのためのエンコーダ/デコーダ、並びに前記方法によって生成される映像を記録する記録媒体
JP2010021844A (ja) * 2008-07-11 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP2011060216A (ja) * 2009-09-14 2011-03-24 Fujifilm Corp 画像処理装置および画像処理方法
JP2012213207A (ja) * 2012-06-18 2012-11-01 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
RU2518435C2 (ru) * 2008-07-20 2014-06-10 Долби Лэборетериз Лайсенсинг Корпорейшн Оптимизация кодера в системах доставки стереоскопического видео

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010108024A1 (en) * 2009-03-20 2010-09-23 Digimarc Coporation Improvements to 3d data representation, conveyance, and use
CN103609119A (zh) * 2010-02-23 2014-02-26 日本电信电话株式会社 运动向量推断方法、多视点视频编码方法、多视点视频解码方法、运动向量推断装置、多视点视频编码装置、多视点视频解码装置、运动向量推断程序、多视点视频编码程序及多视点视频解码程序
KR101628383B1 (ko) 2010-02-26 2016-06-21 연세대학교 산학협력단 영상 처리 장치 및 방법
RU2480941C2 (ru) 2011-01-20 2013-04-27 Корпорация "Самсунг Электроникс Ко., Лтд" Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности
US9247249B2 (en) 2011-04-20 2016-01-26 Qualcomm Incorporated Motion vector prediction in video coding
AU2012276628B2 (en) * 2011-06-30 2016-05-05 Sony Corporation Image Processing Device and Image Processing Method
JP5367034B2 (ja) * 2011-08-24 2013-12-11 株式会社ソニー・コンピュータエンタテインメント 画像処理装置および画像処理方法
RU2597256C2 (ru) * 2011-08-31 2016-09-10 Сони Корпорейшн Устройство кодирования, способ кодирования, устройство декодирования и способ декодирования
KR101383486B1 (ko) 2011-12-07 2014-04-09 경희대학교 산학협력단 다중 시점 영상 부호화를 위한 다중 시점 영상의 평행화 방법
TWI700923B (zh) * 2012-04-16 2020-08-01 日商Jvc建伍股份有限公司 動態影像解碼裝置、動態影像解碼方法、及儲存動態影像解碼程式之記錄媒體
WO2014005280A1 (en) * 2012-07-03 2014-01-09 Mediatek Singapore Pte. Ltd. Method and apparatus to improve and simplify inter-view motion vector prediction and disparity vector prediction
KR101641606B1 (ko) * 2012-07-09 2016-07-21 니폰 덴신 덴와 가부시끼가이샤 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치, 화상 복호 장치, 화상 부호화 프로그램, 화상 복호 프로그램 및 기록매체
US20150249839A1 (en) * 2012-09-25 2015-09-03 Nippon Telegraph And Telephone Corporation Picture encoding method, picture decoding method, picture encoding apparatus, picture decoding apparatus, picture encoding program, picture decoding program, and recording media
US9544566B2 (en) 2012-12-14 2017-01-10 Qualcomm Incorporated Disparity vector derivation
US9924197B2 (en) * 2012-12-27 2018-03-20 Nippon Telegraph And Telephone Corporation Image encoding method, image decoding method, image encoding apparatus, image decoding apparatus, image encoding program, and image decoding program
JP2014176034A (ja) * 2013-03-12 2014-09-22 Ricoh Co Ltd 映像伝送装置
JP2015050661A (ja) * 2013-09-02 2015-03-16 キヤノン株式会社 符号化装置、符号化装置の制御方法、及び、コンピュータプログラム
EP3142366A1 (en) 2015-09-14 2017-03-15 Thomson Licensing Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product
JP2017211694A (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10638130B1 (en) * 2019-04-09 2020-04-28 Google Llc Entropy-inspired directional filtering for image coding
CN111372081B (zh) * 2020-03-17 2022-06-17 四川大学 基于丢失块修复的分布式多视点视频解码的方法和装置
GB2608496B (en) * 2021-05-07 2024-04-24 Canon Kk Image processing apparatus and method, and image capturing apparatus and control method thereof, program, and storage medium
CN114926347A (zh) * 2021-09-23 2022-08-19 星宸科技股份有限公司 图像校正方法及处理器

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JPH09275578A (ja) * 1996-04-04 1997-10-21 Sharp Corp 多視点画像符号化装置および復号装置
JPH10271511A (ja) * 1997-01-22 1998-10-09 Matsushita Electric Ind Co Ltd 画像符号化装置と画像復号化装置
WO2005018217A2 (en) * 2003-08-07 2005-02-24 Sony Electronics, Inc. Semantics-based motion estimation for multi-view video coding
WO2006073116A1 (ja) * 2005-01-07 2006-07-13 Nippon Telegraph And Telephone Corporation 映像符号化方法及び装置、映像復号方法及び装置、それらのプログラムおよびそれらプログラムを記録した記録媒体
JP2006254023A (ja) 2005-03-10 2006-09-21 Matsushita Electric Ind Co Ltd 字幕用表示言語選択装置およびその方法
WO2007077989A1 (ja) * 2006-01-05 2007-07-12 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
WO2007077942A1 (ja) * 2006-01-05 2007-07-12 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790086A (en) 1995-01-04 1998-08-04 Visualabs Inc. 3-D imaging system
US6049619A (en) * 1996-02-12 2000-04-11 Sarnoff Corporation Method and apparatus for detecting moving objects in two- and three-dimensional scenes
FR2756399B1 (fr) * 1996-11-28 1999-06-25 Thomson Multimedia Sa Procede et dispositif de compression video pour images de synthese
JP3519594B2 (ja) * 1998-03-03 2004-04-19 Kddi株式会社 ステレオ動画像用符号化装置
JP4608136B2 (ja) 2001-06-22 2011-01-05 オリンパス株式会社 動きベクトル及び視差ベクトル検出装置
KR100742674B1 (ko) * 2002-06-28 2007-07-25 샤프 가부시키가이샤 화상데이터 전송시스템, 그의 화상데이터 송신장치, 및그의 화상데이터 수신장치
JP2006054504A (ja) * 2004-08-09 2006-02-23 Olympus Corp 画像生成方法および装置
US8204133B2 (en) 2004-10-12 2012-06-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding multi-view video using image stitching
WO2007037645A1 (en) 2005-09-29 2007-04-05 Samsung Electronics Co., Ltd. Method of estimating disparity vector using camera parameters, apparatus for encoding and decoding multi-view picture using the disparity vectors estimation method, and computer-redadable recording medium storing a program for executing the method
KR101276720B1 (ko) * 2005-09-29 2013-06-19 삼성전자주식회사 카메라 파라미터를 이용하여 시차 벡터를 예측하는 방법,그 방법을 이용하여 다시점 영상을 부호화 및 복호화하는장치 및 이를 수행하기 위한 프로그램이 기록된 기록 매체

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JPH09275578A (ja) * 1996-04-04 1997-10-21 Sharp Corp 多視点画像符号化装置および復号装置
JPH10271511A (ja) * 1997-01-22 1998-10-09 Matsushita Electric Ind Co Ltd 画像符号化装置と画像復号化装置
WO2005018217A2 (en) * 2003-08-07 2005-02-24 Sony Electronics, Inc. Semantics-based motion estimation for multi-view video coding
WO2006073116A1 (ja) * 2005-01-07 2006-07-13 Nippon Telegraph And Telephone Corporation 映像符号化方法及び装置、映像復号方法及び装置、それらのプログラムおよびそれらプログラムを記録した記録媒体
JP2006254023A (ja) 2005-03-10 2006-09-21 Matsushita Electric Ind Co Ltd 字幕用表示言語選択装置およびその方法
WO2007077989A1 (ja) * 2006-01-05 2007-07-12 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
WO2007077942A1 (ja) * 2006-01-05 2007-07-12 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU-T Rec. H.264 / ISO/IEC 14496-10 AVC), Draft 7", JVT-E022, September 2002 (2002-09-01), pages 10 - 13
HIDEAKI KIMATA; MASAKI KITAHARA: "Preliminary results on multiple view video coding(3DAV)", REDMOND MEETING, July 2004 (2004-07-01)
See also references of EP2066132A4 *
SHINYA SHIMIZU ET AL.: "Multi-view Video Coding based on 3-D Warping with Depth Map", PICTURE CODING SYMPOSIUM, April 2006 (2006-04-01), pages 3 - 6

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009105894A (ja) * 2007-10-19 2009-05-14 Gwangju Inst Of Science & Technology 参照映像を用いた深さ映像生成方法およびその装置、生成された深さ映像を符号化/復号化する方法およびそのためのエンコーダ/デコーダ、並びに前記方法によって生成される映像を記録する記録媒体
JP2010021844A (ja) * 2008-07-11 2010-01-28 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
RU2518435C2 (ru) * 2008-07-20 2014-06-10 Долби Лэборетериз Лайсенсинг Корпорейшн Оптимизация кодера в системах доставки стереоскопического видео
US8885721B2 (en) 2008-07-20 2014-11-11 Dolby Laboratories Licensing Corporation Encoder optimization of stereoscopic video delivery systems
JP2011060216A (ja) * 2009-09-14 2011-03-24 Fujifilm Corp 画像処理装置および画像処理方法
JP2012213207A (ja) * 2012-06-18 2012-11-01 Nippon Telegr & Teleph Corp <Ntt> 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
EP2066132A1 (en) 2009-06-03
CN101536529A (zh) 2009-09-16
RU2406257C2 (ru) 2010-12-10
US8385628B2 (en) 2013-02-26
TWI348320B (en) 2011-09-01
BRPI0716814A2 (pt) 2013-11-05
CA2663084A1 (en) 2008-03-27
CA2663084C (en) 2014-08-12
TW200822761A (en) 2008-05-16
US20100086222A1 (en) 2010-04-08
JP4999853B2 (ja) 2012-08-15
JPWO2008035654A1 (ja) 2010-01-28
CN101536529B (zh) 2011-08-31
EP2066132A4 (en) 2012-11-07
KR20090053821A (ko) 2009-05-27
KR101031624B1 (ko) 2011-04-27
RU2009107689A (ru) 2010-09-10

Similar Documents

Publication Publication Date Title
JP4999853B2 (ja) 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
JP4999854B2 (ja) 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
TWI502969B (zh) 活動影像編碼方法及解碼方法、其電腦程式以及記錄有該電腦程式之記憶媒體
JP6307152B2 (ja) 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム
JP6232075B2 (ja) 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
TWI499277B (zh) 多視點畫像編碼方法、多視點畫像解碼方法、多視點畫像編碼裝置、多視點畫像解碼裝置及這些程式
JPWO2007077989A1 (ja) 映像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
WO2014010584A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JP5926451B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
KR101750421B1 (ko) 동화상 부호화 방법, 동화상 복호 방법, 동화상 부호화 장치, 동화상 복호 장치, 동화상 부호화 프로그램, 및 동화상 복호 프로그램
JP4944046B2 (ja) 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体
US20170019683A1 (en) Video encoding apparatus and method and video decoding apparatus and method

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780041211.8

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07807442

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008535345

Country of ref document: JP

ENP Entry into the national phase

Ref document number: 2009107689

Country of ref document: RU

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2663084

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 1413/CHENP/2009

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 12441234

Country of ref document: US

Ref document number: 1020097005344

Country of ref document: KR

Ref document number: 2007807442

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: PI0716814

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20090316