[go: up one dir, main page]

WO2018198767A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2018198767A1
WO2018198767A1 PCT/JP2018/015158 JP2018015158W WO2018198767A1 WO 2018198767 A1 WO2018198767 A1 WO 2018198767A1 JP 2018015158 W JP2018015158 W JP 2018015158W WO 2018198767 A1 WO2018198767 A1 WO 2018198767A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
spread
spread information
frame
ifrm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2018/015158
Other languages
English (en)
French (fr)
Inventor
優樹 山本
徹 知念
辻 実
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to CN201880026183.0A priority Critical patent/CN110537373B/zh
Priority to EP18792058.2A priority patent/EP3618463A4/en
Priority to BR112019021897-1A priority patent/BR112019021897A2/pt
Priority to KR1020197029362A priority patent/KR102506167B1/ko
Priority to RU2019132899A priority patent/RU2763785C2/ru
Priority to JP2019514363A priority patent/JP7107305B2/ja
Priority to US16/606,257 priority patent/US20200126582A1/en
Publication of WO2018198767A1 publication Critical patent/WO2018198767A1/ja
Anticipated expiration legal-status Critical
Priority to JP2022112863A priority patent/JP7388492B2/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04806Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Definitions

  • the present technology relates to a signal processing device and method, and a program, and more particularly, to a signal processing device and method, and a program that can obtain appropriate spread information more easily.
  • MPEG Motion Picture Experts Group
  • 3D audio standard which is an international standard
  • spread information indicating the degree of spread of the sound image of the audio object is included as metadata of the audio object together with object position information indicating the position of the audio object in the bit stream.
  • the spread information is an arbitrary angle in the range from 0 degrees to 180 degrees indicating the degree of spread of the sound image in the horizontal direction and the vertical direction ( Hereinafter, this value is also referred to as a spread angle).
  • the spread information is composed of two values indicating the spread angle in the horizontal direction and the spread angle in the vertical direction.
  • the horizontal spread angle and the vertical spread angle are both angles in the range of 0 to 180 degrees.
  • Such spread information can have different values for each frame of the audio signal of the audio object.
  • rendering processing for expanding the sound image of the audio object based on spread information extracted from the bit stream that is, spread processing is performed. If such spread processing is performed, for example, the sound image area of an object that is large and close can be widened, and the sound image area of an object that is small and far can be narrowed. As a result, it is possible to realize content reproduction with higher presence.
  • spread information For example, it is expensive to manually add spread information for each time (frame) or for each audio object. In some cases, spread information may not be assigned in the first place.
  • the size of the object in the screen changes, but the sound image area is expanded to an appropriate size even if the spread information obtained from the bitstream is used as it is. I can't. Then, the size of the object on the screen does not correspond to the size of the sound image area of the audio object corresponding to the object, and the sense of reality is lost.
  • This technology has been made in view of such a situation, and makes it easier to obtain appropriate spread information.
  • a signal processing device includes: object position information of a processing target frame of an audio object; spread information of another frame different from the processing target frame of the audio object; zoom information; and the audio object A spread information generating unit that generates spread information of the processing target frame of the audio object based on any one of the size information of the audio object.
  • the processing target frame based on the spread information of the other frame of the audio object, the processing target frame of the audio object, and the object position information of the other frame.
  • the spread information can be generated.
  • the object position information can be a distance from a reference position to the audio object.
  • the spread information generation unit includes an arctangent of a product of a ratio of the distance in the processing target frame and the distance in the other frame and a tangent of the spread information in the other frame.
  • the spread information can be generated.
  • the spread information generation unit generates the spread information of the processing target frame of the audio object after zooming based on the zoom information and the spread information of the processing target frame of the audio object. be able to.
  • the spread information generation unit generates the spread information of the processing target frame of the audio object after the zoom based on the relationship between the position and size of the virtual screen before and after the zoom determined by the zoom information. Can do.
  • the spread information generation unit can generate the spread information of the processing target frame based on the size information and the object position information of the processing target frame of the audio object.
  • the size information can be the distance from the center of the audio object to the outer shell.
  • the object position information can be a distance from a reference position to the audio object.
  • the spread information generation unit can generate an arctangent of a ratio between the size information and the object position information of the processing target frame as the spread information of the processing target frame.
  • a signal processing method or program includes: object position information of a frame to be processed by an audio object; spread information of another frame different from the frame to be processed of the audio object; zoom information; Generating spread information of the frame to be processed of the audio object based on any one of the size information of the audio object.
  • object position information of a processing target frame of an audio object is generated.
  • spread information of another frame different from the processing target frame of the audio object is generated.
  • This technology generates audio object spread information based on other information that is different from the desired spread information, such as object position information, zoom information, size information, and spread information at different times. Thus, it is possible to obtain appropriate spread information more easily.
  • the multi-channel audio signal and the audio signal of the audio object are encoded according to a predetermined standard or the like.
  • the audio object is also simply referred to as an object.
  • audio signals of each channel and each object are encoded and transmitted for each frame.
  • an encoded audio signal and information necessary for decoding the audio signal are stored in a plurality of elements (bit stream elements), and a bit stream composed of these elements is transmitted from the encoding side to the decoding side. .
  • a plurality of elements are arranged in order from the top, and finally an identifier indicating the end position regarding the information of the frame is arranged.
  • the element arranged at the head is an ancillary data area called DSE (Data Stream Element), and the DSE describes information about each of a plurality of channels such as information on audio signal downmix and identification information. .
  • DSE Data Stream Element
  • each element following DSE stores an encoded audio signal.
  • an element storing a single channel audio signal is called SCE (Single Channel Element), and an element storing a pair of two channel audio signals is called CPE (Coupling Channel Element). It is.
  • the audio signal of each object is stored in the SCE.
  • the spread information of the audio signal of each object is generated and stored in the DSE. More specifically, object metadata including the generated spread information is stored in the DSE.
  • the metadata includes at least spread information and object position information.
  • the spread information is angle information indicating the range of the size of the sound image of the object, that is, a spread angle indicating the extent of the sound image of the sound of the object.
  • the spread information can be said to be information indicating the size of the object area.
  • the object position information is information indicating the position of the object in the three-dimensional space.
  • the object position information is coordinate information including a horizontal angle, a vertical angle, and a radius indicating the position of the object viewed from the reference position (origin).
  • the horizontal direction angle is a horizontal angle (azimuth angle) indicating the horizontal position of the object viewed from the reference position where the user is located, that is, the reference direction in the horizontal direction and the direction of the object viewed from the reference position.
  • the horizontal direction angle when the horizontal direction angle is 0 degree, the object is located in front of the user, and when the horizontal direction angle is 90 degrees or -90 degrees, the object is located directly beside the user. Become. When the horizontal direction angle is 180 degrees or ⁇ 180 degrees, the object is located immediately behind the user.
  • the vertical angle is a vertical angle (elevation angle) indicating the vertical position of the object viewed from the reference position, that is, an angle formed between the reference direction in the vertical direction and the object direction viewed from the reference position. is there.
  • the radius is the distance from the reference position in space to the object position.
  • the spread information of the frame to be processed of the object the spread information of another frame that is temporally different from the frame to be processed, and the object indicating the position of the object in space It was made to generate based on position information.
  • spread information is manually assigned only to one specific frame (hereinafter also referred to as a reference frame) such as the first frame of the audio signal of the object.
  • a reference frame such as the first frame of the audio signal of the object.
  • spread information is generated by the encoding device based on the object position information and the spread information of the reference frame.
  • one frame of the audio signal constituting the content may be a reference frame, or a plurality of frames may be a reference frame.
  • frames arranged at regular intervals may be used as reference frames, or arbitrary frames arranged at irregular intervals may be used as reference frames.
  • a frame that is not originally a reference frame may be used as a reference frame after generating spread information of the frame.
  • spread information may be generated in units of a predetermined time such as units of several frames.
  • one frame is a reference frame.
  • the sound image of the sound of an object is spread symmetrically in the horizontal direction and the vertical direction, and spread information of a frame index i indicating a frame, that is, a spread angle is described as s (i).
  • the frame index i indicating the current frame to be processed is denoted as ifrm
  • the frame index i of the reference frame is denoted as rfrm.
  • r (i) the radius of the object included in the object position information in the frame where the frame index of the object is i.
  • the fact that the size of the object does not change is used to generate spread information s (ifrm) of the current frame ifrm.
  • the position of the origin O is the position of the user's head, which is the reference position.
  • the object at the position of the point OB11 in the reference frame rfrm is the position of the point OB21 in the current frame ifrm. Moved to position.
  • the length of the straight line L11 connecting the reference origin O and the point OB11 that is, the distance from the origin O to the point OB11 is the radius r (rfrm) included in the object position information of the reference frame rfrm.
  • the length of the straight line L21 connecting the origin O and the point OB21 that is, the distance from the origin O to the point OB21 is the radius r (ifrm) included in the object position information of the current frame ifrm.
  • spread angle indicated by the spread information of the reference frame rfrm that is, spread information s (rfrm) is known.
  • a straight line passing through the origin O and having an angle s (rfrm) with the straight line L11 is defined as a straight line L12.
  • the spread information s (rfrm) is angle information indicating the range of the size of the sound image of the object, that is, the range of the object area, the end part (outer shell part) of the object area must be located on the straight line L12. become.
  • the position of this point OBE11 is the end part (outer shell part) of the object area. It becomes the position. Therefore, the length (distance) from the point OB11 to the point OBE11 is the length from the center of the object to the outer shell in the reference frame rfrm.
  • the length from the point OB11 to the point OBE11 is expressed as r (rfrm) ⁇ tan (s (rfrm)) using the spread information s (rfrm) and the radius r (rfrm). Can be represented.
  • a straight line passing through the origin O and having an angle s (ifrm) with the straight line L21 is defined as a straight line L22. Furthermore, if a straight line passing through the point OB21 and perpendicular to the straight line L21 is a straight line L23, and an intersection of the straight line L22 and the straight line L23 is a point OBE21, the position of the point OBE21 is the end portion of the object area in the current frame ifrm (outside Shell position).
  • the length from the point OB21 to the point OBE21 is the length from the center of the object to the outer shell in the current frame ifrm, and uses spread information s (ifrm) and radius r (ifrm). R (ifrm) ⁇ tan (s (ifrm)).
  • the ratio r (rfrm) / r (ifrm) of the radius r (ifrm) in the current frame ifrm of the object and the radius r (rfrm) in the reference frame rfrm and the spread information s ( The product tan (s (rfrm)) ⁇ r (rfrm) / r (ifrm) of the tangent of rfrm) is obtained. Then, an arctangent of the product tan (s (rfrm)) ⁇ r (rfrm) / r (ifrm) is generated as spread information s (ifrm) of the current frame ifrm of the object.
  • the current frame ifrm can be obtained by a simple calculation. Appropriate spread information s (ifrm) can be generated.
  • the horizontal spread information of the frame whose frame index is i is denoted as s width (i)
  • the vertical spread information of the frame whose frame index is i that is, the vertical spread angle. Is written as s height (i).
  • calculation similar to the above-described equation (1) may be performed for each of the horizontal direction and the vertical direction.
  • the horizontal spread information s width (ifrm) of the current frame ifrm can be obtained by calculating the following equation (2), and the vertical direction of the current frame ifrm can be obtained by calculating the following equation (3).
  • Spread information s height (ifrm) can be obtained.
  • FIG. 2 is a diagram illustrating a configuration example of an encoding device to which the present technology is applied.
  • 2 includes a channel audio encoding unit 21, an object audio encoding unit 22, a metadata input unit 23, a spread information generation unit 24, and a packing unit 25.
  • the channel audio encoding unit 21 is supplied with an audio signal of each multi-channel channel having M channels.
  • the audio signal of each channel is supplied from a microphone corresponding to the channel.
  • the characters “# 0” to “# M ⁇ 1” represent channel numbers of the respective channels.
  • the channel audio encoding unit 21 encodes the supplied audio signal of each channel, and supplies the encoded data obtained by the encoding to the packing unit 25.
  • the audio signal of each of N objects is supplied to the object audio encoding unit 22.
  • the audio signal of each object is supplied from a microphone attached to the object.
  • the characters “# 0” to “# N ⁇ 1” represent the object number of each object.
  • the object audio encoding unit 22 encodes the supplied audio signal of each object, and supplies the obtained encoded data to the packing unit 25.
  • the metadata input unit 23 supplies the metadata of each object to the spread information generation unit 24.
  • the object reference frame metadata includes object position information and spread information.
  • the metadata of the frame that is not the reference frame of the object includes object position information but does not include spread information.
  • the spread information generation unit 24 generates spread information of a frame that is not a reference frame based on the metadata supplied from the metadata input unit 23, and stores it in the metadata. As a result, the spread information generation unit 24 obtains metadata including object position information and spread information for all frames.
  • the spread information generation unit 24 supplies metadata of each object including the object position information and spread information to the packing unit 25.
  • the packing unit 25 packs the encoded data supplied from the channel audio encoding unit 21, the encoded data supplied from the object audio encoding unit 22, and the metadata supplied from the spread information generation unit 24 to bit. Create and output a stream.
  • the bit stream obtained in this way includes encoded data of each channel, encoded data of each object, and metadata of each object for each frame.
  • the audio signals of M channels and the audio signals of N objects stored in the bit stream for one frame are the audio signals of the same frame to be reproduced simultaneously.
  • the encoding device 11 When an audio signal of each of a plurality of channels and an audio signal of each of a plurality of objects are supplied for each frame, the encoding device 11 performs an encoding process to generate a bit stream including the encoded audio signal. Output.
  • step S11 the spread information generation unit 24 determines whether or not the frame to be processed is a reference frame.
  • the metadata input unit 23 acquires the metadata of each object of the processing target frame by receiving a user input operation, communicating with the outside, or reading from the external recording area. To the spread information generation unit 24.
  • the spread information generation unit 24 determines that the processing target frame is the reference frame when the spread information is included in the processing target frame metadata of each object supplied from the metadata input unit 23.
  • step S11 and step S12 may be performed for each object.
  • step S11 If it is determined in step S11 that the frame is a reference frame, the spread information generation unit 24 supplies the metadata of the processing target frame of each object supplied from the metadata input unit 23 to the packing unit 25 as it is, and performs processing. Advances to step S13.
  • step S11 determines whether the frame is a reference frame. If it is determined in step S11 that the frame is not a reference frame, the process proceeds to step S12.
  • step S12 the spread information generation unit 24 generates spread information of a processing target frame for each object based on the metadata supplied from the metadata input unit 23.
  • the spread information generation unit 24 converts the object position information included in the metadata of the processing target frame, and the object position information and spread information included in the metadata of the reference frame supplied from the metadata input unit 23 in the past. Based on the above formula (1) or the above formula (2) and formula (3), the spread information of the frame to be processed is generated.
  • the spread information generating unit 24 When the spread information generating unit 24 generates spread information for each object, the generated spread information is stored in the metadata of each object, and the metadata including the object position information and the spread information is supplied to the packing unit 25. To do.
  • step S11 If it is determined in step S11 that the frame is a reference frame, or if spread information is generated in step S12, the process of step S13 is performed.
  • step S13 the packing unit 25 stores the metadata of each object supplied from the spread information generation unit 24 in the DSE of the bitstream.
  • step S14 the channel audio encoding unit 21 encodes the supplied audio signal of each channel, and supplies the encoded data of each channel obtained as a result to the packing unit 25.
  • step S15 the packing unit 25 stores the encoded data of the audio signal of each channel supplied from the channel audio encoding unit 21 in the SCE or CPE of the bit stream. That is, the encoded data is stored in each element arranged after the DSE in the bit stream.
  • step S16 the object audio encoding unit 22 encodes the supplied audio signal of each object, and supplies the encoded data of each object obtained as a result to the packing unit 25.
  • step S17 the packing unit 25 stores the encoded data of the audio signal of each object supplied from the object audio encoding unit 22 in the SCE of the bit stream. That is, encoded data is stored in some elements arranged after DSE in the bitstream.
  • the encoded data of the audio signals of all channels and the bit stream storing the metadata and encoded data of the audio signals of all objects are obtained for the frame to be processed.
  • step S18 the packing unit 25 outputs the obtained bit stream for one frame.
  • step S19 the encoding device 11 determines whether or not to end the process. For example, when encoding has been completed for all frames, it is determined in step S19 that the processing is to be terminated.
  • step S19 If it is determined in step S19 that the process is not terminated, the process returns to step S11, the next frame is set as a process target frame, and the above-described process is repeated.
  • each unit of the encoding device 11 stops the process being performed, and the encoding process is ended.
  • the encoding device 11 generates spread information of a frame that is not a reference frame of each object, stores it in the bit stream, and outputs it. As a result, it is possible to reduce the cost of manually providing spread information and to obtain appropriate spread information more easily.
  • ⁇ Variation 1 of the first embodiment> ⁇ Configuration example of decoding device>
  • a decoding device that receives the bit stream output from the encoding device and decodes the encoded data included in the bit stream is configured as shown in FIG. 4, for example.
  • the 4 includes an unpacking / decoding unit 111, a spread information generation unit 112, a rendering unit 113, and a mixing unit 114.
  • the unpacking / decoding unit 111 acquires the bitstream output from the encoding device and performs unpacking and decoding of the bitstream.
  • the unpacking / decoding unit 111 supplies the audio signal of each object obtained by unpacking and decoding to the rendering unit 113, and the metadata of each object obtained by unpacking and decoding to the spread information generation unit 112. Supply.
  • the spread information is included only in the metadata of the reference frame, and the spread information is not included in the metadata of the frame that is not the reference frame.
  • the unpacking / decoding unit 111 supplies the audio signal of each channel obtained by unpacking and decoding to the mixing unit 114.
  • the spread information generation unit 112 generates spread information of a frame that is not a reference frame based on the metadata of each object supplied from the unpacking / decoding unit 111, and stores it in the metadata. As a result, the spread information generation unit 112 can obtain metadata including object position information and spread information for all frames.
  • the spread information generation unit 112 supplies metadata of each object including the object position information and spread information to the rendering unit 113.
  • the rendering unit 113 generates an M-channel audio signal based on the audio signal of each object supplied from the unpacking / decoding unit 111 and the metadata of each object supplied from the spread information generation unit 112, and the mixing unit 114. At this time, the rendering unit 113 localizes the sound image of each object to a position indicated by the object position information of the object, and the audio of each of the M channels so that the sound image spreads with a degree of spread indicated by the object spread information. Generate a signal.
  • the mixing unit 114 weights and adds the audio signal of each channel supplied from the unpacking / decoding unit 111 and the audio signal of each channel supplied from the rendering unit 113 for each channel, and finally the audio of each channel. Generate a signal.
  • the mixing unit 114 supplies the final audio signal of each channel obtained in this way to speakers corresponding to each external channel, and reproduces the sound.
  • the decoding device 101 When the bit stream is supplied from the encoding device, the decoding device 101 performs a decoding process to generate an audio signal and outputs it to the speaker.
  • the decoding process performed by the decoding apparatus 101 will be described with reference to the flowchart of FIG.
  • step S51 the unpacking / decoding unit 111 acquires the bit stream transmitted from the encoding device for one frame. That is, a bit stream of a frame to be processed is received.
  • step S52 the unpacking / decoding unit 111 performs a frame decoding process.
  • the unpacking / decoding unit 111 unpacks the bit stream of the processing target frame acquired in step S51, and acquires encoded data of each channel, encoded data of each object, and metadata of each object. .
  • the unpacking / decoding unit 111 decodes the encoded data of each channel and supplies the audio signal of each channel obtained as a result to the mixing unit 114. Further, the unpacking / decoding unit 111 decodes the encoded data of each object, and supplies the audio signal of each object obtained as a result to the rendering unit 113.
  • the unpacking / decoding unit 111 supplies the acquired metadata of each object to the spread information generation unit 112.
  • step S53 the spread information generation unit 112 determines whether or not the frame to be processed is a reference frame.
  • the spread information generation unit 112 determines that the processing target frame is a reference frame. .
  • step S53 If it is determined in step S53 that the frame is a reference frame, the spread information generation unit 112 supplies the processing target frame metadata of each object supplied from the unpacking / decoding unit 111 to the rendering unit 113 as it is. The process proceeds to step S55.
  • step S53 if it is determined in step S53 that the frame is not a reference frame, the process proceeds to step S54.
  • step S54 the spread information generation unit 112 generates, for each object, spread information of the processing target frame based on the metadata supplied from the unpacking / decoding unit 111.
  • the spread information generation unit 112 is based on the object position information included in the metadata of the processing target frame (current frame), and the object position information and spread information included in the metadata of the reference frame supplied in the past.
  • the spread information of the frame to be processed is generated by calculating the above-described equation (1) or the above-described equations (2) and (3).
  • the spread information generation unit 112 When the spread information generation unit 112 generates the spread information for each object, the spread information generation unit 112 stores the generated spread information in the metadata of each object, and supplies metadata including the object position information and the spread information to the rendering unit 113. To do.
  • step S53 If it is determined in step S53 that the frame is a reference frame, or if spread information is generated in step S54, the process of step S55 is performed.
  • step S55 the rendering unit 113 renders the audio signal of the object based on the object audio signal supplied from the unpacking / decoding unit 111 and the metadata supplied from the spread information generation unit 112.
  • the rendering unit 113 For each object, the rendering unit 113 generates an audio signal of each channel by VBAP (Vector Amplitude Pannning) based on the spread information and the object position information, and supplies the audio signal to the mixing unit 114.
  • VBAP Vector Amplitude Pannning
  • the sound image of the object is localized at the position indicated by the object position information, and an audio signal is generated so that the sound image spreads with the degree of spread indicated by the spread information.
  • step S56 the mixing unit 114 weights and adds the audio signal of each channel supplied from the unpacking / decoding unit 111 and the audio signal of each channel supplied from the rendering unit 113 for each channel, and external speakers. To supply. Thereby, since the audio signal of the channel corresponding to those speakers is supplied to each speaker, each speaker reproduces sound based on the supplied audio signal.
  • step S57 the decoding apparatus 101 determines whether or not to end the process. For example, when the output of the audio signal to the speaker is completed for all frames, it is determined in step S57 that the process is to be ended.
  • step S57 If it is determined in step S57 that the process is not to be terminated, the process returns to step S51, and the above-described process is repeated with the next frame as the frame to be processed.
  • step S57 when it is determined in step S57 that the processing is to be ended, each unit of the decoding device 101 stops the processing being performed, and the decoding processing is ended.
  • the decoding apparatus 101 performs rendering by generating spread information of a frame that is not a reference frame of each object.
  • some encoding methods that can handle object audio can switch whether or not to include spread information in metadata by a flag in the header part. That is, the existence of a bitstream to which spread information is not given is allowed.
  • spread information can be generated using object position information and size information without manually assigning spread information.
  • the sound image of the sound of the object is spread symmetrically in the horizontal direction and the vertical direction, and information indicating the distance from the center of the object to the outer shell (end) is the size information of the object.
  • the size information of a frame having a frame index i is denoted as d (i).
  • the position of the point OB21 is determined by the radius r (ifrm) included in the object position information. Further, the position of the point OBE21 is determined from the position of the point OB21 and the size information d (ifrm).
  • the point OBE21 is located on a straight line orthogonal to the straight line L21 connecting the origin O and the point OB21. That is, it is assumed that the straight line L23 connecting the point OB21 and the point OBE21 is a straight line perpendicular to the straight line L21.
  • spread information s (ifrm) of the current frame ifrm that is, a spread angle is an angle formed by the straight line L22 and the straight line L21. Therefore, the spread information s (ifrm) can be obtained by the following equation (4) using the radius r (ifrm) and the size information d (ifrm).
  • equation (4) the ratio d (ifrm) / r (ifrm) between the size information d (ifrm) of the current frame ifrm of the object and the radius r (ifrm) of the current frame ifrm of the object is obtained, and the ratio The arc tangent of d (ifrm) / r (ifrm) is generated as spread information s (ifrm) of the current frame ifrm of the object.
  • Equation (4) is calculated based on the radius r (ifrm) and the size information d (ifrm) of the current frame ifrm of the object, the appropriate spread information s ( ifrm) can be generated.
  • spread information can be generated by the same calculation as Expression (4).
  • the distance from the center of the object to the outer shell in the horizontal direction, i.e., the horizontal end, is the horizontal distance
  • the distance from the center of the object to the outer shell in the vertical direction, i.e., the vertical end is Vertical distance.
  • the spread information s width (ifrm) in the horizontal direction of the current frame ifrm can be obtained by calculating the following equation (5) as in the above equation (4).
  • horizontal spread information s width (ifrm) is calculated based on the radius r (ifrm) of the current frame ifrm and the horizontal distance d width (ifrm) as size information.
  • vertical spread information s height (ifrm) is calculated based on the radius r (ifrm) of the current frame ifrm and the vertical distance d height (ifrm) as size information.
  • the metadata input unit 23 to the spread information generation unit 24 transfer the metadata and Size information is supplied.
  • the metadata includes object position information but does not include spread information.
  • the spread information generation unit 24 generates spread information based on the object position information and size information supplied from the metadata input unit 23.
  • the encoding device 11 When the spread information is generated in this way, the encoding device 11 performs the encoding process shown in FIG.
  • the encoding process by the encoding device 11 will be described with reference to the flowchart of FIG.
  • step S81 the spread information generation unit 24 generates spread information.
  • the metadata input unit 23 receives the user's input operation, communicates with the outside, or reads out from the external recording area, so that the metadata and the size of each object in the processing target frame are large. Information is obtained and supplied to the spread information generator 24.
  • the spread information generation unit 24 generates spread information for each object based on the metadata and size information supplied from the metadata input unit 23.
  • the spread information generation unit 24 uses the above-described formula (4) or the above-described formula based on the object position information included in the metadata of the processing target frame and the size information of the processing target frame. By calculating (5) and equation (6), the spread information of the frame to be processed is generated.
  • the spread information generating unit 24 stores the generated spread information in the metadata of each of those objects, and supplies the metadata including the object position information and the spread information and the size information to the packing unit 25. .
  • step S82 After the spread information is generated, the process from step S82 to step S88 is performed and the encoding process ends. However, these processes are the same as the process from step S13 to step S19 in FIG. Description is omitted. However, in step S82, the object size information is also stored in the DSE of the bitstream together with the metadata.
  • the encoding device 11 generates spread information based on the object position information and the size information, stores it in the bit stream, and outputs it. Thereby, the cost of providing spread information can be reduced, and appropriate spread information can be obtained more easily.
  • step S111 and step S112 are the same as the process of step S51 of FIG. 5, and step S52, the description is abbreviate
  • the unpacking / decoding unit 111 acquires the metadata and size information of each object by unpacking the bitstream, and these metadata and size information are supplied to the spread information generation unit 112.
  • the metadata acquired by unpacking includes object position information, but does not include spread information.
  • step S113 the spread information generation unit 112 generates spread information of the frame to be processed based on the metadata and size information supplied from the unpacking / decoding unit 111 for each object.
  • the spread information generation unit 112 uses the above-described formula (4) or the above-described formula (5) based on the object position information included in the metadata of the processing target frame and the size information of the processing target frame. By calculating Expression (6), spread information of the processing target frame is generated.
  • the spread information generation unit 112 When the spread information generation unit 112 generates the spread information for each object, the spread information generation unit 112 stores the generated spread information in the metadata of each object, and supplies metadata including the object position information and the spread information to the rendering unit 113. To do.
  • step S113 When the process of step S113 is performed, the process of step S114 to step S116 is performed thereafter, and the decoding process ends.
  • steps S55 to step S57 of FIG. Description are the same as the process of step S55 to step S57 of FIG. Description is omitted.
  • the decoding apparatus 101 generates spread information based on the object position information and size information of each object, and performs rendering.
  • the object position information is corrected based on the zoom information specified by the user, thereby realizing the movement of the object corresponding to the zoom.
  • content reproduction with higher presence may be realized by appropriately correcting the spread information of the frame to be processed based on the zoom information.
  • the object position information of the object is corrected, and the movement of the object corresponding to the zoom is realized.
  • the object OB61 is located on the virtual screen SC11 that is positioned in front of the user U11 in the state before zooming and that has the point SCE11 and the point SCE12 as horizontal end points. Suppose that it is displayed.
  • the object OB61 is an object corresponding to the audio object, and the vertical angle (elevation angle) indicating the vertical position of the object OB61 viewed from the user U11 is 0 degree. That is, it is assumed that the vertical direction angle indicated by the object position information of the object OB61 is 0 degree.
  • the point SCO11 is the center position of the screen SC11, and the position of the point SCO11 viewed from the user U11 is a position where the horizontal direction angle and the vertical direction angle are 0 degrees.
  • the object OB61 when viewed from the user U11, the object OB61 is located in the diagonally right front direction. At this time, if the straight line connecting the origin O and the object OB61 is a straight line L62 and the angle formed by the straight line L61 and the straight line L62 is ⁇ , the position of the object OB61 viewed from the user U11 is a horizontal angle of ⁇ and vertical. This is the position where the direction angle is 0 degree.
  • the zoom information is information that can specify the position and size of the screen SC21 after zooming with respect to the screen SC11 before zooming, such as information indicating the center position and zoom magnification of the virtual screen SC21 after zooming. . That is, the zoom information is information that can specify the relationship between the position and size of the screen SC11 and the screen SC21.
  • the point SCO21 at the center of the screen SC21 and the points SCE21 and SCE22 which are the horizontal ends of the screen SC21 are specified.
  • the object position information of the object OB61 is corrected based on the zoom information, and the sound image localization position of the object OB61 is moved to a position corresponding to the zoom.
  • zoom processing is performed on the content image.
  • zoom processing is performed, for example, as indicated by an arrow A12, the user U11 is positioned in front of the screen SC21, so that the object OB61 is positioned in a diagonally left front direction as viewed from the user U11.
  • a straight line that passes through the origin O and is perpendicular to the surface of the screen SC21 is defined as a straight line L63.
  • the intersection of the straight line L63 and the screen SC21 becomes a point SCO21 at the center position of the screen SC21, and the position of the point SCO21 viewed from the user U11 after zooming has a horizontal angle and a vertical angle of 0 degrees. Position.
  • the straight line connecting the origin O after zooming and the object OB61 be a straight line L64.
  • the angle formed by the straight line L63 and the straight line L64 is ⁇ ′
  • the position of the object OB61 viewed from the user U11 after zooming is a position where the horizontal angle is ⁇ ′ and the vertical angle is 0 degree.
  • the corrected horizontal direction angle ⁇ ′ of the object position information of the object OB61 is obtained as follows.
  • zooming is performed in a state where the object OB61 is in front of the user U11 as shown by an arrow A21 in FIG. 10, and after zooming, the object OB61 is in front of the user U11 as shown by an arrow A22 in FIG.
  • the same reference numerals are given to portions corresponding to those in FIG. 9, and the description thereof will be omitted as appropriate.
  • the angle between the position of the user U11 before zooming, that is, the straight line connecting the origin O and the point SCE11, and the straight line L61 is ⁇ repro left .
  • the angle formed by the straight line connecting the origin O and the point SCE12 before zooming and the straight line L61 is ⁇ repro right .
  • the position of the user U11 before zooming that is, the angle formed by the straight line connecting the origin O and the point SCE21 and the straight line L61 is ⁇ ZASource left .
  • an angle formed by a straight line connecting the origin O and the point SCE22 before zooming and the straight line L61 is ⁇ ZASource right .
  • the position of the user U11 after zooming that is, the origin O and the point SCE21 are connected.
  • the angle formed by the straight line and the straight line L63 is ⁇ repro left .
  • the angle formed between the straight line connecting the origin O and the point SCE22 after zooming and the straight line L63 is ⁇ repro right .
  • the object after correction of the object OB61 By using the angle ⁇ repro left , angle ⁇ repro right , angle ⁇ ZASource left , angle ⁇ ZASource right, and the horizontal angle ⁇ in the object position information before correction of the object OB61, the object after correction of the object OB61
  • the horizontal angle ⁇ ′ in the position information can be obtained. That is, the horizontal angle ⁇ ′ can be obtained by the following equation (7).
  • the vertical direction angle of the object position information before zooming that is, before correction
  • the vertical direction angle of the object position information after zooming that is, after correction
  • the angle formed by the straight line connecting the user position, that is, the origin O and the center of the virtual screen, and the straight line connecting the origin O and the upper end of the virtual screen before and after zooming is ⁇ repro top . It is assumed that an angle formed by a straight line connecting the origin O and the center of the virtual screen and a straight line connecting the origin O and the lower end of the virtual screen before and after zooming is ⁇ repro bottom . These angles ⁇ repro top and angle ⁇ repro bottom are known.
  • an angle formed by a straight line connecting the origin O before zooming and the center of the virtual screen before zooming and a straight line connecting the origin O before zooming and the upper end of the virtual screen after zooming is defined as ⁇ ZASource top .
  • an angle between a straight line connecting the origin O before zooming and the center of the virtual screen before zooming and a straight line connecting the origin O before zooming and the lower end of the virtual screen after zooming is expressed as ⁇ ZASource bottom To do.
  • the object position after the object correction can be determined. That is, the vertical angle ⁇ ′ can be obtained by the following equation (8).
  • the calculation of the formula (7) and the formula (8) is performed based on the zoom information and the object position information before the correction, and the horizontal angle and vertical direction of the object included in the object position information are calculated. The direction angle and radius are modified.
  • the relationship between the spread angles before and after zooming is the same as the relationship between the horizontal angle and the vertical angle indicated by the object position information before and after zooming. For this reason, it is possible to appropriately correct the spread information by performing the same calculation as in the equations (7) and (8). That is, it is possible to generate appropriate spread information after zooming.
  • spread information s width (ifrm) and spread information s height (ifrm) are spread information of the current frame ifrm before zooming. Is given.
  • the horizontal spread angle of the current frame ifrm after zooming is defined as s ′ width (ifrm)
  • the vertical spread angle of the current frame ifrm after zooming is defined as s ′ height (ifrm). That is, the information including the spread information s ′ width (ifrm) and the spread information s ′ height (ifrm) is used as the corrected spread information (after zooming) corrected according to the zoom based on the zoom information.
  • corrected spread information s ′ width (ifrm) can be obtained by replacing ⁇ and ⁇ ′ in equation (7) with s width (ifrm) and s ′ width (ifrm).
  • corrected spread information s ′ height (ifrm) can be obtained by replacing ⁇ and ⁇ ′ in equation (8) with s height (ifrm) and s ′ height (ifrm).
  • the spread information after correction (after zooming) is calculated by calculating the following equation (9) based on the zoom information and spread information s width (ifrm) before zooming (before correction) of the current frame ifrm of the object. You can get s' width (ifrm).
  • the corrected spread information s' height ( ifrm) is calculated based on the zoom information and the spread information s height (ifrm) before zooming (before correction) of the current frame ifrm of the object.
  • the spread information is corrected by these formulas (9) and (10) in relation to the position and size relationship between the virtual screen SC11 before zooming and the virtual screen SC21 after zooming determined by the zoom information, and the object. It can also be said that the spread information after zooming of the current frame ifrm of the object is generated based on the spread information before zooming of the current frame ifrm.
  • the case where the sound image of the sound of the object is spread asymmetrically in the horizontal direction and the vertical direction has been described as an example, but the spread information is similarly applied when the sound image is spread symmetrically in the horizontal direction and the vertical direction. It is possible to correct.
  • the corrected spread information is s ′ (ifrm)
  • the spread information s width (ifrm) and the spread information s ′ width (ifrm) are changed into the spread information s (ifrm) and the spread information in Expression (9).
  • the calculation may be performed by replacing the information with s ′ (ifrm).
  • the decoding device when the object position information and the spread information are corrected based on the zoom information, the decoding device is configured as shown in FIG. 11, for example.
  • FIG. 11 portions corresponding to those in FIG. 4 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • the spread information generation unit 112 of the decoding apparatus 101 shown in FIG. 11 is provided with a position information correction unit 161 and a spread information correction unit 162.
  • the decoding apparatus 101 shown in FIG. 11 differs from the decoding apparatus 101 shown in FIG. 4 in that a position information correction unit 161 and a spread information correction unit 162 are provided in the spread information generation unit 112, and otherwise shown in FIG.
  • the decoding apparatus 101 has the same configuration.
  • the metadata of all frames of each object is supplied from the unpacking / decoding unit 111 to the spread information generation unit 112.
  • the metadata always includes object position information and spread information.
  • zoom information is also supplied to the spread information generation unit 112 in accordance with a user operation or the like.
  • the position information correction unit 161 of the spread information generation unit 112 corrects the object position information included in the metadata supplied from the unpacking / decoding unit 111 based on the supplied zoom information.
  • the spread information correction unit 162 of the spread information generation unit 112 corrects the spread information included in the metadata supplied from the unpacking / decoding unit 111 based on the supplied zoom information. In other words, the spread information correction unit 162 generates the spread information after zooming based on the zoom information and the spread information before zooming (before correction).
  • the spread information generation unit 112 supplies the rendering unit 113 with metadata of each object including the corrected object position information and the corrected spread information.
  • step S141 and step S142 are the same as the process of step S51 of FIG. 5, and step S52, the description is abbreviate
  • step S142 metadata including object position information and spread information is supplied to the spread information generation unit 112 for each object.
  • step S143 the position information correction unit 161 corrects the object position information included in the metadata supplied from the unpacking / decoding unit 111 based on the supplied zoom information.
  • the position information correction unit 161 includes a horizontal direction angle, a vertical direction angle included in the object position information, and Correct the radius.
  • the position information correcting unit 161 calculates the corrected horizontal direction angle ⁇ ′ indicating the position of the object by calculating the above-described equation (7), and also calculates the above-described equation (8). To calculate the corrected vertical angle ⁇ ′ indicating the position of the object. Further, the position information correction unit 161 calculates a corrected radius indicating the position of the object by dividing the radius indicating the position of the object by the zoom magnification.
  • step S144 the spread information correction unit 162 corrects the spread information included in the metadata supplied from the unpacking / decoding unit 111 based on the supplied zoom information. That is, spread information after zooming according to the zoom is generated.
  • spread information s width (ifrm) and spread information s height (ifrm) are included as spread information of metadata supplied from the unpacking / decoding unit 111.
  • the spread information correcting unit 162 calculates the above-described formula (9) and formula (10) based on the spread information and the zoom information, thereby correcting the corrected spread information s ′ width (ifrm) and Spread information s' height (ifrm) is calculated.
  • the spread information generation unit 112 supplies the metadata of each object including the corrected object position information and the corrected spread information to the rendering unit 113. To do.
  • step S143 and step S144 are not performed. That is, the object position information and spread information are not corrected.
  • step S144 When the process of step S144 is performed, the process of step S145 to step S147 is performed thereafter, and the decoding process ends. However, these processes are the same as the process of step S55 to step S57 of FIG. Description is omitted.
  • the decoding apparatus 101 corrects the object position information and spread information of each object and performs rendering.
  • step S113 when the second embodiment and the third embodiment are combined, after the process of step S113 is performed in the decoding process described with reference to FIG. 8, steps S143 and S144 of FIG.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 13 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface or the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded in a removable recording medium 511 as a package medium, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable recording medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • 11 encoding device 22 object audio encoding unit, 23 metadata input unit, 24 spread information generation unit, 101 decoding device, 111 unpacking / decoding unit, 112 spread information generation unit, 113 rendering unit, 161 position information correction unit 162 Spread information correction section

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、より簡単に適切なスプレッド情報を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。 信号処理装置は、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報およびオーディオオブジェクトの処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、オーディオオブジェクトの処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備える。本技術は符号化装置および復号装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム
 本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より簡単に適切なスプレッド情報を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。
 従来、オブジェクトオーディオを扱える符号化方式として、例えば国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている(例えば、非特許文献1参照)。
 このような符号化方式では、オーディオオブジェクトの音の音像を広げるスプレッド処理を行うことができる。
 具体的には、符号化装置側では、ビットストリームにオーディオオブジェクトの位置を示すオブジェクト位置情報とともに、オーディオオブジェクトの音の音像の広がり度合いを示すスプレッド情報がオーディオオブジェクトのメタデータとして含められる。
 例えばオーディオオブジェクトの音の音像が水平方向および垂直方向に対称に広げられる場合、スプレッド情報は、水平方向および垂直方向への音像の広がり度合いを示す0度から180度までの範囲の任意の角度(以下、スプレッド角度とも称する)を示す1つの値からなる。
 これに対して、オーディオオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合、スプレッド情報は、水平方向のスプレッド角度と垂直方向のスプレッド角度を示す2つの値からなる。なお、水平方向のスプレッド角度および垂直方向のスプレッド角度は、ともに0度から180度までの範囲の角度とされる。
 このようなスプレッド情報は、オーディオオブジェクトのオーディオ信号のフレームごとに異なる値とすることができる。
 また、復号装置側では、ビットストリームから抽出されたスプレッド情報に基づいて、オーディオオブジェクトの音像を広げるレンダリング処理、すなわちスプレッド処理が行われる。このようなスプレッド処理を行えば、例えば大きく、近くにあるオブジェクトの音像の領域を広げ、小さく、遠くにあるオブジェクトの音像の領域を狭くすることができる。その結果、より臨場感の高いコンテンツ再生を実現することができる。
INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
 しかしながら、適切なスプレッド情報を得ることは容易ではなかった。
 例えばスプレッド情報を、時間(フレーム)ごとやオーディオオブジェクトごとに人手で付与するのはコストが高い。また、場合によっては、そもそもスプレッド情報が付与されていないこともある。
 さらに、例えば復号側においてユーザ等によりズーム処理が行われると画面内におけるオブジェクトの大きさは変化するが、ビットストリームから得られたスプレッド情報をそのまま用いても音像の領域を適切な大きさに広げることができない。そうすると、画面内のオブジェクトの大きさと、そのオブジェクトに対応するオーディオオブジェクトの音像の領域の大きさとが対応せず、臨場感が損なわれてしまう。
 本技術は、このような状況に鑑みてなされたものであり、より簡単に適切なスプレッド情報を得ることができるようにするものである。
 本技術の一側面の信号処理装置は、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備える。
 前記スプレッド情報生成部には、前記オーディオオブジェクトの前記他のフレームの前記スプレッド情報と、前記オーディオオブジェクトの前記処理対象のフレームおよび前記他のフレームの前記オブジェクト位置情報とに基づいて前記処理対象のフレームの前記スプレッド情報を生成させることができる。
 前記オブジェクト位置情報を、基準位置から前記オーディオオブジェクトまでの距離とすることができる。
 前記スプレッド情報生成部には、前記処理対象のフレームにおける前記距離および前記他のフレームにおける前記距離の比と、前記他のフレームの前記スプレッド情報の正接との積の逆正接を前記処理対象のフレームの前記スプレッド情報として生成させることができる。
 前記スプレッド情報生成部には、前記ズーム情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報とに基づいて、ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成させることができる。
 前記スプレッド情報生成部には、前記ズーム情報により定まるズーム前後における仮想スクリーンの位置および大きさの関係に基づいて、前記ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成させることができる。
 前記スプレッド情報生成部には、前記大きさ情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記オブジェクト位置情報とに基づいて、前記処理対象のフレームの前記スプレッド情報を生成させることができる。
 前記大きさ情報を、前記オーディオオブジェクトの中心から外殻までの距離とすることができる。
 前記オブジェクト位置情報を、基準位置から前記オーディオオブジェクトまでの距離とすることができる。
 前記スプレッド情報生成部には、前記大きさ情報と、前記処理対象のフレームの前記オブジェクト位置情報との比の逆正接を前記処理対象のフレームの前記スプレッド情報として生成させることができる。
 本技術の一側面の信号処理方法またはプログラムは、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するステップを含む。
 本技術の一側面においては、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報が生成される。
 本技術の一側面によれば、より簡単に適切なスプレッド情報を得ることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
スプレッド情報の生成について説明する図である。 符号化装置の構成例を示す図である。 符号化処理を説明するフローチャートである。 復号装置の構成例を示す図である。 復号処理を説明するフローチャートである。 スプレッド情報の生成について説明する図である。 符号化処理を説明するフローチャートである。 復号処理を説明するフローチャートである。 ズームについて説明する図である。 ズームに応じたオブジェクト位置情報の修正について説明する図である。 復号装置の構成例を示す図である。 復号処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、オーディオオブジェクトのスプレッド情報を、オーディオオブジェクトのオブジェクト位置情報、ズーム情報、大きさ情報、異なる時刻のスプレッド情報など、得ようとするスプレッド情報とは異なる他の情報に基づいて生成することで、より簡単に適切なスプレッド情報を得ることができるようにするものである。
 以下では、マルチチャネルのオーディオ信号およびオーディオオブジェクトのオーディオ信号が所定の規格等に従って符号化されるものとして説明を行う。なお、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。
 例えば、各チャネルや各オブジェクトのオーディオ信号はフレームごとに符号化されて伝送される。
 すなわち、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント(ビットストリームエレメント)に格納され、それらのエレメントからなるビットストリームが符号化側から復号側に伝送される。
 具体的には、例えば1フレーム分のビットストリームには、先頭から順番に複数個のエレメントが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子が配置される。
 そして、先頭に配置されたエレメントは、DSE(Data Stream Element)と呼ばれるアンシラリデータ領域とされ、DSEにはオーディオ信号のダウンミックスに関する情報や識別情報など、複数の各チャネルに関する情報が記述される。
 また、DSEの後に続く各エレメントには、符号化されたオーディオ信号が格納される。特に、シングルチャネルのオーディオ信号が格納されているエレメントはSCE(Single Channel Element)と呼ばれており、ペアとなる2つのチャネルのオーディオ信号が格納されているエレメントはCPE(Coupling Channel Element)と呼ばれている。各オブジェクトのオーディオ信号はSCEに格納される。
 本技術では、各オブジェクトのオーディオ信号のスプレッド情報が生成されてDSEに格納される。より詳細には、生成されたスプレッド情報を含むオブジェクトのメタデータがDSEに格納される。
 ここで、メタデータには、少なくともスプレッド情報とオブジェクト位置情報とが含まれている。
 スプレッド情報は、オブジェクトの音像の大きさの範囲を示す角度情報、すなわちオブジェクトの音の音像の広がり度合いを示すスプレッド角度である。換言すれば、スプレッド情報は、オブジェクトの領域の大きさを示す情報であるともいうことができる。
 また、オブジェクト位置情報は、3次元空間におけるオブジェクトの位置を示す情報であり、例えば基準位置(原点)から見たオブジェクトの位置を示す水平方向角度、垂直方向角度、および半径からなる座標情報とされる。
 水平方向角度は、ユーザがいる位置である基準位置から見たオブジェクトの水平方向の位置を示す水平方向の角度(方位角)、つまり水平方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
 ここでは、水平方向角度が0度であるときには、オブジェクトはユーザの真正面に位置しており、水平方向角度が90度や-90度であるときには、オブジェクトはユーザの真横に位置していることになる。また、水平方向角度が180度または-180度であるときには、オブジェクトはユーザの真後ろに位置していることになる。
 同様に垂直方向角度は、基準位置から見たオブジェクトの垂直方向の位置を示す垂直方向の角度(仰角)、つまり垂直方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
 また、半径は空間上における基準位置からオブジェクトの位置までの距離である。
 ところで、各オブジェクトについてフレームごとにスプレッド情報を人手で付与するのはコストが高い。例えば映画コンテンツでは多くのオブジェクトを長時間にわたり扱うため、人手によるコストは特に高くなるといえる。
 そこで本技術を適用した符号化装置では、オブジェクトの処理対象のフレームのスプレッド情報を、その処理対象のフレームとは時間的に異なる他のフレームのスプレッド情報と、オブジェクトの空間上の位置を示すオブジェクト位置情報とに基づいて生成するようにした。
 具体的には、例えばオブジェクトのオーディオ信号の最初のフレームなど、特定の1つのフレーム(以下、参照フレームとも称する)についてのみスプレッド情報が人手で付与される。そして、参照フレーム以外のフレームについては、オブジェクト位置情報と参照フレームのスプレッド情報に基づいて、符号化装置によりスプレッド情報が生成される。
 なお、コンテンツを構成するオーディオ信号の1つのフレームが参照フレームとされてもよいし、複数のフレームが参照フレームとされるようにしてもよい。特に、参照フレームを複数設ける場合には、等間隔に並ぶフレームが参照フレームとされてもよいし、不等間隔で並ぶ任意のフレームが参照フレームとされてもよい。また、もともとは参照フレームではないフレームが、そのフレームのスプレッド情報生成後、参照フレームとして用いられるようにしてもよい。
 さらに、ここではフレーム単位でスプレッド情報が生成される例について説明するが、数フレーム単位など、所定の時間単位でスプレッド情報が生成されてもよい。
 以下では、説明を簡単にするため、1つのフレームが参照フレームとされるものとして説明を続ける。
 例えば、オブジェクトの音の音像が水平方向および垂直方向に対称に広げられるものとし、フレームを示すフレームインデックスiのスプレッド情報、すなわちスプレッド角度をs(i)と記すこととする。また、処理対象である現フレームを示すフレームインデックスiをifrmと記し、参照フレームのフレームインデックスiをrfrmと記すこととする。
 さらに、オブジェクトのフレームインデックスがiであるフレームにおける、オブジェクト位置情報に含まれるオブジェクトの半径をr(i)と記すこととする。
 このような場合、例えば図1に示すようにオブジェクトの大きさは変化しないことが利用されて、現フレームifrmのスプレッド情報s(ifrm)が生成される。
 図1に示す例では、原点Oの位置が基準となる位置であるユーザの頭部の位置とされており、参照フレームrfrmでは点OB11の位置にあったオブジェクトが、現フレームifrmでは点OB21の位置に移動している。
 このとき、基準となる原点Oと点OB11とを結ぶ直線L11の長さ、つまり原点Oから点OB11までの距離は、参照フレームrfrmのオブジェクト位置情報に含まれる半径r(rfrm)となる。同様に、原点Oと点OB21とを結ぶ直線L21の長さ、つまり原点Oから点OB21までの距離は、現フレームifrmのオブジェクト位置情報に含まれる半径r(ifrm)となる。
 また、参照フレームrfrmのスプレッド情報により示されるスプレッド角度、すなわちスプレッド情報s(rfrm)は既知である。原点Oを通り、かつ直線L11とのなす角度がs(rfrm)である直線を直線L12とする。
 スプレッド情報s(rfrm)は、オブジェクトの音像の大きさの範囲、つまりオブジェクトの領域の範囲を示す角度情報であるから、オブジェクトの領域の端部分(外殻部分)は直線L12上に位置することになる。
 すなわち、点OB11を通り、かつ直線L11と垂直な直線を直線L13とし、直線L12と直線L13との交点を点OBE11とすると、この点OBE11の位置がオブジェクトの領域の端部分(外殻部分)の位置となる。したがって、点OB11から点OBE11までの長さ(距離)は、参照フレームrfrmにおけるオブジェクトの中心から外殻までの長さとなる。
 このような点OB11から点OBE11までの長さ、つまり直線L13の長さは、スプレッド情報s(rfrm)および半径r(rfrm)を用いて、r(rfrm)×tan(s(rfrm))と表すことができる。
 また、これから求めようとする現フレームifrmのスプレッド情報s(ifrm)について、原点Oを通り、かつ直線L21とのなす角度がs(ifrm)である直線を直線L22とする。さらに、点OB21を通り、かつ直線L21と垂直な直線を直線L23とし、直線L22と直線L23との交点を点OBE21とすると、点OBE21の位置が現フレームifrmにおけるオブジェクトの領域の端部分(外殻部分)の位置となる。
 したがって、点OB21から点OBE21までの長さ、つまり直線L23の長さは、現フレームifrmにおけるオブジェクトの中心から外殻までの長さとなり、スプレッド情報s(ifrm)および半径r(ifrm)を用いてr(ifrm)×tan(s(ifrm))と表すことができる。
 ここで、オブジェクトの大きさ、つまりオブジェクトの音の音像の領域の大きさはフレームによらず一定である(変化しない)とすると、点OB11から点OBE11までの長さと、点OB21から点OBE21までの長さとは等しくなる。すなわちr(rfrm)×tan(s(rfrm))=r(ifrm)×tan(s(ifrm))が成立する。
 したがって、この関係から次式(1)により現フレームifrmの適切なスプレッド情報s(ifrm)を得ることができる。
Figure JPOXMLDOC01-appb-M000001
 式(1)では、オブジェクトの現フレームifrmにおける半径r(ifrm)および参照フレームrfrmにおける半径r(rfrm)の比r(rfrm)/r(ifrm)と、オブジェクトの参照フレームrfrmのスプレッド情報s(rfrm)の正接との積tan(s(rfrm))×r(rfrm)/r(ifrm)が求められる。そして、その積tan(s(rfrm))×r(rfrm)/r(ifrm)の逆正接がオブジェクトの現フレームifrmのスプレッド情報s(ifrm)として生成される。
 このように現フレームifrmの半径r(ifrm)と、参照フレームrfrmのスプレッド情報s(rfrm)および半径r(rfrm)とに基づいて式(1)を計算すれば、簡単な演算により現フレームifrmの適切なスプレッド情報s(ifrm)を生成することができる。
 特に、この例ではオブジェクトのオーディオ信号のいくつかのフレームについてのみ人手でスプレッド情報を付与すればよいので、人手によるスプレッド情報の付与コストを大幅に削減することができる。
 なお、以上ではオブジェクトの音の音像が水平方向および垂直方向に対称に広げられる場合について説明したが、オブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合についても同様の計算によりスプレッド情報を生成することができる。
 例えばフレームインデックスがiであるフレームの水平方向のスプレッド情報、すなわち水平方向のスプレッド角度をswidth(i)と記し、フレームインデックスがiであるフレームの垂直方向のスプレッド情報、すなわち垂直方向のスプレッド角度をsheight(i)と記すこととする。
 この場合、水平方向および垂直方向のそれぞれについて、上述した式(1)と同様の計算を行えばよい。
 すなわち、以下の式(2)を計算することで現フレームifrmの水平方向のスプレッド情報swidth(ifrm)を得ることができ、以下の式(3)を計算することで現フレームifrmの垂直方向のスプレッド情報sheight(ifrm)を得ることができる。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 以上のように、現フレームのオブジェクト位置情報と、参照フレームのオブジェクト位置情報およびスプレッド情報とを用いれば、より簡単に現フレームの適切なスプレッド情報を得ることができる。
〈符号化装置の構成例〉
 次に、本技術を適用した符号化装置の具体的な実施の形態について説明する。
 図2は、本技術を適用した符号化装置の構成例を示す図である。
 図2に示す符号化装置11は、チャネルオーディオ符号化部21、オブジェクトオーディオ符号化部22、メタデータ入力部23、スプレッド情報生成部24、およびパッキング部25を有している。
 チャネルオーディオ符号化部21には、チャネル数がMであるマルチチャネルの各チャネルのオーディオ信号が供給される。例えば各チャネルのオーディオ信号は、それらのチャネルに対応するマイクロフォンから供給される。図2では、文字「#0」乃至「#M-1」は、各チャネルのチャネル番号を表している。
 チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化し、符号化により得られた符号化データをパッキング部25に供給する。
 オブジェクトオーディオ符号化部22には、N個の各オブジェクトのオーディオ信号が供給される。例えば各オブジェクトのオーディオ信号は、それらのオブジェクトに取り付けられたマイクロフォンから供給される。図2では、文字「#0」乃至「#N-1」は、各オブジェクトのオブジェクト番号を表している。
 オブジェクトオーディオ符号化部22は、供給された各オブジェクトのオーディオ信号を符号化し、得られた符号化データをパッキング部25に供給する。
 メタデータ入力部23は、各オブジェクトのメタデータをスプレッド情報生成部24に供給する。
 例えばオブジェクトの参照フレームのメタデータには、オブジェクト位置情報およびスプレッド情報が含まれている。これに対して、オブジェクトの参照フレームではないフレームのメタデータには、オブジェクト位置情報は含まれているがスプレッド情報は含まれていない。
 スプレッド情報生成部24は、メタデータ入力部23から供給されたメタデータに基づいて、参照フレームではないフレームのスプレッド情報を生成し、メタデータに格納する。これにより、スプレッド情報生成部24では、全てのフレームについてオブジェクト位置情報およびスプレッド情報が含まれたメタデータが得られることになる。
 スプレッド情報生成部24は、オブジェクト位置情報およびスプレッド情報が含まれる各オブジェクトのメタデータをパッキング部25に供給する。
 パッキング部25は、チャネルオーディオ符号化部21から供給された符号化データ、オブジェクトオーディオ符号化部22から供給された符号化データ、およびスプレッド情報生成部24から供給されたメタデータをパッキングしてビットストリームを生成し、出力する。
 このようにして得られるビットストリームには、フレームごとに各チャネルの符号化データ、各オブジェクトの符号化データ、および各オブジェクトのメタデータが含まれている。
 ここで、1フレーム分のビットストリームに格納されるM個の各チャネルのオーディオ信号、およびN個の各オブジェクトのオーディオ信号は、同時に再生されるべき同一フレームのオーディオ信号である。
〈符号化処理の説明〉
 次に、符号化装置11により行われる処理について説明する。
 符号化装置11は、複数の各チャネルのオーディオ信号および複数の各オブジェクトのオーディオ信号が1フレーム分ずつ供給されると、符号化処理を行って、符号化されたオーディオ信号が含まれるビットストリームを出力する。
 以下、図3のフローチャートを参照して、符号化装置11による符号化処理について説明する。
 ステップS11において、スプレッド情報生成部24は、処理対象とするフレームが参照フレームであるか否かを判定する。
 例えばメタデータ入力部23はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、処理対象のフレームの各オブジェクトのメタデータを取得し、スプレッド情報生成部24に供給する。
 スプレッド情報生成部24は、メタデータ入力部23から供給された各オブジェクトの処理対象のフレームのメタデータにスプレッド情報が含まれている場合、処理対象のフレームが参照フレームであると判定する。
 なお、ここでは説明を簡単にするため、全オブジェクトについて参照フレームとされるフレームが同じであるものとして説明を行うが、オブジェクトごとに参照フレームとされるフレームが異なる場合には、ステップS11およびステップS12の処理をオブジェクトごとに行えばよい。
 ステップS11において、参照フレームであると判定された場合、スプレッド情報生成部24は、メタデータ入力部23から供給された各オブジェクトの処理対象のフレームのメタデータをそのままパッキング部25に供給し、処理はステップS13へと進む。
 これに対して、ステップS11において参照フレームでないと判定された場合、処理はステップS12へと進む。
 ステップS12において、スプレッド情報生成部24は、各オブジェクトについて、メタデータ入力部23から供給されたメタデータに基づいて処理対象のフレームのスプレッド情報を生成する。
 例えばスプレッド情報生成部24は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、過去にメタデータ入力部23から供給された参照フレームのメタデータに含まれるオブジェクト位置情報およびスプレッド情報とに基づいて上述した式(1)、または上述した式(2)および式(3)を計算することで、処理対象のフレームのスプレッド情報を生成する。
 スプレッド情報生成部24は、各オブジェクトについてスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをパッキング部25に供給する。
 このようにして各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれるメタデータが得られると、その後、処理はステップS13へと進む。
 ステップS11において参照フレームであると判定されたか、またはステップS12においてスプレッド情報が生成されると、ステップS13の処理が行われる。
 すなわち、ステップS13においてパッキング部25は、スプレッド情報生成部24から供給された各オブジェクトのメタデータをビットストリームのDSEに格納する。
 ステップS14において、チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化し、その結果得られた各チャネルの符号化データをパッキング部25に供給する。
 ステップS15において、パッキング部25はチャネルオーディオ符号化部21から供給された各チャネルのオーディオ信号の符号化データを、ビットストリームのSCEまたはCPEに格納する。すなわち、ビットストリームにおいてDSEに続いて配置されている各エレメントに符号化データが格納される。
 ステップS16において、オブジェクトオーディオ符号化部22は、供給された各オブジェクトのオーディオ信号を符号化し、その結果得られた各オブジェクトの符号化データをパッキング部25に供給する。
 ステップS17において、パッキング部25はオブジェクトオーディオ符号化部22から供給された各オブジェクトのオーディオ信号の符号化データを、ビットストリームのSCEに格納する。すなわち、ビットストリームにおいてDSEよりも後に配置されているいくつかのエレメントに符号化データが格納される。
 以上の処理により、処理対象となっているフレームについて、全チャネルのオーディオ信号の符号化データ、および全オブジェクトのオーディオ信号のメタデータと符号化データが格納されたビットストリームが得られる。
 ステップS18において、パッキング部25は、得られた1フレーム分のビットストリームを出力する。
 ステップS19において、符号化装置11は処理を終了するか否かを判定する。例えば、全てのフレームについて符号化が終了した場合、ステップS19において処理を終了すると判定される。
 ステップS19において処理を終了しないと判定された場合、処理はステップS11に戻り、次のフレームが処理対象のフレームとされて上述した処理が繰り返し行われる。
 これに対して、ステップS19において処理を終了すると判定された場合、符号化装置11の各部は行っている処理を停止し、符号化処理は終了する。
 以上のようにして符号化装置11は、各オブジェクトの参照フレームではないフレームのスプレッド情報を生成してビットストリームに格納し、出力する。これにより、人手によるスプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。
〈第1の実施の形態の変形例1〉
〈復号装置の構成例〉
 なお、以上においては、符号化装置11においてスプレッド情報を生成する例について説明したが、復号装置においてスプレッド情報を生成するようにしてもよい。そのような場合、符号化装置から出力されたビットストリームを入力とし、ビットストリームに含まれる符号化データを復号する復号装置は、例えば図4に示すように構成される。
 図4に示す復号装置101は、アンパッキング/復号部111、スプレッド情報生成部112、レンダリング部113、およびミキシング部114を有している。
 アンパッキング/復号部111は、符号化装置から出力されたビットストリームを取得するとともに、ビットストリームのアンパッキングおよび復号を行う。
 アンパッキング/復号部111は、アンパッキングおよび復号により得られた各オブジェクトのオーディオ信号をレンダリング部113に供給するとともに、アンパッキングおよび復号により得られた各オブジェクトのメタデータをスプレッド情報生成部112に供給する。なお、ここでは、参照フレームのメタデータにのみスプレッド情報が含まれており、参照フレームではないフレームのメタデータにはスプレッド情報は含まれていないものとする。
 また、アンパッキング/復号部111は、アンパッキングおよび復号により得られた各チャネルのオーディオ信号をミキシング部114に供給する。
 スプレッド情報生成部112は、アンパッキング/復号部111から供給された各オブジェクトのメタデータに基づいて、参照フレームではないフレームのスプレッド情報を生成し、メタデータに格納する。これにより、スプレッド情報生成部112では、全てのフレームについてオブジェクト位置情報およびスプレッド情報が含まれたメタデータが得られることになる。
 スプレッド情報生成部112は、オブジェクト位置情報およびスプレッド情報が含まれる各オブジェクトのメタデータをレンダリング部113に供給する。
 レンダリング部113は、アンパッキング/復号部111から供給された各オブジェクトのオーディオ信号、およびスプレッド情報生成部112から供給された各オブジェクトのメタデータに基づいてMチャネルのオーディオ信号を生成し、ミキシング部114に供給する。このときレンダリング部113は、各オブジェクトの音像が、それらのオブジェクトのオブジェクト位置情報により示される位置に定位し、オブジェクトのスプレッド情報により示される広がり度合いで音像が広がるようにM個の各チャネルのオーディオ信号を生成する。
 ミキシング部114は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部113から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、最終的な各チャネルのオーディオ信号を生成する。ミキシング部114は、このようにして得られた最終的な各チャネルのオーディオ信号を、外部の各チャネルに対応するスピーカに供給し、音を再生させる。
〈復号処理の説明〉
 次に、復号装置101の動作について説明する。
 復号装置101は、符号化装置からビットストリームが供給されると、復号処理を行ってオーディオ信号を生成し、スピーカへと出力する。以下、図5のフローチャートを参照して、復号装置101により行われる復号処理について説明する。
 ステップS51において、アンパッキング/復号部111は、符号化装置から送信されてきたビットストリームを1フレーム分だけ取得する。すなわち、処理対象とするフレームのビットストリームが受信される。
 ステップS52において、アンパッキング/復号部111はフレーム復号処理を行う。
 すなわち、アンパッキング/復号部111は、ステップS51で取得した処理対象のフレームのビットストリームをアンパッキングし、各チャネルの符号化データ、各オブジェクトの符号化データ、および各オブジェクトのメタデータを取得する。
 そして、アンパッキング/復号部111は、各チャネルの符号化データを復号し、その結果得られた各チャネルのオーディオ信号をミキシング部114に供給する。また、アンパッキング/復号部111は、各オブジェクトの符号化データを復号し、その結果得られた各オブジェクトのオーディオ信号をレンダリング部113に供給する。
 さらにアンパッキング/復号部111は、取得した各オブジェクトのメタデータをスプレッド情報生成部112に供給する。
 ステップS53において、スプレッド情報生成部112は、処理対象とするフレームが参照フレームであるか否かを判定する。
 例えばスプレッド情報生成部112は、アンパッキング/復号部111から供給された各オブジェクトの処理対象のフレームのメタデータにスプレッド情報が含まれている場合、処理対象のフレームが参照フレームであると判定する。
 ステップS53において、参照フレームであると判定された場合、スプレッド情報生成部112は、アンパッキング/復号部111から供給された各オブジェクトの処理対象のフレームのメタデータをそのままレンダリング部113に供給し、処理はステップS55へと進む。
 これに対して、ステップS53において参照フレームでないと判定された場合、処理はステップS54へと進む。
 ステップS54において、スプレッド情報生成部112は、各オブジェクトについて、アンパッキング/復号部111から供給されたメタデータに基づいて処理対象のフレームのスプレッド情報を生成する。
 例えばスプレッド情報生成部112は、処理対象のフレーム(現フレーム)のメタデータに含まれるオブジェクト位置情報と、過去に供給された参照フレームのメタデータに含まれるオブジェクト位置情報およびスプレッド情報とに基づいて上述した式(1)、または上述した式(2)および式(3)を計算することで、処理対象のフレームのスプレッド情報を生成する。
 スプレッド情報生成部112は、各オブジェクトについてスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをレンダリング部113に供給する。
 このようにして各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれるメタデータが得られると、その後、処理はステップS55へと進む。
 ステップS53において参照フレームであると判定されたか、またはステップS54においてスプレッド情報が生成されると、ステップS55の処理が行われる。
 ステップS55において、レンダリング部113は、アンパッキング/復号部111から供給されたオブジェクトのオーディオ信号、およびスプレッド情報生成部112から供給されたメタデータに基づいてオブジェクトのオーディオ信号のレンダリングを行う。
 例えばレンダリング部113は、各オブジェクトについて、スプレッド情報とオブジェクト位置情報に基づいて、VBAP(Vector Base Amplitude Pannning)により各チャネルのオーディオ信号を生成し、ミキシング部114に供給する。ステップS55では、オブジェクトの音像がオブジェクト位置情報により示される位置に定位し、スプレッド情報により示される広がり度合いで音像が広がるようなオーディオ信号が生成される。
 ステップS56において、ミキシング部114は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部113から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、外部のスピーカに供給する。これにより、各スピーカには、それらのスピーカに対応するチャネルのオーディオ信号が供給されるので、各スピーカは供給されたオーディオ信号に基づいて音を再生する。
 ステップS57において、復号装置101は処理を終了するか否かを判定する。例えば、全てのフレームについてオーディオ信号のスピーカへの出力が終了した場合、ステップS57において処理を終了すると判定される。
 ステップS57において処理を終了しないと判定された場合、処理はステップS51に戻り、次のフレームが処理対象のフレームとされて上述した処理が繰り返し行われる。
 これに対して、ステップS57において処理を終了すると判定された場合、復号装置101の各部は行っている処理を停止し、復号処理は終了する。
 以上のようにして、復号装置101は、各オブジェクトの参照フレームではないフレームのスプレッド情報を生成してレンダリングを行う。
 これにより、人手によるスプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。また、復号装置101側で参照フレーム以外のフレームのスプレッド情報を生成するようにすれば、ビットストリームに参照フレーム以外のフレームのスプレッド情報を格納する必要がない。したがって、復号装置101に伝送するビットストリームのビットレートを低減させることができる。
〈第2の実施の形態〉
〈スプレッド情報の生成について〉
 ところで第1の実施の形態では、オブジェクトのオーディオ信号の一部のフレームに対して人手でスプレッド情報の付与が行われる場合について説明した。
 しかしながら、スプレッド情報が全く付与されていないコンテンツも数多く存在する。
 例えばオブジェクトオーディオを扱える符号化方式には、スプレッド情報をメタデータに含めるか否かをヘッダ部のフラグで切り替えることができるようになされているものもある。すなわち、スプレッド情報が付与されないビットストリームの存在が許容されている。
 また、そもそもスプレッド情報がビットストリームに含まれないオブジェクトオーディオの符号化方式も存在する。
 このような背景から、スプレッド情報が全ての時間(フレーム)において適切に付与されていないコンテンツが数多く存在し、その結果、それらのコンテンツについては臨場感の高い再生を行うことができなかった。
 そこで、オブジェクトのオブジェクト位置情報と、オブジェクトの大きさを示す大きさ情報とに基づいてスプレッド情報を生成することで、人手によるスプレッド情報の付与を行うことなく、適切なスプレッド情報を得ることができるようにしてもよい。
 例えば、いくつかのオブジェクトオーディオの符号化方式では、ビットストリームに各オブジェクトの大きさ情報が含まれているものがある。オブジェクトの大きさ情報がある場合、人手によるスプレッド情報の付与を行うことなく、オブジェクト位置情報と大きさ情報を用いてスプレッド情報を生成することができる。
 具体的には、例えばオブジェクトの音の音像が水平方向および垂直方向に対称に広げられるものとし、オブジェクトの中心から外殻(端部)までの距離を示す情報がオブジェクトの大きさ情報とされるものとする。以下では、フレームインデックスがiであるフレームの大きさ情報をd(i)と記すこととする。
 この場合、例えば図6に示すように現フレームifrmにおけるオブジェクトの中心位置を点OB21とし、オブジェクトの端部分(外殻部分)の位置を点OBE21とすると、点OB21から点OBE21までの距離が大きさ情報d(ifrm)、すなわち大きさ情報により示される距離となる。なお、図6において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 この例では、オブジェクト位置情報に含まれる半径r(ifrm)により点OB21の位置が定まる。また、点OB21の位置と、大きさ情報d(ifrm)とから点OBE21の位置が定まる。ここで、点OBE21は、原点Oと点OB21とを結ぶ直線L21に対して直交する直線上に位置しているものとする。すなわち、点OB21と点OBE21とを結ぶ直線L23は、直線L21に対して垂直な直線であるとする。
 このようにオブジェクトのオブジェクト位置情報と大きさ情報が与えられている場合、直線L21の長さであるr(ifrm)と、直線L23の長さであるd(ifrm)とが既知である。
 原点Oと点OBE21とを結ぶ直線を直線L22とすると、現フレームifrmのスプレッド情報s(ifrm)、すなわちスプレッド角度は直線L22と直線L21とのなす角度である。したがって、半径r(ifrm)および大きさ情報d(ifrm)を用いて次式(4)によりスプレッド情報s(ifrm)を求めることができる。
Figure JPOXMLDOC01-appb-M000004
 式(4)では、オブジェクトの現フレームifrmの大きさ情報d(ifrm)と、オブジェクトの現フレームifrmの半径r(ifrm)との比d(ifrm)/r(ifrm)が求められ、その比d(ifrm)/r(ifrm)の逆正接がオブジェクトの現フレームifrmのスプレッド情報s(ifrm)として生成される。
 このようにオブジェクトの現フレームifrmの半径r(ifrm)と大きさ情報d(ifrm)に基づいて式(4)を計算すれば、簡単な演算によりオブジェクトの現フレームifrmの適切なスプレッド情報s(ifrm)を生成することができる。
 特に、この例ではスプレッド情報を人手で付与する必要がないので、スプレッド情報の付与コストを大幅に削減することができる。すなわち、スプレッド情報が付与されているフレームが1つもない場合であっても、全フレームに対して適切なスプレッド情報を簡単に生成することができる。これにより、スプレッド情報を用いて臨場感の高いコンテンツ再生を実現することができる。
 また、オブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合についても式(4)と同様の計算によりスプレッド情報を生成することができる。
 すなわち、例えばオブジェクトの中心から水平方向にある外殻、つまり水平方向の端部分までの距離を水平方向距離とし、オブジェクトの中心から垂直方向にある外殻、つまり垂直方向の端部分までの距離を垂直方向距離とする。
 また、現フレームifrmのオブジェクトについて、水平方向距離dwidth(ifrm)および垂直方向距離dheight(ifrm)が大きさ情報として含まれているとする。
 この場合、上述した式(4)と同様に、以下の式(5)を計算することで現フレームifrmの水平方向のスプレッド情報swidth(ifrm)を得ることができ、以下の式(6)を計算することで現フレームifrmの垂直方向のスプレッド情報sheight(ifrm)を得ることができる。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 式(5)では、現フレームifrmの半径r(ifrm)と、大きさ情報としての水平方向距離dwidth(ifrm)とに基づいて水平方向のスプレッド情報swidth(ifrm)が算出される。同様に、式(6)では、現フレームifrmの半径r(ifrm)と、大きさ情報としての垂直方向距離dheight(ifrm)とに基づいて垂直方向のスプレッド情報sheight(ifrm)が算出される。
〈符号化処理の説明〉
 以上のようにオブジェクト位置情報と大きさ情報に基づいてスプレッド情報が生成される場合、図2に示した符号化装置11では、メタデータ入力部23からスプレッド情報生成部24には、メタデータと大きさ情報が供給される。このとき、メタデータにはオブジェクト位置情報が含まれているが、スプレッド情報は含まれていない状態となっている。
 スプレッド情報生成部24は、メタデータ入力部23から供給されたオブジェクト位置情報および大きさ情報に基づいてスプレッド情報を生成する。
 このようにしてスプレッド情報が生成される場合、符号化装置11では図7に示す符号化処理が行われる。以下、図7のフローチャートを参照して、符号化装置11による符号化処理について説明する。
 ステップS81において、スプレッド情報生成部24はスプレッド情報を生成する。
 すなわち、メタデータ入力部23はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、処理対象のフレームの各オブジェクトのメタデータと大きさ情報を取得し、スプレッド情報生成部24に供給する。
 すると、スプレッド情報生成部24は、メタデータ入力部23から供給されたメタデータおよび大きさ情報に基づいて、オブジェクトごとにスプレッド情報を生成する。
 具体的には、スプレッド情報生成部24は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、処理対象のフレームの大きさ情報とに基づいて上述した式(4)、または上述した式(5)および式(6)を計算することで、処理対象のフレームのスプレッド情報を生成する。
 そして、スプレッド情報生成部24は、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータと、大きさ情報とをパッキング部25に供給する。
 スプレッド情報が生成されると、その後、ステップS82乃至ステップS88の処理が行われて符号化処理は終了するが、これらの処理は図3のステップS13乃至ステップS19の処理と同様であるので、その説明は省略する。但し、ステップS82では、メタデータとともにオブジェクトの大きさ情報もビットストリームのDSEに格納される。
 以上のようにして符号化装置11は、オブジェクト位置情報と大きさ情報に基づいてスプレッド情報を生成してビットストリームに格納し、出力する。これにより、スプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。
〈第2の実施の形態の変形例1〉
〈復号処理の説明〉
 また、オブジェクト位置情報と大きさ情報に基づいてスプレッド情報が生成される場合、図4に示した復号装置101においてスプレッド情報を生成することも可能である。
 復号装置101においてスプレッド情報が生成される場合、復号装置101では図8に示す復号処理が行われる。以下、図8のフローチャートを参照して復号装置101による復号処理について説明する。
 なお、ステップS111およびステップS112の処理は、図5のステップS51およびステップS52の処理と同様であるので、その説明は省略する。
 但し、ステップS112では、アンパッキング/復号部111においてビットストリームのアンパッキングにより各オブジェクトのメタデータおよび大きさ情報が取得され、これらのメタデータおよび大きさ情報がスプレッド情報生成部112へと供給される。この場合、アンパッキングにより取得されたメタデータには、オブジェクト位置情報は含まれているが、スプレッド情報は含まれていない。
 ステップS113において、スプレッド情報生成部112は、各オブジェクトについてアンパッキング/復号部111から供給されたメタデータおよび大きさ情報に基づいて処理対象のフレームのスプレッド情報を生成する。
 例えばスプレッド情報生成部112は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、処理対象のフレームの大きさ情報とに基づいて上述した式(4)、または上述した式(5)および式(6)を計算することで、処理対象のフレームのスプレッド情報を生成する。
 スプレッド情報生成部112は、各オブジェクトのスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをレンダリング部113に供給する。
 ステップS113の処理が行われると、その後、ステップS114乃至ステップS116の処理が行われて復号処理は終了するが、これらの処理は図5のステップS55乃至ステップS57の処理と同様であるので、その説明は省略する。
 以上のようにして、復号装置101は各オブジェクトのオブジェクト位置情報および大きさ情報に基づいてスプレッド情報を生成し、レンダリングを行う。
 これにより、スプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。また、ビットストリームにスプレッド情報を格納する必要がないため、復号装置101に伝送するビットストリームのビットレートを低減させることができる。
〈第3の実施の形態〉
〈スプレッド情報の生成について〉
 ところで、いくつかのオブジェクトオーディオを扱える符号化方式では、ユーザが指定するズーム情報に基づいてオブジェクト位置情報を修正することで、ズームに対応したオブジェクトの移動を実現している。
 一方で、オブジェクトの音像(スプレッド)については、ズーム情報に応じてスプレッド情報を修正する等の処理は行われていない。そのため、例えばズームによりオブジェクトがユーザに近づいた場合でもオブジェクトの音像が広がることはなく、結果として臨場感が損なわれてしまうことになる。
 そこで、ズーム情報に基づいて、処理対象のフレームのスプレッド情報を適切に修正することで、より臨場感の高いコンテンツ再生を実現できるようにしてもよい。
 例えば復号側において、ユーザにより指定されたズーム情報に基づいて、オブジェクトのオブジェクト位置情報が修正され、ズームに対応したオブジェクトの移動が実現されるとする。
 具体的には、例えば図9の矢印A11に示すように、ズーム前の状態ではユーザU11の正面に位置し、点SCE11および点SCE12を水平方向の端点とする仮想的なスクリーンSC11にオブジェクトOB61が表示されているとする。
 ここで、オブジェクトOB61はオーディオオブジェクトに対応するオブジェクトであり、ユーザU11から見たオブジェクトOB61の垂直方向の位置を示す垂直方向角度(仰角)は0度であるものとする。つまり、オブジェクトOB61のオブジェクト位置情報により示される垂直方向角度は0度であるとする。
 また、ユーザU11は基準となる原点Oに位置しているものとし、原点Oを通りスクリーンSC11の面に対して垂直な直線L61と、スクリーンSC11との交点を点SCO11とする。
 ここで、点SCO11はスクリーンSC11の中心位置であり、ユーザU11から見た点SCO11の位置は、水平方向角度および垂直方向角度が0度となる位置である。
 この状態ではユーザU11から見てオブジェクトOB61は、右斜め前の方向に位置している。このとき、原点OとオブジェクトOB61とを結ぶ直線を直線L62とし、直線L61と直線L62とのなす角度をφとすると、ユーザU11から見たオブジェクトOB61の位置は、水平方向角度がφであり垂直方向角度が0度となる位置である。
 このような矢印A11に示す状態でユーザU11等がズーム操作を行い、ズーム情報が与えられたとする。
 ここでズーム情報は、例えばズーム後の仮想的なスクリーンSC21の中心位置とズーム倍率を示す情報など、ズーム前のスクリーンSC11に対するズーム後のスクリーンSC21の位置および大きさを特定可能な情報とされる。すなわち、ズーム情報はスクリーンSC11およびスクリーンSC21の位置と大きさの関係を特定可能な情報とされる。
 なお、ここでは説明を簡単にするため、ズーム前後においてスクリーンの中心位置は、ズーム前のユーザU11から見て垂直方向には変化(移動)しないものとする。
 このようなズーム情報から、スクリーンSC21の中心位置の点SCO21と、スクリーンSC21の水平方向の端である点SCE21および点SCE22が特定される。
 ズーム情報が供給されると、ズーム情報に基づいてオブジェクトOB61のオブジェクト位置情報が修正され、オブジェクトOB61の音像定位位置がズームに応じた位置に移動する。また、コンテンツの画像に対してズーム処理が行われる。
 これにより、あたかもユーザU11が仮想的なスクリーンSC21の正面に移動したかのような画像が表示され、音像の定位位置も変化する。すなわち、矢印M11に示すようにユーザU11が移動したかのような画像の表示制御および音像定位制御が行われる。
 ズーム処理が行われると、例えば矢印A12に示すようにユーザU11はスクリーンSC21の正面に位置することになるので、オブジェクトOB61はユーザU11から見て左斜め前の方向に位置することになる。
 例えばズーム後のユーザU11の位置、つまり原点Oを通りスクリーンSC21の面に対して垂直な直線を直線L63とする。このとき、直線L63とスクリーンSC21との交点は、スクリーンSC21の中心位置にある点SCO21となり、ズーム後のユーザU11から見た点SCO21の位置は、水平方向角度および垂直方向角度が0度となる位置である。
 また、ズーム後の原点OとオブジェクトOB61とを結ぶ直線を直線L64とする。直線L63と直線L64とのなす角度をφ’とすると、ズーム後のユーザU11から見たオブジェクトOB61の位置は、水平方向角度がφ’であり垂直方向角度が0度となる位置である。
 このようにズーム情報が供給されると、オブジェクトOB61の水平方向の位置を示す水平方向角度φはφ’に修正されることになる。
 具体的には、オブジェクトOB61のオブジェクト位置情報の修正後の水平方向角度φ’は、以下のようにして求められる。
 すなわち、例えば図10の矢印A21に示すようにユーザU11の右前方にオブジェクトOB61がある状態でズームが行われ、ズーム後には図10の矢印A22に示すようにユーザU11の左前方にオブジェクトOB61が位置する状態となったとする。なお、図10において図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 例えば図10の矢印A21に示すように、ズーム前におけるユーザU11の位置、すなわち原点Oおよび点SCE11を結ぶ直線と、直線L61とのなす角度をφrepro leftとする。同様に、ズーム前における原点Oおよび点SCE12を結ぶ直線と、直線L61とのなす角度をφrepro rightとする。これらの角度φrepro leftおよび角度φrepro rightは既知の情報である。
 また、ズーム前におけるユーザU11の位置、すなわち原点Oおよび点SCE21を結ぶ直線と、直線L61とのなす角度をφZASource leftとする。さらにズーム前における原点Oおよび点SCE22を結ぶ直線と、直線L61とのなす角度をφZASource rightとする。これらの角度φZASource leftおよび角度φZASource rightは、ズーム情報から求めることができる。
 さらに、ズーム前後においてユーザU11と仮想的なスクリーンとの相対的な位置関係が同じであるものとすると、矢印A22に示すように、ズーム後におけるユーザU11の位置、すなわち原点Oおよび点SCE21を結ぶ直線と、直線L63とのなす角度はφrepro leftとなる。同様に、ズーム後における原点Oおよび点SCE22を結ぶ直線と、直線L63とのなす角度はφrepro rightとなる。
 これらの角度φrepro left、角度φrepro right、角度φZASource left、および角度φZASource rightと、オブジェクトOB61の修正前のオブジェクト位置情報における水平方向角度φとを用いれば、オブジェクトOB61の修正後のオブジェクト位置情報における水平方向角度φ’を求めることができる。すなわち、次式(7)により水平方向角度φ’を求めることができる。
Figure JPOXMLDOC01-appb-M000007
 なお、以上においてはズームの前後でスクリーンの中心位置が垂直方向に変化しない例について説明した。しかし、ズーム前後でスクリーンの中心位置が垂直方向にも変化する場合においても水平方向と同様にして、修正後のオブジェクト位置情報における垂直方向角度を求めることができる。
 例えばズーム前、つまり修正前のオブジェクト位置情報の垂直方向角度をθとし、ズーム後、つまり修正後のオブジェクト位置情報の垂直方向角度をθ’とするものとする。
 また、ズーム前後において、ユーザの位置、つまり原点Oおよび仮想的なスクリーンの中心を結ぶ直線と、原点Oおよび仮想的なスクリーンの上端を結ぶ直線とのなす角度がθrepro topであるとする。ズーム前後において、原点Oおよび仮想的なスクリーンの中心を結ぶ直線と、原点Oおよび仮想的なスクリーンの下端を結ぶ直線とのなす角度がθrepro bottomであるとする。これらの角度θrepro topおよび角度θrepro bottomは既知である。
 さらに、ズーム前の原点Oおよびズーム前の仮想的なスクリーンの中心を結ぶ直線と、ズーム前の原点Oおよびズーム後の仮想的なスクリーンの上端を結ぶ直線とのなす角度をθZASource topとする。同様に、ズーム前の原点Oおよびズーム前の仮想的なスクリーンの中心を結ぶ直線と、ズーム前の原点Oおよびズーム後の仮想的なスクリーンの下端を結ぶ直線とのなす角度をθZASource bottomとする。これらの角度θZASource topおよび角度θZASource bottomはズーム情報から求めることができる。
 この場合、角度θrepro top、角度θrepro bottom、角度θZASource top、および角度θZASource bottomと、オブジェクトの修正前のオブジェクト位置情報における垂直方向角度θとを用いれば、オブジェクトの修正後のオブジェクト位置情報における垂直方向角度θ’を求めることができる。すなわち、次式(8)により垂直方向角度θ’を求めることができる。
Figure JPOXMLDOC01-appb-M000008
 オブジェクト位置情報の修正時には、ズーム情報および修正前のオブジェクト位置情報に基づいて式(7)や式(8)の計算等が行われて、オブジェクト位置情報に含まれる、オブジェクトの水平方向角度、垂直方向角度、および半径が修正される。
 ところで、ズーム前後におけるスプレッド角度の関係は、ズーム前後におけるオブジェクト位置情報により示される水平方向角度の関係や垂直方向角度の関係と同じである。そのため、式(7)や式(8)と同様の計算を行うことで、適切にスプレッド情報を修正することが可能である。すなわち、ズーム後の適切なスプレッド情報を生成することができる。
 具体的には、例えばオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられるものとし、ズーム前の現フレームifrmのスプレッド情報としてスプレッド情報swidth(ifrm)およびスプレッド情報sheight(ifrm)が与えられているとする。
 また、ズーム後における現フレームifrmの水平方向のスプレッド角度をs’width(ifrm)とし、ズーム後における現フレームifrmの垂直方向のスプレッド角度をs’height(ifrm)とする。つまり、スプレッド情報s’width(ifrm)およびスプレッド情報s’height(ifrm)からなる情報を、ズーム情報に基づくズームに応じて修正した修正後(ズーム後)のスプレッド情報とする。
 この場合、式(7)におけるφおよびφ’をswidth(ifrm)およびs’width(ifrm)に置き換えることで、修正後のスプレッド情報s’width(ifrm)を得ることができる。同様に、式(8)におけるθおよびθ’をsheight(ifrm)およびs’height(ifrm)に置き換えることで、修正後のスプレッド情報s’height(ifrm)を得ることができる。
 すなわち、ズーム情報と、オブジェクトの現フレームifrmのズーム前(修正前)のスプレッド情報swidth(ifrm)に基づいて以下の式(9)を計算することで、修正後(ズーム後)のスプレッド情報s’width(ifrm)を得ることができる。
 また、ズーム情報と、オブジェクトの現フレームifrmのズーム前(修正前)のスプレッド情報sheight(ifrm)に基づいて以下の式(10)を計算することで、修正後のスプレッド情報s’height(ifrm)を得ることができる。
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 これらの式(9)と式(10)によるスプレッド情報の修正は、ズーム情報により定まるズーム前の仮想的なスクリーンSC11とズーム後の仮想的なスクリーンSC21との位置および大きさの関係、並びにオブジェクトの現フレームifrmのズーム前のスプレッド情報に基づいて、オブジェクトの現フレームifrmのズーム後のスプレッド情報を生成しているともいうことができる。
 なお、ここでは例えばオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合を例として説明したが、音像が水平方向および垂直方向に対称に広げられる場合においても同様にしてスプレッド情報を修正することが可能である。
 そのような場合、例えば修正後のスプレッド情報をs’(ifrm)とすると、式(9)においてスプレッド情報swidth(ifrm)およびスプレッド情報s’width(ifrm)をスプレッド情報s(ifrm)およびスプレッド情報s’(ifrm)に置き換えて計算を行えばよい。
〈復号装置の構成例〉
 以上において説明したようにズーム情報に基づいてオブジェクト位置情報およびスプレッド情報が修正される場合、復号装置は、例えば図11に示すように構成される。なお、図11において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図11に示す復号装置101は、アンパッキング/復号部111、スプレッド情報生成部112、レンダリング部113、およびミキシング部114を有している。また、図11に示す復号装置101のスプレッド情報生成部112には、位置情報修正部161およびスプレッド情報修正部162が設けられている。
 図11に示す復号装置101は、スプレッド情報生成部112に位置情報修正部161およびスプレッド情報修正部162を設けた点で図4に示した復号装置101と異なり、その他の点では図4に示した復号装置101と同じ構成となっている。
 この例では、アンパッキング/復号部111からスプレッド情報生成部112には、各オブジェクトの全フレームのメタデータが供給される。この場合、メタデータには、必ずオブジェクト位置情報とスプレッド情報が含まれている。また、スプレッド情報生成部112にはユーザ操作等に応じてズーム情報も供給される。
 スプレッド情報生成部112の位置情報修正部161は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるオブジェクト位置情報を修正する。
 スプレッド情報生成部112のスプレッド情報修正部162は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるスプレッド情報を修正する。換言すればスプレッド情報修正部162は、ズーム情報およびズーム前(修正前)のスプレッド情報に基づいて、ズーム後のスプレッド情報を生成する。
 スプレッド情報生成部112は、修正後のオブジェクト位置情報および修正後のスプレッド情報が含まれる各オブジェクトのメタデータをレンダリング部113に供給する。
〈復号処理の説明〉
 次に、図11に示した復号装置101の動作について説明する。
 すなわち、以下、図12のフローチャートを参照して、図11に示した復号装置101による復号処理について説明する。
 なお、ステップS141およびステップS142の処理は、図5のステップS51およびステップS52の処理と同様であるので、その説明は省略する。但し、ステップS142では、各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれているメタデータがスプレッド情報生成部112に供給される。
 ステップS143において、位置情報修正部161は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるオブジェクト位置情報を修正する。
 すなわち、位置情報修正部161はズーム情報と、アンパッキング/復号部111から供給されたメタデータに含まれるオブジェクト位置情報とに基づいて、オブジェクト位置情報に含まれる水平方向角度、垂直方向角度、および半径を修正する。
 具体的には、位置情報修正部161は上述した式(7)を計算することでオブジェクトの位置を示す修正後の水平方向角度φ’を算出するとともに、上述した式(8)を計算することでオブジェクトの位置を示す修正後の垂直方向角度θ’を算出する。また、位置情報修正部161は、オブジェクトの位置を示す半径をズーム倍率で除算することで、オブジェクトの位置を示す修正後の半径を算出する。
 ステップS144において、スプレッド情報修正部162は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるスプレッド情報を修正する。すなわち、ズームに応じたズーム後のスプレッド情報が生成される。
 例えばアンパッキング/復号部111から供給されたメタデータのスプレッド情報として、スプレッド情報swidth(ifrm)およびスプレッド情報sheight(ifrm)が含まれているとする。この場合、スプレッド情報修正部162は、それらのスプレッド情報とズーム情報に基づいて、上述した式(9)および式(10)を計算することで、修正後のスプレッド情報s’width(ifrm)およびスプレッド情報s’height(ifrm)を算出する。
 このようにしてオブジェクト位置情報およびスプレッド情報が修正されると、スプレッド情報生成部112は、修正後のオブジェクト位置情報および修正後のスプレッド情報が含まれた各オブジェクトのメタデータをレンダリング部113に供給する。
 なお、ズーム情報が供給されなかった場合、すなわちズームが行われない場合には、特にステップS143およびステップS144の処理は行われない。すなわち、オブジェクト位置情報およびスプレッド情報の修正は行われない。
 ステップS144の処理が行われると、その後、ステップS145乃至ステップS147の処理が行われて復号処理は終了するが、これらの処理は図5のステップS55乃至ステップS57の処理と同様であるので、その説明は省略する。
 以上のようにして、復号装置101は各オブジェクトのオブジェクト位置情報およびスプレッド情報を修正し、レンダリングを行う。
 これにより、適切なオブジェクト位置情報およびスプレッド情報を簡単に得ることができ、より臨場感の高いコンテンツ再生を実現することができる。
 また、以上において説明した第3の実施の形態と、第1の実施の形態や第2の実施の形態を組み合わせるようにしてもよい。
 例えば第2の実施の形態と第3の実施の形態とを組み合わせる場合には、図8を参照して説明した復号処理においてステップS113の処理が行われた後、図12のステップS143およびステップS144の処理が行われ、その後、ステップS114乃至ステップS116の処理が行われる。
 このようにすることで、スプレッド情報がないフレームがあるときでも、ズーム情報に応じた適切なスプレッド情報を簡単に得ることができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 11 符号化装置, 22 オブジェクトオーディオ符号化部, 23 メタデータ入力部, 24 スプレッド情報生成部, 101 復号装置, 111 アンパッキング/復号部, 112 スプレッド情報生成部, 113 レンダリング部, 161 位置情報修正部, 162 スプレッド情報修正部

Claims (12)

  1.  オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備える
     信号処理装置。
  2.  前記スプレッド情報生成部は、前記オーディオオブジェクトの前記他のフレームの前記スプレッド情報と、前記オーディオオブジェクトの前記処理対象のフレームおよび前記他のフレームの前記オブジェクト位置情報とに基づいて前記処理対象のフレームの前記スプレッド情報を生成する
     請求項1に記載の信号処理装置。
  3.  前記オブジェクト位置情報は、基準位置から前記オーディオオブジェクトまでの距離である
     請求項2に記載の信号処理装置。
  4.  前記スプレッド情報生成部は、前記処理対象のフレームにおける前記距離および前記他のフレームにおける前記距離の比と、前記他のフレームの前記スプレッド情報の正接との積の逆正接を前記処理対象のフレームの前記スプレッド情報として生成する
     請求項3に記載の信号処理装置。
  5.  前記スプレッド情報生成部は、前記ズーム情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報とに基づいて、ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成する
     請求項1に記載の信号処理装置。
  6.  前記スプレッド情報生成部は、前記ズーム情報により定まるズーム前後における仮想スクリーンの位置および大きさの関係に基づいて、前記ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成する
     請求項5に記載の信号処理装置。
  7.  前記スプレッド情報生成部は、前記大きさ情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記オブジェクト位置情報とに基づいて、前記処理対象のフレームの前記スプレッド情報を生成する
     請求項1に記載の信号処理装置。
  8.  前記大きさ情報は、前記オーディオオブジェクトの中心から外殻までの距離である
     請求項7に記載の信号処理装置。
  9.  前記オブジェクト位置情報は、基準位置から前記オーディオオブジェクトまでの距離である
     請求項8に記載の信号処理装置。
  10.  前記スプレッド情報生成部は、前記大きさ情報と、前記処理対象のフレームの前記オブジェクト位置情報との比の逆正接を前記処理対象のフレームの前記スプレッド情報として生成する
     請求項9に記載の信号処理装置。
  11.  オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成する
     ステップを含む信号処理方法。
  12.  オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2018/015158 2017-04-25 2018-04-11 信号処理装置および方法、並びにプログラム Ceased WO2018198767A1 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201880026183.0A CN110537373B (zh) 2017-04-25 2018-04-11 信号处理装置和方法以及存储介质
EP18792058.2A EP3618463A4 (en) 2017-04-25 2018-04-11 SIGNAL PROCESSING DEVICE, METHOD AND PROGRAM
BR112019021897-1A BR112019021897A2 (pt) 2017-04-25 2018-04-11 Dispositivo e método de processamento de sinal, e, programa
KR1020197029362A KR102506167B1 (ko) 2017-04-25 2018-04-11 신호 처리 장치 및 방법, 및 프로그램
RU2019132899A RU2763785C2 (ru) 2017-04-25 2018-04-11 Способ и устройство обработки сигнала
JP2019514363A JP7107305B2 (ja) 2017-04-25 2018-04-11 信号処理装置および方法、並びにプログラム
US16/606,257 US20200126582A1 (en) 2017-04-25 2018-04-11 Signal processing device and method, and program
JP2022112863A JP7388492B2 (ja) 2017-04-25 2022-07-14 信号処理装置および方法、並びにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-085907 2017-04-25
JP2017085907 2017-04-25

Publications (1)

Publication Number Publication Date
WO2018198767A1 true WO2018198767A1 (ja) 2018-11-01

Family

ID=63919609

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/015158 Ceased WO2018198767A1 (ja) 2017-04-25 2018-04-11 信号処理装置および方法、並びにプログラム

Country Status (8)

Country Link
US (1) US20200126582A1 (ja)
EP (1) EP3618463A4 (ja)
JP (2) JP7107305B2 (ja)
KR (1) KR102506167B1 (ja)
CN (1) CN110537373B (ja)
BR (1) BR112019021897A2 (ja)
RU (1) RU2763785C2 (ja)
WO (1) WO2018198767A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021118352A1 (en) * 2019-12-12 2021-06-17 Liquid Oxigen (Lox) B.V. Generating an audio signal associated with a virtual sound source

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511833B (zh) * 2014-10-10 2025-07-22 索尼公司 再现装置
CN110537373B (zh) * 2017-04-25 2021-09-28 索尼公司 信号处理装置和方法以及存储介质
US11574644B2 (en) 2017-04-26 2023-02-07 Sony Corporation Signal processing device and method, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3256045B2 (ja) * 1993-09-17 2002-02-12 シャープ株式会社 音声出力回路
GB2343347B (en) * 1998-06-20 2002-12-31 Central Research Lab Ltd A method of synthesising an audio signal
US7532901B1 (en) * 2001-03-16 2009-05-12 Radeum, Inc. Methods and apparatus to detect location and orientation in an inductive system
US8743284B2 (en) * 2007-10-08 2014-06-03 Motorola Mobility Llc Synchronizing remote audio with fixed video
WO2010034063A1 (en) * 2008-09-25 2010-04-01 Igruuv Pty Ltd Video and audio content system
JP5267362B2 (ja) * 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US9124757B2 (en) * 2010-10-04 2015-09-01 Blue Jeans Networks, Inc. Systems and methods for error resilient scheme for low latency H.264 video coding
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
WO2015073454A2 (en) * 2013-11-14 2015-05-21 Dolby Laboratories Licensing Corporation Screen-relative rendering of audio and encoding and decoding of audio for such rendering
WO2015104451A1 (en) * 2014-01-07 2015-07-16 Nokia Technologies Oy Method and apparatus for video coding and decoding
CN105900169B (zh) * 2014-01-09 2020-01-03 杜比实验室特许公司 音频内容的空间误差度量
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
EP2925024A1 (en) * 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
EP2960854A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and device for determining a set of modifiable elements in a group of pictures
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
ES2814900T3 (es) * 2014-10-01 2021-03-29 Dolby Int Ab Descodificación de una señal de audio codificada usando perfiles DRC
CN112511833B (zh) * 2014-10-10 2025-07-22 索尼公司 再现装置
WO2017020011A1 (en) * 2015-07-30 2017-02-02 Dolby Laboratories Licensing Corporation Searching the results of an automatic speech recognition process
CN106385660B (zh) * 2015-08-07 2020-10-16 杜比实验室特许公司 处理基于对象的音频信号
CN105898669B (zh) * 2016-03-18 2017-10-20 南京青衿信息科技有限公司 一种声音对象的编码方法
US10863297B2 (en) * 2016-06-01 2020-12-08 Dolby International Ab Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
EP3301951A1 (en) * 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
US10721578B2 (en) * 2017-01-06 2020-07-21 Microsoft Technology Licensing, Llc Spatial audio warp compensator
US10861467B2 (en) * 2017-03-01 2020-12-08 Dolby Laboratories Licensing Corporation Audio processing in adaptive intermediate spatial format
CN110537373B (zh) * 2017-04-25 2021-09-28 索尼公司 信号处理装置和方法以及存储介质
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
GB201800918D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021118352A1 (en) * 2019-12-12 2021-06-17 Liquid Oxigen (Lox) B.V. Generating an audio signal associated with a virtual sound source

Also Published As

Publication number Publication date
JPWO2018198767A1 (ja) 2020-02-27
JP7107305B2 (ja) 2022-07-27
RU2019132899A (ru) 2021-04-19
EP3618463A4 (en) 2020-04-29
BR112019021897A2 (pt) 2020-05-26
CN110537373B (zh) 2021-09-28
US20200126582A1 (en) 2020-04-23
EP3618463A1 (en) 2020-03-04
KR20190140913A (ko) 2019-12-20
JP2022137213A (ja) 2022-09-21
RU2019132899A3 (ja) 2021-07-21
KR102506167B1 (ko) 2023-03-07
RU2763785C2 (ru) 2022-01-11
JP7388492B2 (ja) 2023-11-29
CN110537373A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
JP7388492B2 (ja) 信号処理装置および方法、並びにプログラム
CN106463128B (zh) 屏幕相关的音频对象重映射的设备和方法
JP7485109B2 (ja) 情報処理装置および方法、並びにプログラム
KR102683551B1 (ko) 복호 장치 및 방법, 그리고 프로그램을 기록한 컴퓨터 판독가능 기록매체
JP7160032B2 (ja) 信号処理装置および方法、並びにプログラム
CN108924729A (zh) 采用几何距离定义的音频呈现装置和方法
US10721578B2 (en) Spatial audio warp compensator
KR20200075826A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
WO2016056411A1 (ja) 符号化装置および方法、再生装置および方法、並びにプログラム
WO2015182492A1 (ja) 情報処理装置および情報処理方法
CN114270877A (zh) 非重合视听捕获系统
US20210272576A1 (en) Information processing device and method, and program
EP3624116A1 (en) Signal processing device, method, and program
JP7729352B2 (ja) 情報処理装置および方法、並びにプログラム
US12495269B2 (en) Method and apparatus for low complexity low bitrate 6DoF HOA rendering
US20230123253A1 (en) Method and Apparatus for Low Complexity Low Bitrate 6DOF HOA Rendering
Trevino et al. A Spatial Extrapolation Method to Derive High-Order Ambisonics Data from Stereo Sources.
RU2803062C2 (ru) Способы, аппараты и системы для расширения трех степеней свободы (3dof+) mpeg-h 3d audio
HK40086371A (zh) 信息处理装置、方法和程序
CN121075341A (zh) 用于将多麦克风音频编码为元数据辅助空间音频的装置、方法、计算机程序

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18792058

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20197029362

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2019514363

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112019021897

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 2018792058

Country of ref document: EP

Effective date: 20191125

ENP Entry into the national phase

Ref document number: 112019021897

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20191018

WWW Wipo information: withdrawn in national office

Ref document number: 2018792058

Country of ref document: EP