[go: up one dir, main page]

WO2018088210A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2018088210A1
WO2018088210A1 PCT/JP2017/038468 JP2017038468W WO2018088210A1 WO 2018088210 A1 WO2018088210 A1 WO 2018088210A1 JP 2017038468 W JP2017038468 W JP 2017038468W WO 2018088210 A1 WO2018088210 A1 WO 2018088210A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
listener
sound field
speaker
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2017/038468
Other languages
English (en)
French (fr)
Inventor
芳宏 真鍋
成志 見山
隆一 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of WO2018088210A1 publication Critical patent/WO2018088210A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers

Definitions

  • the present technology relates to an information processing apparatus, method, and program, and more particularly, to an information processing apparatus, method, and program that enable a more natural voice call.
  • Patent Document 1 As a technology related to voice communication, a technology for generating an appropriate sound field by controlling the volume and sound quality of output sound in accordance with the distance between a microphone or a speaker and a user has been proposed (see, for example, Patent Document 1). ).
  • This technology has been made in view of such a situation, and enables a more natural voice call.
  • An information processing apparatus causes a communication unit that receives sound field information on a call partner side of a voice call, and presents information on the sound field on the call partner side based on the sound field information. And a control unit.
  • the control unit can present information that can visually grasp the degree to which the uttered voice of the speaker at the position of the other party in the listening space can be heard as information on the sound field.
  • the sound field information can be information indicating the degree to which the speaker's speech can be heard in the listening space.
  • the communication unit further receives listener position information indicating the position of the other party in the listening space, and the control unit receives information on the sound field based on the sound field information and the listener position information. Can be presented.
  • the control unit displays each area of the listening space in a display format corresponding to the degree to which the speaker's speech can be heard in each of the areas, and a mark indicating the position of the other party.
  • the image can be displayed as information relating to the sound field.
  • the control unit can present, as information about the sound field, light of a color, light of a blinking pattern, a character, or a mark according to the degree to which the speaker's speech can be heard at the position of the other party.
  • the information processing apparatus may further include a voice input unit that collects the voice of the speaker, and the communication unit may transmit a voice signal obtained by the voice collection to the call partner.
  • the information processing method and program according to the first aspect of the present technology include a step of receiving sound field information on the other party side of a voice call and presenting information on the sound field on the other party side based on the sound field information. including.
  • sound field information on the other party side of the voice call is received, and information on the sound field on the other party side is presented based on the sound field information.
  • An information processing apparatus includes a sound field information generation unit that generates sound field information on a listener side of a voice call based on information related to an utterance voice of a speaker who is a call partner of the listener; A communication unit that transmits the sound field information to the speaker side.
  • the sound field information can be information indicating the degree to which the speaker's speech can be heard in the listening space where the listener is present.
  • the sound field information generation unit can generate the sound field information based on information related to the uttered voice and acoustic characteristic information indicating an acoustic characteristic of a listening space where the listener is present.
  • the sound field information generation unit can generate the sound field information based on information related to the uttered voice and environmental sound information related to environmental sound in a listening space where the listener is present.
  • the sound field information generation unit can generate the sound field information based on the information related to the uttered voice and the personal ability information related to the ability unique to the listener.
  • the communication unit can transmit the sound field information and listener position information indicating the position of the listener in a listening space to the speaker side.
  • the communication unit may further include a voice output unit that receives a voice signal of the speaker's voice and reproduces the speaker's voice based on the voice signal.
  • An information processing method or program generates sound field information on a listener side of a voice call based on information related to an utterance voice of a speaker who is a call partner of the listener, and the sound field information To the speaker side.
  • sound field information on the listener side of the voice call is generated based on information related to the uttered voice of the speaker who is the other party of the listener, and the sound field information is generated on the speaker side. Sent to.
  • An information processing apparatus includes sound field information indicating a degree to which a speaker's speech can be heard in a listening space where a voice communication partner is present, and a listener position indicating the position of the communication partner in the listening space.
  • a communication unit that receives information and shape information related to the shape of the other party, and the position of the other party on the image representing the listening space based on the sound field information, the listener position information, and the shape information.
  • a display control unit that displays an image representing the other party at a distance corresponding to the degree to which the voice of the speaker can be heard.
  • sound field information indicating the degree to which a speaker's speech can be heard in a listening space in which there is a voice call partner, listener position information indicating the position of the call partner in the listening space, and Shape information relating to the shape of the other party is received, and the utterance of the speaker at the position of the other party on the image representing the listening space based on the sound field information, the listener position information, and the shape information
  • An image representing the other party is displayed at a distance corresponding to the degree to which the voice can be heard.
  • An information processing apparatus provides sound field information indicating the degree to which an utterance voice of a speaker who is a conversation partner of the listener can be heard in a listening space in which a listener of a voice call is present.
  • a sound field information generating unit that generates based on information related to speech, and transmits the sound field information, listener position information indicating the position of the listener in the listening space, and shape information regarding the shape of the listener to the speaker side.
  • a communication unit is notified the degree to which an utterance voice of a speaker who is a conversation partner of the listener can be heard in a listening space in which a listener of a voice call is present.
  • sound field information indicating the degree to which the speaker who is the other party of the listener can hear the speech in the listening space where the listener of the voice call is present is information related to the speech of the speaker.
  • the sound field information, the listener position information indicating the position of the listener in the listening space, and the shape information relating to the shape of the listener are transmitted to the speaker side.
  • a more natural voice call can be performed.
  • the speaker and the listener interact in the same environment, and the sound of the environment and the speaker's own voice are almost the same between the speaker and the listener. Information such as the type and volume and the loudness of the speaker's own voice can be obtained.
  • the present technology for example, when a user talks by video and audio communication or only audio communication, information about the sound field on the listener side is visually presented to the speaker side. I made it. In particular, for example, information relating to the sound field is presented so that the degree to which the speaker's speech can be heard at the listener's position in space can be visually grasped.
  • the degree to which the speaker's voice can be heard by taking into account not only the physical information such as the volume of the sound produced by the listener's device but also the environmental condition of the listener (hereinafter referred to as the degree of listening) May also be presented as information regarding the sound field.
  • the speaker's voice is difficult to hear on the listener side. Therefore, it is possible to make a more natural voice call by obtaining the degree of listening in consideration of environmental conditions such as the environmental sound and noise level of the listener, and presenting the obtained degree of listening as information on the sound field. become able to.
  • the display may be changed according to the physical ability of the listener, particularly the listener's hearing ability.
  • the listener's hearing is weak and the ear is far away, the listener is less likely to hear the speech of the speaker than the healthy person. Therefore, by presenting information on the sound field in consideration of the physical ability of the listener, a more natural voice call can be performed.
  • FIG. 1 is a diagram illustrating a configuration example of an embodiment of a call system to which the present technology is applied.
  • the call system shown in FIG. 1 includes a speaker side device 11 and a listener side device 12, and the speaker side device 11 and the listener side device 12 are mutually connected via a wired or wireless network 13. It is connected.
  • the speaker side device 11 and the listener side device 12 communicate with each other via the network 13 to realize a two-way voice call using both video and audio.
  • the speaker side device 11 side and the listener side device 12 side both utter and listen to the utterance, but for the sake of simplicity of explanation, the speaker side device 11 side only utters. Therefore, the description will be continued assuming that listening to the utterance is performed on the listener device 12 side. That is, it is assumed here that a one-way call from the speaker side device 11 to the listener side device 12 is performed.
  • the configuration of the listener-side device 12 is also provided in the speaker-side device 11, and the configuration of the speaker-side device 11 is also provided in the listener-side device 12.
  • the illustration of the configuration is omitted.
  • the speaker-side device 11 is an information processing apparatus operated by a user who is a speaker who makes a voice call with the user on the listener-side device 12 side as the other party.
  • the speaker side device 11 is arranged in a space where a speaker is present.
  • the speaker-side device 11 includes a voice input unit 21, a voice signal transmission unit 22, a communication unit 23, a sound field information reception unit 24, and a sound field information presentation unit 25.
  • the listener side device 12 is an information processing apparatus operated by a user who is a listener who listens to the voice of the speaker with the user on the speaker side device 11 side who is a speaker as a call partner.
  • the listener side device 12 is arranged in a space where a listener is present.
  • the listener-side device 12 includes a communication unit 31, an audio signal receiving unit 32, an audio output unit 33, an acoustic characteristic information recording unit 34, an environmental sound distribution information acquisition unit 35, a listener position measurement unit 36, a listener information acquisition unit 37, and personal identification information.
  • a recording unit 38, a listener identification unit 39, a personal ability information recording unit 40, a sound field information generation unit 41, and a sound field information transmission unit 42 are provided.
  • the voice input unit 21 of the speaker-side device 11 includes, for example, a microphone, collects the voice of the speaker, and supplies a voice signal of the voice obtained as a result to the voice signal transmission unit 22.
  • the audio signal transmission unit 22 performs predetermined processing such as encoding on the audio signal supplied from the audio input unit 21 and supplies the audio signal to the communication unit 23 to control transmission of the audio signal.
  • the communication unit 23 transmits the audio signal supplied from the audio signal transmission unit 22 to the listener side, that is, the listener side device 12 via the network 13, and the sound field information and the listener transmitted from the listener side device 12.
  • the position information is received and supplied to the sound field information receiving unit 24.
  • the sound field information is information on the sound field on the listener side where the listener device 12 is installed.
  • the sound field information is information indicating the degree of listening, which is the degree of hearing of the reproduced speech of the speaker at each position in the space where the listener is present, that is, the degree of ease of hearing.
  • This degree of listening indicates that the larger the value, the more uttered speech can be heard at a louder volume.
  • the listening level is too high, the uttered voice is too loud for the listener, and when the listening level is too low, the uttered voice is too low for the listener, and the listening level is moderate. Assume that the uttered voice is easy to hear for the listener.
  • the listener position information is information indicating the position of the listener in the listener side space where the listener side device 12 is installed.
  • the space on the listener side is also referred to as a listening space.
  • the sound field information receiving unit 24 controls the reception of the sound field information and the listener position information, and also controls the visual presentation of information related to the sound field in the sound field information presenting unit 25.
  • the sound field information receiving unit 24 performs processing such as decoding on the sound field information and the listener position information supplied from the communication unit 23.
  • the sound field information receiving unit 24 controls the sound field information presenting unit 25 based on the sound field information and the listener position information, and the degree of listening to the uttered voice of the reproduced speaker at the position of the listener on the listening space. Is presented as information related to the sound field on the listener's side.
  • the sound field information receiving unit 24 functions as a control unit that controls the presentation of information related to the sound field on the listener side.
  • the sound field information receiving unit 24 also receives the video signal of the listener's video from the communication unit 23, and displays the video of the listener in the sound field information presenting unit 25 based on the supplied video signal. Also controls. Such a video signal of the listener's video is received from the listener-side device 12 by the communication unit 23 via the network 13.
  • the sound field information presenting unit 25 is composed of, for example, a liquid crystal display device, and visually presents information related to the sound field by displaying information related to the sound field according to the control of the sound field information receiving unit 24.
  • the communication unit 31 of the listener side device 12 receives the voice signal of the uttered voice transmitted from the speaker side, that is, the speaker side device 11 via the network 13 and supplies it to the voice signal receiving unit 32. In addition, the communication unit 31 transmits the sound field information and the listener position information supplied from the sound field information transmission unit 42 to the speaker side device 11 via the network 13.
  • the audio signal receiving unit 32 performs processing such as decoding on the audio signal supplied from the communication unit 31 and supplies the audio signal to the audio output unit 33, and causes the audio output unit 33 to output the uttered voice. That is, the audio signal receiving unit 32 controls the reception of the audio signal of the uttered voice and also controls the reproduction of the uttered voice based on the received audio signal.
  • the audio output unit 33 is composed of an audio output device such as a speaker, for example, and reproduces the voice of the speaker based on the audio signal supplied from the audio signal receiving unit 32. Also, the audio output unit 33 supplies information related to the output (reproduced) utterance voice, such as the volume at the time of reproduction of the utterance voice based on the voice signal and the frequency characteristics of the utterance voice, to the sound field information generation section 41 as output voice information. To do.
  • the arrangement position of the audio output unit 33 in the listening space is a predetermined fixed position.
  • the acoustic characteristic information recording unit 34 records acoustic characteristic information indicating acoustic characteristics of a listening space such as a room in which the listener-side device 12 is installed, and the recorded acoustic characteristic information is used as the sound field information generating unit 41. To supply.
  • the acoustic characteristic information is information indicating how much the sound output from the audio output unit 33 is attenuated and propagated at each position in the listening space, that is, each of the listening spaces of the audio output from the audio output unit 33, for example.
  • the information indicates the attenuation rate at the position.
  • acoustic characteristic information for example, information obtained by measuring the acoustic characteristics of the listening space when the listener-side device 12, that is, the audio output unit 33 is installed in the listening space is used.
  • the environmental sound distribution information acquisition unit 35 has, for example, a microphone array in which a plurality of microphones are arranged, and measures the distribution state such as the type (type) and size of environmental noise and the frequency of environmental noise in the listening space ( get.
  • the environmental sound distribution information acquisition unit 35 picks up the environmental sound in the listening space, for example, at the timing when the speech is not output, and the environmental sound in the listening space is obtained based on the environmental sound signal obtained as a result. That is, environmental sound distribution information that is information related to environmental noise is generated.
  • the environmental sound distribution information includes, for example, information indicating the type of environmental sound, such as a human voice or wind sound, frequency components constituting the environmental sound, that is, information indicating the frequency band of the environmental sound, at each position in the listening space.
  • information indicating the loudness (sound pressure) of the environmental sound is included.
  • the environmental sound distribution information may include information such as the sound source position of the environmental sound in the listening space.
  • the environmental sound distribution information acquisition unit 35 supplies the environmental sound distribution information obtained in this way to the sound field information generation unit 41.
  • the listener position measurement unit 36 includes, for example, a camera and a distance measuring device, and generates listener position information indicating the position of the listener in the listening space by measuring the position of the listener in the listening space.
  • the sound field information generation unit 41 is supplied.
  • the listener position measuring unit 36 detects the listener from the photographed image by performing analysis processing such as image recognition on the photographed image that is the image of the listening space photographed by one or a plurality of cameras, and the detection thereof. Based on the result, the position of the listener in the listening space is specified, and the listener position information is generated.
  • the listener position measuring unit 36 measures the distance from the listener position measuring unit 36 in the listening space, that is, the listener side device 12 to the listener by using a distance measuring device such as a distance sensor, and based on the measurement result, the listening space. To generate listener position information indicating the position of the listener at.
  • the listener position measurement unit 36 may generate the listener position information based on the information indicating the listener position input by the listener or the like.
  • the listener information acquisition unit 37 includes, for example, a camera and a microphone, and acquires listener information for specifying individual listeners (users) in the listening space and supplies the listener information to the listener identification unit 39.
  • the listener information acquisition unit 37 acquires the face image of the listener in the listening space photographed by the camera as the listener information, or obtains voice print information obtained from the voice of the listener in the listening space collected by the microphone as the listener information. Or get as.
  • the personal identification information recording unit 38 for one or a plurality of pre-registered users, personally identifies information such as the user's face image and voiceprint information, that is, information that can uniquely identify the user. It is recorded as identification information.
  • the personal identification information recording unit 38 supplies the recorded personal identification information to the listener identification unit 39.
  • the listener identification unit 39 compares the listener information supplied from the listener information acquisition unit 37 with the personal identification information supplied from the personal identification information recording unit 38, so that the listener in the listening space is registered in advance. Alternatively, the user is identified from among a plurality of users, and the identification result is supplied to the sound field information generation unit 41. That is, the listener identification unit 39 identifies the listener by face recognition using a face image or voiceprint recognition using voiceprint information.
  • the personal ability information recording unit 40 personally stores information related to a user's specific ability, including information indicating the user's physical ability, such as the user's hearing ability, age, and mother tongue, for one or more pre-registered users. It is recorded as capability information, and the personal capability information recorded as needed is supplied to the sound field information generation unit 41.
  • the sound field information generation unit 41 is output (reproduced) by the audio output unit 33 based on the output audio information supplied from the audio output unit 33 and the acoustic characteristic information supplied from the acoustic characteristic information recording unit 34. Speech distribution information indicating how the spoken speech propagates in the listening space is generated.
  • the voice distribution information is information indicating the sound pressure or the like of the uttered voice at each position in the listening space, that is, the size of the uttered voice when the voice output unit 33 outputs the voice in the absence of environmental sound. Therefore, it can be said that the voice distribution information is information indicating the sound pressure distribution of the uttered voice in the listening space.
  • the acoustic characteristic information is prepared for each frequency band, the acoustic characteristic information for each frequency band and the frequency characteristic included in the output voice information are used, and the voice distribution information is obtained for each frequency band. It may be generated.
  • the sound field information generation unit 41 is a sound field that indicates the listening degree of the uttered speech at each position in the listening space based on the sound distribution information and the environmental sound distribution information supplied from the environmental sound distribution information acquisition unit 35. Generate information.
  • the loudness of the utterance voice (sound pressure) at the attention position indicated by the sound distribution information increases, and the loudness of the environmental sound at the attention position indicated by the environmental sound distribution information.
  • the wider the bandwidth of the frequency band of the environmental sound indicated by the environmental sound distribution information and the frequency band of the utterance voice indicated by the output voice information that is, the frequency band common to the environmental sound and the utterance voice.
  • the environmental sound is a specific type of sound
  • the environmental sound type indicated by the environmental sound distribution information is a human voice
  • the listening degree is reduced in the entire listening space. This is because, for example, when the environmental sound is a human voice, it is difficult to hear the uttered voice.
  • the sound field information generation unit 41 reads out the personal ability information of the user (listener) indicated by the identification result based on the identification result of the listener supplied from the listener identification unit 39 from the personal ability information recording unit 40 and reads out the information.
  • the sound field information is appropriately corrected (corrected) based on the personal ability information.
  • the sound field information generation unit 41 reduces the listening degree at all positions in the listening space indicated by the sound field information to a smaller value. By correcting, the sound field information is corrected.
  • the language of the spoken voice is input in advance, and when the language of the spoken voice is different from the native language of the listener, the listening degree at all positions in the listening space indicated by the sound field information is corrected to a smaller value. You may make it do.
  • the sound field information generation unit 41 generates sound field information based on the output sound information, acoustic characteristic information, environmental sound distribution information, and personal ability information.
  • output sound information, acoustic characteristic information, environmental sound distribution information, and personal ability information may all be used. However, if at least output sound information among them is used. Good.
  • the sound field information is described as information indicating the degree of listening at each position in the listening space, but information indicating the degree of listening at the position of the listener on the listening space may be used as the sound field information. . That is, the sound field information only needs to include at least information indicating the degree of listening at the position of the listener.
  • the sound field information generating unit 41 supplies the generated sound field information and the listener position information supplied from the listener position measuring unit 36 to the sound field information transmitting unit 42.
  • the sound field information transmission unit 42 performs predetermined processing such as encoding on the sound field information and the listener position information supplied from the sound field information generation unit 41 and supplies the processed information to the communication unit 31. And control transmission of listener position information.
  • the sound field information and the position of the listener are displayed on the sound field information presenting unit 25 as image information together with the video of the listener during the call.
  • the same reference numerals are given to the portions corresponding to those in FIG. 1, and the description thereof will be omitted as appropriate.
  • a speaker SP11-1 and a speaker SP11-2 are provided on the lower side of the speaker side device 11 in order to reproduce the voice in the listening space, that is, the voice of the other party.
  • the display screen of the sound field information presentation unit 25 is provided on the upper side in the figure of the speaker.
  • the state of the listening space that is, the video of the listening space is displayed on the display screen of the sound field information presentation unit 25.
  • a room as a listening space and a user U11 who is a listener in the room are displayed as an image of the listening space.
  • a floor plan RM11 of a room that is a listening space is displayed as information on the sound field on the listener side. 2 the figure which expanded and displayed the part of area
  • region R11 is shown by the right side.
  • the listener side device 12 is arranged in the lower left, and in the figure in the room which is the listening space, the desk OB11 arranged in the room is shown in the upper side.
  • Objects such as the chest OB12 and the bed OB13 are arranged.
  • a door OB14 is arranged at the lower right in the diagram of the room which is the listening space, and a listener position mark MK11 indicating the position of the listener in the listening space is also displayed.
  • the position in the listening space indicated by the listener position mark MK11 is the position indicated by the listener position information.
  • the listener position mark MK11 is displayed as the listener position information.
  • the desk OB11 to the door OB14 which are objects in the listening space are displayed on the sketch RM11 together with the listener position mark MK11, so that the speaker can determine the positional relationship between the listener and the arrangement object (object) in the listening space, that is, the sense of distance. Can be accurately grasped.
  • the sound field information is superimposed and displayed on the floor plan RM11 of the listening space.
  • the regions LR11-1 to LR11-5 having different listening degrees are displayed on the floor plan RM11 of the listening space, which are indicated by the sound field information.
  • the regions LR11-1 to LR11-5 are also simply referred to as a region LR11 when it is not necessary to distinguish them.
  • each region LR11 is displayed in a color predetermined for the degree of listening in the region LR11 indicated by the sound field information, and the speaker sees the color of the region LR11.
  • the degree of listening in the region LR11 can be grasped visually and instantaneously.
  • the region LR11 of the listening degree where the uttered voice can be heard at a volume (volume) that is too loud for the listener is displayed in red, and the listener can hear the uttered voice at a slightly higher volume.
  • the degree area LR11 is displayed in yellow.
  • the listening area LR11 where the utterance can be heard at an appropriate volume (volume) for the listener is displayed in green
  • the listening area LR11 where the utterance can be heard at a slightly lower volume for the listener is light blue. Is displayed.
  • the listening area LR11 in which the uttered voice can be heard at a volume that is too low for the listener is displayed in light blue
  • the listening area LR11 in which the uttered voice is hardly audible to the listener is displayed in colorless.
  • the region LR11-1 including the listener-side device 12 in the sketch RM11 of the listening space is displayed in red
  • the region LR11-2 outside the region LR11-1 is displayed in yellow
  • the area LR11-3 outside the area LR11-2 is displayed in green
  • the area LR11-4 outside the area LR11-3 is displayed in light blue
  • the area LR11- outside the area LR11-4 is displayed. 5 is displayed in a light blue color, and the other areas are displayed in colorless.
  • each area of the listening space in a color corresponding to the value of the listening degree of the sound field information, it is visually determined whether the speaker's voice is appropriate for the speaker. Can communicate.
  • the speaker who is looking at the floor plan RM11 of the listening space is appropriate for himself / herself. You can know that you are talking in a loud voice.
  • the floor plan RM11 of the listening space is displayed in a display format according to the degree to which each region LR11 of the listening space can hear the voice of the speaker reproduced in each region LR11, and the listener position mark It is an image of a listening space where MK11 is displayed. Note that when there are a plurality of listeners in the listening space, a listener position mark may be displayed for each listener.
  • the speaker can appropriately adjust the volume of his / her voice, and as a result, a more natural voice call can be made. It can be carried out.
  • the speaker-side device 11 receives the listener position information for each user, and the speaker's utterance voice is sufficient in the actual listening space image. Only a user who is heard at a large size may be displayed.
  • a user who does not hear the speaker's utterance sound at a sufficient volume may be displayed, for example, grayed out or blurred on the video in the listening space. To be made. Whether or not the uttered voice is heard at a sufficient level by each user can be specified from the listener position information and the sound field information of those users.
  • the display format according to the listening degree of each position in the listening space indicated by the sound field information is displayed, and each area of the listening space corresponding to those positions and each area of the actual listening space are displayed.
  • the example which displays the information regarding a sound field by doing was demonstrated.
  • the present invention is not limited to this, and any method for presenting information about the sound field can be used as long as it can visually present to the speaker how loud the speaker's speech is propagating in the listening space. Such a method may be used.
  • the sound field information receiving unit 24 determines how the speaker's utterance voice is heard by the listener based on the sound field information and the listener position information. Only information indicating whether the sound is heard at a certain size may be presented visually. That is, the degree to which the uttered voice at the listener position can be heard may be visually presented.
  • information regarding a sound field may be presented using an LED (Light Emitting Diode) as the sound field information presentation unit 25.
  • LED Light Emitting Diode
  • the sound field information receiving unit 24 When it is estimated from the sound field information and the listener position information that the speaker's voice is low and the listener cannot hear the speaker's speech, the sound field information receiving unit 24 The LED as the information presentation unit 25 is lit in yellow. In other words, the sound field information receiving unit 24 outputs yellow light from the LED as the sound field information presenting unit 25 when the listening degree at the listener position is equal to or less than the predetermined threshold.
  • the sound field information receiving unit 24 presents the sound field information.
  • the LED as the unit 25 is lit in green. Further, for example, if the listener can hear the speaker's utterance from the sound field information and the listener position information, but the volume of the uttered speech is estimated to be too high, the sound field information receiving unit 24 The LED as the place information presentation unit 25 is lit in red.
  • the speaker's utterance voice is changed. It may be visually shown to the speaker whether or not the listener can hear it at a large size.
  • the sound field information receiving unit 24 may process the image of the listening space based on the sound field information so that an area where the uttered speech can be heard at an appropriate size and an area where the uttered sound can be heard in the listening space image are known. .
  • the area other than the area where the uttered sound can be heard with an appropriate volume that is, the area where the volume of the uttered sound is not appropriate is grayed out (displayed in gray)
  • the region where the uttered voice can be heard with an appropriate size is a region where the value of the listening degree indicated by the sound field information is a value within a predetermined range, for example.
  • the image of the listening space in which each region of the actual listening space is displayed in a display format corresponding to the degree of listening in those regions may be presented as information on the sound field on the listener side.
  • the speaker can visually present to the speaker information indicating the propagation status of the speech in the listening space based on at least the sound field information, that is, information regarding the sound field of the listening space. It is possible to confirm whether or not the voice is heard at an appropriate volume for the listener. Thus, the speaker does not need to speak loudly and can make a more natural voice call.
  • the sound field information presentation unit 25 is configured to include a speaker or the like. Then, the sound field information receiving unit 24 controls the sound field information presenting unit 25 based on the sound field information and the listener position information, and the sound of the ringing pattern according to the listening degree at the listener position is obtained as necessary. Output from the presentation unit 25.
  • the sound field information receiving unit 24 is particularly capable of sound. Sound is not output from the field information presentation unit 25.
  • the sound field information receiving unit 24 slightly delays as if the sound is returning in the listener's room. The voice of the selected speaker may be output from the sound field information presentation unit 25.
  • the sound field information receiving unit 24 sends a beep sound of a specific pattern to the sound field information presenting unit. 25.
  • a beep sound having a different pattern from that when the speaker's voice is low is output.
  • step S ⁇ b> 11 the voice input unit 21 picks up the voice spoken by the speaker and supplies the voice signal obtained as a result to the voice signal transmission unit 22.
  • the audio signal transmission unit 22 performs predetermined processing such as encoding on the audio signal supplied from the audio input unit 21 and supplies the obtained audio signal to the communication unit 23.
  • step S ⁇ b> 12 the communication unit 23 transmits the audio signal supplied from the audio signal transmission unit 22 to the listener side device 12.
  • the listener side device 12 reproduces the uttered voice based on the received voice signal, and the sound field information and the listener position information are generated and transmitted to the speaker side device 11.
  • step S13 the communication unit 23 receives the sound field information and the listener position information transmitted from the listener-side device 12, and supplies them to the sound field information receiving unit 24.
  • step S14 the sound field information receiving unit 24 controls the sound field information presenting unit 25 based on the sound field information and the listener position information supplied from the communication unit 23 so as to present information related to the sound field in the listening space.
  • the sound field information receiving unit 24 supplies and displays the image of the listening space received from the listener side device 12 through the communication with the listener side device 12 to the sound field information presenting unit 25, and appropriately decodes the decoded sound. Based on the field information and the listener position information, the sound field information presentation unit 25 displays a sketch of the listening space.
  • the distribution of the listening degree in the listening space indicated by the sound field information is displayed. That is, in the floor plan of the listening space, a region having the same listening degree in the listening space is displayed in a display format such as a color determined for the listening degree. In the floor plan of the listening space, a listener position mark is also displayed at the listener position indicated by the listener position information. Thereby, for example, a sketch as shown in FIG. 2 is displayed superimposed on the image of the listening space.
  • the information regarding the sound field of the listening space is not limited to the floor plan of the listening space, but may be any other information.
  • the degree of listening to the utterance voice at the listener position may be presented using the LED, and the area where the utterance voice can be heard at an appropriate size and the area where the utterance voice can be heard in the image of the listening space can be understood.
  • the image of the listening space may be processed and presented based on the sound field information.
  • step S15 the speaker side device 11 determines whether or not to end the process. For example, when the speaker side device 11 is operated by the speaker and the end of the call is instructed, it is determined that the process is to be ended.
  • step S15 If it is determined in step S15 that the process is not terminated, the process returns to step S11, and the above-described process is repeated.
  • step S15 if it is determined in step S15 that the process is to be terminated, the voice transmission process is terminated.
  • the speaker-side device 11 collects the voice of the speaker and transmits the voice signal to the listener-side device 12, and the sound field information and the listener position information transmitted from the listener-side device 12. And displays information about the sound field of the listening space. Thereby, it is possible to present to the speaker how loud the speaker's voice is heard by the listener, and the speaker can make a more natural voice call.
  • step S ⁇ b> 41 the communication unit 31 receives the voice signal of the uttered voice transmitted from the speaker side device 11 and supplies it to the voice signal receiving unit 32.
  • step S41 the audio signal transmitted in the process of step S12 in FIG. 3 is received.
  • the audio signal receiving unit 32 performs processing such as decoding on the audio signal supplied from the communication unit 31 and supplies the audio signal to the audio output unit 33.
  • step S42 the voice output unit 33 reproduces the voice of the speaker based on the voice signal supplied from the voice signal receiving unit 32.
  • the voice output unit 33 generates output voice information including information such as the volume at the time of reproduction of the uttered voice and the frequency characteristics of the uttered voice, and supplies the output voice information to the sound field information generation unit 41.
  • the environmental sound distribution information acquisition unit 35 collects the environmental sound using, for example, a microphone array and measures the size of the environmental sound, the direction of the sound source, and the frequency characteristics, so that the type of environmental sound in the listening space (type) ), Environmental sound distribution information indicating the distribution state such as magnitude and frequency.
  • the environmental sound distribution information acquisition unit 35 supplies the environmental sound distribution information thus obtained to the sound field information generation unit 41.
  • the listener position measuring unit 36 generates the listener position information by measuring the position of the listener in the listening space using, for example, a camera or a distance measuring device, and supplies it to the sound field information generating unit 41.
  • step S ⁇ b> 45 the sound field information generation unit 41 generates sound distribution information based on the output sound information supplied from the sound output unit 33 and the acoustic characteristic information recorded in the acoustic characteristic information recording unit 34. .
  • step S46 the sound field information generation unit 41 generates sound field information based on the sound distribution information and the environmental sound distribution information supplied from the environmental sound distribution information acquisition unit 35.
  • step S ⁇ b> 47 the listener information acquisition unit 37 acquires the listener information by acquiring a facial image with a camera or acquiring voice information by acquiring a listener voice with a microphone, for example, and supplies it to the listener identification unit 39. .
  • step S48 the listener identification unit 39 identifies the listener based on the listener information supplied from the listener information acquisition unit 37 and the personal identification information read from the personal identification information recording unit 38, and the identification result is recorded as a sound. It supplies to the field information generation part 41.
  • the listener identification unit 39 identifies a listener by face recognition using a face image as listener information or personal identification information, or voiceprint recognition using voiceprint information as listener information or personal identification information.
  • step S49 the sound field information generation unit 41 reads out the personal ability information of the identified listener from the personal ability information recording unit 40 based on the listener identification result supplied from the listener identification unit 39.
  • step S50 the sound field information generation unit 41 corrects the sound field information obtained in the process of step S46 based on the personal ability information read in the process of step S49. To do.
  • the sound field information generation unit 41 supplies the sound field information obtained in this way and the listener position information supplied from the listener position measurement unit 36 to the sound field information transmission unit 42.
  • the sound field information transmitting unit 42 performs a predetermined process such as encoding on the sound field information and the listener position information supplied from the sound field information generating unit 41, and the sound field information and the listener obtained as a result thereof.
  • the position information is supplied to the communication unit 31.
  • step S51 the communication unit 31 transmits the sound field information and the listener position information supplied from the sound field information transmission unit 42 to the speaker side device 11 via the network 13.
  • the sound field information and the listener position information transmitted in step S51 are received by the speaker side device 11 in step S13 of FIG.
  • step S52 the listener side device 12 determines whether or not to end the process. For example, when the listener side device 12 is operated by the listener and the end of the call is instructed, it is determined that the process is to be ended.
  • step S52 If it is determined in step S52 that the process is not terminated, the process returns to step S41, and the above-described process is repeated.
  • step S52 if it is determined in step S52 that the process is to be terminated, the voice reception process is terminated.
  • the listener-side device 12 receives the audio signal from the speaker-side device 11 to reproduce the uttered voice, generates sound field information based on the output voice information of the uttered voice, and the like.
  • the listener position information is transmitted to the speaker side device 11.
  • the speaker side device 11 can present to the speaker how loud the speaker's voice is heard by the listener, so that the speaker can make a more natural voice call. Can do.
  • the listener side device 12 transmits the sound field information and the listener position information to the speaker side device 11 has been described. However, for example, even if the listener side device 12 specifies the degree of listening to the uttered speech at the listener position based on the sound field information and the listener position information, and transmits the specified result to the speaker side device 11 as information on the sound field. Good.
  • an image representing the listener may be displayed with a size corresponding to the degree of listening indicated by the sound field information.
  • an image (image) representing the listener may be displayed at a distance corresponding to the degree of listening on the image representing the listening space.
  • the call system is configured as shown in FIG. 5, for example.
  • parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • FIG. 5 includes the speaker side device 11 and the listener side device 12, but the configurations of the speaker side device 11 and the listener side device 12 are different from those in FIG.
  • the speaker-side device 11 includes the voice input unit 21, the voice signal transmission unit 22, the communication unit 23, the sound field information reception unit 24, the shape information reception unit 81, the display control unit 82, and the display unit 83.
  • the configuration of the speaker side device 11 shown in FIG. 5 is different from the configuration of the speaker side device 11 of FIG. 1 in that shape information receiving units 81 to 83 are provided instead of the sound field information presentation unit 25. In other respects, the configuration is the same as that of the speaker-side device 11 of FIG.
  • 5 includes a communication unit 31, an audio signal reception unit 32, an audio output unit 33, an acoustic characteristic information recording unit 34, an environmental sound distribution information acquisition unit 35, a listener position measurement unit 36, and listener information acquisition.
  • the configuration of the listener side device 12 shown in FIG. 5 is different from the configuration of the listener side device 12 of FIG. 1 in that a shape information acquisition unit 101 and a shape information transmission unit 102 are newly provided.
  • the configuration is the same as that of the listener side device 12.
  • the communication unit 23 of the speaker side device 11 receives the sound field information, the listener position information, and the shape information from the listener side device 12.
  • the sound field information receiving unit 24 supplies the sound field information and the listener position information supplied from the communication unit 23 to the display control unit 82.
  • the shape information receiving unit 81 controls reception of shape information. That is, the shape information receiving unit 81 performs processing such as decoding on the shape information supplied from the communication unit 23 and supplies the processed shape information to the display control unit 82.
  • the shape information is information on the three-dimensional shape of the listener used to display the listener in the listening space on the listener-side device 12 side.
  • the display control unit 82 controls the display unit 83 based on the sound field information and the listener position information supplied from the sound field information receiving unit 24 and the shape information supplied from the shape information receiving unit 81.
  • a video (image) representing the listener is displayed in a size corresponding to the listening degree at the listener position.
  • the display unit 83 includes a liquid crystal display device, for example, and displays an image under the control of the display control unit 82.
  • the shape information acquisition unit 101 includes, for example, a plurality of cameras arranged at different positions, acquires shape information about the listener in the listening space, and supplies the acquired shape information to the shape information transmission unit 102.
  • the shape information transmission unit 102 performs a predetermined process such as encoding on the shape information supplied from the shape information acquisition unit 101 and supplies the shape information to the communication unit 31 to control transmission of the shape information.
  • the shape information acquisition unit 101 acquires, for example, listener's three-dimensional model data as shape information.
  • the shape information acquisition unit 101 captures an image (hereinafter also referred to as a measurement image) having a listener on the listening space as a subject with cameras arranged at different positions. Thereby, a plurality of measurement images from different viewpoints with the listener as the subject can be obtained.
  • the measurement image may be a still image or a moving image.
  • the shape information acquisition unit 101 calculates the position of each part of the listener who is the subject based on the measurement image thus obtained. That is, the shape information acquisition unit 101 obtains coordinates indicating the positions of the points in a three-dimensional space for a number of points (parts) on the surface of the listener's body.
  • the shape information acquisition unit 101 generates a polygon that forms the surface of the listener based on the coordinates indicating the position of each point on the surface of the listener's body, and the obtained polygon surface is obtained from the measurement image.
  • Three-dimensional model data is generated by adding color information on the surface of the obtained listener's body.
  • the three-dimensional model data obtained in this way is data for displaying a color image (video) of the listener, more specifically, a color model of the listener.
  • the model of the listener viewed from any position and direction can be displayed.
  • the display control unit 82 displays a video (image) representing the listener based on the three-dimensional model data as the shape information, the sound field information, and the listener position information.
  • the display control unit 82 specifies the listening degree at the position of the listener in the listening space indicated by the listener position information based on the sound field information and the listener position information, and sets the specified listening degree.
  • a predetermined distance is set as a display distance.
  • the display control unit 82 uses the position on the listening space determined by the display distance as the display position, generates an image of the listening space in which the model of the listener is displayed at the display position, and supplies the generated image to the display unit 83. .
  • a listening space image is obtained by synthesizing an image of a listener model obtained from three-dimensional model data at a display position in a listening space on a background image, which is an image of a listening space prepared in advance.
  • the image obtained by the listening space image is an image in which an image representing the listener is synthesized and displayed at a display position on the image representing the listening space.
  • the background image is not limited to an image obtained by actually photographing the listening space, but may be any image as long as it represents the listening space such as a sketch or a schematic diagram.
  • a real-time listening space image captured by the listener-side device 12 during a call or the like may be used as a background image.
  • the display distance is, for example, a distance from a predetermined position on the listening space such as a viewpoint position when taking a background image to the position of the displayed listener model, that is, the display position, and is indicated by the listener position information.
  • the display distance is shortened as the listening degree at is larger.
  • the listener's model on the listening space image is displayed at the display position in the listening space.
  • the size of the listener's model is displayed according to the display distance and in the orientation corresponding to the display position. Is done.
  • a listening space image is generated using an image of the listener model obtained from the three-dimensional model data in a direction determined from the display position and the predetermined position and viewed from a position separated by the display distance.
  • the listening space image shown in FIGS. 6 and 7 is displayed on the display unit 83.
  • the parts corresponding to each other are denoted by the same reference numerals, and the description thereof is omitted as appropriate.
  • the listener model U21 is displayed at a position close to the listening space in the listening space image.
  • the speaker since the speaker is displayed at a position where the listener model U21 is too close, the speaker unconsciously reduces the voice at the time of speaking according to the distance from the speaker to the listener. That is, the speaker-side device 11 unconsciously reduces the speaker's voice by presenting the speaker's model U21 with a sense of distance corresponding to the degree of listening to the speaker, and speaks with a voice of an appropriate volume. Can be made to do.
  • the listener model U21 is displayed at a far position in the listening space in the listening space image.
  • the speaker side device 11 presents the listener's model U21 with a sense of distance corresponding to the degree of listening to the speaker, thereby unintentionally increasing the speaker's voice and making it suitable for the listener to hear. Can be made to speak.
  • step S81 and step S82 is the same as the process of step S11 and step S12 of FIG. 3, the description is abbreviate
  • step S83 the communication unit 23 receives the sound field information, the listener position information, and the shape information transmitted from the listener side device 12.
  • the communication unit 23 supplies the received sound field information and listener position information to the sound field information receiving unit 24 and supplies the received shape information to the shape information receiving unit 81.
  • the sound field information receiving unit 24 performs a process such as decoding on the sound field information and the listener position information supplied from the communication unit 23 and supplies the decoded information to the display control unit 82.
  • the shape information receiving unit 81 The shape information supplied from the unit 23 is subjected to processing such as decoding and supplied to the display control unit 82.
  • step S84 the display control unit 82 responds to the degree of listening based on the sound field information and the listener position information supplied from the sound field information receiving unit 24 and the shape information supplied from the shape information receiving unit 81.
  • a video (image) representing the listener is displayed at the position of the distance.
  • the display control unit 82 generates a listening space image based on the sound field information, the listener position information, and the shape information, and supplies the listening space image to the display unit 83 for display. Thereby, for example, the listening space image shown in FIGS. 6 and 7 is displayed on the display unit 83.
  • step S85 the speaker side device 11 determines whether or not to end the process. For example, when the speaker side device 11 is operated by the speaker and the end of the call is instructed, it is determined that the process is to be ended.
  • step S85 If it is determined in step S85 that the process is not terminated, the process returns to step S81, and the above-described process is repeated.
  • step S85 if it is determined in step S85 that the process is to be terminated, the voice transmission process is terminated.
  • the speaker side device 11 collects the voice of the speaker and transmits the voice signal to the listener side device 12, and the sound field information and the listener position information transmitted from the listener side device 12. And the shape information are received, and a listening space image in which an image representing the listener is synthesized with the background image is displayed. Thereby, it is possible to present to the speaker how loud the speaker's voice is heard by the listener, and the speaker can make a more natural voice call.
  • step S121 the shape information acquisition unit 101 acquires the shape information of the listener in the listening space.
  • the shape information acquisition unit 101 generates 3D model data based on measurement images captured by cameras with different viewpoints, and uses the obtained 3D model data as shape information.
  • the shape information acquisition unit 101 supplies the obtained shape information to the shape information transmission unit 102.
  • the shape information transmission unit 102 performs processing such as encoding on the shape information supplied from the shape information acquisition unit 101 and supplies the processed information to the communication unit 31 to control transmission of the shape information.
  • step S ⁇ b> 122 the communication unit 31 transmits the sound field information and the listener position information supplied from the sound field information transmission unit 42 and the shape information supplied from the shape information transmission unit 102 to the speaker side device via the network 13. 11 to send.
  • the sound field information, the listener position information, and the shape information transmitted in step S122 are received by the speaker side device 11 in step S83 of FIG.
  • step S123 the listener side device 12 determines whether or not to end the process. For example, when the listener side device 12 is operated by the listener and the end of the call is instructed, it is determined that the process is to be ended.
  • step S123 If it is determined in step S123 that the process is not terminated, the process returns to step S111, and the above-described process is repeated.
  • step S123 if it is determined in step S123 that the process is to be terminated, the voice reception process is terminated.
  • the listener side device 12 receives the audio signal from the speaker side device 11 and reproduces the uttered voice, acquires the shape information, and obtains the sound field information, the listener position information, and the shape information as the speaker. To the side device 11.
  • the speaker side device 11 can present to the speaker how loud the speaker's voice is heard by the listener, so that the speaker can make a more natural voice call. Can do.
  • the shape information is the three-dimensional model data
  • the shape information may be an image (video) of the listener taken with the listener as a subject, or the listener An image such as an avatar representing the image may be displayed.
  • the present invention is not limited to the listening space image in which the image representing the listener is displayed at the display distance on the image representing the listening space, and the image representing the listener may be displayed in a size corresponding to the degree of listening at the listener position.
  • an image representing a listener such as an avatar may be displayed on the display screen of the display unit 83 with a size corresponding to the degree of listening at the listener position.
  • the position where the image representing the listener is displayed does not have to be a position at a distance corresponding to the listening degree at the listener position.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose computer capable of executing various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 10 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface or the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded in a removable recording medium 511 as a package medium or the like, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable recording medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in advance in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can be configured as follows.
  • a communication unit that receives the sound field information of the other party of the voice call;
  • An information processing apparatus comprising: a control unit that presents information related to the sound field of the other party on the basis of the sound field information.
  • the control unit presents information capable of visually grasping a degree of audibility of a speaker's utterance voice at the position of the call partner on a listening space as information on the sound field. .
  • the sound field information is information indicating a degree to which the speaker's uttered voice can be heard in the listening space.
  • the communication unit further receives listener position information indicating the position of the other party in the listening space;
  • the information processing apparatus according to (3), wherein the control unit presents information related to the sound field based on the sound field information and the listener position information.
  • the control unit displays each area of the listening space in a display format corresponding to the degree to which the speaker's speech can be heard in each of the areas, and also displays a mark indicating the position of the other party.
  • the information processing apparatus according to any one of (2) to (4), wherein an image is displayed as information regarding the sound field.
  • the control unit presents, as information about the sound field, light of a color, light of a blinking pattern, a character, or a mark according to the degree of listening to the voice of the speaker at the position of the other party (2) to ( The information processing apparatus according to any one of 4).
  • a voice input unit that picks up the voice of the speaker;
  • the information processing apparatus according to any one of (1) to (6), wherein the communication unit transmits an audio signal obtained by the sound collection to the call partner side.
  • (9) Receive the sound field information of the other party of the voice call, A program for causing a computer to execute a process including a step of presenting information related to the sound field of the other party on the basis of the sound field information.
  • a sound field information generating unit that generates sound field information on the listener side of the voice call based on information related to the voice of the speaker who is the other party of the listener;
  • An information processing apparatus comprising: a communication unit that transmits the sound field information to the speaker side.
  • the sound field information is information indicating a degree to which the speaker's uttered voice can be heard in a listening space where the listener is present.
  • the information processing apparatus according to any one of (10) to (14), wherein the communication unit transmits the sound field information and listener position information indicating a position of the listener in a listening space to the speaker side.
  • the communication unit receives an audio signal of the voice of the speaker;
  • the information processing apparatus according to any one of (10) to (15), further including: an audio output unit that reproduces the voice of the speaker based on the audio signal.
  • (17) Generate sound field information on the listener side of the voice call based on information related to the voice of the speaker who is the other party of the listener, An information processing method including a step of transmitting the sound field information to the speaker side.
  • a sound field information generating unit that generates sound field information indicating a degree to which a speaker who is a conversation partner of the listener can hear a speech in a listening space where a voice call listener is present, based on information related to the speech of the speaker
  • An information processing apparatus comprising: the sound field information; listener position information indicating the position of the listener in the listening space; and a communication unit that transmits shape information relating to the shape of the listener to the speaker side.
  • Speaker side device 12 Listener side device, 21 Voice input part, 23 Communication part, 24 Sound field information reception part, 25 Sound field information presentation part, 31 Communication part, 33 Voice output part, 35 Environmental sound distribution information acquisition part , 36 Listener position measurement unit, 37 Listener information acquisition unit, 39 Listener identification unit, 41 Sound field information generation unit, 82 Display control unit, 83 Display unit, 101 Shape information acquisition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本技術は、より自然な音声通話を行うことができるようにする情報処理装置および方法、並びにプログラムに関する。 情報処理装置は、音声通話の通話相手側の音場情報を受信する通信部と、音場情報に基づいて、通話相手側の音場に関する情報を提示させる制御部とを備える。本技術は通話システムに適用することができる。

Description

情報処理装置および方法、並びにプログラム
 本技術は情報処理装置および方法、並びにプログラムに関し、特に、より自然な音声通話を行うことができるようにした情報処理装置および方法、並びにプログラムに関する。
 従来、テレビ電話の際に等身大表示を行うことで、あたかも相手が近くに存在しているかのような臨場感で通話を実現するテレプレゼンスデバイスが知られている。
 また、音声通話に関する技術として、マイクロホンやスピーカと利用者との距離に応じて出力音声の音量や音質を制御し、適切な音場を生成する技術が提案されている(例えば、特許文献1参照)。
国際公開第01/99469号
 しかしながら、上述した技術では、発話側のユーザは自身の発した音声が相手側においてどの程度の大きさで聞こえているかを知ることができないので、どうしても声が大きくなってしまい、自然な会話、すなわち自然な音声通話を行うことができなかった。
 本技術は、このような状況に鑑みてなされたものであり、より自然な音声通話を行うことができるようにするものである。
 本技術の第1の側面の情報処理装置は、音声通話の通話相手側の音場情報を受信する通信部と、前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる制御部とを備える。
 前記制御部には、前記音場に関する情報として、聴取空間上の前記通話相手の位置における話者の発話音声を聞き取れる度合いを視覚的に把握可能な情報を提示させることができる。
 前記音場情報を、前記聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報とすることができる。
 前記通信部には、前記聴取空間における前記通話相手の位置を示す聴者位置情報をさらに受信させ、前記制御部には、前記音場情報および前記聴者位置情報に基づいて、前記音場に関する情報を提示させることができる。
 前記制御部には、前記聴取空間の各領域が、それらの各前記領域における前記話者の発話音声を聞き取れる度合いに応じた表示形式で表示されるとともに前記通話相手の位置を表すマークが表示される画像を前記音場に関する情報として表示させることができる。
 前記制御部には、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた色の光、点滅パターンの光、文字、またはマークを前記音場に関する情報として提示させることができる。
 情報処理装置には、話者の発話音声を収音する音声入力部をさらに設け、前記通信部には、前記収音により得られた音声信号を前記通話相手側に送信させることができる。
 本技術の第1の側面の情報処理方法およびプログラムは、音声通話の通話相手側の音場情報を受信し、前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させるステップを含む。
 本技術の第1の側面においては、音声通話の通話相手側の音場情報が受信され、前記音場情報に基づいて、前記通話相手側の音場に関する情報が提示される。
 本技術の第2の側面の情報処理装置は、音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成する音場情報生成部と、前記音場情報を前記話者側に送信する通信部とを備える。
 前記音場情報を、前記聴者がいる聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報とすることができる。
 前記音場情報生成部には、前記発話音声に関する情報、および前記聴者がいる聴取空間の音響特性を示す音響特性情報に基づいて前記音場情報を生成させることができる。
 前記音場情報生成部には、前記発話音声に関する情報、および前記聴者がいる聴取空間における環境音に関する環境音情報に基づいて前記音場情報を生成させることができる。
 前記音場情報生成部には、前記発話音声に関する情報、および前記聴者に固有の能力に関する個人能力情報に基づいて前記音場情報を生成させることができる。
 前記通信部には、前記音場情報、および聴取空間における前記聴者の位置を示す聴者位置情報を前記話者側に送信させることができる。
 前記通信部には、前記話者の発話音声の音声信号を受信させ、前記音声信号に基づいて前記話者の発話音声を再生する音声出力部をさらに設けることができる。
 本技術の第2の側面の情報処理方法またはプログラムは、音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、前記音場情報を前記話者側に送信するステップを含む。
 本技術の第2の側面においては、音声通話の聴者側の音場情報が、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成され、前記音場情報が前記話者側に送信される。
 本技術の第3の側面の情報処理装置は、音声通話の通話相手がいる聴取空間における話者の発話音声を聞き取れる度合いを示す音場情報、前記聴取空間における前記通話相手の位置を示す聴者位置情報、および前記通話相手の形状に関する形状情報を受信する通信部と、前記音場情報、前記聴者位置情報、および前記形状情報に基づいて、前記聴取空間を表す画像上において、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた距離の位置に、前記通話相手を表す画像を表示させる表示制御部とを備える。
 本技術の第3の側面においては、音声通話の通話相手がいる聴取空間における話者の発話音声を聞き取れる度合いを示す音場情報、前記聴取空間における前記通話相手の位置を示す聴者位置情報、および前記通話相手の形状に関する形状情報が受信され、前記音場情報、前記聴者位置情報、および前記形状情報に基づいて、前記聴取空間を表す画像上において、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた距離の位置に、前記通話相手を表す画像が表示される。
 本技術の第4の側面の情報処理装置は、音声通話の聴者がいる聴取空間における、前記聴者の通話相手である話者の発話音声を聞き取れる度合いを示す音場情報を、前記話者の発話音声に関する情報に基づいて生成する音場情報生成部と、前記音場情報、前記聴取空間における前記聴者の位置を示す聴者位置情報、および前記聴者の形状に関する形状情報を前記話者側に送信する通信部とを備える。
 本技術の第4の側面においては、音声通話の聴者がいる聴取空間における、前記聴者の通話相手である話者の発話音声を聞き取れる度合いを示す音場情報が、前記話者の発話音声に関する情報に基づいて生成され、前記音場情報、前記聴取空間における前記聴者の位置を示す聴者位置情報、および前記聴者の形状に関する形状情報が前記話者側に送信される。
 本技術の第1の側面乃至第4の側面によれば、より自然な音声通話を行うことができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
通話システムの構成例を示す図である。 音場に関する情報の提示例を示す図である。 音声送信処理を説明するフローチャートである。 音声受信処理を説明するフローチャートである。 通話システムの構成例を示す図である。 聴取空間画像の表示例を示す図である。 聴取空間画像の表示例を示す図である。 音声送信処理を説明するフローチャートである。 音声受信処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、音声通話を行う際に、話者側において聴者側の音場に関する情報を提示することで、より自然な音声通話を行うことができるようにするものである。
 例えば、空間的に離れた位置にいるユーザ同士で、テレプレゼンスデバイス等を利用して音声通話を行う場合、話者側では通話相手である聴者側において自身の声がどの程度の大きさで聞こえているかを把握することができない。そのため、話者が発する声が大きくなってしまい、自然な音声通話を行うことが困難である。
 これは、実際に対面で対話を行うときに各ユーザが得ている、相手に聞こえている環境音の種類や大きさといった情報と、自身が発した声が相手にどの程度の大きさで聞こえているかといった情報が音声通話を行う際には得ることができないからであると考えられる。
 例えば実際の対面での会話では話者と聴者は同じ環境で対話を行い、環境音や話者自身の声の聞こえ方は話者と聴者とでほぼ同じとなるので、話者は環境音の種類や大きさ、話者自身の声の大きさといった情報を得ることができる。
 そのため、実際の対面での会話では環境音の種類や大きさ、相手との距離、自分の声の大きさなどに基づいて、これまでの経験から自分の声が相手に対してどの程度の大きさで聞こえているかを推定することができる。
 本技術では、空間的に離れた位置にいるユーザ同士では得ることができない、聴者側の環境音に関する情報や、話者の音声が通話相手である聴者にどの程度の大きさで聞こえるかといった情報を補完することで、より自然な音声通話を行うことができるようにした。すなわち、より自然な会話ができる環境を提供することができるようにした。
 具体的には、例えば本技術では映像と音声の通信、または音声のみでの通信でユーザ同士の通話を行う際に、話者側に聴者側の音場に関する情報が視覚的に提示されるようにした。特に、例えば音場に関する情報として、空間上の聴者の位置における、話者の発話音声を聞き取れる度合いを視覚的に把握可能な情報が提示されるようにした。
 これにより、話者は自分の声がどの程度相手に届いているかを視覚的に把握することができるので、必要以上に大きな声を出してしまうことなく自然な会話を行うことができる。
 音場に関する情報の提示にあたっては、聴者側のデバイスが発する音の音量等の物理的な情報だけでなく、聴者側の環境状況も加味して、話者の音声を聞き取れる度合い(以下、聴取度合いとも称する)を音場に関する情報として提示してもよい。
 例えば、音声通話の聴者側において環境音や騒音が大きいときには、話者の音声が聴者側では聞き取りにくくなっている。そこで、聴者側の環境音や騒音の大きさ等の環境状況も考慮して聴取度合いを求め、得られた聴取度合いを音場に関する情報として提示することで、さらに自然な音声通話を行うことができるようになる。
 さらに、音場に関する情報の提示にあたっては聴者の身体的能力、特に聴者の聴力に応じて表示を変更するようにしてもよい。
 例えば聴者の聴力が弱く耳が遠い場合、聴者は健常者と比べて話者の発話音声を聞き取りにくくなっている。そこで、聴者の身体的能力も考慮して音場に関する情報の提示を行うことで、さらに自然な音声通話を行うことができるようになる。
〈通話システムの構成例〉
 次に、本技術を適用した具体的な実施の形態について説明する。
 図1は、本技術を適用した通話システムの一実施の形態の構成例を示す図である。
 図1に示す通話システムは、話者側デバイス11および聴者側デバイス12を有しており、これらの話者側デバイス11と聴者側デバイス12とは、有線または無線のネットワーク13を介して相互に接続されている。
 話者側デバイス11と聴者側デバイス12とは、ネットワーク13を介して通信し、映像および音声の両方を利用した双方向の音声通話を実現する。
 なお、話者側デバイス11側と聴者側デバイス12側とでは双方で発話と、発話の聴取とが行われるが、ここでは説明を簡単にするため、話者側デバイス11側でのみ発話が行われ、その発話の聴取が聴者側デバイス12側で行われるものとして説明を続ける。すなわち、ここでは話者側デバイス11から聴者側デバイス12への一方向の通話が行われるものとする。
 したがって、より詳細には、話者側デバイス11にも聴者側デバイス12が有する構成が設けられており、聴者側デバイス12にも話者側デバイス11が有する構成が設けられているが、それらの構成の図示は省略されている。
 また、ここでは映像と音声の両方を利用した通話を行う場合を例として説明するが、必ずしも通話相手の映像を表示させる必要はなく、音声のみの通話であってもよい。さらに、ここでは映像と音声の両方を利用した通話を行う例について説明するが、通話相手の映像の通信に関しては本技術の本質には影響しないため、その説明は適宜省略する。
 話者側デバイス11は、聴者側デバイス12側のユーザを通話相手として、音声通話の発話を行う話者となるユーザによって操作される情報処理装置である。この話者側デバイス11は、話者がいる空間に配置されている。
 話者側デバイス11は音声入力部21、音声信号送信部22、通信部23、音場情報受信部24、および音場情報提示部25を有している。
 また、聴者側デバイス12は、話者である話者側デバイス11側のユーザを通話相手として、その話者の音声を聴取する聴者となるユーザによって操作される情報処理装置である。この聴者側デバイス12は、聴者がいる空間に配置されている。
 聴者側デバイス12は通信部31、音声信号受信部32、音声出力部33、音響特性情報記録部34、環境音分布情報取得部35、聴者位置測定部36、聴者情報取得部37、個人識別情報記録部38、聴者識別部39、個人能力情報記録部40、音場情報生成部41、および音場情報送信部42を有している。
 話者側デバイス11の音声入力部21は、例えばマイクロホンなどからなり、話者の発話音声を収音して、その結果得られた発話音声の音声信号を音声信号送信部22に供給する。音声信号送信部22は、音声入力部21から供給された音声信号に対して、例えば符号化などの所定の処理を施して通信部23に供給し、音声信号の送信を制御する。
 通信部23は、音声信号送信部22から供給された音声信号を、ネットワーク13を介して聴者側、つまり聴者側デバイス12に送信するとともに、聴者側デバイス12から送信されてきた音場情報および聴者位置情報を受信し、音場情報受信部24に供給する。
 音場情報は、聴者側デバイス12が設置された聴者側の音場に関する情報である。ここでは、音場情報は、聴者がいる空間の各位置における、再生された話者の発話音声を聞き取れる度合い、つまり聞き取りやすさの度合いである聴取度合いを示す情報であるとする。
 この聴取度合いは、その値が大きいほど発話音声を大きな音量で聞き取ることができることを示している。但し、例えば聴取度合いが大きすぎる場合には、発話音声が聴者に対して大きすぎ、聴取度合いが小さすぎる場合には、発話音声が聴者に対して小さすぎ、聴取度合いが中程度である場合に発話音声が聴者に聞き取りやすい大きさであるとする。
 また、聴者位置情報は、聴者側デバイス12が設置された聴者側の空間における聴者の位置を示す情報である。以下では、聴者側の空間を聴取空間とも称することとする。
 音場情報受信部24は、音場情報および聴者位置情報の受信を制御するとともに、音場情報提示部25での音場に関する情報の視覚的な提示を制御する。
 例えば、音場情報受信部24は、通信部23から供給された音場情報および聴者位置情報に対して復号等の処理を行う。
 また、音場情報受信部24は、音場情報および聴者位置情報に基づいて音場情報提示部25を制御し、聴取空間上の聴者の位置における、再生された話者の発話音声の聴取度合いを視覚的に把握可能な情報を、聴者側の音場に関する情報として提示させる。この場合、音場情報受信部24は、聴者側の音場に関する情報の提示を制御する制御部として機能する。
 なお、より詳細には、音場情報受信部24は通信部23から聴者の映像の映像信号の供給も受け、供給された映像信号に基づいて音場情報提示部25での聴者の映像の表示も制御する。このような聴者の映像の映像信号は、通信部23が、ネットワーク13を介して聴者側デバイス12から受信したものである。
 音場情報提示部25は、例えば液晶表示デバイスなどからなり、音場情報受信部24の制御に従って音場に関する情報を表示することで、音場に関する情報を視覚的に提示する。
 聴者側デバイス12の通信部31は、ネットワーク13を介して話者側、つまり話者側デバイス11から送信されてきた発話音声の音声信号を受信して音声信号受信部32に供給する。また、通信部31は、音場情報送信部42から供給された音場情報および聴者位置情報を、ネットワーク13を介して話者側デバイス11に送信する。
 音声信号受信部32は、通信部31から供給された音声信号に対して復号などの処理を施して音声出力部33に供給し、音声出力部33に発話音声を出力させる。すなわち、音声信号受信部32は、発話音声の音声信号の受信を制御するとともに、受信した音声信号に基づく発話音声の再生を制御する。
 音声出力部33は、例えばスピーカなどの音声出力機器からなり、音声信号受信部32から供給された音声信号に基づいて、話者の発話音声を再生する。また、音声出力部33は、音声信号に基づく発話音声の再生時の音量や発話音声の周波数特性など、出力(再生)された発話音声に関する情報を出力音声情報として音場情報生成部41に供給する。
 なお、以下では、聴取空間における音声出力部33の配置位置は予め定められた固定位置であるものとする。
 音響特性情報記録部34は、聴者側デバイス12が設置された部屋などである聴取空間の音響特性を示す音響特性情報を記録しており、記録している音響特性情報を音場情報生成部41に供給する。
 例えば音響特性情報は、聴取空間の各位置において音声出力部33から出力された音がどの程度減衰されて伝搬するかを示す情報、すなわち例えば音声出力部33から出力された音声の聴取空間の各位置における減衰率を示す情報とされる。
 このような音響特性情報として、例えば聴者側デバイス12、つまり音声出力部33を聴取空間に設置した際に、その聴取空間の音響特性を測定して得られたものが用いられる。
 環境音分布情報取得部35は、例えば複数のマイクロホンが並べられたマイクアレイを有しており、聴取空間における環境ノイズの種類(種別)や大きさ、環境ノイズの周波数などの分布状態を計測(取得)する。
 すなわち、環境音分布情報取得部35は、例えば発話音声の出力が行われていないタイミングで聴取空間内の環境音を収音し、その結果得られた環境音信号に基づいて聴取空間における環境音、つまり環境ノイズに関する情報である環境音分布情報を生成する。
 ここで、環境音分布情報には、例えば人の声や風の音などの環境音の種別を示す情報、環境音を構成する周波数成分、つまり環境音の周波数帯域を示す情報、聴取空間の各位置における環境音の大きさ(音圧)を示す情報などが含まれている。その他、環境音分布情報には、聴取空間における環境音の音源位置などの情報が含まれるようにしてもよい。
 環境音分布情報取得部35は、このようにして得られた環境音分布情報を音場情報生成部41に供給する。
 聴者位置測定部36は、例えばカメラや測距デバイスなどを有しており、聴取空間内における聴者の位置を測定等することで、聴取空間上における聴者の位置を示す聴者位置情報を生成し、音場情報生成部41に供給する。
 例えば聴者位置測定部36は、1または複数のカメラにより撮影された聴取空間の画像である撮影画像に対して画像認識等の解析処理を行うことで、撮影画像から聴者を検出するとともに、その検出結果に基づいて聴取空間における聴者の位置を特定し、聴者位置情報を生成する。
 また、例えば聴者位置測定部36は、距離センサなどの測距デバイスにより、聴取空間における聴者位置測定部36、すなわち聴者側デバイス12から聴者までの距離を測定し、その測定結果に基づいて聴取空間における聴者の位置を示す聴者位置情報を生成する。
 なお、聴者位置測定部36が聴者等により入力された聴者位置を示す情報に基づいて、聴者位置情報を生成するようにしてもよい。
 聴者情報取得部37は、例えばカメラやマイクロホンなどを有しており、聴取空間内の聴者個人(ユーザ)を特定するための聴者情報を取得して聴者識別部39に供給する。
 例えば聴者情報取得部37は、カメラにより撮影された聴取空間内の聴者の顔画像を聴者情報として取得したり、マイクロホンにより収音された聴取空間内の聴者の音声から得られる声紋情報を聴者情報として取得したりする。
 個人識別情報記録部38は、予め登録された1または複数の各ユーザについて、ユーザの顔画像や声紋情報などユーザ個人を特定可能な情報、すなわちユーザを一意に識別することが可能な情報を個人識別情報として記録している。個人識別情報記録部38は、記録している個人識別情報を聴者識別部39に供給する。
 聴者識別部39は、聴者情報取得部37から供給された聴者情報と、個人識別情報記録部38から供給された個人識別情報とを比較することで、聴取空間内の聴者が予め登録された1または複数のユーザのうちのどのユーザであるかを特定し、その特定結果を音場情報生成部41に供給する。すなわち、聴者識別部39では、顔画像を用いた顔認識や声紋情報を用いた声紋認識により、聴者の特定が行われる。
 個人能力情報記録部40は、予め登録された1または複数の各ユーザについて、ユーザの聴力や年齢、母語など、ユーザの身体的な能力を示す情報を含む、ユーザに固有の能力に関する情報を個人能力情報として記録しており、必要に応じて記録している個人能力情報を音場情報生成部41に供給する。
 音場情報生成部41は、音声出力部33から供給された出力音声情報と、音響特性情報記録部34から供給された音響特性情報とに基づいて、音声出力部33により出力(再生)された発話音声が聴取空間内をどのように伝搬するかを示す音声分布情報を生成する。
 例えば音声分布情報は、環境音のない状態で音声出力部33により発話音声を出力した場合における、聴取空間の各位置における発話音声の音圧等、すなわち発話音声の大きさを示す情報である。したがって、音声分布情報は、聴取空間における発話音声の音圧分布を示す情報であるということができる。
 なお、例えば音響特性情報が周波数帯域ごとに用意されている場合には、その周波数帯域ごとの音響特性情報と、出力音声情報に含まれる周波数特性とが用いられて周波数帯域ごとに音声分布情報が生成されるようにしてもよい。
 また、音場情報生成部41は、音声分布情報と、環境音分布情報取得部35から供給された環境音分布情報とに基づいて、聴取空間の各位置における発話音声の聴取度合いを示す音場情報を生成する。
 例えば聴取空間の所定の位置を注目位置とすると、音声分布情報により示される注目位置における発話音声の大きさ(音圧)が大きいほど、また環境音分布情報により示される注目位置における環境音の大きさが小さいほど、その注目位置における聴取度合いは大きくなる。
 また、例えば環境音分布情報により示される環境音の周波数帯域と、出力音声情報により示される発話音声の周波数帯域とで重なる帯域の幅が広いほど、つまり環境音と発話音声との共通する周波数帯域が広いほど、聴取空間全体で聴取度合いは小さくなる。
 さらに、例えば環境音分布情報により示される環境音の種別が人の声である場合など、環境音が特定の種別の音である場合には、聴取空間全体で聴取度合いが小さくなるようにされる。これは、例えば環境音が人の声である場合には、発話音声が聞き取りにくくなってしまうからである。
 音場情報生成部41は、聴者識別部39から供給された聴者の特定結果に基づいて、その特定結果により示されるユーザ(聴者)の個人能力情報を個人能力情報記録部40から読み出すとともに、読み出した個人能力情報に基づいて音場情報を適宜修正(補正)する。
 例えば音場情報生成部41は、個人能力情報により示される聴者の聴力が健常者の一般的な聴力よりも弱い場合、音場情報により示される聴取空間の全位置の聴取度合いをより小さい値に補正することで、音場情報を補正する。
 その他、例えば発話音声の言語を予め入力しておくようにし、発話音声の言語が聴者の母語と異なる場合に、音場情報により示される聴取空間の全位置の聴取度合いがより小さい値に補正されるようにしてもよい。
 以上のことから、音場情報生成部41では出力音声情報、音響特性情報、環境音分布情報、および個人能力情報に基づいて音場情報が生成されるということができる。なお、音場情報の生成にあたっては出力音声情報、音響特性情報、環境音分布情報、および個人能力情報が全て用いられてもよいが、これらのうちの少なくとも出力音声情報が用いられるようにすればよい。また、ここでは音場情報は、聴取空間の各位置における聴取度合いを示す情報である場合について説明するが、聴取空間上の聴者の位置における聴取度合いを示す情報が音場情報とされてもよい。つまり、音場情報には、少なくとも聴者の位置における聴取度合いを示す情報が含まれていればよい。
 音場情報生成部41は、生成した音場情報と、聴者位置測定部36から供給された聴者位置情報とを音場情報送信部42に供給する。
 音場情報送信部42は、音場情報生成部41から供給された音場情報および聴者位置情報に対して、例えば符号化などの所定の処理を施して通信部31に供給し、音場情報および聴者位置情報の送信を制御する。
〈音場に関する情報の提示例〉
 ここで、話者側デバイス11の音場情報提示部25による音場に関する情報の提示例について説明する。
 例えば音場に関する情報の提示時には、図2に示すように通話時の聴者の映像とともに、音場情報と、聴者位置とが画像情報として音場情報提示部25に表示される。なお、図2において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図2に示す例では話者側デバイス11における図中、下側には聴取空間の音声、すなわち通話相手の音声を再生するためのスピーカSP11-1およびスピーカSP11-2が設けられており、それらのスピーカの図中、上側に音場情報提示部25の表示画面が設けられている。
 そして、音場情報提示部25の表示画面には、聴取空間の様子、つまり聴取空間の映像が表示されている。この例では、聴取空間としての部屋と、その部屋内にいる聴者であるユーザU11とが聴取空間の映像として表示されている。
 また、音場情報提示部25の表示画面の図中、右下の領域、すなわち領域R11には、聴者側の音場に関する情報として、聴取空間である部屋の見取り図RM11が表示されており、図2中、右側には領域R11の部分を拡大表示した図が示されている。
 見取り図RM11により示される聴取空間である部屋内の図中、左下には聴者側デバイス12が配置されており、聴取空間である部屋内の図中、上側には部屋内に配置された机OB11やタンスOB12、ベッドOB13などのオブジェクトが配置されている。
 また、見取り図RM11では、聴取空間である部屋内の図中、右下にドアOB14が配置されており、聴取空間内の聴者の位置を表す聴者位置マークMK11も表示されている。この聴者位置マークMK11により示される聴取空間内の位置は、聴者位置情報により示される位置となっている。換言すれば、聴者位置情報として聴者位置マークMK11が表示されている。
 このように聴者位置マークMK11とともに、聴取空間内のオブジェクトである机OB11乃至ドアOB14も見取り図RM11に表示させることで、話者は聴取空間における聴者や配置物(オブジェクト)の位置関係、つまり距離感を的確に把握することができる。
 また、聴取空間の見取り図RM11には、音場情報が重畳されて表示されている。
 すなわち、この例では聴取空間の見取り図RM11に重畳されて、音場情報により示される互いに聴取度合いの異なる領域LR11-1乃至領域LR11-5が表示されている。なお、以下、領域LR11-1乃至領域LR11-5を特に区別する必要のない場合、単に領域LR11とも称することとする。
 ここで、互いに聴取度合いの異なる5つの領域LR11のぞれぞれは、互いに異なる表示形式で表示されている。例えば図2の例では、各領域LR11は、音場情報により示される、それらの領域LR11における聴取度合いに対して予め定められた色で表示されており、話者は領域LR11の色を見ることで、その領域LR11における聴取度合いを視覚的に、瞬時に把握することができる。
 具体的には、一例として、例えば聴者に対して大きすぎる音量(大きさ)で発話音声が聞こえる聴取度合いの領域LR11は赤色で表示され、聴者に対して少し大きめの音量で発話音声が聞こえる聴取度合いの領域LR11は黄色で表示される。
 また、例えば聴者に対して適切な音量(大きさ)で発話音声が聞こえる聴取度合いの領域LR11は緑色で表示され、聴者に対して少し小さめの音量で発話音声が聞こえる聴取度合いの領域LR11は水色で表示される。
 さらに、例えば聴者に対して小さすぎる音量で発話音声が聞こえる聴取度合いの領域LR11は薄い水色で表示され、聴者に対して殆ど発話音声が聞こえない聴取度合いの領域LR11は無色で表示される。
 この例では、例えば聴取空間の見取り図RM11における聴者側デバイス12を含む領域LR11-1は赤色で表示されており、その領域LR11-1の外側の領域LR11-2は黄色で表示されている。また、領域LR11-2の外側の領域LR11-3は緑色で表示されており、領域LR11-3の外側の領域LR11-4は水色で表示されており、領域LR11-4の外側の領域LR11-5は薄い水色で表示されており、それ以外の領域は無色で表示されている。
 このように、聴取空間の各領域を音場情報の聴取度合いの値に応じた色で表示することで、話者に対して、話者の声の大きさが適切であるかを視覚的に伝達することができる。
 例えば、この例では聴者位置マークMK11により示される聴者の位置では、その位置を含む領域LR11-3が緑色で表示されているので、聴取空間の見取り図RM11を見ている話者は、自分が適切な大きさの声で会話を行っていることを知ることができる。
 以上のように聴取空間の見取り図RM11は、聴取空間の各領域LR11が、それらの各領域LR11における再生された話者の発話音声を聞き取れる度合いに応じた表示形式で表示されるとともに、聴者位置マークMK11が表示される聴取空間の画像となっている。なお、聴取空間上に複数の聴者がいるときには、それらの聴者ごとに聴者位置マークが表示されるようにすればよい。
 音場情報と聴者位置情報とに基づいて、聴取空間の見取り図RM11を表示することで、話者は自身の声の大きさを適切に調整することができ、その結果、より自然な音声通話を行うことができる。
 その他、例えば聴取空間に複数の聴者(ユーザ)がいる場合には、それらのユーザごとに話者側デバイス11が聴者位置情報を受信し、実際の聴取空間の映像において話者の発話音声が十分な大きさで聞こえているユーザのみ表示されるようにしてもよい。
 この場合、話者の発話音声が十分な大きさで聞こえていないユーザは、例えば聴取空間の映像上では表示されないようにされたり、グレー表示されたり、ぼかし加工が施されて表示されたりするようになされる。各ユーザに発話音声が十分な大きさで聞こえているか否かは、それらのユーザの聴者位置情報と音場情報とから特定が可能である。
 なお、以上においては音場情報により示される、聴取空間の各位置の聴取度合いに応じた表示形式で、それらの位置に対応する聴取空間の見取り図の各領域や実際の聴取空間の各領域を表示することで音場に関する情報を表示する例について説明した。
 しかし、これに限らず音場に関する情報の提示方法は、聴取空間において話者の発話音声がどの程度の大きさで伝搬しているかを話者に対して視覚的に提示することができれば、どのような方法であってもよい。
 例えば音場情報受信部24が音場情報と聴者位置情報とに基づいて、話者の発話音声が聴者に適切な大きさで聞こえているかなど、聴者に対して話者の発話音声がどのような大きさで聞こえているかを示す情報のみを視覚的に提示するようにしてもよい。つまり、聴者位置における発話音声を聞き取れる度合いを視覚的に提示してもよい。
 この場合、例えば音場情報提示部25としてのLED(Light Emitting Diode)を用いて音場に関する情報を提示すればよい。
 すなわち、例えば音場情報と聴者位置情報とから、話者の声が小さくて聴者が話者の発話を聞き取れていない状態であると推定される場合には、音場情報受信部24は音場情報提示部25としてのLEDを黄色で点灯させる。換言すれば、音場情報受信部24は、聴者位置における聴取度合いが所定の閾値以下である場合には、音場情報提示部25としてのLEDから黄色の光を出力させる。
 また、例えば音場情報と聴者位置情報とから、適切な大きさで聴者が話者の発話を聞き取れている状態であると推定される場合には、音場情報受信部24は音場情報提示部25としてのLEDを緑色で点灯させる。さらに例えば音場情報と聴者位置情報とから、聴者が話者の発話を聞き取れているが、発話音声の音量が大きすぎる状態であると推定される場合には、音場情報受信部24は音場情報提示部25としてのLEDを赤色で点灯させる。
 このように、聴者位置での聴取度合いに応じた色の光をLEDから出力することでも、聴者に対して話者の発話音声がどのような大きさで聞こえているかを、話者に対して視覚的に提示することができる。
 なお、ここでは聴者位置での聴取度合いに応じた色の光を提示する例、つまり聴者位置での聴取度合いに応じた色でLEDを点灯する例について説明したが、その他、例えば聴者位置での聴取度合いに応じた点滅パターンでLEDを点灯するようにしてもよい。すなわち、聴者位置での聴取度合いに応じた点滅パターンの光を提示してもよい。
 また、例えば音場情報提示部25の表示画面に、聴者位置における聴取度合いに応じたマークや文字などの情報を聴取空間の音場に関する情報として表示することで、話者の発話音声がどのような大きさで聴者に聞こえているかを、話者に対して視覚的に提示してもよい。
 さらに、例えば図2に示したように音場情報提示部25の表示画面に聴取空間の映像を表示する場合には、その映像に対して話者の発話音声が適切な大きさで聞こえる領域を把握することができるような表示を行うようにすることもできる。すなわち、聴取空間の映像において発話音声が適切な大きさで聞き取れる領域とそうでない領域とが分かるように、音場情報受信部24が音場情報に基づいて聴取空間の映像を加工してもよい。
 具体的には、例えば表示画面に表示された聴取空間の映像において、発話音声が適切な大きさで聞き取れる領域以外の領域、つまり発話音声の音量が適切でない領域をグレーアウト(グレー表示)させたり、ぼかし加工を施して表示させたりするようにしてもよい。このようにすることで、聴取空間の映像を見ている話者は、どの程度の大きさの声で発話をすればよいかを感覚的にかつ視覚的に把握することができる。なお、発話音声が適切な大きさで聞き取れる領域とは、例えば音場情報により示される聴取度合いの値が所定範囲内の値となる領域である。
 このように実際の聴取空間の各領域が、それらの領域における聴取度合いに応じた表示形式で表示される聴取空間の映像を、聴者側の音場に関する情報として提示してもよい。
 以上のように、少なくとも音場情報に基づいて聴取空間における発話音声の伝搬状況を示す情報、つまり聴取空間の音場に関する情報を話者に対して視覚的に提示することで、話者は自分の声が聴者に対して適切な音量で聞こえているかを確認することができる。これにより、話者は無駄に大きな声で発話する必要もなく、より自然な音声通話を行うことができる。
 さらに、ここでは聴取空間の音場に関する情報を視覚的に提示する例について説明するが、その他、音場に関する情報を音によって聴覚的に提示するようにしてもよいし、振動等により提示するようにしてもよい。
 例えば、音場に関する情報を聴覚的に提示する場合、音場情報提示部25はスピーカなどを有するように構成される。そして、音場情報受信部24は、音場情報および聴者位置情報に基づいて音場情報提示部25を制御し、必要に応じて聴者位置における聴取度合いに応じた鳴動パターンの音を音場情報提示部25から出力させる。
 具体的には、例えば聴者位置における聴取度合いの値が所定範囲内の値であり、話者の声が適切な大きさで聴者に聞こえている場合には、音場情報受信部24は特に音場情報提示部25から音を出力させない。なお、話者の声が適切な大きさで聴者に聞こえている場合、例えば、あたかも聴者側の部屋で反響して音が返ってきているかのように、音場情報受信部24が僅かに遅延させた話者の音声を音場情報提示部25から出力させるなどしてもよい。
 これに対して、例えば聴者位置における聴取度合いの値が所定の値以下であり、話者の声が小さい場合には、音場情報受信部24は特定のパターンのビープ音を音場情報提示部25から出力させる。同様に、例えば話者の声が大きすぎる場合には、話者の声が小さい場合とは異なるパターンのビープ音が出力される。
〈音声送信処理の説明〉
 次に、図1に示した通話システムの動作について説明する。
 まず、図3のフローチャートを参照して、話者側デバイス11により行われる音声送信処理について説明する。
 ステップS11において、音声入力部21は話者により発せられた発話音声を収音し、その結果得られた音声信号を音声信号送信部22に供給する。また、音声信号送信部22は、音声入力部21から供給された音声信号に対して符号化などの所定の処理を施して、得られた音声信号を通信部23に供給する。
 ステップS12において、通信部23は、音声信号送信部22から供給された音声信号を聴者側デバイス12に送信する。
 すると、聴者側デバイス12では、受信された音声信号に基づいて発話音声が再生されるとともに、音場情報および聴者位置情報が生成されて話者側デバイス11への送信が行われる。
 ステップS13において、通信部23は、聴者側デバイス12から送信されてきた音場情報および聴者位置情報を受信して音場情報受信部24に供給する。
 ステップS14において、音場情報受信部24は、通信部23から供給された音場情報および聴者位置情報に基づいて音場情報提示部25を制御し、聴取空間の音場に関する情報を提示させる。
 例えば音場情報受信部24は、聴者側デバイス12との通信によって聴者側デバイス12から受信した聴取空間の映像を音場情報提示部25に供給して表示させるとともに、適宜、復号等された音場情報および聴者位置情報に基づいて、音場情報提示部25に聴取空間の見取り図を表示させる。
 ここで、聴取空間の見取り図には、音場情報により示される聴取空間における聴取度合いの分布が表示される。つまり、聴取空間の見取り図では、聴取空間における同じ聴取度合いの領域が、聴取度合いに対して定められた色等の表示形式で表示される。また、聴取空間の見取り図には、聴者位置情報により示される聴者位置に聴者位置マークも表示される。これにより、例えば図2に示したような見取り図が聴取空間の映像に重畳して表示される。
 なお、聴取空間の音場に関する情報は、聴取空間の見取り図に限らず、他のどのようなものとされてもよい。例えば上述したように、LEDを利用して聴者位置における発話音声の聴取度合いを提示してもよいし、聴取空間の映像において発話音声が適切な大きさで聞き取れる領域とそうでない領域とが分かるように、音場情報に基づいて聴取空間の映像を加工して提示してもよい。
 ステップS15において、話者側デバイス11は処理を終了するか否かを判定する。例えば、話者により話者側デバイス11が操作され、通話の終了が指示された場合に処理を終了すると判定される。
 ステップS15において処理を終了しないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS15において処理を終了すると判定された場合、音声送信処理は終了する。
 以上のようにして話者側デバイス11は、話者の発話音声を収音して音声信号を聴者側デバイス12に送信するとともに、聴者側デバイス12から送信されてきた音場情報および聴者位置情報を受信して、聴取空間の音場に関する情報を表示する。これにより、話者に対して話者の声がどのような大きさで聴者に聞こえているかを提示することができ、話者はより自然な音声通話を行うことができる。
〈音声受信処理の説明〉
 次に、図4のフローチャートを参照して、図3の音声送信処理が行われるときに聴者側デバイス12により行われる音声受信処理について説明する。
 ステップS41において、通信部31は、話者側デバイス11から送信されてきた発話音声の音声信号を受信して音声信号受信部32に供給する。ステップS41では、図3のステップS12の処理で送信された音声信号が受信される。
 また、音声信号受信部32は、通信部31から供給された音声信号に対して復号などの処理を施して音声出力部33に供給する。
 ステップS42において、音声出力部33は、音声信号受信部32から供給された音声信号に基づいて、話者の発話音声を再生する。
 また、音声出力部33は、発話音声の再生時の音量や発話音声の周波数特性などの情報を含む出力音声情報を生成し、音場情報生成部41に供給する。
 ステップS43において、環境音分布情報取得部35は、例えばマイクアレイにより環境音を収音して環境音の大きさや音源の方向、周波数特性を測定することで、聴取空間における環境音の種類(種別)や大きさ、周波数などの分布状態を示す環境音分布情報を取得する。環境音分布情報取得部35は、このようにして得られた環境音分布情報を音場情報生成部41に供給する。
 ステップS44において、聴者位置測定部36は、例えばカメラや測距デバイスなどにより聴取空間内における聴者の位置を測定することで聴者位置情報を生成し、音場情報生成部41に供給する。
 ステップS45において、音場情報生成部41は、音声出力部33から供給された出力音声情報と、音響特性情報記録部34に記録されている音響特性情報とに基づいて、音声分布情報を生成する。
 ステップS46において、音場情報生成部41は音声分布情報と、環境音分布情報取得部35から供給された環境音分布情報とに基づいて音場情報を生成する。
 ステップS47において、聴者情報取得部37は、例えばカメラにより顔画像を取得したり、マイクロホンにより聴者音声を取得して声紋情報を得たりすることで聴者情報を取得し、聴者識別部39に供給する。
 ステップS48において、聴者識別部39は、聴者情報取得部37から供給された聴者情報と、個人識別情報記録部38から読み出した個人識別情報とに基づいて、聴者を特定し、その特定結果を音場情報生成部41に供給する。
 例えば聴者識別部39は、聴者情報や個人識別情報としての顔画像を用いた顔認識や、聴者情報や個人識別情報としての声紋情報を用いた声紋認識により聴者を特定する。
 ステップS49において、音場情報生成部41は、聴者識別部39から供給された聴者の特定結果に基づいて、特定された聴者の個人能力情報を個人能力情報記録部40から読み出す。
 ステップS50において、音場情報生成部41は、ステップS49の処理で読み出された個人能力情報に基づいて、ステップS46の処理で得られた音場情報を補正し、最終的な音場情報とする。
 また、音場情報生成部41は、このようにして得られた音場情報と、聴者位置測定部36から供給された聴者位置情報とを音場情報送信部42に供給する。音場情報送信部42は、音場情報生成部41から供給された音場情報および聴者位置情報に対して、例えば符号化などの所定の処理を施し、その結果得られた音場情報および聴者位置情報を通信部31に供給する。
 ステップS51において、通信部31は音場情報送信部42から供給された音場情報および聴者位置情報を、ネットワーク13を介して話者側デバイス11に送信する。ステップS51で送信された音場情報および聴者位置情報は、図3のステップS13において話者側デバイス11で受信される。
 ステップS52において、聴者側デバイス12は処理を終了するか否かを判定する。例えば、聴者により聴者側デバイス12が操作され、通話の終了が指示された場合に処理を終了すると判定される。
 ステップS52において処理を終了しないと判定された場合、処理はステップS41に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS52において処理を終了すると判定された場合、音声受信処理は終了する。
 以上のようにして聴者側デバイス12は、話者側デバイス11から音声信号を受信して発話音声を再生するとともに、発話音声の出力音声情報等に基づいて音場情報を生成し、音場情報および聴者位置情報を話者側デバイス11に送信する。これにより、話者側デバイス11において、話者に対して話者の声がどのような大きさで聴者に聞こえているかを提示することができるので、話者はより自然な音声通話を行うことができる。
 なお、以上においては聴者側デバイス12が話者側デバイス11に対して音場情報および聴者位置情報を送信する例について説明した。しかし、例えば聴者側デバイス12において音場情報と聴者位置情報に基づいて、聴者位置における発話音声の聴取度合いを特定し、その特定結果を音場に関する情報として話者側デバイス11に送信してもよい。
〈第2の実施の形態〉
〈通話システムの構成例〉
 また、話者側デバイス11において聴者側の聴取空間の映像が表示される場合、音場情報により示される聴取度合いに応じた大きさで聴者を表す映像を表示するようにしてもよい。すなわち、聴取空間を表す画像上において聴取度合いに応じた距離の位置に聴者を表す映像(画像)を表示するようにしてもよい。
 そのような場合、通話システムは、例えば図5に示すように構成される。なお、図5において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図5に示す通話システムは、話者側デバイス11および聴者側デバイス12を有しているが、話者側デバイス11および聴者側デバイス12の構成が図1における場合と異なっている。
 すなわち、この例では話者側デバイス11は、音声入力部21、音声信号送信部22、通信部23、音場情報受信部24、形状情報受信部81、表示制御部82、および表示部83を有している。図5に示す話者側デバイス11の構成は、音場情報提示部25に代えて形状情報受信部81乃至表示部83が設けられている点で図1の話者側デバイス11の構成と異なり、その他の点では図1の話者側デバイス11と同じ構成となっている。
 また、図5に示す聴者側デバイス12は通信部31、音声信号受信部32、音声出力部33、音響特性情報記録部34、環境音分布情報取得部35、聴者位置測定部36、聴者情報取得部37、個人識別情報記録部38、聴者識別部39、個人能力情報記録部40、音場情報生成部41、音場情報送信部42、形状情報取得部101、および形状情報送信部102を有している。
 図5に示す聴者側デバイス12の構成は、新たに形状情報取得部101および形状情報送信部102が設けられた点で図1の聴者側デバイス12の構成と異なり、その他の点では図1の聴者側デバイス12と同じ構成となっている。
 図5に示す例では、話者側デバイス11の通信部23は、音場情報、聴者位置情報、および形状情報を聴者側デバイス12から受信する。また、音場情報受信部24は、通信部23から供給された音場情報および聴者位置情報を表示制御部82に供給する。
 形状情報受信部81は形状情報の受信を制御する。すなわち、形状情報受信部81は、通信部23から供給された形状情報に対して復号などの処理を施して表示制御部82に供給する。
 ここで、形状情報は聴者側デバイス12側の聴取空間内にいる聴者を表示するために用いられる、聴者の3次元形状に関する情報である。
 表示制御部82は、音場情報受信部24から供給された音場情報および聴者位置情報と、形状情報受信部81から供給された形状情報とに基づいて表示部83を制御し、表示部83に聴者位置における聴取度合いに応じた大きさで聴者を表す映像(画像)を表示させる。
 表示部83は、例えば液晶表示デバイスなどからなり、表示制御部82の制御に従って画像を表示させる。
 また、形状情報取得部101は、例えば互いに異なる位置に配置された複数のカメラなどからなり、聴取空間における聴者について形状情報を取得して形状情報送信部102に供給する。形状情報送信部102は、形状情報取得部101から供給された形状情報に対して符号化などの所定の処理を施して通信部31に供給し、形状情報の送信を制御する。
〈聴取度合いに応じた聴者映像の表示について〉
 ここで、聴取度合いに応じた聴者の映像の表示について説明する。
 形状情報取得部101では、形状情報として、例えば聴者の3次元モデルデータが取得される。
 この場合、形状情報取得部101は、互いに異なる位置に配置されたカメラによって聴取空間上の聴者を被写体とする画像(以下、計測画像とも称する)を撮影する。これにより、聴者を被写体とする複数の互いに異なる視点の計測画像が得られる。なお、計測画像は静止画像であってもよいし、動画像であってもよい。
 形状情報取得部101は、このようにして得られた計測画像に基づいて、被写体である聴者の各部位の位置を算出する。すなわち、形状情報取得部101は、聴者の体の表面上の多数の点(部位)について、それらの点の3次元空間上の位置を示す座標を求める。
 さらに形状情報取得部101は、聴者の体の表面上の各点の位置を示す座標に基づいて、聴者の表面を構成するポリゴンを生成し、得られたポリゴンの表面に対して、計測画像から得られる聴者の体の表面の色情報を付加して3次元モデルデータを生成する。
 このようにして得られた3次元モデルデータは聴者のカラーの画像(映像)、より詳細には聴者のカラーのモデルを表示するためのデータであり、この3次元モデルデータを用いれば空間上の任意の位置および方向から見た聴者のモデルを表示させることができる。
 表示制御部82では、形状情報としての3次元モデルデータと、音場情報と、聴者位置情報とに基づいて聴者を表す映像(画像)の表示が行われる。
 具体的には、例えば表示制御部82は、音場情報と聴者位置情報に基づいて、聴者位置情報により示される聴取空間内の聴者の位置における聴取度合いを特定するとともに、特定された聴取度合いに対して予め定められた距離を表示距離とする。
 そして、表示制御部82は表示距離により定まる聴取空間上の位置を表示位置として、その表示位置に聴者のモデルが表示される聴取空間の画像を聴取空間画像として生成し、表示部83に供給する。
 例えば聴取空間画像は、予め用意された聴取空間の画像である背景画像に対して、その背景画像上の聴取空間における表示位置に、3次元モデルデータから得られる聴者のモデルの画像を合成することで得られる画像などとされる。換言すれば、聴取空間画像は、聴取空間を表す画像上の表示位置に、聴者を表す画像が合成されて表示される画像とされる。
 なお、背景画像は実際に聴取空間を撮影して得られた画像に限らず、見取り図や模式図などの聴取空間を表す画像であればどのようなものであってもよい。また、通話時等に聴者側デバイス12において撮影されたリアルタイムの聴取空間の画像が背景画像として用いられてもよい。
 さらに表示距離は、例えば背景画像を撮影する際の視点位置などの聴取空間上における所定位置から、表示される聴者のモデルの位置、つまり表示位置までの距離であり、聴者位置情報により示される位置における聴取度合いが大きいほど表示距離は短くされる。
 また、聴取空間画像上の聴者のモデルは、聴取空間における表示位置に表示されるが、このとき聴者のモデルの大きさは表示距離に応じた大きさで、かつ表示位置に応じた向きで表示される。
 すなわち、聴取空間上の表示位置に聴者がいるものとし、その聴者を背景画像を撮影する際の視点位置などの聴取空間上における所定位置から見たときと同じ見え方をする聴者のモデルの画像が背景画像に合成されて聴取空間画像とされる。換言すれば、3次元モデルデータから得られる、表示位置と所定位置とから定まる向きで、かつ表示距離だけ離れた位置から見たときの聴者のモデルの画像が用いられて聴取空間画像が生成される。
 以上のようにして聴取空間画像を生成することで、例えば表示部83には図6や図7に示す聴取空間画像が表示される。なお、図6および図7において互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 例えば図6に示される例では、聴者位置情報により示される位置における聴取度合いが大きすぎるため、聴取空間画像では聴取空間における近い位置に聴者のモデルU21が表示されている。
 この場合、話者は聴者のモデルU21が近すぎる位置に表示されているため、無意識に話者から聴者までの距離に応じて発話時の声を小さくするようになる。つまり、話者側デバイス11は、話者に対して聴取度合いに応じた距離感で聴者のモデルU21を提示することにより、無意識に話者の声を小さくさせ、適切な大きさの声で発話を行うようにさせることができる。
 これに対して、図7に示される例では、聴者位置情報により示される位置における聴取度合いが小さすぎるため、聴取空間画像では聴取空間における遠い位置に聴者のモデルU21が表示されている。
 この場合、話者は聴者のモデルU21が遠すぎる位置に表示されているため、無意識に話者から聴者までの距離に応じて発話時の声を大きくするようになる。つまり、話者側デバイス11は、話者に対して聴取度合いに応じた距離感で聴者のモデルU21を提示することにより、無意識に話者の声を大きくさせ、聴者が聞き取りやすい適切な大きさの声で発話を行うようにさせることができる。
〈音声送信処理の説明〉
 次に、図5に示した通話システムの動作について説明する。
 まず、図8のフローチャートを参照して、話者側デバイス11により行われる音声送信処理について説明する。なお、ステップS81およびステップS82の処理は図3のステップS11およびステップS12の処理と同様であるので、その説明は省略する。
 ステップS83において、通信部23は、聴者側デバイス12から送信されてきた音場情報、聴者位置情報、および形状情報を受信する。
 通信部23は、受信した音場情報および聴者位置情報を音場情報受信部24に供給するとともに、受信した形状情報を形状情報受信部81に供給する。
 また、音場情報受信部24は、通信部23から供給された音場情報および聴者位置情報に対して復号等の処理を施して表示制御部82に供給し、形状情報受信部81は、通信部23から供給された形状情報に対して復号等の処理を施して表示制御部82に供給する。
 ステップS84において、表示制御部82は、音場情報受信部24から供給された音場情報および聴者位置情報と、形状情報受信部81から供給された形状情報とに基づいて、聴取度合いに応じた距離の位置に聴者を表す映像(画像)を表示させる。
 すなわち、表示制御部82は、音場情報、聴者位置情報、および形状情報に基づいて聴取空間画像を生成するとともに、その聴取空間画像を表示部83に供給し、表示させる。これにより、例えば図6や図7に示した聴取空間画像が表示部83に表示される。
 ステップS85において、話者側デバイス11は処理を終了するか否かを判定する。例えば、話者により話者側デバイス11が操作され、通話の終了が指示された場合に処理を終了すると判定される。
 ステップS85において処理を終了しないと判定された場合、処理はステップS81に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS85において処理を終了すると判定された場合、音声送信処理は終了する。
 以上のようにして話者側デバイス11は、話者の発話音声を収音して音声信号を聴者側デバイス12に送信するとともに、聴者側デバイス12から送信されてきた音場情報、聴者位置情報、および形状情報を受信して、背景画像に聴者を表す画像が合成された聴取空間画像を表示する。これにより、話者に対して話者の声がどのような大きさで聴者に聞こえているかを提示することができ、話者はより自然な音声通話を行うことができる。
〈音声受信処理の説明〉
 続いて、図9のフローチャートを参照して、図8の音声送信処理が行われるときに聴者側デバイス12により行われる音声受信処理について説明する。なお、ステップS111乃至ステップS120の処理は、図4のステップS41乃至ステップS50の処理と同様であるので、その説明は省略する。
 ステップS121において、形状情報取得部101は、聴取空間にいる聴者の形状情報を取得する。
 例えば形状情報取得部101は、互いに異なる視点のカメラにより撮影された計測画像に基づいて3次元モデルデータを生成し、得られた3次元モデルデータを形状情報とする。
 形状情報取得部101は、得られた形状情報を形状情報送信部102に供給する。また、形状情報送信部102は、形状情報取得部101から供給された形状情報に対して符号化等の処理を施して通信部31に供給し、形状情報の送信を制御する。
 ステップS122において、通信部31は音場情報送信部42から供給された音場情報および聴者位置情報と、形状情報送信部102から供給された形状情報とを、ネットワーク13を介して話者側デバイス11に送信する。ステップS122で送信された音場情報、聴者位置情報、および形状情報は、図8のステップS83において話者側デバイス11で受信される。
 ステップS123において、聴者側デバイス12は処理を終了するか否かを判定する。例えば、聴者により聴者側デバイス12が操作され、通話の終了が指示された場合に処理を終了すると判定される。
 ステップS123において処理を終了しないと判定された場合、処理はステップS111に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS123において処理を終了すると判定された場合、音声受信処理は終了する。
 以上のようにして聴者側デバイス12は、話者側デバイス11から音声信号を受信して発話音声を再生するとともに、形状情報を取得し、音場情報、聴者位置情報、および形状情報を話者側デバイス11に送信する。これにより、話者側デバイス11において、話者に対して話者の声がどのような大きさで聴者に聞こえているかを提示することができるので、話者はより自然な音声通話を行うことができる。
 なお、以上においては形状情報が3次元モデルデータである場合を例として説明したが、その他、形状情報は聴者を被写体として撮影された聴者の画像(映像)そのものであってもよいし、聴者を表すアバタ等の画像であってもよい。
 また、聴取空間を表す画像上において表示距離の位置に聴者を表す画像が表示される聴取空間画像に限らず、聴者位置における聴取度合いに応じた大きさで聴者を表す画像が表示されればよい。例えば表示部83の表示画面に、聴者位置における聴取度合いに応じた大きさでアバタ等の聴者を表す画像を表示させてもよい。このとき、聴者を表す画像が表示される位置は、聴者位置における聴取度合いに応じた距離の位置である必要はない。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
 図10は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 音声通話の通話相手側の音場情報を受信する通信部と、
 前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる制御部と
 を備える情報処理装置。
(2)
 前記制御部は、前記音場に関する情報として、聴取空間上の前記通話相手の位置における話者の発話音声を聞き取れる度合いを視覚的に把握可能な情報を提示させる
 (1)に記載の情報処理装置。
(3)
 前記音場情報は、前記聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報である
 (2)に記載の情報処理装置。
(4)
 前記通信部は、前記聴取空間における前記通話相手の位置を示す聴者位置情報をさらに受信し、
 前記制御部は、前記音場情報および前記聴者位置情報に基づいて、前記音場に関する情報を提示させる
 (3)に記載の情報処理装置。
(5)
 前記制御部は、前記聴取空間の各領域が、それらの各前記領域における前記話者の発話音声を聞き取れる度合いに応じた表示形式で表示されるとともに前記通話相手の位置を表すマークが表示される画像を前記音場に関する情報として表示させる
 (2)乃至(4)の何れか一項に記載の情報処理装置。
(6)
 前記制御部は、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた色の光、点滅パターンの光、文字、またはマークを前記音場に関する情報として提示させる
 (2)乃至(4)の何れか一項に記載の情報処理装置。
(7)
 話者の発話音声を収音する音声入力部をさらに備え、
 前記通信部は、前記収音により得られた音声信号を前記通話相手側に送信する
 (1)乃至(6)の何れか一項に記載の情報処理装置。
(8)
 音声通話の通話相手側の音場情報を受信し、
 前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる
 ステップを含む情報処理方法。
(9)
 音声通話の通話相手側の音場情報を受信し、
 前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる
 ステップを含む処理をコンピュータに実行させるプログラム。
(10)
 音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成する音場情報生成部と、
 前記音場情報を前記話者側に送信する通信部と
 を備える情報処理装置。
(11)
 前記音場情報は、前記聴者がいる聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報である
 (10)に記載の情報処理装置。
(12)
 前記音場情報生成部は、前記発話音声に関する情報、および前記聴者がいる聴取空間の音響特性を示す音響特性情報に基づいて前記音場情報を生成する
 (10)または(11)に記載の情報処理装置。
(13)
 前記音場情報生成部は、前記発話音声に関する情報、および前記聴者がいる聴取空間における環境音に関する環境音情報に基づいて前記音場情報を生成する
 (10)乃至(12)の何れか一項に記載の情報処理装置。
(14)
 前記音場情報生成部は、前記発話音声に関する情報、および前記聴者に固有の能力に関する個人能力情報に基づいて前記音場情報を生成する
 (10)乃至(13)の何れか一項に記載の情報処理装置。
(15)
 前記通信部は、前記音場情報、および聴取空間における前記聴者の位置を示す聴者位置情報を前記話者側に送信する
 (10)乃至(14)の何れか一項に記載の情報処理装置。
(16)
 前記通信部は、前記話者の発話音声の音声信号を受信し、
 前記音声信号に基づいて前記話者の発話音声を再生する音声出力部をさらに備える
 (10)乃至(15)の何れか一項に記載の情報処理装置。
(17)
 音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、
 前記音場情報を前記話者側に送信する
 ステップを含む情報処理方法。
(18)
 音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、
 前記音場情報を前記話者側に送信する
 ステップを含む処理をコンピュータに実行させるプログラム。
(19)
 音声通話の通話相手がいる聴取空間における話者の発話音声を聞き取れる度合いを示す音場情報、前記聴取空間における前記通話相手の位置を示す聴者位置情報、および前記通話相手の形状に関する形状情報を受信する通信部と、
 前記音場情報、前記聴者位置情報、および前記形状情報に基づいて、前記聴取空間を表す画像上において、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた距離の位置に、前記通話相手を表す画像を表示させる表示制御部と
 を備える情報処理装置。
(20)
 音声通話の聴者がいる聴取空間における、前記聴者の通話相手である話者の発話音声を聞き取れる度合いを示す音場情報を、前記話者の発話音声に関する情報に基づいて生成する音場情報生成部と、
 前記音場情報、前記聴取空間における前記聴者の位置を示す聴者位置情報、および前記聴者の形状に関する形状情報を前記話者側に送信する通信部と
 を備える情報処理装置。
 11 話者側デバイス, 12 聴者側デバイス, 21 音声入力部, 23 通信部, 24 音場情報受信部, 25 音場情報提示部, 31 通信部, 33 音声出力部, 35 環境音分布情報取得部, 36 聴者位置測定部, 37 聴者情報取得部, 39 聴者識別部, 41 音場情報生成部, 82 表示制御部, 83 表示部, 101 形状情報取得部

Claims (20)

  1.  音声通話の通話相手側の音場情報を受信する通信部と、
     前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる制御部と
     を備える情報処理装置。
  2.  前記制御部は、前記音場に関する情報として、聴取空間上の前記通話相手の位置における話者の発話音声を聞き取れる度合いを視覚的に把握可能な情報を提示させる
     請求項1に記載の情報処理装置。
  3.  前記音場情報は、前記聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報である
     請求項2に記載の情報処理装置。
  4.  前記通信部は、前記聴取空間における前記通話相手の位置を示す聴者位置情報をさらに受信し、
     前記制御部は、前記音場情報および前記聴者位置情報に基づいて、前記音場に関する情報を提示させる
     請求項3に記載の情報処理装置。
  5.  前記制御部は、前記聴取空間の各領域が、それらの各前記領域における前記話者の発話音声を聞き取れる度合いに応じた表示形式で表示されるとともに前記通話相手の位置を表すマークが表示される画像を前記音場に関する情報として表示させる
     請求項2に記載の情報処理装置。
  6.  前記制御部は、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた色の光、点滅パターンの光、文字、またはマークを前記音場に関する情報として提示させる
     請求項2に記載の情報処理装置。
  7.  話者の発話音声を収音する音声入力部をさらに備え、
     前記通信部は、前記収音により得られた音声信号を前記通話相手側に送信する
     請求項1に記載の情報処理装置。
  8.  音声通話の通話相手側の音場情報を受信し、
     前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる
     ステップを含む情報処理方法。
  9.  音声通話の通話相手側の音場情報を受信し、
     前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる
     ステップを含む処理をコンピュータに実行させるプログラム。
  10.  音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成する音場情報生成部と、
     前記音場情報を前記話者側に送信する通信部と
     を備える情報処理装置。
  11.  前記音場情報は、前記聴者がいる聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報である
     請求項10に記載の情報処理装置。
  12.  前記音場情報生成部は、前記発話音声に関する情報、および前記聴者がいる聴取空間の音響特性を示す音響特性情報に基づいて前記音場情報を生成する
     請求項10に記載の情報処理装置。
  13.  前記音場情報生成部は、前記発話音声に関する情報、および前記聴者がいる聴取空間における環境音に関する環境音情報に基づいて前記音場情報を生成する
     請求項10に記載の情報処理装置。
  14.  前記音場情報生成部は、前記発話音声に関する情報、および前記聴者に固有の能力に関する個人能力情報に基づいて前記音場情報を生成する
     請求項10に記載の情報処理装置。
  15.  前記通信部は、前記音場情報、および聴取空間における前記聴者の位置を示す聴者位置情報を前記話者側に送信する
     請求項10に記載の情報処理装置。
  16.  前記通信部は、前記話者の発話音声の音声信号を受信し、
     前記音声信号に基づいて前記話者の発話音声を再生する音声出力部をさらに備える
     請求項10に記載の情報処理装置。
  17.  音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、
     前記音場情報を前記話者側に送信する
     ステップを含む情報処理方法。
  18.  音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、
     前記音場情報を前記話者側に送信する
     ステップを含む処理をコンピュータに実行させるプログラム。
  19.  音声通話の通話相手がいる聴取空間における話者の発話音声を聞き取れる度合いを示す音場情報、前記聴取空間における前記通話相手の位置を示す聴者位置情報、および前記通話相手の形状に関する形状情報を受信する通信部と、
     前記音場情報、前記聴者位置情報、および前記形状情報に基づいて、前記聴取空間を表す画像上において、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた距離の位置に、前記通話相手を表す画像を表示させる表示制御部と
     を備える情報処理装置。
  20.  音声通話の聴者がいる聴取空間における、前記聴者の通話相手である話者の発話音声を聞き取れる度合いを示す音場情報を、前記話者の発話音声に関する情報に基づいて生成する音場情報生成部と、
     前記音場情報、前記聴取空間における前記聴者の位置を示す聴者位置情報、および前記聴者の形状に関する形状情報を前記話者側に送信する通信部と
     を備える情報処理装置。
PCT/JP2017/038468 2016-11-08 2017-10-25 情報処理装置および方法、並びにプログラム Ceased WO2018088210A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016218150 2016-11-08
JP2016-218150 2016-11-08

Publications (1)

Publication Number Publication Date
WO2018088210A1 true WO2018088210A1 (ja) 2018-05-17

Family

ID=62109269

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/038468 Ceased WO2018088210A1 (ja) 2016-11-08 2017-10-25 情報処理装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2018088210A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230315A1 (ja) * 2021-04-28 2022-11-03 株式会社日立製作所 サイバーフィジカルレンダリングシステム及びその方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002018889A1 (en) * 2000-08-29 2002-03-07 National Institute Of Advanced Industrial Science And Technology Sound measuring method and device allowing for auditory sense characteristics
JP2006238344A (ja) * 2005-02-28 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 通信装置、通信方法、および通信用プログラム
JP2014175837A (ja) * 2013-03-08 2014-09-22 Kddi Corp 被写体画像抽出および合成装置
WO2015046034A1 (ja) * 2013-09-30 2015-04-02 株式会社Jvcケンウッド 声量報知装置、データ送信機、データ受信機及び声量報知システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002018889A1 (en) * 2000-08-29 2002-03-07 National Institute Of Advanced Industrial Science And Technology Sound measuring method and device allowing for auditory sense characteristics
JP2006238344A (ja) * 2005-02-28 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> 通信装置、通信方法、および通信用プログラム
JP2014175837A (ja) * 2013-03-08 2014-09-22 Kddi Corp 被写体画像抽出および合成装置
WO2015046034A1 (ja) * 2013-09-30 2015-04-02 株式会社Jvcケンウッド 声量報知装置、データ送信機、データ受信機及び声量報知システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230315A1 (ja) * 2021-04-28 2022-11-03 株式会社日立製作所 サイバーフィジカルレンダリングシステム及びその方法
JP2022169990A (ja) * 2021-04-28 2022-11-10 株式会社日立製作所 サイバーフィジカルレンダリングシステム及びその方法

Similar Documents

Publication Publication Date Title
CN112312297B (zh) 音频带宽减小
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
US9916842B2 (en) Systems, methods and devices for intelligent speech recognition and processing
US12147730B2 (en) Audio apparatus, audio distribution system and method of operation therefor
US11184723B2 (en) Methods and apparatus for auditory attention tracking through source modification
CN114556972A (zh) 用于辅助选择性听觉的系统和方法
US20190138603A1 (en) Coordinating Translation Request Metadata between Devices
JP7070910B2 (ja) テレビ会議システム
CN109218948B (zh) 助听系统、系统信号处理单元及用于产生增强的电音频信号的方法
US20200211540A1 (en) Context-based speech synthesis
US20240259742A1 (en) Method of self-fitting of a binaural hearing system
JPWO2018193826A1 (ja) 情報処理装置、情報処理方法、音声出力装置、および音声出力方法
US20250372119A1 (en) Capturing and processing audio signals
CN110677781A (zh) 利用编码光线引导扬声器阵列和麦克风阵列的系统和方法
WO2018088210A1 (ja) 情報処理装置および方法、並びにプログラム
JP7284570B2 (ja) 音声再生システムおよびプログラム
US12328566B2 (en) Information processing device, information processing terminal, information processing method, and program
CN110620982A (zh) 用于助听器中的音频播放的方法
CN119836657A (zh) 基于输入话音特性的源话音修改
JP2005123959A (ja) 高臨場感通信会議装置
JP7293863B2 (ja) 音声処理装置、音声処理方法およびプログラム
CN120020944A (zh) 语音信号处理方法及装置、电子设备、存储介质
WO2025055851A1 (zh) 音频处理方法、相关装置及通信系统
Albrecht et al. Continuous Mobile Communication with Acoustic Co-Location Detection
JP2004110898A (ja) 三者会話データ収録装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17869173

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17869173

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP