WO2022249461A1 - Video analysis system - Google Patents
Video analysis system Download PDFInfo
- Publication number
- WO2022249461A1 WO2022249461A1 PCT/JP2021/020464 JP2021020464W WO2022249461A1 WO 2022249461 A1 WO2022249461 A1 WO 2022249461A1 JP 2021020464 W JP2021020464 W JP 2021020464W WO 2022249461 A1 WO2022249461 A1 WO 2022249461A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- analysis
- unit
- moving image
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Definitions
- the present invention relates to a moving image analysis system that analyzes participants' biological reactions based on moving images obtained from online sessions conducted by multiple participants.
- Patent Document 1 A technique for analyzing the emotions others receive in response to a speaker's remarks (see Patent Document 1, for example).
- Patent Document 2 For example.
- Patent Document 3 A technique for chronologically analyzing changes in a subject's facial expression over a long period of time and estimating the emotions held during that period.
- Patent Documents 3 to 5 There are also known techniques for identifying the factors that most affected changes in emotions (see Patent Documents 3 to 5, for example).
- Patent Documents 3 to 5 There is also known a technique that compares the subject's usual facial expression with the current facial expression and issues an alert when the facial expression is dark (see Patent Document 6, for example).
- Patent Document 6 There is also known a technique for determining the degree of emotion of a subject by comparing the subject's normal (expressionless) facial expression with the current facial expression (see, for example, Patent Documents 7 to 9).
- Techniques for analyzing the emotions of an organization and the atmosphere felt by individuals within a group are also known (see Patent Documents 10 and 11, for example).
- the purpose of the present invention is to objectively evaluate these communications in order to conduct more efficient communication in situations where online communication is the main focus, such as meetings and lectures.
- a moving image analysis system a moving image acquisition unit that acquires a moving image obtained by photographing the user during the online session for each of the plurality of users; an analysis unit that analyzes changes in biological reactions of the user based on the moving image acquired by the moving image acquisition unit; a character information specifying unit that specifies character information having an attribute corresponding to information related to the analysis result by the analysis unit; an output unit that outputs the identified character information;
- a moving image analysis system is obtained.
- exchanged communication can be objectively evaluated in order to conduct more efficient communication in situations where online communication is the main activity.
- FIG. 1 is an example of a functional block diagram of an evaluation terminal according to an embodiment of the present invention
- FIG. 3 is a diagram showing functional configuration example 1 of the evaluation terminal according to the embodiment of the present invention
- FIG. 8 is a diagram showing functional configuration example 2 of the evaluation terminal according to the embodiment of the present invention
- FIG. 10 is a diagram showing a functional configuration example 3 of the evaluation terminal according to the embodiment of the present invention
- 7 is a screen display example according to the functional configuration example 3 of FIG. 6.
- FIG. FIG. 7 is another screen display example according to the functional configuration example 3 of FIG. 6.
- FIG. FIG. 12 is a diagram showing another configuration of functional configuration example 3 of the evaluation terminal according to the embodiment of the present invention
- FIG. 12 is a diagram showing another configuration of functional configuration example 3 of the evaluation terminal according to the embodiment of the present invention. It is a figure showing an example of composition of a system concerning this embodiment. It is a figure showing an example of functional composition of a system concerning this embodiment.
- FIG. 10 is a diagram showing an example of a list of analysis result data to which character information is added; It is a figure which shows an example of the data output by an output part.
- FIG. 5 is a diagram showing an example of a display mode of a screen displayed on the evaluator terminal by the output unit according to the present embodiment; 4 is a flow chart showing an example of the flow of processing by the system according to the present embodiment;
- the contents of the embodiments of the present disclosure are listed and described.
- the present disclosure has the following configurations. (Item 1) In an environment where an online session is held by a plurality of users, the reaction of the user is analyzed based on a moving image obtained by photographing the user regardless of whether or not the user is displayed on a screen during the online session.
- a moving image analysis system a moving image acquisition unit that acquires a moving image obtained by photographing the user during the online session for each of the plurality of users; an analysis unit that analyzes changes in biological reactions of the user based on the moving image acquired by the moving image acquisition unit; a character information specifying unit that specifies character information having an attribute corresponding to information related to the analysis result by the analysis unit; an output unit that outputs the identified character information;
- a moving image analysis system (Item 2) The moving image analysis system according to item 1, The character information includes character object information, The output unit outputs object information of the character. Video image analysis system.
- the moving image analysis system according to item 2 The output unit changes the output mode of the object information of the character according to the information on the change in the biological reaction analyzed by the analysis unit.
- Video image analysis system. (Item 4) The moving image analysis system according to any one of items 1 to 3, The character information identifying unit identifies the character information based on attributes of the user who is the target of the analysis.
- Video image analysis system. (Item 5) The moving image analysis system according to any one of items 1 to 4, The output unit does not output information of the user who is the target of the analysis. Video image analysis system.
- the moving image analysis system outputs the character information together with information related to the analysis result to a terminal of another user different from the user who is the target of the analysis, further comprising a feedback information acquisition unit that acquires feedback information on the information related to the analysis result input to the terminal of the other user who acquired the character information, The moving image analysis system, wherein the output unit outputs a notification based on the feedback information acquired by the feedback information acquisition unit to the terminal of the user linked to the character information.
- a video session in an environment where a video session (hereinafter referred to as an online session including one-way and two-way sessions) is held by a plurality of people, the person to be analyzed among the plurality of people is different from the others. It is a system that analyzes and evaluates specific emotions (feelings that occur in response to one's own or others' words and actions. pleasant/unpleasant, or their degree).
- Online sessions are, for example, online meetings, online classes, online chats, etc. Terminals installed in multiple locations are connected to a server via a communication network such as the Internet, and moving images are transmitted between multiple terminals through the server. It's made to be interactable.
- Moving images handled in online sessions include facial images and voices of users using terminals.
- Moving images also include images such as materials that are shared and viewed by a plurality of users. It is possible to switch between the face image and the document image on the screen of each terminal to display only one of them, or to divide the display area and display the face image and the document image at the same time. In addition, it is possible to display the image of one user out of a plurality of users on the full screen, or divide the images of some or all of the users into small screens and display them. It is possible to designate one or a plurality of users among a plurality of users participating in an online session using terminals as analysis subjects.
- an online session leader, moderator, or manager designates any user as an analysis subject.
- Hosts of online sessions are, for example, instructors of online classes, chairpersons and facilitators of online meetings, coaches of sessions for coaching purposes, and the like.
- An online session host is typically one of the users participating in the online session, but may be another person who does not participate in the online session. It should be noted that all participants may be subject to analysis without specifying the person to be analyzed.
- an online session leader, moderator, or administrator hereinafter collectively referred to as the organizer to designate any user as an analysis subject.
- Hosts of online sessions are, for example, instructors of online classes, chairpersons and facilitators of online meetings, coaches of sessions for coaching purposes, and the like.
- An online session host is typically one of the users participating in the online session, but may be another person who does not participate in the online session.
- the video session evaluation system displays at least moving images obtained from a video session established between a plurality of terminals.
- the displayed moving image is acquired by the terminal, and at least a face image included in the moving image is identified for each predetermined frame unit. An evaluation value for the identified face image is then calculated.
- the evaluation value is shared as necessary.
- the acquired moving image is stored in the terminal, analyzed and evaluated on the terminal, and the result is provided to the user of the terminal. Therefore, for example, even a video session containing personal information or a video session containing confidential information can be analyzed and evaluated without providing the moving image itself to an external evaluation agency or the like.
- the evaluation result evaluation value
- the video session evaluation system includes user terminals 10 and 20 each having at least an input unit such as a camera unit and a microphone unit, a display unit such as a display, and an output unit such as a speaker. , a video session service terminal 30 for providing an interactive video session to the user terminals 10, 20, and an evaluation terminal 40 for performing part of the evaluation of the video session.
- Each functional block, functional unit, and functional module described below can be configured by any of hardware, DSP (Digital Signal Processor), and software provided in a computer, for example.
- DSP Digital Signal Processor
- a computer CPU random access memory
- RAM random access memory
- ROM read-only memory
- a series of processes by the systems and terminals described herein may be implemented using software, hardware, or a combination of software and hardware. It is possible to create a computer program for realizing each function of the information sharing support device 10 according to the present embodiment and implement it in a PC or the like. It is also possible to provide a computer-readable recording medium storing such a computer program.
- the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like.
- the above computer program may be distributed, for example, via a network without using a recording medium.
- the evaluation terminal acquires a moving image from a video session service terminal, identifies at least a face image included in the moving image for each predetermined frame unit, and calculates an evaluation value for the face image ( will be described in detail later).
- the video session service provided by the video session service terminal (hereinafter sometimes simply referred to as "this service") provides user terminals 10 and 20 with two-way images and voice. Communication is possible.
- this service a moving image captured by the camera of the other user's terminal is displayed on the display of the user's terminal, and audio captured by the microphone of the other's user's terminal can be output from the speaker.
- this service allows both or either of the user terminals to record moving images and sounds (collectively referred to as "moving images, etc.") in the storage unit of at least one of the user terminals. configured as possible.
- the recorded moving image information Vs (hereinafter referred to as “recorded information”) is cached in the user terminal that started recording and is locally recorded only in one of the user terminals. If necessary, the user can view the recorded information by himself or share it with others within the scope of using this service.
- FIG. 4 is a block diagram showing a configuration example according to this embodiment.
- the video session evaluation system of this embodiment is implemented as a functional configuration of the user terminal 10.
- the user terminal 10 has, as its functions, a moving image acquisition unit 11, a biological reaction analysis unit 12, a peculiar determination unit 13, a related event identification unit 14, a clustering unit 15, and an analysis result notification unit 16.
- the moving image acquisition unit 11 acquires from each terminal a moving image obtained by photographing a plurality of people (a plurality of users) with a camera provided in each terminal during an online session. It does not matter whether the moving image acquired from each terminal is set to be displayed on the screen of each terminal. That is, the moving image acquisition unit 11 acquires moving images from each terminal, including moving images being displayed and moving images not being displayed on each terminal.
- the biological reaction analysis unit 12 analyzes changes in the biological reaction of each of a plurality of people based on the moving images (whether or not they are being displayed on the screen) acquired by the moving image acquiring unit 11.
- the biological reaction analysis unit 12 separates the moving image acquired by the moving image acquisition unit 11 into a set of images (collection of frame images) and voice, and analyzes changes in the biological reaction from each.
- the biological reaction analysis unit 12 analyzes the user's facial image using a frame image separated from the moving image acquired by the moving image acquisition unit 11 to obtain at least one of facial expression, gaze, pulse, and facial movement. Analyze changes in biological reactions related to Further, the biological reaction analysis unit 12 analyzes the voice separated from the moving image acquired by the moving image acquisition unit 11 to analyze changes in the biological reaction related to at least one of the user's utterance content and voice quality.
- the biological reaction analysis unit 12 calculates a biological reaction index value reflecting the change in biological reaction by quantifying the change in biological reaction according to a predetermined standard.
- the analysis of changes in facial expressions is performed as follows. That is, for each frame image, a facial region is identified from the frame image, and the identified facial expressions are classified into a plurality of types according to an image analysis model machine-learned in advance. Then, based on the classification results, it analyzes whether positive facial expression changes occur between consecutive frame images, whether negative facial expression changes occur, and to what extent the facial expression changes occur, A facial expression change index value corresponding to the analysis result is output.
- the analysis of changes in line of sight is performed as follows. That is, for each frame image, the eye region is specified in the frame image, and the orientation of both eyes is analyzed to analyze where the user is looking. For example, it analyzes whether the user is looking at the face of the speaker being displayed, whether the user is looking at the shared material being displayed, or whether the user is looking outside the screen. Also, it may be analyzed whether the eye movement is large or small, or whether the movement is frequent or infrequent. A change in line of sight is also related to the user's degree of concentration.
- the biological reaction analysis unit 12 outputs a line-of-sight change index value according to the analysis result of the line-of-sight change.
- the analysis of pulse changes is performed, for example, as follows. That is, for each frame image, the face area is specified in the frame image. Then, using a trained image analysis model that captures numerical values of face color information (G of RGB), changes in the G color of the face surface are analyzed. By arranging the results along the time axis, a waveform representing changes in color information is formed, and the pulse is identified from this waveform. When a person is tense, the pulse speeds up, and when the person is calm, the pulse slows down. The biological reaction analysis unit 12 outputs a pulse change index value according to the analysis result of the pulse change.
- G of RGB face color information
- analysis of changes in facial movement is performed as follows. That is, for each frame image, the face area is specified in the frame image, and the direction of the face is analyzed to analyze where the user is looking. For example, it analyzes whether the user is looking at the face of the speaker being displayed, whether the user is looking at the shared material being displayed, or whether the user is looking outside the screen. Further, it may be analyzed whether the movement of the face is large or small, or whether the movement is frequent or infrequent. The movement of the face and the movement of the line of sight may be analyzed together. For example, it may be analyzed whether the face of the speaker being displayed is viewed straight, whether the face is viewed with upward or downward gaze, or whether the face is viewed obliquely.
- the biological reaction analysis unit 12 outputs a face orientation change index value according to the analysis result of the face orientation change.
- the biological reaction analysis unit 12 converts the voice into a character string by performing known voice recognition processing on the voice for a specified time (for example, about 30 to 150 seconds), and morphologically analyzes the character string. By doing so, words such as particles and articles that are unnecessary for expressing conversation are removed. Then, vectorize the remaining words, analyze whether a positive emotional change has occurred, whether a negative emotional change has occurred, and to what extent the emotional change has occurred. Outputs the utterance content index value.
- Voice quality analysis is performed, for example, as follows. That is, the biological reaction analysis unit 12 identifies the acoustic features of the voice by performing known voice analysis processing on the voice for a specified time (for example, about 30 to 150 seconds). Then, based on the acoustic features, it analyzes whether a positive change in voice quality has occurred, whether a negative change in voice quality has occurred, and to what extent the change in voice quality has occurred, and according to the analysis results, output the voice quality change index value.
- a specified time for example, about 30 to 150 seconds
- the biological reaction analysis unit 12 uses at least one of the facial expression change index value, eye line change index value, pulse change index value, face direction change index value, statement content index value, and voice quality change index value calculated as described above. to calculate the biological reaction index value.
- the biological reaction index value is calculated by weighting the facial expression change index value, eye line change index value, pulse change index value, face direction change index value, statement content index value, and voice quality change index value.
- the peculiarity determination unit 13 determines whether or not the change in the analyzed biological reaction of the person to be analyzed is more specific than the change in the analyzed biological reaction of the person other than the person to be analyzed. In the present embodiment, the peculiarity determination unit 13 compares changes in the biological reaction of the person to be analyzed with those of others based on the biological reaction index values calculated for each of the plurality of users by the biological reaction analysis unit 12. is specific or not.
- the peculiar determination unit 13 calculates the variance of the biological reaction index values calculated for each of the plurality of persons by the biological reaction analysis unit 12, and compares the biological reaction index values calculated for the analysis subject with the variance, It is determined whether or not the change in the analyzed biological reaction of the person to be analyzed is specific compared to others.
- the following three patterns are conceivable as cases where the changes in biological reactions analyzed for the subject of analysis are more specific than those of others.
- the first is a case where a relatively large change in biological reaction occurs in the subject of analysis, although no particularly large change in biological reaction has occurred in the other person.
- the second is a case where a particularly large change in biological reaction has not occurred in the subject of analysis, but a relatively large change in biological reaction has occurred in the other person.
- the third is a case where a relatively large change in biological reaction occurs in both the subject of analysis and the other person, but the content of the change differs between the subject of analysis and the other person.
- the related event identification unit 14 identifies an event occurring in relation to at least one of the person to be analyzed, the other person, and the environment when the change in the biological reaction determined to be peculiar by the peculiarity determination unit 13 occurs. .
- the related event identification unit 14 identifies from the moving image the speech and behavior of the person to be analyzed when a specific change in biological reaction occurs in the person to be analyzed.
- the related event identifying unit 14 identifies, from the moving image, the speech and behavior of the other person when a specific change in the biological reaction of the person to be analyzed occurs.
- the related event identification unit 14 identifies from the moving image the environment in which a specific change in the biological reaction of the person to be analyzed occurs.
- the environment is, for example, the shared material being displayed on the screen, the background image of the person to be analyzed, and the like.
- the clustering unit 15 clusters the change in the biological reaction determined to be specific by the peculiarity determination unit 13 (for example, one or a combination of eye gaze, pulse, facial movement, statement content, and voice quality), and the peculiarity Analyzing the degree of correlation with an event (event identified by the related event identification unit 14) that occurs when a change in biological reaction occurs, and if it is determined that the correlation is at a certain level or more , to cluster the subjects or events based on the correlation analysis results.
- the peculiarity determination unit 13 for example, one or a combination of eye gaze, pulse, facial movement, statement content, and voice quality
- the clustering unit 15 clusters the person to be analyzed or the event into one of a plurality of pre-segmented categories according to the content of the event, the degree of negativity, the magnitude of the correlation, and the like.
- the clustering unit 15 clusters the person to be analyzed or the event into one of a plurality of pre-segmented classifications according to the content of the event, the degree of positivity, the degree of correlation, and the like.
- the analysis result notification unit 16 reports at least one of the changes in the biological reaction determined to be specific by the peculiar determination unit 13, the event identified by the related event identification unit 14, and the classification clustered by the clustering unit 15. , to notify the designator of the subject of analysis (the subject of analysis or the organizer of the online session).
- the analysis result notification unit 16 recognizes that when a change in a specific biological reaction that is different from that of the other person occurs in the person to be analyzed (one of the three patterns described above; the same applies hereinafter), the analysis target is Notifies the person to be analyzed of his/her own behavior. This allows the person to be analyzed to understand that he/she has a different feeling from others when he or she performs a certain behavior. At this time, the person to be analyzed may also be notified of the change in the specific biological reaction identified for the person to be analyzed. Furthermore, the person to be analyzed may be further notified of the change in the biological reaction of the other person to be compared.
- the words and deeds of the person to be analyzed performed without being particularly conscious of their usual emotions, or the words and deeds of the person to be analyzed consciously accompanied by certain emotions, and the emotions and behaviors that others received
- the emotion held by the person to be analyzed is different from the feeling held by the person to be analyzed at the time
- the person to be analyzed is notified of the speech and behavior of the person to be analyzed at that time.
- the analysis result notification unit 16 notifies the organizer of the online session of the event occurring when the person to be analyzed undergoes a specific change in biological reaction that is different from that of the other person, together with the change in the specific biological reaction. to notify.
- the organizer of the online session can know what kind of event affects what kind of emotional change as a phenomenon specific to the specified analysis subject. Then, it becomes possible to perform appropriate treatment on the person to be analyzed according to the grasped contents.
- the analysis result notification unit 16 notifies the organizer of the online session of the event occurring when a specific change in biological reaction occurs in the analysis subject, which is different from that of others, or the clustering result of the analysis subject. do.
- online session organizers can grasp behavioral tendencies peculiar to analysis subjects and predict possible future behaviors and situations, depending on which classification the specified analysis subjects have been clustered into. be able to. Then, it becomes possible to take appropriate measures for the person to be analyzed.
- the biological reaction index value is calculated by quantifying the change in biological reaction according to a predetermined standard, and the analysis subject is analyzed based on the biological reaction index value calculated for each of the plurality of people.
- the biological reaction analysis unit 12 analyzes the movement of the line of sight for each of a plurality of people and generates a heat map indicating the direction of the line of sight.
- the peculiar determination unit 13 compares the heat map generated for the person to be analyzed by the biological reaction analysis unit 12 with the heat map generated for the other person, so that the change in the biological reaction analyzed for the person to be analyzed It is determined whether it is specific compared with the change in biological response analyzed for.
- moving images of a video session are stored in the local storage of the user terminal 10, and the above analysis is performed on the user terminal 10.
- the machine specs of the user terminal 10 it is possible to analyze the moving image information without providing it to the outside.
- the video session evaluation system of this embodiment may include a moving image acquisition unit 11, a biological reaction analysis unit 12, and a reaction information presentation unit 13a as functional configurations.
- the reaction information presentation unit 13a presents information indicating changes in biological reactions analyzed by the biological reaction analysis unit 12a, including participants not displayed on the screen.
- the reaction information presenting unit 13a presents information indicating changes in biological reactions to an online session leader, moderator, or administrator (hereinafter collectively referred to as the organizer).
- Hosts of online sessions are, for example, instructors of online classes, chairpersons and facilitators of online meetings, coaches of sessions for coaching purposes, and the like.
- An online session host is typically one of the users participating in the online session, but may be another person who does not participate in the online session.
- the organizer of the online session can also grasp the state of the participants who are not displayed on the screen in an environment where the online session is held by multiple people.
- FIG. 6 is a block diagram showing a configuration example according to this embodiment. As shown in FIG. 6, in the video session evaluation system of the present embodiment, functions similar to those of the above-described first embodiment are given the same reference numerals, and explanations thereof may be omitted.
- the system includes a camera unit that acquires images of a video session, a microphone unit that acquires audio, an analysis unit that analyzes and evaluates moving images, and information obtained by evaluating the acquired moving images.
- an object generator for generating a display object (described below) based on the display; and a display for displaying both the moving image of the video session and the display object during execution of the video session.
- the analysis unit includes the moving image acquisition unit 11, the biological reaction analysis unit 12, the peculiar determination unit 13, the related event identification unit 14, the clustering unit 15, and the analysis result notification unit 16, as described above.
- the function of each element is as described above.
- the object generation unit generates an object 50 representing the recognized face part and the above-mentioned Information 100 indicating the content of the analysis/evaluation performed is superimposed on the moving image and displayed.
- the object 50 may identify and display all faces of a plurality of persons when the faces of the plurality of persons are moved in the moving image.
- the object 50 is, for example, when the camera function of the video session is stopped at the other party's terminal (that is, it is stopped by software within the application of the video session instead of physically covering the camera). If the other party's face is recognized by the other party's camera, the object 50 or the object 100 may be displayed in the part where the other party's face is located. This makes it possible for both parties to confirm that the other party is in front of the terminal even if the camera function is turned off. In this case, for example, in a video session application, the information obtained from the camera may be hidden while only the object 50 or object 100 corresponding to the face recognized by the analysis unit is displayed. Also, the video information acquired from the video session and the information recognized by the analysis unit may be divided into different display layers, and the layer relating to the former information may be hidden.
- the objects 50 and 100 may be displayed in all areas or only in some areas. For example, as shown in FIG. 8, it may be displayed only on the moving image on the guest side.
- the embodiments of the invention described in Basic Configuration Example 1 to Basic Configuration Example 3 described above may be implemented as a single device, or a plurality of devices (for example, cloud servers) partially or entirely connected by a network. and the like.
- the control unit 110 and the storage 130 of each terminal 10 may be realized by different servers connected to each other via a network. That is, the system includes user terminals 10, 20, a video session service terminal 30 for providing an interactive video session to the user terminals 10, 20, and an evaluation terminal 40 for evaluating the video session, Variation combinations of the following configurations are conceivable. (1) Processing everything only on the user terminal As shown in FIG. 8, by performing the processing by the analysis unit on the terminal that is performing the video session (although a certain processing capacity is required), the video session can be performed.
- an analysis unit may be provided in an evaluation terminal connected via a network or the like.
- the moving images acquired by the user terminal are shared with the evaluation terminal at the same time as or after the video session, and are analyzed and evaluated by the analysis unit in the evaluation terminal.
- the moving image data that is, information including at least analysis data
- a moving image analysis system (hereinafter simply referred to as "system") according to an embodiment of the present disclosure shoots all participants or only a specific participant in an environment where an online session is held with a plurality of participants. Participants' reactions are analyzed based on the moving images obtained by this process. The analysis may occur whether or not participants are on screen during the online session. For example, the system according to the present embodiment statistically analyzes and outputs contents such as the amount and frequency of communication between users and their feelings at that time by analyzing moving images.
- Such analysis results are associated with information (user information) on the person subject to analysis. Therefore, for example, when a third party (e.g., the analysis subject's superior, the person being evaluated, etc.) views the analysis results of the analysis subject, information about the analysis subject's inner state is also disclosed to the third party. Therefore, privacy may not be sufficiently protected. On the other hand, if a third party cannot view the results of such analysis, it is difficult to grasp what kind of communication took place.
- a third party e.g., the analysis subject's superior, the person being evaluated, etc.
- FIG. 10 is a diagram showing an example of the system configuration according to this embodiment.
- an evaluator terminal 50 is a terminal for the evaluator to view analysis results of reactions of at least one of the users 10 and 20 during online sessions with the users 10 and 20, for example.
- FIG. 11 is a diagram showing an example of the functional configuration of the system according to this embodiment.
- the system shown in FIG. 11 includes an analysis result DB 21, a character information specifying section 22, an output section 23, and a feedback information acquisition section .
- the analysis result DB 21 can be realized by the above-described storage medium or the like.
- the character information specifying unit 22, the output unit 23, and the feedback information acquisition unit 24 read a program stored in a storage medium or the like provided in the evaluation terminal 40 or the like into a memory or the like and are executed by a processor such as a CPU. It can be realized by These functional units are preferably provided in an information processing device separate from the evaluator terminal 50 . For example, these functional units may be provided in the evaluation terminal 40 . With such a configuration, as will be described later, it is possible to prevent the evaluator terminal 50 from accessing the user information.
- the analysis result DB 21 is, for example, a database that stores analysis result data obtained by the various functional units described above.
- the analysis result data includes a session number specifying an online session to be analyzed. and an analysis number specifying the analysis result. , a user ID (specific information) for specifying the person to be analyzed, an address of analysis data, and the like.
- the address of analysis data is information that can indicate the storage location of analysis data stored in, for example, the analysis result DB 21 or another storage terminal.
- the analysis result data may include other information related to the analysis.
- a user ID is an example of user information.
- the analysis result data includes analysis information obtained as a result of analysis of movement on a moving image caused by the user, input information generated by the user's input to the user terminal, etc. May be included as information.
- the character information specifying unit 22 may have a function of specifying character information having attributes corresponding to information related to analysis results.
- Character information means information about characters having predetermined personalities, dispositions, etc., such as animals, cartoons, and animations. Each character information has an attribute. Attributes can include, for example, personality, temperament, age, gender, race, and other characteristics unique to the character. Character information may also include character object information (for example, the character's face, whole body, objects symbolizing the character, etc.).
- the character information specifying unit 22 determines that the user has a character with a quiet personality attribute. can be identified.
- the characters to be specified are characters of a common type or work. This makes it easier for evaluators to better understand the context of the session, as the character's characteristics are more clearly defined from the context based on common types and works.
- FIG. 12 is a diagram showing an example of analysis result data.
- the analysis result data 1001 is session number. 1011, analysis no. 1012 , user ID 1013 , analytical data 1014 and character information 1015 .
- Character information 1015 is added by the character information specifying unit 22 to the analysis result data stored in the analysis result DB 21 .
- the output unit 23 may have a function of outputting the analysis result data to which the character information stored in the analysis result DB 21 is added to the evaluator terminal 50 .
- the output unit 23 may exclude the user information from the analysis result data and output the data to the evaluator terminal 50 .
- FIG. 13 is a diagram showing an example of analysis result data output by the output unit 23.
- the output analysis result data 1002 includes session numbers. 1021, analysis no. 1022 , analysis data 1023 and character information 1024 . That is, the analysis result data 1002 does not include user information regarding the person to be analyzed.
- the evaluator terminal 50 outputs the data of the analysis result, it does not have information about which person to be analyzed provided the analysis result. Therefore, the evaluator can prevent feedback due to bias without knowing information about the subject of analysis or based on such information.
- the mode of output to the evaluator terminal 50 by the output unit 23 is not particularly limited.
- the output unit 23 may control the display device of the evaluator terminal 50 to display the analysis results in the form of a dashboard or a list.
- FIG. 14 is a diagram showing an example of an output mode to the evaluator terminal 50 by the output unit 23 according to this embodiment.
- a character object 1101 is displayed for each user as information of the online session to be analyzed.
- the displayed information about the user may be information that does not specify the person to be analyzed.
- each character's object 1101 can be displayed as an avatar that shows what the participants are like in the session.
- a lion, a mouse, a raccoon dog and a wolf can each be displayed.
- the character object 1101 may be displayed instead of the moving image of each participant in the moving image review area included in the screen 1100 displayed on the evaluator terminal 50, for example. Further, such a character object 1101 may be displayed in association with a graph indicating analysis results included in the screen 1100, for example.
- the output unit 23 may output only the character information instead of the analysis result data.
- the output unit 23 may output character information corresponding to each participant in one session. This allows the evaluator to grasp the status of each participant in the session without displaying detailed analysis results.
- the output mode of the object information of the displayed character may be changed according to the change in the biological reaction of the analysis result data.
- the output unit 23 may change the expression, appearance, etc. of the character displayed by the object, or may change the tone of voice in the case of voice.
- the output unit 23 may change the displayed character itself.
- the output unit 23 may have a function of outputting a notification based on the feedback information acquired from the evaluator terminal 50 by the feedback information acquisition unit 24, which will be described later, to the user terminals 10, 20, etc. of the person to be analyzed.
- the feedback information acquired by the feedback information acquisition unit 24 is associated with the analysis result data described later together with the user ID. Therefore, the output unit 23 can output a notification based on the feedback information to the person to be analyzed.
- the notification here may be, for example, notification of the feedback information itself, or notification of information such as points to be improved or evaluation points based on the feedback information.
- the feedback information acquisition unit 24 may have a function of acquiring feedback information on analysis result data input to the evaluator terminal 50 .
- Such feedback information may include, for example, any information such as texts and annotations regarding feedback to the analysis subject regarding the analysis result data.
- Such feedback information may be associated with the time in the moving image to be analyzed that may be included in the analysis data, the image displayed in the moving image, or the like.
- notification may or may not include the information of the evaluator who gave the feedback.
- the feedback information acquisition unit 24 may associate the acquired feedback information with the analysis result data stored in the analysis target DB 21 .
- the feedback information acquisition unit 24 obtains the analysis number associated with the acquired feedback information. etc., the same analysis no. can be specified and feedback information can be added to the analysis result data.
- the output unit 23 can output a notification based on the feedback information to the person to be analyzed corresponding to the user ID.
- FIG. 15 is a flowchart showing an example of the flow of processing by the system according to this embodiment.
- the character information specifying unit 22 specifies character information based on the analysis result data acquired from the analysis result DB 21, and assigns the character information to the analysis result data (step S101).
- the analysis result data acquired from the analysis result DB 21 may be, for example, analysis result data for each user who participated in one or more sessions.
- the output unit 23 outputs the analysis result data to which the character information is added to the evaluator terminal 50 (S103).
- the evaluator terminal 50 displays the acquired character information (step S105). At this time, analysis data and the like may be displayed on the evaluator terminal 50 . Also, feedback information for such display may be input to the evaluator terminal 50 .
- the feedback information acquisition unit 24 (of the evaluation terminal 40) may acquire the feedback information and add the feedback information to the corresponding analysis result data. . Then, the output unit 23 may output, to the user terminal 10 (20) of the person to be analyzed, feedback information included in the analysis result data associated with the user ID of the person to be analyzed.
- the character information corresponding to the analysis result of the user is output to the evaluator terminal 50 .
- the evaluator who receives this information can intuitively grasp the situation of the person to be analyzed in the session without specifying the person to be analyzed. This allows the evaluator to intuitively grasp the communication situation while protecting the privacy of the person to be analyzed more reliably. Therefore, it is possible to make a more objective evaluation of the content of the moving images of the video session.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
Description
本発明は、複数人の参加者で行われるオンラインセッションによって得られる動画像をもとに参加者の生体反応を解析する動画像分析システムに関する。 The present invention relates to a moving image analysis system that analyzes participants' biological reactions based on moving images obtained from online sessions conducted by multiple participants.
発言者の発言に対して他者が受ける感情を解析する技術が知られている(例えば、特許文献1参照)。対象者の表情の変化を長期間にわたり時系列的に解析し、その間に抱いた感情を推定する技術も知られている(例えば、特許文献2参照)。感情の変化に最も影響を与えた要素を特定する技術も知られている(例えば、特許文献3~5参照)。対象者の普段の表情と現在の表情とを比較して、表情が暗い場合にアラートを発する技術も知られている(例えば、特許文献6参照)。対象者の平常時(無表情時)の表情と現在の表情とを比較して、対象者の感情の度合いを判定するようにした技術も知られている(例えば、特許文献7~9参照)。組織としての感情や、個人が感じるグループ内の雰囲気を分析する技術も知られている(例えば、特許文献10、11参照)。
A technique is known for analyzing the emotions others receive in response to a speaker's remarks (see
上述したすべての技術は、現実空間におけるコミュニケーションが主である状況におけるサブ的な機能にすぎない。即ち、昨今の業務のDX(Digital Transformation)化や、世界的な感染症の流行等を受け、業務や授業等のコミュニケーションがオンラインで行われることが主とされる状況に生まれたものではない。 All the technologies mentioned above are only sub-functions in situations where communication in the real world is the main thing. In other words, due to the recent DX (Digital Transformation) of work and the global epidemic of infectious diseases, it is not a situation where communication such as work and classes is mainly conducted online.
本発明は、会議や講義等、オンラインコミュニケーションが主となる状況において、より効率的なコミュニケーションを行うために、これらのコミュニケーションを客観的に評価することを目的とする。 The purpose of the present invention is to objectively evaluate these communications in order to conduct more efficient communication in situations where online communication is the main focus, such as meetings and lectures.
本発明によれば、
複数のユーザでオンラインセッションが行われる環境においてオンラインセッション中にユーザが画面に表示されているか否かによらず前記ユーザを撮影することによって得られる動画像をもとに前記ユーザの反応を分析する動画像分析システムであって、
複数の前記ユーザの夫々について、前記オンラインセッション中に前記ユーザを撮影することによって得られる動画像を取得する動画像取得部と、
前記動画像取得部により取得された動画像に基づいて、前記ユーザについて生体反応の変化を解析する解析部と、
前記解析部による解析結果に係る情報に対応する属性を有するキャラクタ情報を特定するキャラクタ情報特定部と、
特定された前記キャラクタ情報を出力する出力部と、
を備える動画像分析システムが得られる。
According to the invention,
In an environment where an online session is held by a plurality of users, the reaction of the user is analyzed based on a moving image obtained by photographing the user regardless of whether or not the user is displayed on a screen during the online session. A moving image analysis system,
a moving image acquisition unit that acquires a moving image obtained by photographing the user during the online session for each of the plurality of users;
an analysis unit that analyzes changes in biological reactions of the user based on the moving image acquired by the moving image acquisition unit;
a character information specifying unit that specifies character information having an attribute corresponding to information related to the analysis result by the analysis unit;
an output unit that outputs the identified character information;
A moving image analysis system is obtained.
本開示によれば、ビデオセッションの動画像を分析評価することにより、特に内容に関する評価を客観的に行うことができる。 According to the present disclosure, by analyzing and evaluating moving images of a video session, it is possible to objectively evaluate especially the content.
特に、本発明によれば、オンラインコミュニケーションが主となる状況において、より効率的なコミュニケーションを行うために、交わされたコミュニケーションを客観的に評価することができる。 In particular, according to the present invention, exchanged communication can be objectively evaluated in order to conduct more efficient communication in situations where online communication is the main activity.
本開示の実施形態の内容を列記して説明する。本開示は、以下のような構成を備える。
(項目1)
複数のユーザでオンラインセッションが行われる環境においてオンラインセッション中にユーザが画面に表示されているか否かによらず前記ユーザを撮影することによって得られる動画像をもとに前記ユーザの反応を分析する動画像分析システムであって、
複数の前記ユーザの夫々について、前記オンラインセッション中に前記ユーザを撮影することによって得られる動画像を取得する動画像取得部と、
前記動画像取得部により取得された動画像に基づいて、前記ユーザについて生体反応の変化を解析する解析部と、
前記解析部による解析結果に係る情報に対応する属性を有するキャラクタ情報を特定するキャラクタ情報特定部と、
特定された前記キャラクタ情報を出力する出力部と、
を備える動画像分析システム。
(項目2)
項目1に記載の動画像分析システムであって、
前記キャラクタ情報は、キャラクタのオブジェクト情報を含み、
前記出力部は、前記キャラクタのオブジェクト情報を出力する、
動画像分析システム。
(項目3)
項目2に記載の動画像分析システムであって、
前記出力部は、前記解析部により解析される前記生体反応の変化の情報に応じて、前記キャラクタのオブジェクト情報の出力態様を変化させる、
動画像分析システム。
(項目4)
項目1~3のいずれか1項に記載の動画像分析システムであって、
前記キャラクタ情報特定部は、前記解析の対象であるユーザの属性に基づいて、前記キャラクタ情報を特定する、
動画像分析システム。
(項目5)
項目1~4のいずれか1項に記載の動画像分析システムであって、
前記出力部は、前記解析の対象であるユーザの情報は出力しない、
動画像分析システム。
(項目6)
項目5に記載の動画像分析システムであって、
前記出力部は、前記解析の対象であるユーザとは異なる他のユーザの端末に前記キャラクタ情報を前記解析結果に係る情報とともに出力し、
前記キャラクタ情報を取得した前記他のユーザの端末に入力される前記解析結果に係る情報に対するフィードバック情報を取得するフィードバック情報取得部をさらに備え、
前記出力部は、前記キャラクタ情報に紐付けられている前記ユーザの端末に対して、前記フィードバック情報取得部が取得した前記フィードバック情報に基づく通知を出力する、動画像分析システム。
The contents of the embodiments of the present disclosure are listed and described. The present disclosure has the following configurations.
(Item 1)
In an environment where an online session is held by a plurality of users, the reaction of the user is analyzed based on a moving image obtained by photographing the user regardless of whether or not the user is displayed on a screen during the online session. A moving image analysis system,
a moving image acquisition unit that acquires a moving image obtained by photographing the user during the online session for each of the plurality of users;
an analysis unit that analyzes changes in biological reactions of the user based on the moving image acquired by the moving image acquisition unit;
a character information specifying unit that specifies character information having an attribute corresponding to information related to the analysis result by the analysis unit;
an output unit that outputs the identified character information;
A moving image analysis system.
(Item 2)
The moving image analysis system according to
The character information includes character object information,
The output unit outputs object information of the character.
Video image analysis system.
(Item 3)
The moving image analysis system according to item 2,
The output unit changes the output mode of the object information of the character according to the information on the change in the biological reaction analyzed by the analysis unit.
Video image analysis system.
(Item 4)
The moving image analysis system according to any one of
The character information identifying unit identifies the character information based on attributes of the user who is the target of the analysis.
Video image analysis system.
(Item 5)
The moving image analysis system according to any one of
The output unit does not output information of the user who is the target of the analysis.
Video image analysis system.
(Item 6)
The moving image analysis system according to
The output unit outputs the character information together with information related to the analysis result to a terminal of another user different from the user who is the target of the analysis,
further comprising a feedback information acquisition unit that acquires feedback information on the information related to the analysis result input to the terminal of the other user who acquired the character information,
The moving image analysis system, wherein the output unit outputs a notification based on the feedback information acquired by the feedback information acquisition unit to the terminal of the user linked to the character information.
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Preferred embodiments of the present disclosure will be described in detail below with reference to the accompanying drawings. In the present specification and drawings, constituent elements having substantially the same functional configuration are denoted by the same reference numerals, thereby omitting redundant description.
<基本機能>
本実施形態のビデオセッション評価システムは、複数人でビデオセッション(以下、一方向及び双方向含めてオンラインセッションという)が行われる環境において、当該複数人の中の解析対象者について他者とは異なる特異的な感情(自分または他人の言動に対して起こる気持ち。快・不快またはその程度など)を解析し評価するシステムである。オンラインセッションは、例えばオンライン会議、オンライン授業、オンラインチャットなどであり、複数の場所に設置された端末をインターネットなどの通信ネットワークを介してサーバに接続し、当該サーバを通じて複数の端末間で動画像をやり取りできるようにしたものである。オンラインセッションで扱う動画像には、端末を使用するユーザの顔画像や音声が含まれる。また、動画像には、複数のユーザが共有して閲覧する資料などの画像も含まれる。各端末の画面上に顔画像と資料画像とを切り替えて何れか一方のみを表示させたり、表示領域を分けて顔画像と資料画像とを同時に表示させたりすることが可能である。また、複数人のうち1人の画像を全画面表示させたり、一部または全部のユーザの画像を小画面に分割して表示させたりすることが可能である。端末を使用してオンラインセッションに参加する複数のユーザのうち、何れか1人または複数人を解析対象者として指定することが可能である。例えば、オンラインセッションの主導者、進行者または管理者(以下、まとめて主催者という)が何れかのユーザを解析対象者として指定する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。なお、解析対象者を指定せず全ての参加者を解析対象としてもよい。また、オンラインセッションの主導者、進行者または管理者(以下、まとめて主催者という)が何れかのユーザを解析対象者として指定することも可能である。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。
<Basic functions>
In the video session evaluation system of the present embodiment, in an environment where a video session (hereinafter referred to as an online session including one-way and two-way sessions) is held by a plurality of people, the person to be analyzed among the plurality of people is different from the others. It is a system that analyzes and evaluates specific emotions (feelings that occur in response to one's own or others' words and actions. Pleasant/unpleasant, or their degree). Online sessions are, for example, online meetings, online classes, online chats, etc. Terminals installed in multiple locations are connected to a server via a communication network such as the Internet, and moving images are transmitted between multiple terminals through the server. It's made to be interactable. Moving images handled in online sessions include facial images and voices of users using terminals. Moving images also include images such as materials that are shared and viewed by a plurality of users. It is possible to switch between the face image and the document image on the screen of each terminal to display only one of them, or to divide the display area and display the face image and the document image at the same time. In addition, it is possible to display the image of one user out of a plurality of users on the full screen, or divide the images of some or all of the users into small screens and display them. It is possible to designate one or a plurality of users among a plurality of users participating in an online session using terminals as analysis subjects. For example, an online session leader, moderator, or manager (hereinafter collectively referred to as the organizer) designates any user as an analysis subject. Hosts of online sessions are, for example, instructors of online classes, chairpersons and facilitators of online meetings, coaches of sessions for coaching purposes, and the like. An online session host is typically one of the users participating in the online session, but may be another person who does not participate in the online session. It should be noted that all participants may be subject to analysis without specifying the person to be analyzed. In addition, it is also possible for an online session leader, moderator, or administrator (hereinafter collectively referred to as the organizer) to designate any user as an analysis subject. Hosts of online sessions are, for example, instructors of online classes, chairpersons and facilitators of online meetings, coaches of sessions for coaching purposes, and the like. An online session host is typically one of the users participating in the online session, but may be another person who does not participate in the online session.
本実施の形態によるビデオセッション評価システムは、複数の端末間においてビデオセッションセッションが確立された場合に、当該ビデオセッションから取得される少なくとも動画像を表示される。表示された動画像は、端末によって取得され、動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別される。その後、識別された顔画像に関する評価値が算出される。当該評価値は必要に応じて共有される。特に、本実施の形態においては、取得した動画像は当該端末に保存され、端末上で分析評価され、その結果が当該端末のユーザに提供される。従って、例えば個人情報を含むビデオセッションや機密情報を含むビデオセッションであっても、その動画自体を外部の評価機関等に提供することなく分析評価できる。また、必要に応じて、当該評価結果(評価値)だけを外部端末に提供することによって、結果を可視化したり、クロス分析等行うことができる。 The video session evaluation system according to the present embodiment displays at least moving images obtained from a video session established between a plurality of terminals. The displayed moving image is acquired by the terminal, and at least a face image included in the moving image is identified for each predetermined frame unit. An evaluation value for the identified face image is then calculated. The evaluation value is shared as necessary. In particular, in this embodiment, the acquired moving image is stored in the terminal, analyzed and evaluated on the terminal, and the result is provided to the user of the terminal. Therefore, for example, even a video session containing personal information or a video session containing confidential information can be analyzed and evaluated without providing the moving image itself to an external evaluation agency or the like. In addition, by providing only the evaluation result (evaluation value) to the external terminal as necessary, the result can be visualized and cross-analysis can be performed.
図1に示されるように、本実施の形態によるビデオセッション評価システムは、少なくともカメラ部及びマイク部等の入力部と、ディスプレイ等の表示部とスピーカー等の出力部とを有するユーザ端末10、20と、ユーザ端末10、20に双方向のビデオセッションを提供するビデオセッションサービス端末30と、ビデオセッションに関する評価の一部を行う評価端末40とを備えている。
As shown in FIG. 1, the video session evaluation system according to the present embodiment includes
<ハードウェア構成例>
以下に説明する各機能ブロック、機能単位、機能モジュールは、例えばコンピュータに備えられたハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。本明細書において説明するシステム及び端末による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係る情報共有支援装置10の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することが可能である。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
<Hardware configuration example>
Each functional block, functional unit, and functional module described below can be configured by any of hardware, DSP (Digital Signal Processor), and software provided in a computer, for example. For example, when configured by software, it is actually configured with a computer CPU, RAM, ROM, etc., and is realized by running a program stored in a recording medium such as RAM, ROM, hard disk, or semiconductor memory. A series of processes by the systems and terminals described herein may be implemented using software, hardware, or a combination of software and hardware. It is possible to create a computer program for realizing each function of the information sharing
本実施の形態による評価端末は、ビデオセッションサービス端末から動画像を取得し、当該動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別すると共に、顔画像に関する評価値を算出する(詳しくは後述する)。 The evaluation terminal according to the present embodiment acquires a moving image from a video session service terminal, identifies at least a face image included in the moving image for each predetermined frame unit, and calculates an evaluation value for the face image ( will be described in detail later).
<動画の取得方法>
図2に示されるように、ビデオセッションサービス端末が提供するビデオセッションサービス(以下、単に「本サービス」と言うことがある」)は、ユーザ端末10、20に対して双方向に画像および音声によって通信が可能となるものである。本サービスは、ユーザ端末のディスプレイに相手のユーザ端末のカメラ部で取得した動画像を表示し、相手のユーザ端末のマイク部で取得した音声をスピーカーから出力可能となっている。また、本サービスは双方の又はいずれかのユーザ端末によって、動画像及び音声(これらを合わせて「動画像等」という)を少なくともいずれかのユーザ端末上の記憶部に記録(レコーディング)することが可能に構成されている。記録された動画像情報Vs(以下「記録情報」という)は、記録を開始したユーザ端末にキャッシュされつついずれかのユーザ端末のローカルのみに記録されることとなる。ユーザは、必要があれば当該記録情報を本サービスの利用の範囲内で自分で視聴、他者に共有等行うこともできる。
<How to get videos>
As shown in FIG. 2, the video session service provided by the video session service terminal (hereinafter sometimes simply referred to as "this service") provides
<機能構成例1>
図4は、本実施形態による構成例を示すブロック図である。図4に示すように、本実施形態のビデオセッション評価システムは、ユーザ端末10が有する機能構成として実現される。すなわち、ユーザ端末10はその機能として、動画像取得部11、生体反応解析部12、特異判定部13、関連事象特定部14、クラスタリング部15および解析結果通知部16を備えている。
<Functional configuration example 1>
FIG. 4 is a block diagram showing a configuration example according to this embodiment. As shown in FIG. 4, the video session evaluation system of this embodiment is implemented as a functional configuration of the
動画像取得部11は、オンラインセッション中に各端末が備えるカメラにより複数人(複数のユーザ)を撮影することによって得られる動画像を各端末から取得する。各端末から取得する動画像は、各端末の画面上に表示されるように設定されているものか否かは問わない。すなわち、動画像取得部11は、各端末に表示中の動画像および非表示中の動画像を含めて、動画像を各端末から取得する。
The moving
生体反応解析部12は、動画像取得部11により取得された動画像(画面上に表示中のものか否かは問わない)に基づいて、複数人のそれぞれについて生体反応の変化を解析する。本実施形態において生体反応解析部12は、動画像取得部11により取得された動画像を画像のセット(フレーム画像の集まり)と音声とに分離し、それぞれから生体反応の変化を解析する。
The biological
例えば、生体反応解析部12は、動画像取得部11により取得された動画像から分離したフレーム画像を用いてユーザの顔画像を解析することにより、表情、目線、脈拍、顔の動きの少なくとも1つに関する生体反応の変化を解析する。また、生体反応解析部12は、動画像取得部11により取得された動画像から分離した音声を解析することにより、ユーザの発言内容、声質の少なくとも1つに関する生体反応の変化を解析する。
For example, the biological
人は感情が変化すると、それが表情、目線、脈拍、顔の動き、発言内容、声質などの生体反応の変化となって現れる。本実施形態では、ユーザの生体反応の変化を解析することを通じて、ユーザの感情の変化を解析する。本実施形態において解析する感情は、一例として、快/不快の程度である。本実施形態において生体反応解析部12は、生体反応の変化を所定の基準に従って数値化することにより、生体反応の変化の内容を反映させた生体反応指標値を算出する。
When a person's emotions change, it manifests as a change in biological reactions such as facial expressions, eye gaze, pulse, facial movements, content of remarks, and voice quality. In this embodiment, changes in the user's emotions are analyzed through analysis of changes in the user's biological reactions. The emotion analyzed in this embodiment is, for example, the degree of comfort/discomfort. In the present embodiment, the biological
表情の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、事前に機械学習させた画像解析モデルに従って特定した顔の表情を複数に分類する。そして、その分類結果に基づいて、連続するフレーム画像間でポジティブな表情変化が起きているか、ネガティブな表情変化が起きているか、およびどの程度の大きさの表情変化が起きているかを解析し、その解析結果に応じた表情変化指標値を出力する。 For example, the analysis of changes in facial expressions is performed as follows. That is, for each frame image, a facial region is identified from the frame image, and the identified facial expressions are classified into a plurality of types according to an image analysis model machine-learned in advance. Then, based on the classification results, it analyzes whether positive facial expression changes occur between consecutive frame images, whether negative facial expression changes occur, and to what extent the facial expression changes occur, A facial expression change index value corresponding to the analysis result is output.
目線の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から目の領域を特定し、両目の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、目線の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。目線の変化はユーザの集中度にも関連する。生体反応解析部12は、目線の変化の解析結果に応じた目線変化指標値を出力する。
For example, the analysis of changes in line of sight is performed as follows. That is, for each frame image, the eye region is specified in the frame image, and the orientation of both eyes is analyzed to analyze where the user is looking. For example, it analyzes whether the user is looking at the face of the speaker being displayed, whether the user is looking at the shared material being displayed, or whether the user is looking outside the screen. Also, it may be analyzed whether the eye movement is large or small, or whether the movement is frequent or infrequent. A change in line of sight is also related to the user's degree of concentration. The biological
脈拍の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定する。そして、顔の色情報(RGBのG)の数値を捉える学習済みの画像解析モデルを用いて、顔表面のG色の変化を解析する。その結果を時間軸に合わせて並べることによって色情報の変化を表した波形を形成し、この波形から脈拍を特定する。人は緊張すると脈拍が速くなり、気持ちが落ち着くと脈拍が遅くなる。生体反応解析部12は、脈拍の変化の解析結果に応じた脈拍変化指標値を出力する。
The analysis of pulse changes is performed, for example, as follows. That is, for each frame image, the face area is specified in the frame image. Then, using a trained image analysis model that captures numerical values of face color information (G of RGB), changes in the G color of the face surface are analyzed. By arranging the results along the time axis, a waveform representing changes in color information is formed, and the pulse is identified from this waveform. When a person is tense, the pulse speeds up, and when the person is calm, the pulse slows down. The biological
顔の動きの変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、顔の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、顔の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。顔の動きと目線の動きとを合わせて解析するようにしてもよい。例えば、表示中の話者の顔をまっすぐ見ているか、上目遣いまたは下目使いに見ているか、斜めから見ているかなどを解析するようにしてもよい。生体反応解析部12は、顔の向きの変化の解析結果に応じた顔向き変化指標値を出力する。
For example, analysis of changes in facial movement is performed as follows. That is, for each frame image, the face area is specified in the frame image, and the direction of the face is analyzed to analyze where the user is looking. For example, it analyzes whether the user is looking at the face of the speaker being displayed, whether the user is looking at the shared material being displayed, or whether the user is looking outside the screen. Further, it may be analyzed whether the movement of the face is large or small, or whether the movement is frequent or infrequent. The movement of the face and the movement of the line of sight may be analyzed together. For example, it may be analyzed whether the face of the speaker being displayed is viewed straight, whether the face is viewed with upward or downward gaze, or whether the face is viewed obliquely. The biological
発言内容の解析は、例えば以下のようにして行う。すなわち、生体反応解析部12は、指定した時間(例えば、30~150秒程度の時間)の音声について公知の音声認識処理を行うことによって音声を文字列に変換し、当該文字列を形態素解析することにより、助詞、冠詞などの会話を表す上で不要なワードを取り除く。そして、残ったワードをベクトル化し、ポジティブな感情変化が起きているか、ネガティブな感情変化が起きているか、およびどの程度の大きさの感情変化が起きているかを解析し、その解析結果に応じた発言内容指標値を出力する。
Analysis of the contents of the statement is performed, for example, as follows. That is, the biological
声質の解析は、例えば以下のようにして行う。すなわち、生体反応解析部12は、指定した時間(例えば、30~150秒程度の時間)の音声について公知の音声解析処理を行うことによって音声の音響的特徴を特定する。そして、その音響的特徴に基づいて、ポジティブな声質変化が起きているか、ネガティブな声質変化が起きているか、およびどの程度の大きさの声質変化が起きているかを解析し、その解析結果に応じた声質変化指標値を出力する。
Voice quality analysis is performed, for example, as follows. That is, the biological
生体反応解析部12は、以上のようにして算出した表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値、声質変化指標値の少なくとも1つを用いて生体反応指標値を算出する。例えば、表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値および声質変化指標値を重み付け計算することにより、生体反応指標値を算出する。
The biological
特異判定部13は、解析対象者について解析された生体反応の変化が、解析対象者以外の他者について解析された生体反応の変化と比べて特異的か否かを判定する。本実施形態において、特異判定部13は、生体反応解析部12により複数のユーザのそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。
The
例えば、特異判定部13は、生体反応解析部12により複数人のそれぞれについて算出された生体反応指標値の分散を算出し、解析対象者について算出された生体反応指標値と分散との対比により、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。
For example, the
解析対象者について解析された生体反応の変化が他者と比べて特異的である場合として、次の3パターンが考えられる。1つ目は、他者については特に大きな生体反応の変化が起きていないが、解析対象者について比較的大きな生体反応の変化が起きた場合である。2つ目は、解析対象者については特に大きな生体反応の変化が起きていないが、他者について比較的大きな生体反応の変化が起きた場合である。3つ目は、解析対象者についても他者についても比較的大きな生体反応の変化が起きているが、変化の内容が解析対象者と他者とで異なる場合である。 The following three patterns are conceivable as cases where the changes in biological reactions analyzed for the subject of analysis are more specific than those of others. The first is a case where a relatively large change in biological reaction occurs in the subject of analysis, although no particularly large change in biological reaction has occurred in the other person. The second is a case where a particularly large change in biological reaction has not occurred in the subject of analysis, but a relatively large change in biological reaction has occurred in the other person. The third is a case where a relatively large change in biological reaction occurs in both the subject of analysis and the other person, but the content of the change differs between the subject of analysis and the other person.
関連事象特定部14は、特異判定部13により特異的であると判定された生体反応の変化が起きたときに解析対象者、他者および環境の少なくとも1つに関して発生している事象を特定する。例えば、関連事象特定部14は、解析対象者について特異的な生体反応の変化が起きたときにおける解析対象者自身の言動を動画像から特定する。また、関連事象特定部14は、解析対象者について特異的な生体反応の変化が起きたときにおける他者の言動を動画像から特定する。また、関連事象特定部14は、解析対象者について特異的な生体反応の変化が起きたときにおける環境を動画像から特定する。環境は、例えば画面に表示中の共有資料、解析対象者の背景に写っているものなどである。
The related
クラスタリング部15は、特異判定部13により特異的であると判定された生体反応の変化(例えば、目線、脈拍、顔の動き、発言内容、声質のうち1つまたは複数の組み合わせ)と、当該特異的な生体反応の変化が起きたときに発生している事象(関連事象特定部14により特定された事象)との相関の程度を解析し、相関が一定レベル以上であると判定された場合に、その相関の解析結果に基づいて解析対象者または事象をクラスタリングする。
The
例えば、特異的な生体反応の変化がネガティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もネガティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部15は、その事象の内容やネガティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。
For example, if a change in a specific biological reaction corresponds to a negative emotional change, and the event occurring when the specific change in biological reaction occurs is also a negative event, a certain level The above correlation is detected. The
同様に、特異的な生体反応の変化がポジティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もポジティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部15は、その事象の内容やポジティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。
Similarly, if a specific change in biological reaction corresponds to a positive emotional change and the event occurring when the specific change in biological reaction occurs is also a positive event, Level or higher correlations are detected. The
解析結果通知部16は、特異判定部13により特異的であると判定された生体反応の変化、関連事象特定部14により特定された事象、およびクラスタリング部15によりクラスタリングされた分類の少なくとも1つを、解析対象者の指定者(解析対象者またはオンラインセッションの主催者)に通知する。
The analysis
例えば、解析結果通知部16は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたとき(上述した3パターンの何れか。以下同様)に発生している事象として解析対象者自身の言動を解析対象者自身に通知する。これにより、解析対象者は、自分がある言動を行ったときに他者とは違う感情を持っていることを把握することができる。このとき、解析対象者について特定された特異的な生体反応の変化も併せて解析対象者に通知するようにしてもよい。さらに、対比される他者の生体反応の変化を更に解析対象者に通知するようにしてもよい。
For example, the analysis
例えば、解析対象者が普段どおりの感情で特に意識せずに行った言動、または、解析対象者がある感情を伴って特に意識して行った言動に対して他者が受けた感情と、言動の際に解析対象者自身が抱いていた感情とが相違している場合に、そのときの解析対象者自身の言動が解析対象者に通知される。これにより、自分の意識に反して他者の受けが良い言動や他者の受けが良くない言動などを発見することも可能である。 For example, the words and deeds of the person to be analyzed performed without being particularly conscious of their usual emotions, or the words and deeds of the person to be analyzed consciously accompanied by certain emotions, and the emotions and behaviors that others received When the emotion held by the person to be analyzed is different from the feeling held by the person to be analyzed at the time, the person to be analyzed is notified of the speech and behavior of the person to be analyzed at that time. As a result, it is possible to discover behaviors that are well received by others or behaviors that are not well received by others, contrary to one's own consciousness.
また、解析結果通知部16は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象を、特異的な生体反応の変化と共にオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者に特有の現象として、どのような事象がどのような感情の変化に影響を与えているのかを知ることができる。そして、その把握した内容に応じて適切な処置を解析対象者に対して行うことが可能となる。
In addition, the analysis
また、解析結果通知部16は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象または解析対象者のクラスタリング結果をオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者がどの分類にクラスタリングされたかによって、解析対象者に特有の行動の傾向を把握したり、今後起こり得る行動や状態などを予測したりすることができる。そして、それに対して適切な処置を解析対象者に対して行うことが可能となる。
In addition, the analysis
なお、上記実施形態では、生体反応の変化を所定の基準に従って数値化することによって生体反応指標値を算出し、複数人のそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する例について説明したが、この例に限定されない。例えば、以下のようにしてもよい。 In the above embodiment, the biological reaction index value is calculated by quantifying the change in biological reaction according to a predetermined standard, and the analysis subject is analyzed based on the biological reaction index value calculated for each of the plurality of people. Although the example of determining whether the change in the biological reaction received is specific compared to others has been described, the present invention is not limited to this example. For example, it may be as follows.
すなわち、生体反応解析部12は、複数人のそれぞれについて目線の動きを解析して目線の方向を示すヒートマップを生成する。特異判定部13は、生体反応解析部12により解析対象者について生成されたヒートマップと他者について生成されたヒートマップとの対比により、解析対象者について解析された生体反応の変化が、他者について解析された生体反応の変化と比べて特異的か否かを判定する。
That is, the biological
このように、本実施の形態においては、ビデオセッションの動画像をユーザ端末10のローカルストレージに保存し、ユーザ端末10上で上述した分析を行うこととしている。ユーザ端末10のマシンスペックに依存する可能性があるとはいえ、動画像の情報を外部に提供することなく分析することが可能となる。
Thus, in the present embodiment, moving images of a video session are stored in the local storage of the
<機能構成例2>
図5に示すように、本実施形態のビデオセッション評価システムは、機能構成として、動画像取得部11、生体反応解析部12および反応情報提示部13aを備えていてもよい。
<Functional configuration example 2>
As shown in FIG. 5, the video session evaluation system of this embodiment may include a moving
反応情報提示部13aは、画面に表示されていない参加者を含めて生体反応解析部12aにより解析された生体反応の変化を示す情報を提示する。例えば、反応情報提示部13aは、生体反応の変化を示す情報をオンラインセッションの主導者、進行者または管理者(以下、まとめて主催者という)に提示する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。 The reaction information presentation unit 13a presents information indicating changes in biological reactions analyzed by the biological reaction analysis unit 12a, including participants not displayed on the screen. For example, the reaction information presenting unit 13a presents information indicating changes in biological reactions to an online session leader, moderator, or administrator (hereinafter collectively referred to as the organizer). Hosts of online sessions are, for example, instructors of online classes, chairpersons and facilitators of online meetings, coaches of sessions for coaching purposes, and the like. An online session host is typically one of the users participating in the online session, but may be another person who does not participate in the online session.
このようにすることにより、オンラインセッションの主催者は、複数人でオンラインセッションが行われる環境において、画面に表示されていない参加者の様子も把握することができる。 By doing so, the organizer of the online session can also grasp the state of the participants who are not displayed on the screen in an environment where the online session is held by multiple people.
<機能構成例3>
図6は、本実施形態による構成例を示すブロック図である。図6に示すように、本実施形態のビデオセッション評価システムは、機能構成として、上述した実施の形態1と類似する機能については同一つの参照符号を付して説明を省略することがある。
<Functional configuration example 3>
FIG. 6 is a block diagram showing a configuration example according to this embodiment. As shown in FIG. 6, in the video session evaluation system of the present embodiment, functions similar to those of the above-described first embodiment are given the same reference numerals, and explanations thereof may be omitted.
本実施の形態によるシステムは、ビデオセッションの映像を取得するカメラ部及び音声を取得するマイク部と、動画像を分析及び評価する解析部、取得した動画像を評価することによって得られた情報に基づいて表示オブジェクト(後述する)を生成するオブジェクト生成部、前記ビデオセッション実行中にビデオセッションの動画像と表示オブジェクトの両方を表示する表示部と、を備えている。 The system according to this embodiment includes a camera unit that acquires images of a video session, a microphone unit that acquires audio, an analysis unit that analyzes and evaluates moving images, and information obtained by evaluating the acquired moving images. an object generator for generating a display object (described below) based on the display; and a display for displaying both the moving image of the video session and the display object during execution of the video session.
解析部は、上述した説明と同様に、動画像取得部11、生体反応解析部12、特異判定部13、関連事象特定部14、クラスタリング部15および解析結果通知部16を備えている。各要素の機能については上述したとおりである。
The analysis unit includes the moving
図7に示されるように、オブジェクト生成部は、解析部によってビデオセッションから取得される動画像を解析した結果に基づいて、必要に応じて、当該認識した顔の部分を示すオブジェクト50と、上述した分析・評価した内容を示す情報100を当該動画像に重畳して表示する。当該オブジェクト50は、複数人の顔が動画像内に移っている場合には、複数人全員の顔を識別し、表示することとしてもよい。
As shown in FIG. 7, the object generation unit generates an
また、オブジェクト50は、例えば、相手側の端末において、ビデオセッションのカメラ機能を停止している場合(即ち、物理的にカメラを覆う等ではなく、ビデオセッションのアプリケーション内においてソフトウェア的に停止している場合)であっても、相手側のカメラで相手の顔を認識していた場合には、相手の顔が位置している部分にオブジェクト50やオブジェクト100を表示することとしてもよい。これにより、カメラ機能がオフになっていたとしても、相手側が端末の前にいることがお互い確認することが可能となる。この場合、例えば、ビデオセッションのアプリケーションにおいては、カメラから取得した情報を非表示にする一方、解析部によって認識された顔に対応するオブジェクト50やオブジェクト100のみを表示することとしてもよい。また、ビデオセッションから取得される映像情報と、解析部によって認識され得られた情報とを異なる表示レイヤーに分け、前者の情報に関するレイヤーを非表示にすることとしてもよい。
In addition, the
オブジェクト50やオブジェクト100は、複数の動画像を表示する領域がある場合には、すべての領域又は一部の領域のみに表示することとしてもよい。例えば、図8に示されるように、ゲスト側の動画像のみに表示することとしてもよい。
When there are multiple moving image display areas, the
以上説明した基本構成例1乃至基本構成例3において説明した発明の実施の形態は、単独の装置として実現されてもよく、一部または全部がネットワークで接続された複数の装置(例えばクラウドサーバ)等により実現されてもよい。例えば、各端末10の制御部110およびストレージ130は、互いにネットワークで接続された異なるサーバにより実現されてもよい。即ち、本システムは、ユーザ端末10、20と、ユーザ端末10、20に双方向のビデオセッションを提供するビデオセッションサービス端末30と、ビデオセッションに関する評価を行う評価端末40とを含んでいるところ、以下のような構成のバリエーション組み合わせが考えられる。
(1)すべてをユーザ端末のみで処理
図8に示されるように、解析部による処理をビデオセッションを行っている端末で行うことにより、(一定の処理能力は必要なものの)ビデオセッションを行っている時間と同時に(リアルタイムに)分析・評価結果を得ることができる。
(2)ユーザ端末と評価端末とで処理
図9に示されるように、ネットワーク等で接続された評価端末に解析部を備えさせることとしてもよい。この場合、ユーザ端末で取得された動画像は、ビデオセッションと同時に又は事後的に評価端末に共有され、評価端末における解析部によって分析・評価されたのちに、オブジェクト50及びオブジェクト100の情報がユーザ端末に動画像データと共に又は別に(即ち、少なくとも解析データを含む情報が)共有され表示部に表示される。
The embodiments of the invention described in Basic Configuration Example 1 to Basic Configuration Example 3 described above may be implemented as a single device, or a plurality of devices (for example, cloud servers) partially or entirely connected by a network. and the like. For example, the control unit 110 and the storage 130 of each terminal 10 may be realized by different servers connected to each other via a network. That is, the system includes
(1) Processing everything only on the user terminal As shown in FIG. 8, by performing the processing by the analysis unit on the terminal that is performing the video session (although a certain processing capacity is required), the video session can be performed. Analysis/evaluation results can be obtained at the same time (in real time) as you are.
(2) Processing by User Terminal and Evaluation Terminal As shown in FIG. 9, an analysis unit may be provided in an evaluation terminal connected via a network or the like. In this case, the moving images acquired by the user terminal are shared with the evaluation terminal at the same time as or after the video session, and are analyzed and evaluated by the analysis unit in the evaluation terminal. Together with or separately from the moving image data (that is, information including at least analysis data) is shared with the terminal and displayed on the display unit.
上述した機能構成例1乃至機能構成例3の各構成又はそれらの組み合わせを用いて、以下のシステムが実現する。 The following system is realized using each configuration of functional configuration example 1 to functional configuration example 3 or a combination thereof.
<実施の形態>
本開示の一実施形態による動画像分析システム(以下、単に「システム」という)は、複数人の参加者でオンラインセッションが行われる環境において、当該参加者の全員又は特定の参加者のみを撮影することによって得られる動画像をもとに参加者の反応を解析・分析するものである。分析は、オンラインセッション中に参加者が画面に表示されているか否かによらず行われるものとしてもよい。例えば、本実施形態に係るシステムは、動画像を分析することにより、ユーザ同士のコミュニケーションの量や頻度、そのときの感情といった内容を統計的に分析して出力する。
<Embodiment>
A moving image analysis system (hereinafter simply referred to as "system") according to an embodiment of the present disclosure shoots all participants or only a specific participant in an environment where an online session is held with a plurality of participants. Participants' reactions are analyzed based on the moving images obtained by this process. The analysis may occur whether or not participants are on screen during the online session. For example, the system according to the present embodiment statistically analyzes and outputs contents such as the amount and frequency of communication between users and their feelings at that time by analyzing moving images.
かかる解析結果は、解析対象者に関する情報(ユーザ情報)と紐付けられている。そのため、例えば解析対象者の解析結果を第三者(例えば解析対象者の上司や、評価対象者等)が閲覧する場合に、解析対象者の内面に関する情報が併せて第三者に開示されるため、プライバシーが十分に保護されない可能性がある。一方で、第三者がかかる解析結果を閲覧できなければ、どのようなコミュニケーションが行われたかを把握することが難しい。 Such analysis results are associated with information (user information) on the person subject to analysis. Therefore, for example, when a third party (e.g., the analysis subject's superior, the person being evaluated, etc.) views the analysis results of the analysis subject, information about the analysis subject's inner state is also disclosed to the third party. Therefore, privacy may not be sufficiently protected. On the other hand, if a third party cannot view the results of such analysis, it is difficult to grasp what kind of communication took place.
そこで、本実施形態では、解析結果のデータに応じて、発言者の性格や態度などを反映したキャラクタで表現することで、ユーザが特定できなくてもコミュニケーションの状況を知ることが可能となるシステムを実現する。 Therefore, in the present embodiment, a system that makes it possible to know the state of communication even if the user cannot be identified by expressing the speaker with a character that reflects the personality and attitude of the speaker according to the data of the analysis result. Realize
図10は、本実施形態に係るシステムの構成の例を示す図である。図10に示す構成は、図1に開示した構成に加えて、第三者(他のユーザ)である評価者端末50が、システム1のネットワークに接続されている。かかる評価者端末50は、例えばユーザ10、20とのオンラインセッション中のユーザ10、20の少なくともいずれかの反応の解析結果を、評価者が閲覧するための端末である。
FIG. 10 is a diagram showing an example of the system configuration according to this embodiment. In the configuration shown in FIG. 10, in addition to the configuration disclosed in FIG. Such an
図11は、本実施形態に係るシステムの機能構成の一例を示す図である。図11に示すシステムは、解析結果DB21と、キャラクタ情報特定部22と、出力部23と、フィードバック情報取得部24とを備える。解析結果DB21は、上述する記憶媒体等により実現され得る。また、キャラクタ情報特定部22と、出力部23と、フィードバック情報取得部24とは、例えば評価端末40などに設けられる記憶媒体等に記憶されるプログラムをメモリ等に読み込みCPU等のプロセッサが実行することにより実現され得る。これらの機能部は、評価者端末50とは別の情報処理装置に備えられることが好ましい。例えば、これらの機能部は評価端末40に設けられていてもよい。かかる構成とすることで、後述するように、ユーザ情報に評価者端末50がアクセスできないようにすることができる。
FIG. 11 is a diagram showing an example of the functional configuration of the system according to this embodiment. The system shown in FIG. 11 includes an
解析結果DB21は、例えば上述する各種機能部により得られる解析結果のデータを格納するデータベースである。解析結果のデータは、後述するように、解析対象であるオンラインセッションを特定するセッションNo.と、解析結果を特定する解析No.と、解析対象者を特定するユーザID(特定情報)と、解析のデータのアドレス等を有し得る。解析のデータのアドレスは、例えば解析結果DB21や他の記憶端末等に格納される解析データの格納位置を示しうる情報である。また、解析結果のデータは、その他解析に関する情報を含んでいてもよい。ユーザIDはユーザ情報の一例である。また、解析結果のデータは、ユーザIDの他に、ユーザに起因する動画像上の動きの解析の結果得られた解析情報、またはユーザのユーザ端末に対する入力により生成される入力情報等を、ユーザ情報として含んでもよい。
The
キャラクタ情報特定部22は、解析結果に係る情報に対応する属性を有するキャラクタ情報を特定する機能を有し得る。キャラクタ情報とは、例えば動物や漫画、アニメ等の所定の性格や気質等を有するキャラクタに関する情報を意味する。キャラクタ情報はそれぞれ属性を有する。属性は、例えば性格、気質、年齢、性別、種族その他キャラクタ独特の性質等を含み得る。また、キャラクタ情報は、キャラクタのオブジェクト情報(例えばキャラクタの顔、全身、キャラクタを象徴するオブジェクト等)を含み得る。
The character
例えば、キャラクタ情報特定部22は、あるユーザの生体反応の解析の結果、発言時の抑揚が小さく、発言回数も少ない等のデータが得られた場合、該ユーザについて、性格が大人しい属性を有するキャラクタを特定し得る。なお、一のセッションに参加する複数のユーザについて解析を行う場合は、特定するキャラクタは、共通する種類や作品のキャラクタであることが好ましい。これにより、共通する種類や作品に基づくコンテキストからキャラクタの特徴がより明確になり、評価者がセッションの状況をより把握しやすくなる。
For example, when the character
図12は、解析結果のデータの一例を示す図である。図12に示すように、解析結果のデータ1001は、セッションNo.1011、解析No.1012、ユーザID1013、解析データ1014およびキャラクタ情報1015を含み得る。解析結果DB21に格納される解析結果のデータに、キャラクタ情報特定部22によりキャラクタ情報1015が付与される。
FIG. 12 is a diagram showing an example of analysis result data. As shown in FIG. 12, the
出力部23は、解析結果DB21に格納されているキャラクタ情報が付与された解析結果のデータを評価者端末50に出力する機能を有し得る。例えば、出力部23は、かかる解析結果のデータからユーザ情報を除外して評価者端末50に出力してもよい。図13は、出力部23により出力される解析結果のデータの一例を示す図である。図13に示すように、出力される解析結果のデータ1002は、セッションNo.1021、解析No.1022、解析データ1023およびキャラクタ情報1024を含み得る。すなわち、解析結果のデータ1002には、解析対象者に関するユーザ情報が含まれない。これにより、評価者端末50は、解析結果のデータを出力しても、かかる解析結果がどの解析対象者によるものかの情報を有しない。よって、評価者は、解析対象者に関する情報を知ることなく、または、かかる情報に基づくバイアスによるフィードバックを防ぐことができる。出力部23による評価者端末50への出力の態様は特に限定されない。例えば、出力部23は、評価者端末50の表示装置に対して、解析結果に関するダッシュボードやリストの態様で表示する制御を行ってもよい。
The
図14は、本実施形態に係る出力部23による評価者端末50への出力態様の一例を示す図である。図14に示すように、評価者端末50に表示される画面1100には、解析対象であるオンラインセッションの情報として、キャラクタのオブジェクト1101が、ユーザごとに表示される。このとき、表示されるユーザに関する情報は、解析対象者を特定しない情報であってもよい。代わりに、各キャラクタのオブジェクト1101が、セッションにおける参加者の様子を示すアバターとして表示され得る。例えば図14に示す例では、ライオン、ネズミ、タヌキおよびオオカミがそれぞれ表示され得る。つまり、かかる参加者が各動物のような態度や発言等を示していたことが、図14に示す態様で表示される。これにより、評価者は実際に解析対象者のコミュニケーションの状況を直接関わっていなくても、どのようなコミュニケーションを取っていたのかを概念的に理解することができる。なお、かかるキャラクタのオブジェクト1101は、例えば評価者端末50に表示される画面1100に含まれる動画像のレビュー領域において、各参加者の動画像の代わりに表示されるものであってもよい。また、かかるキャラクタのオブジェクト1101は、例えば画面1100に含まれる解析結果を示すグラフに紐づけて表示されるものであってもよい。
FIG. 14 is a diagram showing an example of an output mode to the
なお、出力部23は、解析結果のデータではなく、キャラクタ情報のみを出力してもよい。例えば、出力部23は、一のセッションについての各参加者に対応するキャラクタ情報を出力してもよい。これにより、詳細な解析結果が表示されなくても、評価者はセッションにおける各参加者の状況を把握することができる。
It should be noted that the
また、出力部23は解析結果のデータを評価者端末50に出力する場合、解析結果のデータの生体反応の変化に応じて、表示されるキャラクタのオブジェクト情報の出力態様を変化させてもよい。例えば、出力部23は、一のキャラクタについて、そのオブジェクトにより表示されるキャラクタの表情や外見等を変化させてもよいし、音声の場合は声色を変えてもよい。また、出力部23は、表示されるキャラクタそのものを変更させてもよい。これにより、一のセッションについて各参加者や参加者間の状況の時系列的な変化を直感的に理解することができる。
In addition, when the
また、出力部23は、後述するフィードバック情報取得部24により評価者端末50から取得されたフィードバック情報に基づく通知を、解析対象者のユーザ端末10、20等に出力する機能を有し得る。このとき、フィードバック情報取得部24が取得したフィードバック情報は、後述する解析結果のデータに、ユーザIDとともに紐付けられる。そのため、出力部23は、フィードバック情報に基づく通知を解析対象者に出力することができる。ここでいう通知とは、例えば、フィードバック情報そのものの通知であってもよいし、フィードバック情報に基づく改善すべき点や評価点等の情報の通知であってもよい。
In addition, the
フィードバック情報取得部24は、評価者端末50に入力される解析結果のデータに対するフィードバック情報を取得する機能を有し得る。かかるフィードバック情報は、例えば、解析結果のデータに対する解析対象者へのフィードバックに関するテキストやアノテーション等の任意の情報を含み得る。かかるフィードバック情報は、解析データに含まれ得る解析対象の動画像における時刻や動画像に表示される画像等に紐づくものであってもよい。また、かかる通知においては、フィードバックを行った評価者の情報が含まれてもよいし、含まれなくてもよい。
The feedback
また、フィードバック情報取得部24は、取得したフィードバック情報を、解析対象DB21に格納される解析結果のデータに紐づけてもよい。フィードバック情報取得部24は、取得したフィードバック情報に紐付けられている解析No.等に基づいて、同じ解析No.が付与されている対象の解析結果のデータを特定し、解析結果のデータにフィードバック情報を付与し得る。これにより、出力部23が、フィードバック情報に基づく通知を、ユーザIDに対応する解析対象者に出力することができる。
Further, the feedback
図15は、本実施形態に係るシステムによる処理の流れの一例を示すフローチャートである。まず、キャラクタ情報特定部22は、解析結果DB21から取得した解析結果のデータに基づいてキャラクタ情報を特定し、解析結果のデータに付与する(ステップS101)。解析結果DB21から取得する解析結果のデータは、例えば、一以上のセッションに参加したユーザごとの解析結果のデータであり得る。次に、出力部23は、キャラクタ情報を付与した解析結果のデータを、評価者端末50に出力する(S103)。
FIG. 15 is a flowchart showing an example of the flow of processing by the system according to this embodiment. First, the character
評価者端末50は、取得したキャラクタ情報を表示する(ステップS105)。このとき、解析データ等が評価者端末50に表示されてもよい。また、かかる表示に対するフィードバック情報が評価者端末50に入力されてもよい。評価者が評価者端末50を介してフィードバック情報を送信すると、(評価端末40の)フィードバック情報取得部24は該フィードバック情報を取得し、対応する解析結果のデータにフィードバック情報を付与してもよい。そして、出力部23は、解析対象者のユーザ端末10(20)に対し、解析対象者のユーザIDと紐付けられている解析結果のデータに含まれるフィードバック情報を出力してもよい。
The
以上、本開示の一実施形態によれば、解析結果について、ユーザの解析結果に対応するキャラクタ情報が評価者端末50に出力される。これを受けた評価者は、解析対象者を特定することなく、セッションにおける解析対象者の状況等を直感的に把握することができる。これにより、解析対象者のプライバシーをより確実に保護しつつ、評価者はコミュニケーションの状況を直感的に把握することが可能となる。よって、ビデオセッションの動画像の内容に関する評価をより客観的に行うことができる
As described above, according to the embodiment of the present disclosure, the character information corresponding to the analysis result of the user is output to the
本明細書においてフローチャート図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。 The processes described using the flowcharts in this specification do not necessarily have to be executed in the illustrated order. Some processing steps may be performed in parallel. Also, additional processing steps may be employed, and some processing steps may be omitted.
以上説明した実施の形態を適宜組み合わせて実施することとしてもよい。また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。 The embodiments described above may be combined as appropriate. Also, the effects described in this specification are merely descriptive or exemplary, and are not limiting. In other words, the technology according to the present disclosure can produce other effects that are obvious to those skilled in the art from the description of this specification, in addition to or instead of the above effects.
10、20 ユーザ端末
22 キャラクタ情報特定部
23 出力部
24 フィードバック情報取得部
30 ビデオセッションサービス端末
40 評価端末
10, 20
Claims (6)
複数の前記ユーザの夫々について、前記オンラインセッション中に前記ユーザを撮影することによって得られる動画像を取得する動画像取得部と、
前記動画像取得部により取得された動画像に基づいて、前記ユーザについて生体反応の変化を解析する解析部と、
前記解析部による解析結果に係る情報に対応する属性を有するキャラクタ情報を特定するキャラクタ情報特定部と、
特定された前記キャラクタ情報を出力する出力部と、
を備える動画像分析システム。 In an environment where an online session is held by a plurality of users, the reaction of the user is analyzed based on a moving image obtained by photographing the user regardless of whether or not the user is displayed on a screen during the online session. A moving image analysis system,
a moving image acquisition unit that acquires a moving image obtained by photographing the user during the online session for each of the plurality of users;
an analysis unit that analyzes changes in biological reactions of the user based on the moving image acquired by the moving image acquisition unit;
a character information specifying unit that specifies character information having an attribute corresponding to information related to the analysis result by the analysis unit;
an output unit that outputs the identified character information;
A moving image analysis system.
前記キャラクタ情報は、キャラクタのオブジェクト情報を含み、
前記出力部は、前記キャラクタのオブジェクト情報を出力する、
動画像分析システム。 The moving image analysis system according to claim 1,
The character information includes character object information,
The output unit outputs object information of the character.
Video image analysis system.
前記出力部は、前記解析部により解析される前記生体反応の変化の情報に応じて、前記キャラクタのオブジェクト情報の出力態様を変化させる、
動画像分析システム。 The moving image analysis system according to claim 2,
The output unit changes the output mode of the object information of the character according to the information on the change in the biological reaction analyzed by the analysis unit.
Video image analysis system.
前記キャラクタ情報特定部は、前記解析の対象であるユーザの属性に基づいて、前記キャラクタ情報を特定する、
動画像分析システム。 The moving image analysis system according to any one of claims 1 to 3,
The character information identifying unit identifies the character information based on attributes of the user who is the target of the analysis.
Video image analysis system.
前記出力部は、前記解析の対象であるユーザの情報は出力しない、
動画像分析システム。 The moving image analysis system according to any one of claims 1 to 4,
The output unit does not output information of the user who is the target of the analysis.
Video image analysis system.
前記出力部は、前記解析の対象であるユーザとは異なる他のユーザの端末に前記キャラクタ情報を前記解析結果に係る情報とともに出力し、
前記キャラクタ情報を取得した前記他のユーザの端末に入力される前記解析結果に係る情報に対するフィードバック情報を取得するフィードバック情報取得部をさらに備え、
前記出力部は、前記キャラクタ情報に紐付けられている前記ユーザの端末に対して、前記フィードバック情報取得部が取得した前記フィードバック情報に基づく通知を出力する、動画像分析システム。
The moving image analysis system according to claim 5,
The output unit outputs the character information together with information related to the analysis result to a terminal of another user different from the user who is the target of the analysis,
further comprising a feedback information acquisition unit that acquires feedback information on the information related to the analysis result input to the terminal of the other user who acquired the character information,
The moving image analysis system, wherein the output unit outputs a notification based on the feedback information acquired by the feedback information acquisition unit to the terminal of the user linked to the character information.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/020464 WO2022249461A1 (en) | 2021-05-28 | 2021-05-28 | Video analysis system |
| JP2023523920A JPWO2022249461A1 (en) | 2021-05-28 | 2021-05-28 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/020464 WO2022249461A1 (en) | 2021-05-28 | 2021-05-28 | Video analysis system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2022249461A1 true WO2022249461A1 (en) | 2022-12-01 |
Family
ID=84228521
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2021/020464 Ceased WO2022249461A1 (en) | 2021-05-28 | 2021-05-28 | Video analysis system |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JPWO2022249461A1 (en) |
| WO (1) | WO2022249461A1 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003016475A (en) * | 2001-07-04 | 2003-01-17 | Oki Electric Ind Co Ltd | Information terminal device with image communication function and image distribution system |
| JP2009543611A (en) * | 2006-07-12 | 2009-12-10 | メディカル サイバーワールド、インコーポレイテッド | Computerized medical training system |
| JP2015186127A (en) * | 2014-03-25 | 2015-10-22 | ブラザー工業株式会社 | Program and server device |
| JP2018505462A (en) * | 2014-12-11 | 2018-02-22 | インテル コーポレイション | Avatar selection mechanism |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007256502A (en) * | 2006-03-22 | 2007-10-04 | Yamaha Corp | Performance data remote communication system, and program for implementing control method thereof |
-
2021
- 2021-05-28 WO PCT/JP2021/020464 patent/WO2022249461A1/en not_active Ceased
- 2021-05-28 JP JP2023523920A patent/JPWO2022249461A1/ja active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003016475A (en) * | 2001-07-04 | 2003-01-17 | Oki Electric Ind Co Ltd | Information terminal device with image communication function and image distribution system |
| JP2009543611A (en) * | 2006-07-12 | 2009-12-10 | メディカル サイバーワールド、インコーポレイテッド | Computerized medical training system |
| JP2015186127A (en) * | 2014-03-25 | 2015-10-22 | ブラザー工業株式会社 | Program and server device |
| JP2018505462A (en) * | 2014-12-11 | 2018-02-22 | インテル コーポレイション | Avatar selection mechanism |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2022249461A1 (en) | 2022-12-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2022230156A1 (en) | Video analysis system | |
| JP7152817B1 (en) | Video analysis program | |
| JP7152819B1 (en) | Video analysis program | |
| JP7121436B1 (en) | Video analysis program | |
| JP7197955B1 (en) | Video meeting evaluation terminal | |
| JP7121433B1 (en) | Video analysis program | |
| JP7121439B1 (en) | Video image analysis system | |
| WO2022249461A1 (en) | Video analysis system | |
| WO2022249460A1 (en) | Video analysis system | |
| JP2022180533A (en) | Moving image analysis program | |
| WO2022254489A1 (en) | Video analysis system | |
| WO2022269802A1 (en) | Video analysis system | |
| WO2022254494A1 (en) | Video analysis system | |
| WO2022249462A1 (en) | Video analysis system | |
| WO2022254495A1 (en) | Video analysis system | |
| WO2022230070A1 (en) | Video analysis system | |
| WO2022230155A1 (en) | Video analysis system | |
| WO2022201265A1 (en) | Video analysis program | |
| WO2022269801A1 (en) | Video analysis system | |
| WO2022264221A1 (en) | Video analysis system | |
| WO2022230049A1 (en) | Video analysis system | |
| WO2022201269A1 (en) | Video analysis program | |
| WO2022230065A1 (en) | Video analysis system | |
| WO2022230138A1 (en) | Video analysis system | |
| WO2022230050A1 (en) | Video analysis system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21943105 Country of ref document: EP Kind code of ref document: A1 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2023523920 Country of ref document: JP |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 21943105 Country of ref document: EP Kind code of ref document: A1 |