WO2025094322A1 - 評価装置および評価方法 - Google Patents
評価装置および評価方法 Download PDFInfo
- Publication number
- WO2025094322A1 WO2025094322A1 PCT/JP2023/039481 JP2023039481W WO2025094322A1 WO 2025094322 A1 WO2025094322 A1 WO 2025094322A1 JP 2023039481 W JP2023039481 W JP 2023039481W WO 2025094322 A1 WO2025094322 A1 WO 2025094322A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- dialogue
- text
- participant
- context information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the present invention relates to an evaluation device and an evaluation method.
- a conventional technique for evaluating the quality of text is to evaluate the quality of metaphorical expressions contained in text generated by AI (Artificial Intelligence).
- AI Artificial Intelligence
- the quality of a metaphor is evaluated based on the plausibility of the meaning expressed by the metaphor (whether it is a human-like expression or not).
- the present invention has been made in consideration of the above, and aims to provide an evaluation device and evaluation method that can evaluate whether the communicator's intended feelings are being conveyed.
- the evaluation device includes an acquisition unit that acquires text sent by a dialogue participant, dynamic context information including the characteristics of the dialogue participants and the most recent dialogue history, and static context information including a dialogue history corresponding to the characteristics of the dialogue participants from among the dialogue history stored in the memory unit, a sensory information amount calculation unit that calculates a sensory information amount indicating the amount of sensation of the participants conveyed by the text based on the text, the dynamic context information, and the static context information, and an output unit that outputs the text and the sensory information amount.
- the present invention makes it possible to evaluate whether the communicator's intended message is being conveyed.
- FIG. 1 is a functional block diagram illustrating a configuration of an evaluation device according to the first embodiment.
- FIG. 2 is a diagram illustrating an example of a data structure of the communication history DB.
- FIG. 3 is a flowchart of a process performed by the evaluation device according to the first embodiment.
- FIG. 4 is a functional block diagram of the evaluation device according to the second embodiment.
- FIG. 5 is a flowchart of a process performed by the evaluation device according to the second embodiment.
- FIG. 6 is a flowchart showing the procedure of the sensory information amount calculation process.
- FIG. 7 is a functional block diagram of the evaluation device according to the third embodiment.
- FIG. 8 is a diagram illustrating an example of a data structure of the individual characteristic DB.
- FIG. 9 is a flowchart of a process performed by the evaluation device according to the third embodiment.
- FIG. 10 is a diagram illustrating an example of a computer that executes an evaluation program.
- evaluation device 100 The evaluation device according to the first embodiment is referred to as "evaluation device 100."
- the evaluation device 100 is placed near the participants in the dialogue. The following description will be given assuming that there are two participants in the dialogue, participant A and participant B. As will be described later, the evaluation device 100 converts the voices of the participants into text, and evaluates whether the text conveys much of the feeling that the communicator intended to convey.
- Fig. 1 is a functional block diagram showing the configuration of the evaluation device according to the embodiment 1.
- the evaluation device 100 has a communication control unit 110, an input unit 120, a display unit 130, a microphone 140, a storage unit 150, and a control unit 160.
- the communication control unit 110 is realized by a NIC (Network Interface Card) or the like, and controls communication between the control unit 160 and an external device connected to the network.
- the evaluation device 100 may acquire a relationship DB 152, a communication history DB 153, etc., which will be described later, from the external device.
- the input unit 120 is realized using input devices such as a keyboard and a mouse, and participants in a dialogue operate the input unit 120 to input various pieces of information to the control unit 160. For example, before starting a dialogue, a participant operates the input unit 120 to input a participant ID.
- the participant ID is information that identifies the participant.
- the display unit 130 is an output device that outputs information obtained from the control unit 160, and is realized by a display device such as a liquid crystal display, a printing device such as a printer, etc. For example, the display unit 130 displays the evaluation results for the text submitted by the participants.
- the microphone 140 collects the voices of the participants during the conversation and outputs the collected voices (electrical signals) to the control unit 160.
- the storage unit 150 has a dialogue history buffer 151, a relationship DB 152, and a communication history DB 153.
- the storage unit 150 is realized by a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk.
- the dialogue history buffer 151 stores the text of the voices of participants A and B who are currently engaged in a dialogue. For example, the texts are distinguished by participant ID and stored in chronological order.
- the relationship DB 152 holds information that defines the relationships between participants in a dialogue. For example, the relationship DB 152 associates a pair of participant IDs of participants in a dialogue with the relationships between the participants. Participant relationships are, for example, "superior and subordinate” or "driver and engineer.”
- the communication history DB 153 holds information on the history of past dialogues.
- Figure 2 is a diagram showing an example of the data structure of the communication history DB. As shown in Figure 2, the communication history DB 153 has dialogue participant IDs, locations, relationships, and dialogue history.
- the dialogue participant ID is set to a pair of participant IDs of the participants who participated in the dialogue.
- the location is set to the location where the dialogue took place.
- the relationship is the relationship between the participants described above.
- the dialogue history is set to the history of text exchanged in one dialogue conducted by the participants in the dialogue.
- One conversation may be defined in any way, but in this embodiment 1, one conversation is defined as a series of conversational exchanges from when the participants start the conversation to when it ends.
- the conversation history of one conversation stores the text of the voices of the participants who conducted the conversation, and each text is distinguished by participant ID and stored in chronological order.
- the conversation history of one conversation is also defined as one document.
- control unit 160 has a text generation unit 161, an acquisition unit 162, a sensory information amount calculation unit 163, and an output unit 164.
- the control unit 160 is a processor such as a CPU or an MPU (Micro Processing Unit).
- the text generation unit 161 acquires the voice (electrical signal) of the participant from the microphone 140, and converts the voice into text.
- the text generation unit 161 registers information associating the converted text with the participant ID of the participant who spoke the voice in the dialogue history buffer 151.
- the text generation unit 161 may use any well-known technology to convert the voice into text.
- the text generation unit 161 may use any well-known technology when associating the participant ID with the text.
- the text generation unit 161 repeatedly executes the above process.
- the acquisition unit 162 is a processing unit that acquires the text to be evaluated, the dynamic context information, and the static context information.
- the text to be evaluated is referred to as the "text to be evaluated.”
- the dynamic context information is information that includes the characteristics of the participants in the dialogue and the history of the most recent dialogue.
- the static context information is information that includes the history of the dialogue that corresponds to the characteristics of the participants in the currently ongoing dialogue, from the dialogue history stored in the storage unit 150 (communication history DB 153).
- the acquisition unit 162 outputs the acquired text to be evaluated, the dynamic context information, and the static context information to the sensory information amount calculation unit 163.
- the acquisition unit 162 may directly acquire the evaluation target text, dynamic context information, and static context information from the input unit 120, etc., or may acquire the evaluation target text, dynamic context information, and static context information by performing the following processing.
- the acquisition unit 162 accepts a participant ID from the input unit 120.
- the designated participant ID will be referred to as a "designated ID.”
- the acquisition unit 162 acquires, from among the texts stored in the dialogue history buffer 151, the most recent text that corresponds to the designated ID as the text to be evaluated.
- the acquisition unit 162 acquires dynamic context information.
- the dynamic context information includes characteristics of the participants in the dialogue and the most recent dialogue history.
- the acquisition unit 162 acquires the most recent dialogue history from the dialogue history buffer 151.
- the acquisition unit 162 executes the following process.
- the acquisition unit 162 acquires a set of participant IDs of the participants who will be engaged in the dialogue from the input unit 120.
- the acquisition unit 162 compares the acquired set of participant IDs with the relationship DB 152 to acquire the relationships of the participants in the dialogue.
- the acquisition unit 162 acquires current location information of the evaluation device 100 using a GPS (Global Positioning System) or the like.
- the acquisition unit 162 acquires the location of the dialogue based on the acquired current location information and a location determination table (not shown).
- the location determination table is a table that defines the relationship between location information and a location.
- the acquisition unit 162 may acquire the location of the dialogue from the input unit 120. In addition to the above information, the acquisition unit 162 may acquire information regarding time and weather.
- the acquisition unit 162 acquires the characteristics of the participants in the dialogue.
- the characteristics of the participants in the dialogue include a set of participant IDs of the participants who are engaged in the dialogue, the relationship between the participants during the dialogue, the location, time, and weather of the dialogue, etc.
- the acquisition unit 162 compares the characteristics of the dialogue participants contained in the dynamic context information with the communication history DB 153, and acquires a set of dialogue histories (static context information) that correspond to the characteristics of the dialogue participants from among the dialogue histories contained in the communication history DB 153. For example, the acquisition unit 162 acquires dialogue histories of records that match the characteristics of the dialogue participants, such as "set of participant IDs (dialogue participant ID)," "location,” and "relationship.” The dialogue history of one record is considered to be one document.
- the above describes an example of the process in which the acquisition unit 162 acquires the evaluation target text, dynamic context information, and static context information.
- the sensory information amount calculation unit 163 is a processing unit that calculates a sensory information amount indicating the amount of sensation of the participant (communicator) conveyed by the evaluation target text based on the evaluation target text, dynamic context information, and static context information. For example, the sensory information amount calculation unit 163 calculates the sensory information amount s based on formula (1).
- tf (term frequency) indicates the frequency of occurrence of the text to be evaluated in a document.
- a document is a plurality of texts stored in the dialogue history buffer 151.
- idf (inverse document frequency) is defined by formula (2).
- the total number of documents is the number of dialogue histories (documents) included in the set of dialogue histories set in the static context information.
- the number of documents containing the text to be evaluated is the number of dialogue histories that contain the text to be evaluated among the dialogue histories included in the set of dialogue histories.
- idf log(total number of documents/number of documents containing the text to be evaluated).
- the sensory information amount calculation unit 163 outputs the text to be evaluated and the sensory information amount s to the output unit 164.
- the output unit 164 outputs the pair of the text to be evaluated and the amount of sensory information s to the display unit 130 for display.
- Fig. 3 is a flowchart showing the processing procedure of the evaluation device according to the first embodiment.
- the acquisition unit 162 of the evaluation device 100 acquires the text to be evaluated, dynamic context information, and static context information (step S101).
- the sensory information amount calculation unit 163 of the evaluation device 100 calculates the sensory information amount based on the evaluation target text, the dynamic context information, and the static context information (step S102).
- the output unit 164 of the evaluation device 100 outputs the evaluation target text and the sensory information amount to the display unit 130 (step S103).
- the evaluation target text, the dynamic context information, and the static context information are as follows: Text to be evaluated: "It's okay" sent by the subordinate Dynamic context information: relationship between participants in a dialogue (boss and subordinate), location of the dialogue (company), history of the currently ongoing dialogue (information in the dialogue history buffer 151) Static context information: A collection of dialogue histories between superiors and subordinates in a company, among histories included in the communication history DB 153
- the sensory information amount calculation unit 163 of the evaluation device 100 calculates the sensory information amount s as shown in formula (3).
- the superior can evaluate the degree to which the subordinate's true intentions have been elicited (the higher the amount of sensory information s, the higher the degree to which the subordinate's true intentions have been elicited).
- the evaluation device 100 can suggest questions to the superior that will increase the amount of sensory information s, making it possible to intervene to deepen mutual understanding between the superior and the subordinate.
- the evaluation target text, the dynamic context information, and the static context information are as follows: Text to be evaluated: "I'm a bit worried about the corners" sent by the driver Dynamic context information: relationship between the participants in the dialogue (driver and engineer), location of the dialogue (circuit), history of the currently ongoing dialogue (information in the dialogue history buffer 151) Static context information: A collection of dialogue histories between the driver and the engineer at the circuit, among histories included in the communication history DB 153.
- the number of dialogue histories included in the set of dialogue histories between the driver and the engineer on the circuit is “20.”
- the sensory information amount calculation unit 163 performs morphological analysis on the evaluation target text "The corners are a bit concerning” and extracts the words “corner,” “a bit,” and “concerning.”
- the number of dialogue histories containing "corner” is assumed to be “12".
- the number of dialogue histories containing "a little” is assumed to be “20”.
- the number of dialogue histories containing "concerned” is assumed to be “20”.
- the number of "corners” included in the history of the current dialogue is assumed to be "1”.
- the number of "a little”s included in the history of the current dialogue is assumed to be "3”.
- the number of "concerned”s included in the history of the current dialogue is assumed to be "2”.
- the sensory information amount calculation unit 163 of the evaluation device 100 calculates the sensory information amount s as shown in formula (4).
- the output unit 164 of the evaluation device 100 outputs information associating the evaluation target text "The corners are a bit distracting" with the sensory information amount s of "0.22" to the display unit 130 for display.
- the engineer can evaluate whether the driver has been able to capture the details of the machine's behavior as felt by the driver (the higher the amount of sensory information s, the higher the degree to which the details of the machine's behavior have been captured).
- the evaluation device 100 can suggest questions to the engineer that will increase the amount of sensory information s, making it possible to intervene to draw out the senses that will lead to machine settings that will improve the race results.
- the evaluation device 100 acquires the evaluation target text, dynamic context information, and static context information, calculates the amount of sensory information based on the evaluation target text, the dynamic context information, and the static context information, and outputs the evaluation target text and the amount of sensory information to the display unit 130. This makes it possible to evaluate whether the sensations that the communicator wants to convey are conveyed well.
- the evaluation device 200 is referred to as "evaluation device 200."
- the evaluation device 200 has a chatbot function, and a scene is assumed in which one participant and the chatbot have a dialogue.
- the evaluation device 200 calculates the sensory information amount s for each of the multiple response sentences, and causes the chatbot to respond with the response sentence with the maximum sensory information amount.
- a specific participant ID is set in advance for the chatbot. For example, if the chatbot is assigned the participant ID of participant A, when the evaluation device 200 evaluates the response text generated by the chatbot as the "evaluation target text," it calculates the sensory information amount s depending on whether the response text of the chatbot contains many feelings that are typical of participant A.
- Fig. 4 is a functional block diagram showing the configuration of the evaluation device according to the present embodiment 2.
- the evaluation device 200 has a communication control unit 210, an input unit 220, a display unit 230, a microphone 240, a storage unit 250, and a control unit 260.
- the explanations regarding the communication control unit 210, the input unit 220, the display unit 230, and the microphone 240 are the same as the explanations regarding the communication control unit 110, the input unit 220, the display unit 230, and the microphone 240 described in FIG. 1.
- the storage unit 250 has a dialogue history buffer 251, a relationship DB 252, and a communication history DB 253.
- the storage unit 250 is realized by a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.
- the dialogue history buffer 251 stores the text of a participant's voice and the text generated by the chatbot. For example, the participant's participant ID is set in the text of a participant's voice. The participant ID previously assigned to the chatbot is set in the text generated by the chatbot.
- Relationship DB252 holds information that defines the relationships between participants in a dialogue.
- the explanation of relationship DB252 is the same as the explanation of relationship DB152 described in FIG. 1.
- the communication history DB253 holds information on the history of past conversations.
- the explanation of the communication history DB253 is the same as the explanation of the communication history DB153 explained in Figures 1 and 2, etc.
- the control unit 260 has a text generation unit 261, a chatbot processing unit 262, an acquisition unit 263, a sensory information amount calculation unit 264, and an output unit 265.
- the control unit 260 is a processor such as a CPU or an MPU.
- the text generation unit 261 acquires the voice (electrical signal) of a participant (one participant) from the microphone 240 and converts the voice into text.
- the text generation unit 261 outputs the converted text to the chatbot processing unit 262.
- the text generation unit 261 also registers information in which the converted text is associated with the participant ID of the participant who spoke the voice in the dialogue history buffer 251.
- the participant ID of the participant in the dialogue is specified by the participant via the input unit 220.
- the text generation unit 261 repeatedly executes the above process.
- the chatbot processing unit 262 is a processing unit that receives text input from the text generation unit 261 and generates a response sentence corresponding to the text. For example, the chatbot processing unit 262 generates a response sentence using a machine learning model such as a Neural Network (NN) that is trained using past conversation history, etc.
- NN Neural Network
- the chatbot processing unit 262 registers information associating the generated response sentence (text) with a preset participant ID in the dialogue history buffer 251.
- the chatbot processing unit 262 also outputs the generated response sentence to the output unit 265.
- the chatbot processing unit 262 stores the multiple response sentences in the dialogue history buffer 251.
- the chatbot processing unit 262 inputs text into a machine learning model, and when the likelihood of multiple response sentences among the response sentences output from the machine learning model is equal to or greater than a threshold, the chatbot processing unit 262 stores the multiple response sentences whose likelihood is equal to or greater than the threshold in the dialogue history buffer 251.
- multiple response sentences whose likelihood is equal to or greater than a threshold and generated from one piece of text using a machine learning model are referred to as a "group of response sentence candidates.”
- the response sentence candidate group stored in the dialogue history buffer 251 is processed by the acquisition unit 263 and the sensory information amount calculation unit 264, which will be described later, and the chatbot processing unit 262 acquires the sensory information amount for each response sentence included in the response sentence candidate group from the sensory information amount calculation unit 264.
- the chatbot processing unit 262 outputs the response sentence with the maximum sensory information amount from the response sentence candidate group to the output unit 265.
- the chatbot processing unit 262 repeatedly executes the above process.
- the chatbot processing unit 262 may generate a text response using any known technology.
- the acquisition unit 263 and the sensory information amount calculation unit 264 execute the following process for each response sentence (text) included in the response sentence candidate group. Note that, although the process for calculating the sensory information amount from one response sentence is described below, the same process is also performed for other response sentences included in the response sentence candidate group, and the sensory information amount of each response sentence included in the response sentence candidate group is calculated and notified to the chatbot processing unit 262.
- the acquisition unit 263 acquires the evaluation target text, the dynamic context information, and the static context information.
- the process of acquiring the evaluation target text, the process of acquiring the dynamic context information, and the process of acquiring the static context information are described below.
- the acquisition unit 263 acquires, from the group of response sentence candidates stored in the dialogue history buffer 251, a response sentence for which the amount of sensory information has not been calculated, as the text to be evaluated.
- the acquisition unit 263 acquires dynamic context information.
- the dynamic context information includes characteristics of the participants in the dialogue and the most recent dialogue history.
- the acquisition unit 263 acquires the most recent dialogue history from the dialogue history buffer 251.
- the acquisition unit 263 executes the following process.
- the acquisition unit 263 acquires a participant ID of one participant from the input unit 220, and acquires the participant ID set in the chatbot processing unit 262 to acquire a set of participant IDs of participants who are engaged in a dialogue.
- the acquisition unit 263 compares the acquired set of participant IDs with the relationship DB 252 to acquire the relationships of the participants in the dialogue.
- the acquisition unit 263 acquires current location information of the evaluation device 200 using a GPS or the like.
- the acquisition unit 263 acquires the location of the dialogue based on the acquired current location information and a location determination table (not shown). In addition to the above information, the acquisition unit 263 may acquire information regarding the time and weather.
- the acquisition unit 263 executes the above process to acquire characteristics of the dialogue participants.
- the characteristics of the dialogue participants include a set of participant IDs of the participants who are engaged in the dialogue, the relationship between the participants during the dialogue, the location, time, and weather of the dialogue, etc.
- the acquisition unit 263 compares the characteristics of the dialogue participants contained in the dynamic context information with the communication history DB 253, and acquires a set of dialogue histories (static context information) that correspond to the characteristics of the dialogue participants from among the dialogue histories contained in the communication history DB 253. For example, the acquisition unit 263 acquires dialogue histories of records that match the characteristics of the dialogue participants, such as "set of participant IDs (dialogue participant ID)," "location,” and "relationship.” The dialogue history of one record is considered to be one document.
- the acquisition unit 263 outputs the acquired evaluation target text, dynamic context information, and static context information to the sensory information amount calculation unit 264.
- the sensory information amount calculation unit 264 is a processing unit that calculates the amount of sensory information indicating the amount of sensation of the participant (the participant corresponding to the participant ID set in the chatbot processing unit 262) conveyed by the evaluation target text based on the evaluation target text, dynamic context information, and static context information.
- the process in which the sensory information amount calculation unit 264 calculates the sensory information amount s of the text to be evaluated based on the text to be evaluated, the dynamic context information, and the static context information is similar to the process in which the sensory information amount calculation unit 163 calculates the sensory information amount s described in the first embodiment.
- the sensory information amount calculation unit 264 notifies the chatbot processing unit 262 of the sensory information amount s of the text to be evaluated.
- the output unit 265 outputs the response text obtained from the chatbot processing unit 262 to the display unit 230 for display.
- Fig. 5 is a flowchart showing the processing procedure of the evaluation device according to the second embodiment.
- the evaluation device 200 receives the participant ID of the participant (step S201).
- the evaluation device 200 acquires the participant's voice using the microphone 240 (step S202).
- the text generation unit 261 of the evaluation device 200 generates text based on the participant's voice (step S203).
- the chatbot processing unit 262 generates a response sentence based on the text (step S204). If multiple response sentences have not been generated (step S205, No), the output unit 265 of the evaluation device 200 outputs a response sentence (step S206) and the process proceeds to step S211. On the other hand, if multiple response sentences have been generated (step S205, Yes), the evaluation device 200 proceeds to step S207.
- the evaluation device 200 stores the response sentence candidates in the dialogue history buffer 251 (step S207).
- the evaluation device 200 executes a sensory information amount calculation process (step S208).
- the chatbot processing unit 262 selects the response sentence with the maximum sensory information amount (step S209).
- the output unit 265 of the evaluation device 200 outputs the selected response sentence to the display unit 230 (step S210).
- step S211 If the evaluation device 200 continues the process (step S211, Yes), it proceeds to step S202. On the other hand, if the evaluation device 200 does not continue the process (step S211, No), it ends the process.
- FIG. 6 is a flowchart showing the processing procedure for the sensory information amount calculation process.
- the acquisition unit 263 of the evaluation device 200 selects an unselected response sentence from the group of response sentence candidates (step S301).
- the acquisition unit 263 generates the evaluation target text, dynamic context information, and static context information (step S302).
- the sensory information amount calculation unit 264 of the evaluation device 200 calculates the sensory information amount of the response sentence based on the evaluation target text, the dynamic context information, and the static context information (step S303).
- step S304 If an unselected response sentence exists (step S304, Yes), the evaluation device 200 proceeds to step S301. On the other hand, if an unselected response sentence does not exist (step S304, No), the evaluation device 200 ends the sensory information amount calculation process.
- chatbot processing unit 262 Assume a situation in which it is desired to have the chatbot (chatbot processing unit 262) respond with a sense that is characteristic of a particular participant (e.g., participant A).
- participant A e.g., participant A
- the evaluation device 200 calculates the sensory information amount s for each reply sentence and outputs the reply sentence with the maximum sensory information amount s.
- the evaluation target text, the dynamic context information, and the static context information are as follows: Text to be evaluated: Answer candidates "cute”, “beautiful” Dynamic context information: participants in the dialogue “chatbot (participant A) and participant B", location of the dialogue "town”, history of the currently ongoing dialogue "information of the dialogue history buffer 251" Static context information: a set of dialogue histories between participant A and participant B in the town, among histories included in the communication history DB 253
- the number of "cute” words included in the history of the current dialogue is assumed to be “5,” and the number of "beautiful” words included is assumed to be “2.”
- the number of dialogue histories included in the collection of dialogue histories of Participant A and Participant B in the town is assumed to be “10,” and in this collection of dialogue histories, the number of dialogue histories containing "cute” is assumed to be “10,” and the number of dialogue histories containing "beautiful” is assumed to be "5.”
- the sensory information amount calculation unit 163 of the evaluation device 200 calculates the sensory information amount s of "cute” as shown in formula (5), and calculates the sensory information amount s of "beautiful” as shown in formula (6).
- the evaluation device 200 determines that the response sentence (word) "pretty” is the response sentence that more accurately reflects the feelings of participant A, and outputs the response sentence "pretty.” This makes it possible to automatically generate utterances that include feelings close to those of the person himself, even when the person is not present and responds using a chatbot.
- the evaluation device 200 calculates the amount of sensory information for each response sentence and outputs the response sentence with the maximum amount of sensory information.
- the chatbot processing unit 262 responds with a feeling that is characteristic of a certain participant (e.g., participant A)
- the evaluation device 300 is referred to as "evaluation device 300."
- the evaluation device 300 calculates the sensory information amount of the text to be evaluated using a trained sensory information amount calculation model.
- the evaluation device 300 is placed near the participants in the dialogue.
- the following explanation assumes that there are two participants in the dialogue: Participant A and Participant B.
- Fig. 7 is a functional block diagram showing the configuration of the evaluation device according to the present embodiment 3.
- the evaluation device 300 has a communication control unit 310, an input unit 320, a display unit 330, a microphone 340, a storage unit 350, and a control unit 360.
- the explanations regarding the communication control unit 310, input unit 320, display unit 330, and microphone 340 are the same as the explanations regarding the communication control unit 110, input unit 120, display unit 130, and microphone 140 described in FIG. 1.
- the storage unit 350 has a dialogue history buffer 351, a relationship DB 352, a communication history DB 353, a personal characteristic DB 354, and a sensory information amount calculation model 355.
- the storage unit 350 is realized by a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.
- the dialogue history buffer 351 stores the text of the voices of participants A and B who are currently engaged in a dialogue. For example, the texts are distinguished by participant ID and stored in chronological order.
- Relationship DB352 holds information that defines the relationships between participants in a dialogue.
- the explanation of relationship DB352 is the same as the explanation of relationship DB152 described in FIG. 1.
- the communication history DB353 holds information on the history of past conversations.
- the explanation of the communication history DB353 is the same as the explanation of the communication history DB153 explained in Figures 1 and 2, etc.
- the personal characteristic DB 354 holds various information related to the participants.
- FIG. 8 is a diagram showing an example of the data structure of the personal characteristic DB.
- the personal characteristic DB 354 has a participant ID, gender, age, and environment.
- the participant ID is information for identifying the participant.
- the gender is the gender of the participant.
- the age is the age of the participant.
- the environment is set to a place where the participant has had a conversation in the past, etc.
- the sensory information amount calculation model 355 is a model in which the input is "evaluation target text, dynamic context information, static context information" and the output is "sensory information amount", and is an NN or the like. Note that the dynamic context information in this Example 3 further includes the gender, age, and environment of the participants in addition to the information described in Example 1. The sensory information amount calculation model 355 is pre-trained using a learning dataset by backpropagation or the like.
- the control unit 360 has a text generation unit 361, an acquisition unit 362, a sensory information amount calculation unit 363, and an output unit 364.
- the control unit 360 is a processor such as a CPU or an MPU.
- the text generation unit 361 acquires the voice (electrical signal) of the participant from the microphone 340 and converts the voice into text.
- the text generation unit 361 registers information associating the converted text with the participant ID of the participant who spoke the voice in the dialogue history buffer 351.
- the rest of the explanation of the text generation unit 361 is the same as the explanation of the text generation unit 161 in the first embodiment.
- the acquisition unit 362 is a processing unit that acquires the evaluation target text, dynamic context information, and static context information.
- the acquisition unit 362 outputs the acquired evaluation target text, dynamic context information, and static context information to the sensory information amount calculation unit 363.
- the process by which the acquisition unit 362 acquires the text to be evaluated and the process by which the acquisition unit 362 acquires static context information is the same as the process by which the acquisition unit 162 of the first embodiment acquires static context information.
- the acquisition unit 362 acquires dynamic context information.
- the dynamic context information includes characteristics of the participants in the dialogue and the most recent dialogue history.
- the acquisition unit 362 acquires the most recent dialogue history from the dialogue history buffer 351.
- the characteristics of the participants in a dialogue include the pair of participant IDs of the participants who are engaged in a dialogue, the relationship between the participants during the dialogue, the location, time, weather, etc., as described in Example 1, as well as the gender, age, and environment of the participants.
- the process by which the acquisition unit 362 acquires the pair of participant IDs of the participants who are engaged in a dialogue, the relationship between the participants during the dialogue, the location, time, weather, etc., of the dialogue is similar to that of the acquisition unit 162 in Example 1.
- the acquisition unit 362 acquires the participant ID of the participant who sent the text to be evaluated from among the participant IDs input from the input unit 320.
- the acquisition unit 362 compares the acquired participant ID with the personal characteristic DB 354, and acquires the gender, age, and environment corresponding to the acquired participant ID from the personal characteristic DB 354.
- the acquisition unit 362 estimates and acquires the gender, age, and environment from the personal characteristic DB 354 using statistical methods. For example, the acquisition unit 362 takes a majority vote of male and female registered in the gender field in the personal characteristic DB 354, and estimates the majority as the participant's gender. The acquisition unit 362 estimates the average value of the ages registered in the gender field in the personal characteristic DB 354 as the participant's age. The acquisition unit 362 takes a majority vote of the environments registered in the gender field in the personal characteristic DB 354, and estimates the most common environment as the participant's environment.
- the sensory information amount calculation unit 363 calculates the sensory information amount s of the text to be evaluated by inputting the text to be evaluated, the dynamic context information, and the static context information into the trained sensory information amount calculation model 355.
- the sensory information amount calculation unit 363 outputs the text to be evaluated and the sensory information amount s to the output unit 364.
- the output unit 364 outputs a pair of the text to be evaluated and the amount of sensory information s to the display unit 330 for display.
- Fig. 9 is a flowchart showing the processing procedure of the evaluation device according to the third embodiment.
- the acquisition unit 362 of the evaluation device 300 receives the participant ID of the participant from the input unit 320 (step S401).
- the evaluation device 300 acquires the participant's voice using the microphone 340 (step S402).
- the text generation unit 361 of the evaluation device 300 generates text based on the participant's voice (step S403).
- the acquisition unit 362 acquires the gender, age, and environment of the participant based on the participant ID and the personal characteristic DB 354 (step S404).
- the acquisition unit 362 acquires the text to be evaluated, the dynamic context information, and the static context information (step S404).
- the sensory information amount calculation unit 363 of the evaluation device 300 inputs the text to be evaluated, the dynamic context information, and the static context information to the sensory information amount calculation model 355, and calculates the sensory information amount (step S405).
- the output unit 364 of the evaluation device 300 outputs the evaluation target text and the amount of sensory information to the display unit 330 for display (step S406).
- step S407 If the evaluation device 300 continues the process (step S407, Yes), it proceeds to step S402. On the other hand, if the evaluation device 300 does not continue the process (step S407, No), it ends the process.
- the evaluation device 300 acquires the evaluation target text, dynamic context information, and static context information, and inputs the evaluation target text, dynamic context information, and static context information to a sensory information amount calculation model 355 to calculate the sensory information amount, and outputs the evaluation target text and the sensory information amount to the display unit 330. This makes it possible to evaluate whether the sensations that the communicator wants to convey are conveyed well.
- the evaluation device 100 (200, 300) having a microphone converts the voice of the participant into text and evaluates the text, but the present invention is not limited to this.
- a server equivalent to the evaluation device 100 may be arranged on a network, and the terminal device used by the participant may access the evaluation device 100.
- the terminal device of the participant transmits the text inputted via the input unit to the evaluation device 100, and the evaluation device 100 evaluates the received text.
- FIG. 10 is a diagram showing an example of a computer that executes the evaluation program.
- the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These components are connected by a bus 1080.
- the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
- the ROM 1011 stores a boot program such as a BIOS (Basic Input Output System).
- BIOS Basic Input Output System
- the hard disk drive interface 1030 is connected to a hard disk drive 1031.
- the disk drive interface 1040 is connected to a disk drive 1041.
- a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1041.
- the serial port interface 1050 is connected to a mouse 1051 and a keyboard 1052, for example.
- the video adapter 1060 is connected to a display 1061, for example.
- the hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. Each piece of information described in the above embodiment is stored, for example, in the hard disk drive 1031 or memory 1010.
- the evaluation program is stored in the hard disk drive 1031, for example, as a program module 1093 in which instructions to be executed by the computer 1000 are written.
- the program module 1093 in which the processes for executing the text generation unit 161, acquisition unit 162, sensory information amount calculation unit 163, and output unit 164 described in the above embodiment are written is stored in the hard disk drive 1031.
- data used for information processing by the evaluation program is stored as program data 1094, for example, in the hard disk drive 1031.
- the CPU 1020 reads the program module 1093 and program data 1094 stored in the hard disk drive 1031 into the RAM 1012 as necessary, and executes each of the above-mentioned procedures.
- the program module 1093 and program data 1094 related to the evaluation program are not limited to being stored in the hard disk drive 1031, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1041 or the like.
- the program module 1093 and program data 1094 related to the evaluation program may be stored in another computer connected via a network, such as a LAN or WAN (Wide Area Network), and read by the CPU 1020 via the network interface 1070.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
評価装置(100)は、対話の参加者が発信したテキストと、対話の参加者の特徴および直近の対話の履歴を含む動的文脈情報と、記憶部(150)に格納された対話の履歴のうち、対話の参加者の特徴に対応する対話の履歴を含む静的文脈情報とを取得する取得部(162)と、テキストと、動的文脈情報と、静的文脈情報とを基にして、テキストによって伝えられる参加者の感覚の量を示す感覚情報量を算出する感覚情報量算出部(163)と、テキストと、感覚情報量とを出力する出力部(164)とを備える。
Description
本発明は、評価装置および評価方法に関する。
言語コミュニケーションにおいて、伝え手の感覚の伝達が、受け手の理解度を高め、集団としてのパフォーマンスを向上させることが知られている。たとえば、伝え手と受け手との相互理解を高めるためには、伝え手が発信したテキスト等の情報によって、伝え手の感覚を多く伝えることが重要である。
テキストの良さを評価する従来技術として、AI(Artificial Intelligence)よって生成されたテキストに含まれる比喩表現の良さを評価する技術がある。かかる従来技術では、比喩表現の良さを、この比喩表現が表す意味としての尤もらしさ(人間らしい表現であるかいなか)で評価する。
Tuhin Chakrabarty et al. "Generating similes like a Pro: A Style Transfer Approach for Simile Generation" Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, pages 6455-6469, November 16-20, 2020
しかしながら、上述した従来技術では、テキストに対し、伝え手の伝えたい感覚が多く伝わっているのかを評価することができないという問題がある。
たとえば、従来技術では、AIに生成されたテキストの比喩表現等が、人間らしい表現であるかという観点から、テキストの評価を行っており、伝え手の伝えたい感覚が多く伝わっているのかを評価するものではない。
本発明は、上記に鑑みてなされたものであって、伝え手の伝えたい感覚が多く伝わっているのかを評価することができる評価装置および評価方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、評価装置は、対話の参加者が発信したテキストと、対話の参加者の特徴および直近の対話の履歴を含む動的文脈情報と、記憶部に格納された対話の履歴のうち、対話の参加者の特徴に対応する対話の履歴を含む静的文脈情報とを取得する取得部と、テキストと、動的文脈情報と、静的文脈情報とを基にして、テキストによって伝えられる参加者の感覚の量を示す感覚情報量を算出する感覚情報量算出部と、テキストと、感覚情報量とを出力する出力部とを備える。
本発明によれば、伝え手の伝えたい感覚が多く伝わっているのかを評価することができる。
以下に、本願の開示する評価装置および評価方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
本実施例1にかかる評価装置を「評価装置100」と表記する。本実施例1では、評価装置100は、対話中の参加者の近くに配置される。対話の参加者を、参加者Aおよび参加者Bの2名として説明を行う。後述するように、評価装置100は、参加者の音声をテキストに変換し、かかるテキストに対して、伝え手の伝えたい感覚が多く伝わっているかの評価を行う。
(本実施例1にかかる評価装置の構成例)
まず、評価装置100の構成例について説明する。図1は、本実施例1にかかる評価装置の構成を示す機能ブロック図である。図1に示すように、この評価装置100は、通信制御部110と、入力部120と、表示部130と、マイク140と、記憶部150と、制御部160とを有する。
まず、評価装置100の構成例について説明する。図1は、本実施例1にかかる評価装置の構成を示す機能ブロック図である。図1に示すように、この評価装置100は、通信制御部110と、入力部120と、表示部130と、マイク140と、記憶部150と、制御部160とを有する。
通信制御部110は、NIC(Network Interface Card)等で実現され、ネットワークに接続される外部装置と制御部160との通信を制御する。評価装置100は、外部装置から、後述する関係性DB152、コミュニケーション履歴DB153等を取得してもよい。
入力部120は、キーボード、マウス等の入力デバイスを用いて実現され、対話の参加者は、入力部120を操作し、制御部160に対して各種の情報を入力する。たとえば、参加者は対話を開始する前に、入力部120を操作して、参加者IDを入力する。参加者IDは、参加者を識別する情報である。
表示部130は、制御部160から取得した情報を出力する出力デバイスであり、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。たとえば、表示部130は、参加者の発信したテキストに対する評価結果を表示する。
マイク140は、対話中の参加者の音声を集音し、集音した音声(電気信号)を制御部160に出力する。
記憶部150は、対話履歴バッファ151と、関係性DB152と、コミュニケーション履歴DB153とを有する。記憶部150は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
対話履歴バッファ151は、現在対話を行っている参加者Aおよび参加者Bの音声のテキストを格納する。たとえば、テキストは、参加者ID毎に区別され、時系列に格納される。
関係性DB152は、対話中の参加者の関係性を定義した情報を保持する。たとえば、関係性DB152は、対話中の参加者の参加者IDの組と、参加者の関係性とを対応付ける。参加者の関係性は、「上司と部下」、「ドライバーとエンジニア」等である。
コミュニケーション履歴DB153は、過去の対話の履歴の情報を保持する。図2は、コミュニケーション履歴DBのデータ構造の一例を示す図である。図2に示すように、コミュニケーション履歴DB153は、対話参加者ID、場所、関係性、対話履歴を有する。
対話参加者IDには、該当する対話に参加した参加者の参加者IDの組が設定される。場所は、該当する対話が行われた場所が設定される。関係性は、上述した参加者の関係性である。対話履歴は、該当する対話の参加者によって行われた1回の対話でやり取りされたテキストの履歴が設定される。
「1回の対話」をどのように定義してもよいが、本実施例1では、参加者が対話を開始してから終了するまでに一連の会話のやり取りを、1回の対話とする。1回の対話の対話履歴には、対話を行った参加者の音声のテキストが格納され、各テキストは、参加者ID毎に区別され、時系列に格納される。また、1回の対話の対話履歴を、1つの文書と定義する。
図1の説明に戻る。制御部160は、テキスト生成部161、取得部162、感覚情報量算出部163、出力部164を有する。制御部160は、CPU、MPU(Micro Processing Unit)等のプロセッサ等である。
テキスト生成部161は、マイク140から参加者の音声(電気信号)を取得し、音声をテキストに変換する。テキスト生成部161は、変換したテキストと、音声を発話した参加者の参加者IDとを対応付けた情報を、対話履歴バッファ151に登録する。テキスト生成部161は、どのような周知技術を用いて、音声をテキストに変換してもよい。また、テキスト生成部161は、参加者IDと、テキストとを対応付ける際、どのような周知技術を利用してもよい。テキスト生成部161は、上記処理を繰り返し実行する。
取得部162は、評価対象のテキストと、動的文脈情報と、静的文脈情報とを取得する処理部である。以下の説明では、評価対象のテキストを「評価対象テキスト」と表記する。たとえば、動的文脈情報は、対話の参加者の特徴および直近の対話の履歴を含む情報である。静的文脈情報は、記憶部150(コミュニケーション履歴DB153)に格納された対話の履歴のうち、現在行われている対話の参加者の特徴に対応する対話の履歴を含む情報である。取得部162は、取得した評価対象テキスト、動的文脈情報、静的文脈情報を、感覚情報量算出部163に出力する。
取得部162は、入力部120等から、評価対象テキスト、動的文脈情報、静的文脈情報を直接取得してもよいが、以下の処理を行って、評価対象テキスト、動的文脈情報、静的文脈情報を取得してもよい。
まず、取得部162が、評価対象テキストを取得する処理の一例について説明する。取得部162は、入力部120から、参加者IDの指摘を受け付ける。以下の説明では、指定された参加者IDを「指定ID」と表記する。取得部162は、対話履歴バッファ151に格納されたテキストのうち、指定IDに対応するテキストであって、最新のテキストを評価対象テキストとして取得する。
続いて、取得部162が、動的文脈情報を取得する処理の一例について説明する。たとえば、動的文脈情報には、対話の参加者の特徴および直近の対話の履歴が含まれる。取得部162は、直近の対話の履歴を、対話履歴バッファ151から取得する。
取得部162は、対話の参加者の特徴を取得する場合、次の処理を実行する。取得部162は、入力部120から、対話を行う参加者の参加者IDの組を取得する。取得部162は、取得した参加者IDの組と、関係性DB152とを比較して、対話中の参加者の関係性を取得する。取得部162は、GPS(Global Positioning System)等を用いて、評価装置100の現在の位置情報を取得する。取得部162は、取得した現在の位置情報と、場所判定テーブル(図示を省略)とを基にして、対話の場所を取得する。たとえば、場所判定テーブルは、位置情報と、場所との関係を定義したテーブルである。なお、取得部162は、入力部120から、対話の場所を取得してもよい。取得部162は、上記の情報の他に、時間や、天気に関する情報を取得してもよい。
取得部162は、上記の処理を実行することで、対話の参加者の特徴を取得する。たとえば、対話の参加者の特徴は、対話を行う参加者の参加者IDの組、対話中の参加者の関係性、対話の場所、時間、天候等である。
続いて、取得部162が、静的文脈情報を取得する処理の一例について説明する。取得部162は、動的文脈情報に含まれる対話の参加者の特徴と、コミュニケーション履歴DB153とを比較し、コミュニケーション履歴DB153に含まれる対話履歴のうち、対話の参加者の特徴に対応する対話履歴の集合(静的文脈情報)を取得する。たとえば、取得部162は、対話の参加者の特徴となる「参加者IDの組(対話参加者ID)」、「場所」、「関係性」と一致するレコードの対話履歴を取得する。一つのレコードの対話履歴を、一つの文書とする。
以上、取得部162が、評価対象テキスト、動的文脈情報、静的文脈情報を取得する処理の一例について説明した。
感覚情報量算出部163は、評価対象テキストと、動的文脈情報と、静的文脈情報とを基にして、評価対象テキストによって伝えられる参加者(伝え手)の感覚の量を示す感覚情報量を算出する処理部である。たとえば、感覚情報量算出部163は、式(1)を基にして、感覚情報量sを算出する。
感覚情報量s=tf×idf・・・(1)
式(1)において、tf(Term-frequency)は、ある文書における、評価対象テキストの出現頻度を示す。本実施例1では、ある文書を、対話履歴バッファ151に格納された複数のテキストとする。
式(1)において、idf(Inverse document frequency)は、式(2)によって定義される。式(2)において、総文書数は、静的文脈情報に設定された対話履歴の集合に含まれる対話履歴(文書)の数である。評価対象テキストが含まれる文書の数は、対話履歴の集合に含まれる対話履歴のうち、評価対象テキストを含む対話履歴の数である。
idf=log(総文書数/評価対象テキストが含まれる文書の数)・・・(2)
感覚情報量算出部163は、評価対象テキストと、感覚情報量sとを出力部164に出力する。
出力部164は、評価対象テキストと、感覚情報量sとの組を、表示部130に出力して表示させる。
(本実施例1にかかる評価装置の処理手順)
次に、本実施例1にかかる評価装置100の処理手順の一例について説明する。図3は、本実施例1にかかる評価装置の処理手順を示すフローチャートである。
次に、本実施例1にかかる評価装置100の処理手順の一例について説明する。図3は、本実施例1にかかる評価装置の処理手順を示すフローチャートである。
図3に示すように、評価装置100の取得部162は、評価対象テキスト、動的文脈情報、静的文脈情報を取得する(ステップS101)。
評価装置100の感覚情報量算出部163は、評価対象テキスト、動的文脈情報、静的文脈情報を基にして、感覚情報量を算出する(ステップS102)。評価装置100の出力部164は、評価対象テキストと感覚情報量とを表示部130に出力する(ステップS103)。
(想定場面<1>)
上司と部下の2人で、部下の仕事上の目標を設定する、という対話の場で、上記の評価装置100が、上司の質問に対する部下の返答(評価対象テキスト)に対する感覚情報量を算出する場合について説明する。
上司と部下の2人で、部下の仕事上の目標を設定する、という対話の場で、上記の評価装置100が、上司の質問に対する部下の返答(評価対象テキスト)に対する感覚情報量を算出する場合について説明する。
たとえば、想定場面<1>では、評価対象テキスト、動的文脈情報、静的文脈情報を以下のものとする。
評価対象テキスト:部下が発信した「大丈夫です。」
動的文脈情報:対話中の参加者の関係性「上司と部下」、対話の場所「会社」、現在実施中の対話の履歴「対話履歴バッファ151の情報」
静的文脈情報:コミュニケーション履歴DB153に含まれる履歴のうち、会社における上司と部下の対話履歴の集合
評価対象テキスト:部下が発信した「大丈夫です。」
動的文脈情報:対話中の参加者の関係性「上司と部下」、対話の場所「会社」、現在実施中の対話の履歴「対話履歴バッファ151の情報」
静的文脈情報:コミュニケーション履歴DB153に含まれる履歴のうち、会社における上司と部下の対話履歴の集合
たとえば、会社における上司と部下の対話履歴の集合に含まれる対話履歴の数を「10」とし、かかる対話履歴の集合において「大丈夫」を含む対話履歴の数を「8」とする。現在実施中の対話の履歴に含まれる「大丈夫」の数を「1」とする。この場合、評価装置100の感覚情報量算出部163は、式(3)のように、感覚情報量sを算出する。
s=1×log(10/8)=0.097・・・(3)
評価装置100の出力部164は、評価対象テキスト「大丈夫」と、感覚情報量s「0.097」とを対応付けた情報を、表示部130に出力して表示する。
上司は、表示部130に表示された感覚情報量sを参照することで、部下の真意を引き出せている度合いを評価することが可能となる(感覚情報量sが高いほど、真意を引き出せている度合いが高い)。評価装置100は、感覚情報量sを高くする質問を上司にサジェストすることができ、上司と部下の相互理解を深めるための介入が可能となる。
(想定場面<2>)
たとえば、モータースポーツにおけるドライバーとエンジニアとが、タイムを良くするためのマシンセッティングを検討する、という対話の場で、上記の評価装置100が、エンジニアの質問に対するドライバーの返答(評価対象テキスト)に対する感覚情報量を算出する場合について説明する。
たとえば、モータースポーツにおけるドライバーとエンジニアとが、タイムを良くするためのマシンセッティングを検討する、という対話の場で、上記の評価装置100が、エンジニアの質問に対するドライバーの返答(評価対象テキスト)に対する感覚情報量を算出する場合について説明する。
たとえば、想定場面<2>では、評価対象テキスト、動的文脈情報、静的文脈情報を以下のものとする。
評価対象テキスト:ドライバーが発信した「コーナーがちょっと気になる」
動的文脈情報:対話中の参加者の関係性「ドライバーとエンジニア」、対話の場所「サーキット」、現在実施中の対話の履歴「対話履歴バッファ151の情報」
静的文脈情報:コミュニケーション履歴DB153に含まれる履歴のうち、サーキットにおけるドライバーとエンジニアの対話履歴の集合
評価対象テキスト:ドライバーが発信した「コーナーがちょっと気になる」
動的文脈情報:対話中の参加者の関係性「ドライバーとエンジニア」、対話の場所「サーキット」、現在実施中の対話の履歴「対話履歴バッファ151の情報」
静的文脈情報:コミュニケーション履歴DB153に含まれる履歴のうち、サーキットにおけるドライバーとエンジニアの対話履歴の集合
たとえば、サーキットにおけるドライバーとエンジニアの対話履歴の集合に含まれる対話履歴の数を「20」とする。感覚情報量算出部163は、評価対象テキスト「コーナーがちょっと気になる」を形態素解析し、単語「コーナー」、「ちょっと」、「気になる」を抽出する。
サーキットにおけるドライバーとエンジニアの対話履歴において、「コーナー」を含む対話履歴の数を「12」とする。サーキットにおけるドライバーとエンジニアの対話履歴において、「ちょっと」を含む対話履歴の数を「20」とする。サーキットにおけるドライバーとエンジニアの対話履歴において、「気になる」を含む対話履歴の数を「20」とする。現在実施中の対話の履歴に含まれる「コーナー」の数を「1」とする。現在実施中の対話の履歴に含まれる「ちょっと」の数を「3」とする。現在実施中の対話の履歴に含まれる「気になる」の数を「2」とする。この場合、評価装置100の感覚情報量算出部163は、式(4)のように、感覚情報量sを算出する。
s=1×log(20/12)+3×log(20/20)+2×log(20/12)=0.22・・・(4)
評価装置100の出力部164は、評価対象テキスト「コーナーがちょっと気になる」と、感覚情報量s「0.22」とを対応付けた情報を、表示部130に出力して表示する。
エンジニアは、表示部130に表示された感覚情報量sを参照することで、ドライバーが体感したマシンの挙動を細部まで引き出せているかを評価することが可能となる(感覚情報量sが高いほど、マシンの挙動を細部まで引き出せている度合いが高い)。評価装置100は、感覚情報量sを高くする質問をエンジニアにサジェストすることができ、レース成績が向上するようなマシンセッティングにつながる感覚を引き出す介入が可能となる。
(本実施例1にかかる評価装置100の効果)
次に、本実施例1にかかる評価装置100の効果について説明する。評価装置100は、評価対象テキスト、動的文脈情報、静的文脈情報を取得し、評価対象テキスト、動的文脈情報、静的文脈情報を基にして、感覚情報量を算出し、評価対象テキストと感覚情報量とを表示部130に出力する。これによって、伝え手の伝えたい感覚が多く伝わっているのかを評価することができる。
次に、本実施例1にかかる評価装置100の効果について説明する。評価装置100は、評価対象テキスト、動的文脈情報、静的文脈情報を取得し、評価対象テキスト、動的文脈情報、静的文脈情報を基にして、感覚情報量を算出し、評価対象テキストと感覚情報量とを表示部130に出力する。これによって、伝え手の伝えたい感覚が多く伝わっているのかを評価することができる。
本実施例2にかかる評価装置を「評価装置200」と表記する。本実施例2では、評価装置200が、チャットボットの機能を有し、一人の参加者とチャットボットとが対話を行う場面を想定する。評価装置200は、チャットボットが、参加者が発信したテキストに対して、複数の返答文の候補を持っている場合に、複数の返答文に対して、感覚情報量sをそれぞれ算出し、感覚情報量が最大となる返答文を、チャットボットに返答させる。
なお、チャットボットには、予め、所定の参加者IDが設定される。たとえば、チャットボットに参加者Aの参加者IDが付与されている場合に、評価装置200は、チャットボットが生成した返答文を「評価対象テキスト」として評価する場合、チャットボットの返答文に、参加者Aらしい感覚が多く含まれているか否かによって、感覚情報量sを算出する。
(本実施例2にかかる評価装置200の構成例)
まず、評価装置200の構成例について説明する。図4は、本実施例2にかかる評価装置の構成を示す機能ブロック図である。図4に示すように、この評価装置200は、通信制御部210と、入力部220と、表示部230と、マイク240と、記憶部250と、制御部260とを有する。
まず、評価装置200の構成例について説明する。図4は、本実施例2にかかる評価装置の構成を示す機能ブロック図である。図4に示すように、この評価装置200は、通信制御部210と、入力部220と、表示部230と、マイク240と、記憶部250と、制御部260とを有する。
通信制御部210、入力部220、表示部230、マイク240に関する説明は、図1で説明した通信制御部110、入力部220、表示部230、マイク240に関する説明と同様である。
記憶部250は、対話履歴バッファ251と、関係性DB252と、コミュニケーション履歴DB253とを有する。記憶部250は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
対話履歴バッファ251は、一人の参加者の音声のテキストと、チャットボットが生成したテキストとを格納する。たとえば、参加者の音声のテキストには、参加者の参加者IDが設定される。チャットボットが生成したテキストには、チャットボットに予め割り当てられた参加者IDが設定される。
関係性DB252は、対話中の参加者の関係性を定義した情報を保持する。関係性DB252に関する説明は、図1で説明した関係性DB152に関する説明と同様である。
コミュニケーション履歴DB253は、過去の対話の履歴の情報を保持する。コミュニケーション履歴DB253に関する説明は、図1、図2等で説明したコミュニケーション履歴DB153に関する説明と同様である。
制御部260は、テキスト生成部261、チャットボット処理部262、取得部263、感覚情報量算出部264、出力部265を有する。制御部260は、CPU、MPU等のプロセッサ等である。
テキスト生成部261は、マイク240から参加者(1人の参加者)の音声(電気信号)を取得し、音声をテキストに変換する。テキスト生成部261は、変換したテキストを、チャットボット処理部262に出力する。また、テキスト生成部261は、変換したテキストと、音声を発話した参加者の参加者IDとを対応付けた情報を、対話履歴バッファ251に登録する。なお、対話の参加者の参加者IDは、入力部220を介して、参加者に指定される。テキスト生成部261は、上記処理を繰り返し実行する。
チャットボット処理部262は、テキスト生成部261からテキストの入力を取得し、テキストに対応する返答文を生成する処理部である。たとえば、チャットボット処理部262は、過去の会話履歴等を用いて機械学習されたNN(Neural Network)等の機械学習モデルを利用して、返答文を生成する。
チャットボット処理部262は、生成した返答文(テキスト)と、予め設定された参加者IDとを対応付けた情報を、対話履歴バッファ251に登録する。また、チャットボット処理部262は、生成した返答文を、出力部265に出力する。
ところで、チャットボット処理部262は、生成した返答文が複数存在する場合、複数の返答文を、対話履歴バッファ251に格納する。たとえば、チャットボット処理部262は、テキストを機械学習モデルに入力し、機械学習モデルから出力された返答文のうち、複数の返答文の尤度が閾値以上である場合に、尤度が閾値以上となる複数の返答文を、対話履歴バッファ251に格納する。以下の説明では、機械学習モデルを用いて、一つのテキストから生成された尤度が閾値以上となる複数の返答文を、「返答文候補群」と表記する。
対話履歴バッファ251に格納された返答文候補群に対して、後述する取得部263、感覚情報量算出部264による処理が実行され、チャットボット処理部262は、返答文候補群に含まれる各返答文に関する感覚情報量を、感覚情報量算出部264から取得する。チャットボット処理部262は、返答文候補群から、感覚情報量が最大となる返答文を、出力部265に出力する。
チャットボット処理部262は、上記処理を繰り返し実行する。なお、チャットボット処理部262は、いかなる周知技術を用いて、テキストの返答文を生成してもよい。
取得部263および感覚情報量算出部264は、対話履歴バッファ251に返答文候補群が登録された場合に、返答文候補群に含まれる各返答文(テキスト)について、以下の処理を実行する。なお、以下では、一つの返答文から、感覚情報量を算出する場合の処理について説明するが、返答文候補群に含まれる他の返答文についても、同様の処理を行い、返答文候補群に含まれる各返答文の感覚情報量が算出され、チャットボット処理部262に通知される。
取得部263は、評価対象テキストと、動的文脈情報と、静的文脈情報とを取得する。以下において、評価対象テキストを取得する処理、動的文脈情報を取得する処理、静的文脈情報を取得する処理について説明する。
まず、取得部263が、評価対象テキストを取得する処理の一例について説明する。取得部263は、対話履歴バッファ251に格納された返答文候補群のうち、感覚情報量を算出していない返答文を、評価対象テキストとして取得する。
続いて、取得部263が、動的文脈情報を取得する処理の一例について説明する。たとえば、動的文脈情報には、対話の参加者の特徴および直近の対話の履歴が含まれる。取得部263は、直近の対話の履歴を、対話履歴バッファ251から取得する。
取得部263は、対話の参加者の特徴を取得する場合、次の処理を実行する。取得部263は、入力部220から、1人の参加者の参加者IDを取得し、チャットボット処理部262に設定された参加者IDを取得することで、対話の行う参加者の参加者IDの組を取得する。取得部263は、取得した参加者IDの組と、関係性DB252とを比較して、対話中の参加者の関係性を取得する。取得部263は、GPS等を用いて、評価装置200の現在の位置情報を取得する。取得部263は、取得した現在の位置情報と、場所判定テーブル(図示を省略)とを基にして、対話の場所を取得する。取得部263は、上記の情報の他に、時間や、天気に関する情報を取得してもよい。
取得部263は、上記の処理を実行することで、対話の参加者の特徴を取得する。たとえば、対話の参加者の特徴は、対話を行う参加者の参加者IDの組、対話中の参加者の関係性、対話の場所、時間、天候等である。
続いて、取得部263が、静的文脈情報を取得する処理の一例について説明する。取得部263は、動的文脈情報に含まれる対話の参加者の特徴と、コミュニケーション履歴DB253とを比較し、コミュニケーション履歴DB253に含まれる対話履歴のうち、対話の参加者の特徴に対応する対話履歴の集合(静的文脈情報)を取得する。たとえば、取得部263は、対話の参加者の特徴となる「参加者IDの組(対話参加者ID)」、「場所」、「関係性」と一致するレコードの対話履歴を取得する。一つのレコードの対話履歴を、一つの文書とする。
以上、取得部263が、評価対象テキスト、動的文脈情報、静的文脈情報を取得する処理の一例について説明した。取得部263は、取得した評価対象テキスト、動的文脈情報、静的文脈情報を、感覚情報量算出部264に出力する。
感覚情報量算出部264は、評価対象テキストと、動的文脈情報と、静的文脈情報とを基にして、評価対象テキストによって伝えられる参加者(チャットボット処理部262に設定された参加者IDに対応する参加者)の感覚の量を示す感覚情報量を算出する処理部である。
感覚情報量算出部264が、評価対象テキストと、動的文脈情報と、静的文脈情報とを基にして、評価対象テキストの感覚情報量sを算出する処理は、本実施例1で説明した、感覚情報量算出部163が、感覚情報量sを算出する処理と同様である。
感覚情報量算出部264は、評価対象テキストの感覚情報量sを、チャットボット処理部262に通知する。
出力部265は、チャットボット処理部262から取得した、返答文を表示部230に出力して表示させる。
(本実施例2にかかる評価装置200の処理手順)
次に、本実施例2にかかる評価装置200の処理手順の一例について説明する。図5は、本実施例2にかかる評価装置の処理手順を示すフローチャートである。
次に、本実施例2にかかる評価装置200の処理手順の一例について説明する。図5は、本実施例2にかかる評価装置の処理手順を示すフローチャートである。
評価装置200は、参加者の参加者IDを受け付ける(ステップS201)。評価装置200はマイク240を用いて、参加者の音声を取得する(ステップS202)。評価装置200のテキスト生成部261は、参加者の音声を基にしてテキストを生成する(ステップS203)。
チャットボット処理部262は、テキストを基にして、返答文を生成する(ステップS204)。評価装置200は、複数の返答文が生成されていない場合には(ステップS205,No)、評価装置200の出力部265が、返答文を出力し(ステップS206)、ステップS211に移行する。一方、評価装置200は、複数の返答文が生成された場合には(ステップS205,Yes)、ステップS207に移行する。
評価装置200は、返答文候補群を対話履歴バッファ251に格納する(ステップS207)。評価装置200は、感覚情報量算出処理を実行する(ステップS208)。チャットボット処理部262は、感覚情報量が最大となる返答文を選択する(ステップS209)。評価装置200の出力部265は、選択された返答文を表示部230に出力する(ステップS210)。
評価装置200は、処理を継続する場合には(ステップS211,Yes)、ステップS202に移行する。一方、評価装置200は、処理を継続しない場合には(ステップS211,No)、処理を終了する。
次に、図5のステップS208に示した感覚情報量算出処理の処理手順の一例について説明する。図6は、感覚情報量算出処理の処理手順を示すフローチャートである。
評価装置200の取得部263は、返答文候補群から、未選択の返答文を選択する(ステップS301)。取得部263は、評価対象テキスト、動的文脈情報、静的文脈情報を生成する(ステップS302)。
評価装置200の感覚情報量算出部264は、評価対象テキスト、動的文脈情報、静的文脈情報を基にして、返答文の感覚情報量を算出する(ステップS303)。
評価装置200は、未選択の返答文が存在する場合には(ステップS304,Yes)、ステップS301に移行する。一方、評価装置200は、未選択の返答文が存在しない場合には(ステップS304,No)、感覚情報量算出処理を終了する。
(想定場面<3>)
チャットボット(チャットボット処理部262)に、ある特定の参加者(たとえば、参加者A)らしい感覚を備えた受け答えをさせたい、という場面を想定する。上記の評価装置200は、チャットボットが、対話の相手となる参加者Bの発話に対して、機械学習モデル(言語作成モデル)を用いて、複数の返答文の候補を持っているとき、各返答文に対して、感覚情報量sを算出し、感覚情報量sが最大となる返答文を出力する。
チャットボット(チャットボット処理部262)に、ある特定の参加者(たとえば、参加者A)らしい感覚を備えた受け答えをさせたい、という場面を想定する。上記の評価装置200は、チャットボットが、対話の相手となる参加者Bの発話に対して、機械学習モデル(言語作成モデル)を用いて、複数の返答文の候補を持っているとき、各返答文に対して、感覚情報量sを算出し、感覚情報量sが最大となる返答文を出力する。
たとえば、想定場面<3>では、評価対象テキスト、動的文脈情報、静的文脈情報を以下のものとする。
評価対象テキスト:返答候補群「かわいい」、「きれい」
動的文脈情報:対話の参加者「チャットボット(参加者A)と参加者B」、対話の場所「町」、現在実施中の対話の履歴「対話履歴バッファ251の情報」
静的文脈情報:コミュニケーション履歴DB253に含まれる履歴のうち、町における参加者Aおよび参加者Bの対話履歴の集合
評価対象テキスト:返答候補群「かわいい」、「きれい」
動的文脈情報:対話の参加者「チャットボット(参加者A)と参加者B」、対話の場所「町」、現在実施中の対話の履歴「対話履歴バッファ251の情報」
静的文脈情報:コミュニケーション履歴DB253に含まれる履歴のうち、町における参加者Aおよび参加者Bの対話履歴の集合
たとえば、現在実施中の対話の履歴に含まれる「かわいい」の数を「5」とし、「きれい」の数を「2」とする。町における参加者Aおよび参加者Bの対話履歴の集合に含まれる対話履歴の数を「10」とし、かかる対話履歴の集合において「かわいい」を含む対話履歴の数を「10」とし、「きれい」を含む対話履歴の数を「5」とする。
この場合、評価装置200の感覚情報量算出部163は、式(5)のように、「かわいい」の感覚情報量sを算出し、式(6)のように、「きれい」の感覚情報量sを算出する。
s(かわいい)=5×log(10/10)=0・・・(5)
s(きれい)=2×log(10/5)=0.6・・・(6)
s(きれい)=2×log(10/5)=0.6・・・(6)
評価装置200は、かわいいの感覚情報量sよりも、きれいの感覚情報量sの方が大きいため、「きれい」という返答文(単語)のほうが参加者Aの感覚をより正確に反映している返答文とみなし、返答文「きれい」を出力する。これにより、チャットボットを用いて本人不在の場で受け答えする場であっても、その本人に近い感覚を含む発話を自動生成することが可能となる。
(本実施例2にかかる評価装置200の効果)
次に、本実施例2にかかる評価装置200の効果について説明する。評価装置200は、チャットボット処理部262によって複数の返答文が生成された場合に、各返答文に対する感覚情報量を算出し、感覚情報量が最大となる返答文を出力する。これによって、チャットボット処理部262に、ある特定の参加者(たとえば、参加者A)らしい感覚を備えた受け答えをさせたい場合に、ある特定の参加者が伝達したいであろう感覚をより多く含む返答文(テキスト)を選択することができ、コミュニケーションにおける相互理解・パフォーマンスの向上が可能となる。
次に、本実施例2にかかる評価装置200の効果について説明する。評価装置200は、チャットボット処理部262によって複数の返答文が生成された場合に、各返答文に対する感覚情報量を算出し、感覚情報量が最大となる返答文を出力する。これによって、チャットボット処理部262に、ある特定の参加者(たとえば、参加者A)らしい感覚を備えた受け答えをさせたい場合に、ある特定の参加者が伝達したいであろう感覚をより多く含む返答文(テキスト)を選択することができ、コミュニケーションにおける相互理解・パフォーマンスの向上が可能となる。
本実施例3にかかる評価装置を「評価装置300」と表記する。本実施例3では、評価装置300は、訓練済みの感覚情報量算出モデルを用いて、評価対象テキストの感覚情報量を算出する。
本実施例3では、評価装置300は、対話中の参加者の近くに配置される。対話の参加者を、参加者Aおよび参加者Bの2名として説明を行う。
(本実施例3にかかる評価装置の構成例)
まず、評価装置100の構成例について説明する。図7は、本実施例3にかかる評価装置の構成を示す機能ブロック図である。図7に示すように、この評価装置300は、通信制御部310と、入力部320と、表示部330と、マイク340と、記憶部350と、制御部360とを有する。
まず、評価装置100の構成例について説明する。図7は、本実施例3にかかる評価装置の構成を示す機能ブロック図である。図7に示すように、この評価装置300は、通信制御部310と、入力部320と、表示部330と、マイク340と、記憶部350と、制御部360とを有する。
通信制御部310、入力部320、表示部330、マイク340に関する説明は、図1で説明した通信制御部110、入力部120、表示部130、マイク140に関する説明と同様である。
記憶部350は、対話履歴バッファ351と、関係性DB352と、コミュニケーション履歴DB353と、個人特性DB354と、感覚情報量算出モデル355とを有する。記憶部350は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
対話履歴バッファ351は、現在対話を行っている参加者Aおよび参加者Bの音声のテキストを格納する。たとえば、テキストは、参加者ID毎に区別され、時系列に格納される。
関係性DB352は、対話中の参加者の関係性を定義した情報を保持する。関係性DB352に関する説明は、図1で説明した関係性DB152に関する説明と同様である。
コミュニケーション履歴DB353は、過去の対話の履歴の情報を保持する。コミュニケーション履歴DB353に関する説明は、図1、図2等で説明したコミュニケーション履歴DB153に関する説明と同様である。
個人特性DB354は、参加者に関する各種の情報を保持する。図8は、個人特性DBのデータ構造の一例を示す図である。図8に示すように、個人特性DB354は、参加者ID、性別、年齢、環境を有する。参加者IDは、参加者を識別する情報である。性別は、参加者の性別である。年齢は、参加者の年齢である。環境は、参加者が過去に対話を行った場所等が設定される。
感覚情報量算出モデル355は、入力を「評価対象テキスト、動的文脈情報、静的文脈情報」とし、出力を「感覚情報量」とするモデルであり、NN等である。なお、本実施例3の動的文脈情報には、実施例1で説明した情報の他に、参加者の性別、年齢、環境が更に含まれるものとする。感覚情報量算出モデル355は、学習データセットを用いて、誤差逆伝播法等によって、事前に訓練されているものとする。
制御部360は、テキスト生成部361、取得部362、感覚情報量算出部363、出力部364を有する。制御部360は、CPU、MPU等のプロセッサ等である。
テキスト生成部361は、マイク340から参加者の音声(電気信号)を取得し、音声をテキストに変換する。テキスト生成部361は、変換したテキストと、音声を発話した参加者の参加者IDとを対応付けた情報を、対話履歴バッファ351に登録する。その他のテキスト生成部361に関する説明は、実施例1のテキスト生成部161の説明と同様である。
取得部362は、評価対象テキストと、動的文脈情報と、静的文脈情報とを取得する処理部である。取得部362は、取得した評価対象テキスト、動的文脈情報、静的文脈情報を、感覚情報量算出部363に出力する。
取得部362が、評価対象テキストを取得する処理、および、静的文脈情報を取得する処理の説明は、実施例1の取得部162の説明と同様である。
取得部362が、動的文脈情報を取得する処理の一例について説明する。たとえば、動的文脈情報には、対話の参加者の特徴および直近の対話の履歴が含まれる。取得部362は、直近の対話の履歴を、対話履歴バッファ351から取得する。
対話の参加者の特徴には、実施例1で説明した、対話を行う参加者の参加者IDの組、対話中の参加者の関係性、対話の場所、時間、天候等の他に、上記の参加者の性別、年齢、環境が更に含まれる。取得部362が、対話を行う参加者の参加者IDの組、対話中の参加者の関係性、対話の場所、時間、天候等を取得する処理は、実施例1の取得部162と同様である。
取得部362が、参加者の性別、年齢、環境を取得する処理の一例について説明する。取得部362は、入力部320から入力される参加者IDのうち、評価対象テキストを発信した参加者の参加者IDを取得する。取得部362は、取得した参加者IDと、個人特性DB354とを比較して、取得した参加者IDに対応する性別、年齢、環境を、個人特性DB354から取得する。
なお、取得部362は、取得した参加者IDに対応するレコードが、個人特性DB354に存在しない場合には、統計的な手法によって、個人特性DB354から、性別、年齢、環境を推定して取得する。たとえば、取得部362は、個人特性DB354の性別に登録された男性、女性の多数決を行い、多い方を参加の性別として推定する。取得部362は、個人特性DB354の性別に登録された年齢の平均値を、参加者の年齢として推定する。取得部362は、個人特性DB354の性別に登録された環境の多数決を行い、最も多い環境、参加者の環境として推定する。
感覚情報量算出部363は、評価対象テキストと、動的文脈情報と、静的文脈情報とを、訓練済みの感覚情報量算出モデル355に入力することで、評価対象テキストの感覚情報量sを算出する。感覚情報量算出部363は、評価対象テキストと、感覚情報量sとを出力部364に出力する。
出力部364は、評価対象テキストと、感覚情報量sとの組を、表示部330に出力して表示させる。
(本実施例3にかかる評価装置の処理手順)
次に、本実施例3にかかる評価装置300の処理手順の一例について説明する。図9は、本実施例3にかかる評価装置の処理手順を示すフローチャートである。
次に、本実施例3にかかる評価装置300の処理手順の一例について説明する。図9は、本実施例3にかかる評価装置の処理手順を示すフローチャートである。
図9に示すように、評価装置300の取得部362は、入力部320から参加者の参加者IDを受け付ける(ステップS401)。評価装置300はマイク340を利用して、参加者の音声を取得する(ステップS402)。
評価装置300のテキスト生成部361は、参加者の音声を基にしてテキストを生成する(ステップS403)。取得部362は、参加者IDと個人特性DB354とを基にして、参加者の性別、年齢、環境を取得する(ステップS404)。
取得部362は、評価対象テキストと、動的文脈情報と、静的文脈情報とを取得する(ステップS404)。評価装置300の感覚情報量算出部363は、評価対象テキストと、動的文脈情報と、静的文脈情報とを感覚情報量算出モデル355に入力して、感覚情報量を算出する(ステップS405)。
評価装置300の出力部364は、評価対象テキストと感覚情報量とを表示部330に出力して表示させる(ステップS406)。
評価装置300は、処理を継続する場合には(ステップS407,Yes)、ステップS402に移行する。一方、評価装置300は、処理を継続しない場合には(ステップS407,No)、処理を終了する。
(本実施例3にかかる評価装置300の効果)
次に、本実施例3にかかる評価装置300の効果について説明する。評価装置300は、評価対象テキスト、動的文脈情報、静的文脈情報を取得し、評価対象テキスト、動的文脈情報、静的文脈情報を感覚情報量算出モデル355に入力することで、感覚情報量を算出し、評価対象テキストと感覚情報量とを表示部330に出力する。これによって、伝え手の伝えたい感覚が多く伝わっているのかを評価することができる。
次に、本実施例3にかかる評価装置300の効果について説明する。評価装置300は、評価対象テキスト、動的文脈情報、静的文脈情報を取得し、評価対象テキスト、動的文脈情報、静的文脈情報を感覚情報量算出モデル355に入力することで、感覚情報量を算出し、評価対象テキストと感覚情報量とを表示部330に出力する。これによって、伝え手の伝えたい感覚が多く伝わっているのかを評価することができる。
(その他の構成例)
上述した実施例では、マイクを有する評価装置100(200,300)が、参加者の音声をテキストに変換し、テキストの評価を行っていたが、これに限定されるものではない。たとえば、ネットワーク上に、評価装置100に相当するサーバを配置し、参加者が利用する端末装置が、評価装置100にアクセスするような構成であってもよい。この場合、参加者の端末装置は、入力部を介して入力されるテキストを、評価装置100に送信し、評価装置100は、受信したテキストの評価を行う。
上述した実施例では、マイクを有する評価装置100(200,300)が、参加者の音声をテキストに変換し、テキストの評価を行っていたが、これに限定されるものではない。たとえば、ネットワーク上に、評価装置100に相当するサーバを配置し、参加者が利用する端末装置が、評価装置100にアクセスするような構成であってもよい。この場合、参加者の端末装置は、入力部を介して入力されるテキストを、評価装置100に送信し、評価装置100は、受信したテキストの評価を行う。
(評価プログラム)
続いて、評価プログラムを実行するコンピュータの一例について説明する。図10は、評価プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、たとえば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
続いて、評価プログラムを実行するコンピュータの一例について説明する。図10は、評価プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、たとえば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、たとえば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、たとえば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、たとえば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、たとえば、ディスプレイ1061が接続される。
ここで、ハードディスクドライブ1031は、たとえば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、たとえばハードディスクドライブ1031やメモリ1010に記憶される。
また、評価プログラムは、たとえば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施例で説明したテキスト生成部161、取得部162、感覚情報量算出部163、出力部164を実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、評価プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、たとえば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、評価プログラムにかかるプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、たとえば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、評価プログラムにかかるプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施例による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
100,200,300 評価装置
110,210,310 通信制御部
120,220,320 入力部
130,230,330 表示部
140,240,340 マイク
150,250,350 記憶部
151,251,351 対話履歴バッファ
152,252,352 関係性DB
153,253,353 コミュニケーション履歴DB
160,260,360 制御部
161,261,361 テキスト生成部
162,263,362 取得部
163,264,363 感覚情報量算出部
164,265,364 出力部
262 チャットボット処理部
354 個人特性DB
355 感覚情報量算出モデル
110,210,310 通信制御部
120,220,320 入力部
130,230,330 表示部
140,240,340 マイク
150,250,350 記憶部
151,251,351 対話履歴バッファ
152,252,352 関係性DB
153,253,353 コミュニケーション履歴DB
160,260,360 制御部
161,261,361 テキスト生成部
162,263,362 取得部
163,264,363 感覚情報量算出部
164,265,364 出力部
262 チャットボット処理部
354 個人特性DB
355 感覚情報量算出モデル
Claims (4)
- 対話の参加者が発信したテキストと、対話の参加者の特徴および直近の対話の履歴を含む動的文脈情報と、記憶部に格納された対話の履歴のうち、前記対話の参加者の特徴に対応する対話の履歴を含む静的文脈情報とを取得する取得部と、
前記テキストと、前記動的文脈情報と、前記静的文脈情報とを基にして、前記テキストによって伝えられる前記参加者の感覚の量を示す感覚情報量を算出する感覚情報量算出部と、
前記テキストと、前記感覚情報量とを出力する出力部と、
を有することを特徴とする評価装置。 - 前記感覚情報量算出部は、前記動的文脈情報の対話の履歴における前記テキストの出現頻度と、前記静的文脈情報の対話の履歴における前記テキストの出現頻度とに基づく言語特徴量を、前記感覚情報量として算出することを特徴とする請求項1に記載の評価装置。
- 前記テキストの返答となるテキストを生成するチャットボット処理部を更に有し、
前記感覚情報量算出部は、前記チャットボット処理によって、複数のテキストが生成された場合に、前記複数のテキストに対して、前記感覚情報量をそれぞれ算出し、前記出力部は、前記複数のテキストの感覚情報量を基にして、複数のテキストからいずれかのテキストを出力する処理を更に実行することを特徴とする請求項1または2に記載の評価装置。 - 対話の参加者が発信したテキストと、対話の参加者の特徴および直近の対話の履歴を含む動的文脈情報と、記憶部に格納された対話の履歴のうち、前記対話の参加者の特徴に対応する対話の履歴を含む静的文脈情報とを取得する工程と、
前記テキストと、前記動的文脈情報と、前記静的文脈情報とを基にして、前記テキストによって伝えられる前記参加者の感覚の量を示す感覚情報量を算出する工程と、
前記テキストと、前記感覚情報量とを出力する工程と、
を含んだことを特徴とする評価方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/039481 WO2025094322A1 (ja) | 2023-11-01 | 2023-11-01 | 評価装置および評価方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/039481 WO2025094322A1 (ja) | 2023-11-01 | 2023-11-01 | 評価装置および評価方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2025094322A1 true WO2025094322A1 (ja) | 2025-05-08 |
Family
ID=95582631
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2023/039481 Pending WO2025094322A1 (ja) | 2023-11-01 | 2023-11-01 | 評価装置および評価方法 |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2025094322A1 (ja) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007243854A (ja) * | 2006-03-13 | 2007-09-20 | Yamaha Corp | テレビ電話会議端末 |
| JP2017204023A (ja) * | 2016-05-09 | 2017-11-16 | トヨタ自動車株式会社 | 会話処理装置 |
| JP2018045594A (ja) * | 2016-09-16 | 2018-03-22 | トヨタ自動車株式会社 | 文章生成装置および文章生成方法 |
| JP2018156273A (ja) * | 2017-03-16 | 2018-10-04 | 国立研究開発法人情報通信研究機構 | 対話システム及びそのためのコンピュータプログラム |
| JP2022086279A (ja) * | 2020-11-30 | 2022-06-09 | 株式会社コトバデザイン | プログラム、方法、情報処理装置、及びシステム |
| JP7299538B1 (ja) * | 2022-02-24 | 2023-06-28 | 富士通クライアントコンピューティング株式会社 | 情報処理装置及びプログラム |
-
2023
- 2023-11-01 WO PCT/JP2023/039481 patent/WO2025094322A1/ja active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007243854A (ja) * | 2006-03-13 | 2007-09-20 | Yamaha Corp | テレビ電話会議端末 |
| JP2017204023A (ja) * | 2016-05-09 | 2017-11-16 | トヨタ自動車株式会社 | 会話処理装置 |
| JP2018045594A (ja) * | 2016-09-16 | 2018-03-22 | トヨタ自動車株式会社 | 文章生成装置および文章生成方法 |
| JP2018156273A (ja) * | 2017-03-16 | 2018-10-04 | 国立研究開発法人情報通信研究機構 | 対話システム及びそのためのコンピュータプログラム |
| JP2022086279A (ja) * | 2020-11-30 | 2022-06-09 | 株式会社コトバデザイン | プログラム、方法、情報処理装置、及びシステム |
| JP7299538B1 (ja) * | 2022-02-24 | 2023-06-28 | 富士通クライアントコンピューティング株式会社 | 情報処理装置及びプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6776462B2 (ja) | 会議能力を有する自動アシスタント | |
| JP6980074B2 (ja) | メッセージ分類に基づくメッセージ交換スレッドの自動的拡張 | |
| JP3472194B2 (ja) | 自動応答方法及びその装置並びにそのプログラムを記録した媒体 | |
| KR20210013193A (ko) | 로컬 텍스트-응답 맵을 활용하여 사용자의 음성 발화에 대한 응답 렌더링 | |
| JP6233798B2 (ja) | データを変換する装置及び方法 | |
| CN112818109B (zh) | 邮件的智能回复方法、介质、装置和计算设备 | |
| Kafle et al. | Predicting the understandability of imperfect english captions for people who are deaf or hard of hearing | |
| US20230394246A1 (en) | Open input empathy interaction | |
| WO2019031268A1 (ja) | 情報処理装置、及び情報処理方法 | |
| CN112307754A (zh) | 语句获取方法及装置 | |
| JP4250938B2 (ja) | コミュニケーション支援方法およびコミュニケーションサーバ | |
| CN111490929B (zh) | 视频片段推送方法、装置、电子设备、存储介质 | |
| CN117688145A (zh) | 用于问答交互的方法、装置和智能设备 | |
| JP7629254B1 (ja) | 情報処理システム、情報処理方法及びプログラム | |
| JP2022175923A (ja) | コンテンツ再生方法、及びコンテンツ再生システム | |
| CN113822062A (zh) | 文本数据处理方法、装置、设备及可读存储介质 | |
| WO2025094322A1 (ja) | 評価装置および評価方法 | |
| JP5685014B2 (ja) | ディスカッション健全度算出装置 | |
| JP2022043901A (ja) | 対話システム、対話ロボット、プログラム、および情報処理方法 | |
| JP7671668B2 (ja) | 会話管理システム及び会話管理方法 | |
| JP7584567B1 (ja) | 情報処理システム、情報処理装置、情報処理方法、およびプログラム | |
| JP7741721B2 (ja) | 応答文生成装置及びプログラム | |
| TWI725535B (zh) | 語音互動探知使用者行為與屬性特徵之方法 | |
| WO2023234128A1 (ja) | 対話管理装置、対話管理方法及び対話管理システム | |
| CN119884644A (zh) | 数字人的控制方法、装置、设备以及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23957650 Country of ref document: EP Kind code of ref document: A1 |