WO2023153036A1 - 情報処理装置、情報処理方法、プログラム、及び情報処理システム - Google Patents
情報処理装置、情報処理方法、プログラム、及び情報処理システム Download PDFInfo
- Publication number
- WO2023153036A1 WO2023153036A1 PCT/JP2022/042033 JP2022042033W WO2023153036A1 WO 2023153036 A1 WO2023153036 A1 WO 2023153036A1 JP 2022042033 W JP2022042033 W JP 2022042033W WO 2023153036 A1 WO2023153036 A1 WO 2023153036A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image data
- work
- series
- worker
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06398—Performance of employee with respect to a job function
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
Definitions
- the present disclosure relates to an information processing device, an information processing method, a program, and an information processing system.
- Patent Literature 1 discloses an example of a learning support system that assists engineers in efficiently learning techniques.
- the present invention proposes a technology that can support skill transfer in a more suitable manner.
- the information processing apparatus divides first image data of a series of moving images according to the imaging results of the execution status of a series of tasks by each of a plurality of workers classified into a plurality of groups different from each other. Common work among workers belonging to a common group based on machine learning using second image data of partial moving images corresponding to each work unit constituting the series of work as learning data. Differences in feature amounts between the plurality of second image data corresponding to the units become smaller, and between the plurality of the second image data corresponding to the common work unit between workers belonging to different groups.
- a first model construction means for constructing a first trained model by learning a feature amount space relating to the relationship between a plurality of image data so that the difference between the feature amounts of the evaluation target and Based on the first image data of a series of moving images according to the imaging result of the implementation status of the series of work by the first worker and the first learned model, the series of work performed by the worker Work proficiency is evaluated.
- the series of work performed by the worker Work proficiency is evaluated.
- FIG. 4 is a diagram showing an example of processing of the model construction device;
- FIG. 10 is a diagram showing an example of a result of dividing a work moving image into input unit moving images;
- FIG. 10 is a diagram showing an example of a result of labeling work videos;
- FIG. 4 is a diagram showing an example of processing of the model construction device;
- FIG. 10 is a diagram for explaining an example of processing related to construction of a skill level evaluation model; It is the figure which showed an example of the process of an evaluation apparatus.
- FIG. 10 is a diagram showing an example of a result of dividing a work moving image into work unit moving images; It is the figure which showed an example of the process of an evaluation apparatus.
- FIG. 10 is a diagram showing an example of a method of calculating an evaluation value related to proficiency;
- FIG. 10 is a diagram showing another example of a method of calculating an evaluation value related to proficiency;
- FIG. 10 is a diagram showing an example of a proficiency evaluation method for a series of tasks;
- FIG. 10 is a diagram showing an example of a method of outputting information according to the extraction result of a different area;
- An information processing system 1 includes a model construction device 110 , an evaluation device 150 , one or more terminal devices 200 , and one or more imaging devices 310 .
- Terminal devices 200a and 200b illustrated in FIG. 1 are examples of the terminal device 200, respectively. In the following description, the terminal devices 200a and 200b will simply be referred to as the terminal device 200 when they are not particularly distinguished from each other.
- Imaging devices 310 a and 310 b illustrated in FIG. 1 each represent an example of the imaging device 310 .
- An imaging device 310a schematically represents an imaging device supported by the wearable device 300 (for example, a glasses-type device or the like) used while being worn by the user U1.
- an imaging device 310b schematically indicates an imaging device (for example, an imaging device installed at a predetermined position) installed so as to capture an image of the user U1 from a third-person perspective. Note that in the following description, the imaging devices 310a and 310b are simply referred to as the imaging device 310 when they are not particularly distinguished from each other.
- the imaging device 310 captures an image of the surroundings of the target user U1, and outputs data of an image (for example, a still image or a moving image) according to the imaging result to a predetermined output destination.
- the imaging device 310 is not particularly limited in its installation position, installation method, etc., as long as it can capture an image of the surroundings of the target user U1. It may be changed as appropriate according to the characteristics of the work performed by the user U1.
- the imaging device 310a shown in FIG. 1 is supported by the wearable device 300 and used while the wearable device 300 is attached to the user U1. With such a configuration, for example, it is possible to obtain a so-called first-person viewpoint image in which the direction in which the user U1 is looking is captured.
- the imaging device 310b shown in FIG. 1 is used while being installed at a predetermined position, for example. With such a configuration, for example, it is possible to image the user U1 and the circumstances around the user U1 from a third-person perspective.
- the number of imaging devices 310 is not limited to one, and a plurality of devices may be used. In this embodiment, in order to make the features of the information processing system 1 easier to understand, it is assumed that the number of imaging devices 310 is one.
- the model construction device 110, the evaluation device 150, the terminal device 200, and the imaging device 310 are connected to each other via a network N1 so that information can be sent and received.
- the type of network N1 is not particularly limited.
- the network N1 may be configured by the Internet, a leased line, a LAN (Local Area Network), a WAN (Wide Area Network), or the like.
- the network N1 may be configured by a wired network, or may be configured by a wireless network such as a network based on communication standards such as 5G, LTE (Long Term Evolution), and Wi-Fi (registered trademark).
- the network N1 may include a plurality of networks, and a network of a different type from other networks may be applied as a part of the network. Moreover, it is sufficient that the communication between the various information processing devices described above is logically established, and physically, the communication between the various information processing devices may be relayed by another communication device or the like.
- the terminal device 200 serves as an interface for accepting inputs (for example, various instructions) from the user and presenting various information (for example, feedback) to the user.
- the terminal device 200 receives data from the model construction device 110 and the evaluation device 150, which will be described later, via a network, and outputs information based on the data via a predetermined output device (for example, a display, etc.). may be presented to the user.
- the terminal device 200 recognizes an instruction from the user based on an operation received from the user via a predetermined input device (for example, a touch panel), and constructs a model of information corresponding to the instruction via the network. You may transmit to the apparatus 110 or the evaluation apparatus 150.
- the model construction device 110 and the evaluation device 150 can recognize instructions from the user and execute processing according to the instructions.
- the terminal device 200 can be realized by an information processing device having a communication function such as a so-called smart phone, a tablet terminal, a PC (Personal Computer), or the like.
- Each of the model construction device 110 and the evaluation device 150 is realized by a so-called server device, and provides various functions related to evaluation of the skill level of the worker to be evaluated for a predetermined task.
- the subject of proficiency evaluation can be appropriately set according to the characteristics of the work, the subject of analysis, the criteria for evaluation, and the like.
- work safety self-safety, safety of others, etc.
- work speed work speed
- work quality product processing accuracy, sorting accuracy, etc.
- the model construction device 110 executes various processes related to construction of a so-called learned model such as a recognizer, classifier, etc. based on so-called machine learning.
- the model building apparatus 110 creates a moving image corresponding to the imaging result of the state of execution of a series of tasks, for each task (hereinafter also referred to as a task unit) that constitutes the series of tasks.
- the learned model is also referred to as a "work moving image division model" for convenience.
- the work moving image division model determines which work unit's execution status the scene captured in the moving image represents. It is a trained model that makes inferences and outputs information according to the results of the inferences.
- the work moving image division model corresponds to an example of the "second learned model”.
- the model construction device 110 also executes processing related to construction of a learned model that is used to evaluate the skill level of the work performed by the worker to be evaluated.
- the learned model is also referred to as a "skill level evaluation model" for convenience.
- the proficiency level evaluation model is constructed based on the learning result of the feature amount space regarding the relationship between the image data of the moving image corresponding to the imaging result of the work execution status of each worker.
- a proficiency evaluation model for example, it is possible to evaluate which group of workers (for example, skilled workers or unskilled workers) the worker to be evaluated belongs to, It is possible to evaluate (for example, quantitatively) the difference in work performance between workers.
- the proficiency level evaluation model corresponds to an example of a "first trained model”. Also, the worker to be evaluated corresponds to an example of the “first worker”. The details of the characteristics of the moving image segmentation model and the skill level evaluation model, and the processing related to construction of these models by the model construction device 110 will be described separately later.
- the evaluation device 150 uses the learned model constructed by the model construction device 110 to perform various judgments and evaluations. Specifically, the evaluation device 150 according to the present embodiment acquires image data of a moving image corresponding to the imaging result of the execution status of a series of tasks by the worker to be evaluated, and acquires the image data and skill level evaluation. Using the model, the skill level of the worker for the work is evaluated. Also, at this time, the evaluation device 150 divides the moving image corresponding to the acquired image data into partial moving images for each work unit constituting a series of work captured in the moving image, The skill level for each work unit may be evaluated based on the divided image data of the moving image. In addition, the evaluation device 150 may use a work moving image division model when dividing the moving image indicated by the acquired image data into partial moving images for each work unit. Details of the processing of the evaluation device 150 will be described separately later.
- the configuration shown in FIG. 1 is merely an example, and does not necessarily limit the system configuration of the information processing system 1 according to this embodiment.
- the model construction device 110 and the evaluation device 150 may be configured integrally.
- the model construction device 110 and the evaluation device 150 may serve as the terminal device 200 .
- a server device corresponding to the model construction device 110 and the evaluation device 150 may receive input of various information from the user, and may present various information to the user.
- components corresponding to the model construction device 110 and the evaluation device 150 may be realized by a plurality of devices working together.
- components corresponding to the model building device 110 and the evaluation device 150 may be realized as a so-called cloud service. In this case, the cloud service may be realized by cooperation of a plurality of server devices.
- the information processing device 900 includes a CPU (Central Processing Unit) 910 , a ROM (Read Only Memory) 920 , a RAM (Random Access Memory) 930 , an auxiliary storage device 940 and a network I/F 970 .
- the information processing device 900 may also include at least one of an output device 950 and an input device 960 .
- CPU 910 , ROM 920 , RAM 930 , auxiliary storage device 940 , output device 950 , input device 960 and network I/F 970 are interconnected via bus 980 .
- the CPU 910 is a central processing unit that controls various operations of the information processing device 900 .
- the CPU 910 may control the operation of the information processing device 900 as a whole.
- the ROM 920 stores a control program, a boot program, and the like that can be executed by the CPU 910 .
- a RAM 930 is a main memory of the CPU 910 and is used as a work area or a temporary storage area for developing various programs.
- the auxiliary storage device 940 stores various data and various programs.
- Auxiliary storage device 940 is realized by a storage device capable of temporarily or permanently storing various data, such as a non-volatile memory represented by HDD (Hard Disk Drive) and SSD (Solid State Drive). .
- the output device 950 is a device that outputs various information, and is used to present various information to the user.
- the output device 950 may be realized by a display device such as a display, and may present information to the user by displaying various display information.
- the output device 950 is realized by an acoustic output device that outputs sounds such as voice and electronic sounds, and presents information to the user by outputting sounds such as voice and electronic sounds. good too. In this way, the device applied as the output device 950 may be appropriately changed according to the medium used for presenting information to the user.
- the output device 950 corresponds to an example of an “output unit” used to present various types of information.
- the input device 960 is used to receive various instructions from the user.
- input device 960 may include input devices such as a mouse, keyboard, and touch panel.
- the input device 960 may include a sound collecting device such as a microphone, and may collect sound uttered by the user.
- various types of analysis processing such as acoustic analysis and natural language processing may be performed on the collected sound, so that the content indicated by the sound may be recognized as an instruction from the user.
- the device applied as the input device 960 may be appropriately changed according to the method of recognizing instructions from the user.
- multiple types of devices may be applied as the input device 960 .
- the network I/F 970 is used for communication with external devices via the network. Note that the device applied as the network I/F 970 may be appropriately changed according to the type of communication path and the applied communication method.
- the program for the information processing device 900 may be provided to the information processing device 900 via a recording medium such as a CD-ROM, or may be downloaded via a network or the like.
- a recording medium such as a CD-ROM
- the program recorded on the recording medium is installed in the auxiliary storage device 940 by setting the recording medium in a predetermined drive device.
- the configuration shown in FIG. 2 is merely an example, and does not necessarily limit the hardware configuration of the information processing apparatus that constitutes the information processing system 1 according to this embodiment. As a specific example, some components such as the input device 960 and the output device 950 may not be included. Further, as another example, a configuration corresponding to the functions realized by the information processing apparatus 900 may be added as appropriate.
- Model construction device 110 includes communication unit 111 , input/output control unit 112 , model construction unit 113 , and storage unit 117 .
- the communication unit 111 is a communication interface for each component of the model construction device 110 to transmit and receive information to and from other devices (for example, the terminal device 200, the imaging device 310, the evaluation device 150, etc.) via the network N1.
- the communication unit 111 can be realized by the network I/F 970, for example.
- the information is transmitted and received via the communication unit 111 unless otherwise specified. shall be performed.
- a storage unit 117 schematically shows a storage area for storing various data, various programs, and the like.
- the storage unit 117 may store data and programs for each component of the model construction device 110 to execute processing.
- the storage unit 117 may store data (eg, teacher data) used for constructing various learned models (eg, work movie division model, proficiency level evaluation model, etc.).
- the storage unit 117 may store data generated in the process of constructing various learned models, or may store data of constructed various learned models.
- the input/output control unit 112 executes various processes related to presenting various types of information to the user (eg, administrator) and accepting input of information (eg, instructions, etc.) from the user.
- the input/output control unit 112 may execute processing related to presentation of a predetermined UI (User Interface) via the terminal device 200 and processing related to acceptance of input via the UI.
- UI User Interface
- the model construction device 110 can recognize an instruction from the user and present the user with the result of processing according to the instruction.
- the model construction unit 113 executes processing related to construction of learned models such as the above-described work video division model and skill level evaluation model.
- the model building unit 113 includes a labeling processing unit 114 , a work moving image division model building unit 115 , and a skill level evaluation model building unit 116 .
- the labeling processing unit 114 associates the information indicated by the target data (for example, image data of a moving image) with the information indicated by the data as supplementary information.
- the labeling processing unit 114 labels target data with information indicating the data.
- the labeling processing unit 114 attaches information indicating the work (for example, information indicating the unit of work) to the image data of the moving image corresponding to the imaging result of the execution status of the work as supplementary information. may be associated.
- the labeling processor 114 may associate a specified label (for example, information indicating a work unit) with the target image data according to an instruction from the administrator.
- Data associated with additional information by the labeling processing unit 114 (that is, labeled data) is used, for example, as teacher data for constructing a trained model.
- the work video segmentation model construction unit 115 is based on supervised machine learning using image data of a video image labeled with information indicating the work performed by the worker captured as the subject as training data. Execute processing related to construction of a work moving image division model. Specifically, the work moving image division model building unit 115 inputs image data of a moving image to the work moving image division model, and outputs information output as a result of inference from the work moving image division model, and labeling processing. The result of labeling of the image data by the unit 114 is compared.
- the work moving image segmentation model construction unit 115 sets parameters of the work moving image segmentation model so that the information output from the work moving image segmentation model as a result of inference is closer to the labeling result by the labeling processing unit 114. (e.g. parameters related to unit of work inference).
- the work moving image division model constructed by the work moving image division model construction unit 115 is used for dividing the image data of the moving image by the evaluation device 150, which will be described later.
- the evaluation device 150 can refer to the work video segmentation model built by the work video segmentation model construction unit 115, the position where the data of the work video segmentation model is arranged and the method of embedding the work video segmentation model. etc. is not particularly limited.
- the data of the moving image segmentation model constructed by the moving image segmentation model constructing unit 115 may be transmitted to the evaluation device 150 via the network N1 and stored in the storage unit 157 of the evaluation device 150. good.
- the work moving image division model can be stored in the storage unit 157 of the evaluation device 150 using the recording medium. Data for the model may be stored.
- the evaluation device 150 may refer to a work moving image division model stored as data in a storage area of another device by accessing the other device via the network N1.
- the data of the work moving image division model may be stored in the storage unit 117 of the model construction device 110 (corresponding to an example of another device different from the evaluation device 150), network storage, database system, or the like. may be stored in a storage area of another device configured as
- the work moving image division model may be used for dividing the image data of the target moving image when building the skill level evaluation model by the skill level evaluation model construction unit 116, which will be described later.
- the proficiency evaluation model construction unit 116 executes processing related to construction of a proficiency evaluation model based on machine learning, also called metric learning. Specifically, the proficiency level evaluation model uses image data of moving images corresponding to the imaging results of the execution status of work (work unit) by each worker as learning data, and relates to the relationship between a plurality of such image data. It is constructed based on the learning result of the feature amount space. At this time, the skill level evaluation model construction unit 116 divides the skill level of the workers belonging to the common group so that the difference in the feature amount between the plurality of image data corresponding to the common work unit becomes smaller. Build an evaluation model.
- the skill level evaluation model construction unit 116 calculates the skill level of workers belonging to different groups so that the difference in feature amount between a plurality of pieces of image data corresponding to a common work unit becomes greater. Build an evaluation model. As a result, for example, between a plurality of image data corresponding to the imaging result of the execution status of common work by each of a plurality of workers corresponding to skilled workers, each image data is input and output from the skill evaluation model. The difference in feature amount (in other words, feature amount vector) becomes smaller. In addition, even among a plurality of image data corresponding to imaging results of the execution status of common work performed by a common worker, the difference in the feature amount output from the skill level evaluation model using each image data as input becomes smaller.
- each image data is input.
- the difference in the feature quantity output from the skill level evaluation model becomes larger.
- the skill level evaluation model built by the skill level evaluation model construction unit 116 is used to evaluate the skill level of the worker to be evaluated for various tasks by the evaluation device 150, which will be described later. Note that if the evaluation device 150 can refer to the skill level evaluation model constructed by the skill level evaluation model construction unit 116, the position where the data of the skill level evaluation model is arranged and the incorporation of the work video division model are determined. The method and the like are not particularly limited. Since this is the same as the case of the work moving image division model described above, detailed description is omitted.
- Evaluation device 150 includes communication unit 151 , input/output control unit 152 , division processing unit 153 , evaluation processing unit 154 , contribution rate calculation unit 155 , image processing unit 156 , and storage unit 157 .
- the communication unit 151 is a communication interface for each component of the evaluation device 150 to transmit and receive information to and from other devices (eg, the terminal device 200, the imaging device 310, and the model building device 110) via the network N1.
- the communication unit 111 can be realized by the network I/F 970, for example.
- the information is transmitted and received via the communication unit 151 unless otherwise specified. shall be
- a storage unit 157 schematically shows a storage area for storing various data, various programs, and the like.
- the storage unit 157 may store data and programs for each component of the evaluation device 150 to execute processing.
- the storage unit 157 may store image data of a moving image according to the imaging result of the imaging device 310 .
- the storage unit 157 may store data of a learned model (for example, a work video segmentation model, a proficiency level evaluation model, etc.) constructed based on machine learning by the model construction device 110 .
- the storage unit 117 may store data generated in the process of evaluating the work skill level of the worker to be evaluated, or may store information according to the result of the evaluation. good.
- the input/output control unit 152 executes various processes related to presenting various types of information to the user (eg, administrator) and accepting input of information (eg, instructions, etc.) from the user.
- the input/output control unit 152 may execute processing related to presentation of a predetermined UI (User Interface) via the terminal device 200 and processing related to acceptance of input via the UI.
- UI User Interface
- the evaluation device 150 can recognize an instruction from the user and present the user with the result of processing according to the instruction.
- the division processing unit 153 divides the image data of the moving image corresponding to the imaging result of the implementation status of the series of work into image data for each work unit constituting the series of work. At this time, the division processing unit 153 uses the work moving image division model built by the work moving image division model construction unit 115 described above to divide the image data of the moving image according to the imaging result of the execution status of the series of work. You may By dividing the image data of the moving image as described above, for example, among the image data of the moving image corresponding to the imaging result of the implementation status of a series of tasks, the image data corresponding to the implementation status of a desired unit of work can be divided. It is also possible to extract image data of moving images.
- the image data of the moving image corresponding to the imaging result of the execution status of a series of tasks corresponds to an example of the "first image data”.
- the image data for each work unit divided from the image data of 1 corresponds to an example of the "second image data”.
- the evaluation processing unit 154 combines the image data of the moving image corresponding to the result of capturing the execution status of a series of tasks by the worker to be evaluated, and the skill evaluation model constructed by the skill evaluation model construction unit 116 described above. Evaluate the skill level of the worker for the series of work based on As a specific example, the evaluation processing unit 154 calculates the feature amount of the corresponding image data between the worker to be evaluated and the worker (for example, a skilled worker) to be evaluated as a reference. Based on the positional relationship in space, the skill level of the operator to be evaluated for a series of tasks may be evaluated.
- the evaluation processing unit 154 determines whether the feature amount of the image data corresponding to the worker to be evaluated is closer to the feature amount corresponding to the worker belonging to which group in the feature amount space.
- the skill level of the operator to be evaluated may be evaluated with respect to a series of tasks.
- the evaluation processing unit 154 may evaluate the skill level of the worker to be evaluated for each work unit, or may evaluate the entire series of work including the series of work units based on the evaluation results of each of the series of work units. may be evaluated for the skill level of the worker to be evaluated.
- An example of processing related to evaluation of the skill level of a series of tasks of a worker to be evaluated by the evaluation processing unit 154 will be described later in detail.
- the contribution rate calculation unit 155 calculates the The contribution ratio to the evaluation in each area (in particular, the contribution ratio to the output of the proficiency level evaluation model that is the factor of the evaluation) is calculated.
- the contribution rate to the evaluation when the inexperienced workers are evaluated as unskilled workers and the skilled workers are evaluated as unskilled workers. shall be calculated.
- the contribution rate calculation unit 155 determines that a portion with different motions (for example, a portion showing a different bit value in a still image) between the inexperienced person and the expert person contributes to the above evaluation. Based on the determination of , the contribution rate of each part of the target image may be calculated.
- inexperienced workers are defined as workers to be evaluated, and skilled workers are defined as workers to be evaluated.
- a contribution rate shall be calculated.
- the contribution rate calculation unit 155 determines that a portion where motion is more similar between the inexperienced person and the expert person (for example, a portion showing a more approximate bit value in the still image) contributes to the above evaluation. Based on the determination that the image is included, the contribution rate of each part of the target image may be calculated.
- a known technique such as a technique called Gradient-weighted Class Activation Mapping (GradCAM).
- the image processing unit 156 performs various types of image processing on the target image. For example, the image processing unit 156 may superimpose information according to the calculation result of the contribution rate by the contribution rate calculation unit 155 on the image processed by the contribution rate calculation unit 155 . As a more specific example, the image processing unit 156 superimposes the calculation result of the contribution rate on the area in the image from which the contribution rate is calculated by the contribution calculation unit 155 so as to be identifiable. In addition, image processing may be performed on the image. Then, the image processing unit 156 outputs information according to the image processing result to a predetermined output destination. For example, the image processing unit 156 may output the image after image processing to the input/output control unit 152 . As a result, the input/output control unit 152 can present the image to the user (for example, the administrator) by displaying the image after the image processing in a predetermined area on the UI.
- the input/output control unit 152 can present the image to the user (for example, the administrator) by displaying the
- the functional configuration of the information processing system 1 (in particular, the functional configurations of the model construction device 110 and the evaluation device 150) is not necessarily limited to the example shown in FIG.
- a series of components of the model construction device 110 may be realized by multiple devices working together.
- some of the components of the model construction device 110 may be externally attached to the model construction device 110 .
- the load associated with the processing of at least some of the components of the model construction device 110 may be distributed among multiple devices. These are the same for the evaluation device 150 as well.
- the model construction device 110 and the evaluation device 150 may be configured integrally. That is, a series of components of each of the model construction device 110 and the evaluation device 150 may be realized as components of a common server device.
- a preprocessing stage related to construction of a trained model executed by the model construction device 110 and a constructed trained model executed by the evaluation device 150 are used. Each will be described separately from the main processing stage related to evaluation.
- FIG. 4 is a diagram showing an example of processing related to construction of a work moving image division model by the model construction device 110. As shown in FIG.
- the model building device 110 generates moving images indicated by image data (so-called sample data) used for building a work moving image division model for each predetermined period (for example, every fixed number of frames) along the time series.
- image data for example, every fixed number of frames
- the image is divided into partial moving images, and image data is generated for each partial moving image.
- a moving image before division is also referred to as a "work moving image”
- a partial moving image for each predetermined period divided from the working moving image is also referred to as an "input unit moving image”.
- FIG. 5 shows an example of dividing a work moving image into input unit moving images.
- D102 shown in FIG. 4 indicates image data of each of a series of input unit moving images divided from the work moving image in S101.
- the model construction device 110 inputs the image data D102 of each of the series of input unit moving images divided from the working moving image in S101 into the working moving image division model.
- the work moving image division model it is possible to infer which work unit the execution status of which scene captured in the input unit moving image represents the image data D102 of each of the series of input unit moving images divided from the working moving image.
- Information indicating the result is output.
- the work moving image division model may output information indicating the inference result of which work unit the execution status of the scene captured in the frame represents for each frame that constitutes the input unit moving image. good.
- D104 is an input unit labeled with information according to the inference result by the work moving image division model, that is, information according to the inference result of the work unit indicated by the scene captured in the input unit moving image for the input unit moving image.
- the image data of a moving image are shown typically.
- the model building device 110 determines the execution status of which work unit the scene captured in the input unit moving image indicated by the image data is for the image data input to the work moving image division model.
- Information indicating the correct answer (hereinafter also referred to as correct answer information) is labeled.
- the labeling process in other words, the process of annotating the image data of the input unit moving image is performed based on an instruction from the administrator, for example.
- D105 schematically shows the image data of the input unit moving image labeled with correct information. Further, the image data D105 of the input unit moving image labeled with the correct information corresponds to an example of teacher data for supervised learning related to construction of the work moving image division model.
- FIG. 6 shows an example of the result of labeling (the result of annotating) of the work moving image from which the input unit moving image is divided.
- the example shown in FIG. 6 shows an example of the result of the labeling process for a series of work videos related to the assembly of a PC (Personal Computer).
- a series of work relating to the assembly of a PC includes work of "board mounting", “CPU mounting”, “memory mounting”, and "SATA cable connection" as work units.
- the length of the work video and the length of the work unit video may differ for each video even in a situation where similar work is being performed.
- the model construction device 110 performs the work for the correct information based on the image data D104 of the input unit video labeled with the inference result by the work video division model and the image data D105 labeled with the correct information. Calculate the deviation of the inference by the video segmentation model.
- the model construction device 110 applies a so-called loss function to the image data D104 and D105 to determine the magnitude of the difference between the correct information and the result of inference by the working video segmentation model (i.e., Loss ) may be calculated.
- the model construction device 110 updates the work video segmentation model based on the deviation of the inference result of the work video segmentation model with respect to the correct information calculated in S106. Specifically, the model building device 110 updates the parameters of the work moving image division model (that is, the parameters related to the work unit inference) so that the inference result of the work moving image division model approaches the correct information.
- the model construction device 110 determines whether or not the termination condition is satisfied.
- the model construction device 110 converts the image data of the series of input unit moving images (for example, the image data of each of the series of input unit moving images divided from the work moving image in S101) into the It may be determined that the termination condition is satisfied when the target is selected. If the model construction device 110 determines in S108 that the end condition is not satisfied, the process proceeds to S103. In this case, the model construction device 110 executes the processes of S103 to S107 for the image data D102 of the input unit moving image that has not yet been processed. If the model construction device 110 determines in S108 that the termination condition is satisfied, it terminates the series of processes shown in FIG.
- FIG. 7 is a diagram showing an example of processing related to construction of a skill level evaluation model by the model construction device 110. As shown in FIG. 7
- the model construction device 110 extracts a work unit animation from each of the work animations indicated by a series of image data (so-called sample data) used to construct the skill level evaluation model, thereby corresponding to the work unit animation.
- D202 schematically shows the image data of the work unit moving images extracted from the work moving images indicated by each of the M pieces of image data. That is, in the case of the example shown in FIG.
- the work unit moving images extracted from the work moving images respectively indicated by the M pieces of image data 1 to M are also referred to as work unit moving images 1 to M for convenience. That is, the work unit moving image M indicates a work unit moving image extracted from the work moving image indicated by the image data M. Note that the method is not particularly limited as long as the image data of the work unit moving image can be extracted from the image data of the work moving image.
- the image data of the work unit moving image may be generated by extracting the work unit moving image from the work moving image indicated by the desired image data according to an instruction from the user.
- the image data of the work unit moving image may be generated by extracting the work unit moving image from the work moving image indicated by the desired image data according to an instruction from the user.
- the image data of the work unit moving image may be generated by extracting the work unit moving image from the work moving image indicated by the desired image data according to an instruction from the user.
- the work animation division model constructed by the processing shown in FIG. image data of the work unit moving image corresponding to .
- the model construction device 110 extracts frames to be input to the skill level evaluation model from each of the task unit videos 1 to M corresponding to the common task unit. At this time, the model construction device 110 selects a predetermined number from each of the work unit videos 1 to M so that the input dimension (in other words, the number of frames) to the skill level evaluation model is fixed between the work unit videos 1 to M. A number of frames may be extracted. In this case, the model construction device 110 may control the interval between frames to be extracted in order to extract a predetermined number of frames from each of the work unit moving images 1 to M. Specifically, each of the work unit moving images 1 to M does not necessarily have the same number of frames (in other words, the length of the moving image).
- the model construction device 110 performs control so that the larger the number of frames in the work unit video, the wider the interval between the frames to be extracted. may be extracted.
- the model construction device 110 may extract a total of 10 frames by extracting a frame every three frames.
- the model construction device 110 may extract a total of 10 frames by extracting a frame every two frames. good.
- the model construction device 110 inputs image data corresponding to a series of frames extracted from each of the work unit videos 1 to M to the skill level evaluation model.
- the skill level evaluation model outputs information (hereinafter also referred to as a feature amount vector D205) indicating the position in the feature amount space corresponding to the feature amount of each of the work unit moving images 1 to M, respectively. be done.
- the model construction device 110 calculates the difference between each feature amount vector D205 output from the skill level evaluation model for each of the work unit videos 1 to M.
- the model construction device 110 uses a so-called loss function to calculate the magnitude (loss) of deviation between the feature vector D205 corresponding to each of the work unit moving images 1 to M as the difference.
- the model construction device 110 updates the skill level evaluation model used to derive the feature vector D205 in S204 based on the difference between the feature vector D205 corresponding to each of the work unit moving images 1 to M calculated in S206. do. Specifically, as described above, the model construction device 110 reduces the difference between the feature amount vectors D205 between workers belonging to a common group based on machine learning, also called metric learning, and The skill level evaluation model is updated so that the difference between the feature amount vectors D205 among the workers belonging to .
- machine learning also called metric learning
- FIG. 8 is an explanatory diagram for explaining an example of processing related to construction of a skill level evaluation model.
- similarly shaped markers schematically represent positions in the feature amount space corresponding to feature amounts extracted from samples belonging to the same group (for example, feature amount vectors D205 corresponding to workers belonging to the same group). clearly shown.
- the diagram on the left schematically shows the state of the feature amount space of the input data before learning by metric learning is performed.
- the diagram on the right side schematically shows the state of the feature amount space after learning by metric learning is performed.
- the positions of each sample in the feature space are randomly scattered regardless of the group to which the sample belongs.
- the model construction device 110 constructs the feature amount space so that the difference between the feature amount vectors becomes smaller between the samples belonging to the common group and the difference between the feature amount vectors becomes larger between the samples belonging to different groups.
- the proficiency evaluation model is updated. It should be noted that a method called stochastic gradient descent, for example, can be applied to update the proficiency level evaluation model as exemplified above.
- the model construction device 110 determines whether or not the termination condition is satisfied.
- the model construction device 110 sets a series of work unit moving images extracted from the work moving images indicated by the target image data (sample data) as the target of the processing of S203 to S207. may be determined to be satisfied. If the model construction device 110 determines in S208 that the end condition is not satisfied, the process proceeds to S203. In this case, the model construction device 110 executes the processes of S203 to S207 for the image data D102 of the input unit moving image that has not yet been processed. If the model construction device 110 determines in S208 that the termination condition is satisfied, it terminates the series of processes shown in FIG.
- FIG. 9 is a diagram showing an example of processing related to division of a work animation from a work animation using the work animation division model by the evaluation device 150 .
- the evaluation device 150 acquires the image data D301 to be processed, and in S302 divides the work moving image indicated by the image data D301 into input unit moving images for each predetermined period (for example, a predetermined number of frames).
- D303 indicates image data of each of a series of input unit moving images divided from the work moving image in S302.
- the evaluation device 150 sequentially extracts the image data D303 of each of the series of input unit moving images divided from the work moving image in S302, and inputs them to the work moving image division model.
- the scene captured in the input unit moving image indicates the execution status of any work unit.
- Information indicating the inference result is output.
- D305 is an input unit labeled with information according to the inference result by the work moving image division model, that is, information according to the inference result of the work unit indicated by the scene captured in the input unit moving image for the input unit moving image.
- the image data of a moving image are shown typically. Accordingly, by chronologically assembling a series of input unit moving images labeled with information indicating a common work unit, it is possible to generate a work unit moving image corresponding to the work unit.
- FIG. 10 is a diagram showing an example of the result of processing relating to the division of a work video into work unit videos using the work video division model.
- 4 shows an example of a processing result in the case of image data of a working moving image corresponding to the .
- Information indicating the corresponding work unit is output as an inference result for the unit moving image.
- the scene captured in the two input unit videos that are consecutive in time series represents the work situation of "mounting the board”.
- the result is printed. Therefore, in this case, the moving image obtained by combining the two input unit moving images in chronological order becomes the work unit moving image corresponding to "board mounting".
- This is also the case for the unit of work designated as "memory attach”.
- the work corresponding to each of "board installation”, “CPU installation”, and “memory installation” is obtained from the image data of the work video corresponding to the imaging result of the implementation status of a series of work related to the assembly of the PC. It becomes possible to divide and extract a unit moving image.
- the evaluation device 150 determines whether or not up to the last input unit moving image of the series of input unit moving images divided from the work moving image in S302 has been subjected to the processing of S304. If the evaluation apparatus 150 determines in S306 that the last input unit moving image is not to be processed in S304, the process proceeds to S304. In this case, the evaluation device 150 executes the process of S304 for the image data D303 of the input unit moving image that has not yet been processed. Then, when the evaluation apparatus 150 determines in S306 that the last input unit moving image has been subjected to the processing of S304, the series of processes shown in FIG. 9 ends.
- FIG. 11 is a diagram showing an example of processing related to evaluation of a skill level of a worker for a predetermined work using a skill level evaluation model by the evaluation device 150.
- FIG. 11 shows that a worker to be evaluated is set in advance as an evaluation standard, and then the performance status of each worker to be evaluated is compared with that of the worker to be evaluated. It shows an example of evaluating a worker's proficiency level for the work.
- the evaluation criterion for example, a worker corresponding to a skilled worker may be set. Note that the worker used as the evaluation criterion corresponds to an example of the “second worker”.
- the evaluation device 150 acquires image data of a work moving image corresponding to the result of capturing the execution status of a series of work performed by a worker to be evaluated, and performs the processing of S402 to S405 and the processing of S408 to S409 on the image data. , and then the processing of S411 to S412 is executed. Therefore, hereinafter, the processing of S402 to S405 and the processing of S408 to S409 will be described respectively, and then the processing of S411 to S412 will be described.
- the processing of S402 to S405 relates to the derivation of a feature amount vector (that is, the position in the feature amount space) for the image data of the work moving image corresponding to the imaging result of the work execution status of the worker to be evaluated.
- a feature amount vector that is, the position in the feature amount space
- An example of processing is shown.
- the evaluation device 150 acquires the image data D401 of the work animation of the worker to be evaluated, and in S402 divides the work animation indicated by the image data D401 into work unit animations. Then, the evaluation device 150 extracts the image data D403 of the work unit moving image corresponding to the work unit to be evaluated from among the image data corresponding to each of the series of work unit moving images divided from the work moving image. In the example shown in FIG. 11, it is assumed that the work unit A is targeted and the skill level of the worker to be evaluated for the work unit A is evaluated. Therefore, in the example shown in FIG. 11, the evaluation device 150 extracts the image data D403 of the work unit moving image corresponding to the work unit A based on the result of the process of S402.
- the evaluation device 150 extracts frames to be input to the skill level evaluation model from the work unit moving image of the work unit A indicated by the extracted image data D403. At this time, the evaluation device 150 may extract a predetermined number of frames from the work unit moving image A so that the input dimension (in other words, the number of frames) to the skill evaluation model is fixed. In order to extract the frames of , the interval of the frames to be extracted may be controlled. In S405, the evaluation device 150 inputs the image data corresponding to the frames extracted from the work unit moving image of the work unit A in S404 to the skill level evaluation model.
- the processing of S408 and S409 is an example of processing related to the derivation of a feature amount vector for the image data of the work moving image corresponding to the imaging result of the work execution status of the worker serving as the evaluation standard.
- the evaluation device 150 selects the work unit video as the evaluation standard, that is, the work unit video of the work unit A indicated by the image data D407 according to the image data D407 corresponding to the imaging result of the implementation status of the work unit A by the worker as the evaluation standard. , to extract the frames to be input to the proficiency evaluation model.
- the evaluation device 150 extracts a predetermined number of frames from the work unit moving image A so that the input dimension (in other words, the number of frames) to the skill level evaluation model is fixed, as in the process of S404.
- an interval between frames to be extracted may be controlled in order to extract the predetermined number of frames.
- the evaluation device 150 inputs the image data corresponding to the frames extracted from the work unit moving image (work unit moving image of the work unit A) serving as the evaluation standard in S408 to the skill level evaluation model.
- the feature amount of the work unit video as the evaluation standard that is, the feature amount of the work unit video according to the imaging result of the implementation status of the work unit A by the worker as the evaluation standard.
- Information indicating the corresponding position in the feature amount space (hereinafter also referred to as feature amount vector D410) is output. It should be noted that there may be one or a plurality of work unit moving images that serve as evaluation criteria.
- a plurality of work unit animations corresponding to a predetermined worker may be used, or a plurality of workers belonging to a common group (for example, skilled workers) may be used.
- a plurality of workers corresponding to a worker may use a work unit moving image corresponding to each.
- the processing of S411 and S412 shows an example of processing related to the evaluation of the skill level of the work unit A of the worker to be evaluated and the presentation of information according to the result of the evaluation.
- the evaluation device 150 evaluates the skill level of the worker for work unit A based on the feature amount vector D406 corresponding to the worker to be evaluated, which is based on the output from the skill level evaluation model in S405.
- the evaluation processing unit 154 determines the positional relationship in the feature amount space between the feature amount vector D406 corresponding to the worker to be evaluated and the feature amount vector D410 corresponding to the worker to be evaluated. You may calculate the said evaluation value according to.
- FIGS. 12 and 13 a specific example of a method of calculating an evaluation value of the skill level of a worker to be evaluated for a predetermined work will be described.
- FIG. 12 shows an example of a method for calculating an evaluation value relating to .
- the evaluation device 150 evaluates the skill level of a predetermined work (for example, work unit A) of the worker to be evaluated based on the feature amount vector D406 corresponding to the worker to be evaluated. Calculate the evaluation value.
- the evaluation device 150 sets the feature amount space indicated by the feature amount vector D410 corresponding to each of the plurality of workers belonging to the group (for example, the group of skilled workers) serving as the evaluation standard.
- the center of gravity P12 of the middle position is calculated.
- the evaluation device 150 determines the distance (for example, the Euclidean distance , Mahalanobis distance, etc.) L13 is calculated.
- the evaluation device 150 normalizes the calculation result of the distance L13 in the feature amount space between the center of gravity P12 and the position P11 to a value in the range of 0 to 1 using a sigmoid function or the like, and converts the value to 100. and expressed as a score from 0 to 100.
- Equation 1 the sigmoid function used for the above normalization is represented by a relational expression as shown in (Equation 1) below. It should be noted that the parameter a (gain) in (Equation 1) is preferably determined in advance according to the characteristics of the work unit to be evaluated.
- the proficiency level of the worker to be evaluated for the predetermined work is represented by a score of 0 to 100 with 100 points as the upper limit.
- the score related to the degree evaluation will be a higher value than the upper limit of 100 points.
- the longer the distance between the center of gravity P12 and the position P11 the greater the difference in the feature vector between the worker belonging to the evaluation reference group and the worker to be evaluated.
- the score related to the degree evaluation will be a lower value than the lower limit of 0 points.
- a predetermined worker for example, a skilled worker
- an evaluation value for evaluating the skill level of the worker to be evaluated for a predetermined work is calculated.
- An example method is shown.
- the evaluation device 150 corresponds to the position P22 in the feature amount space indicated by the feature amount vector D410 corresponding to the worker (for example, a skilled worker) as the evaluation standard and the worker to be evaluated.
- a distance L23 in the feature amount space between the position P21 in the feature amount space indicated by the feature amount vector D406 indicated by D406 is calculated.
- the evaluation device 150 normalizes the calculation result of the distance L23 in the feature amount space between the position P22 and the position P21 to a value in the range of 0 to 1 by using a sigmoid function or the like. and expressed as a score from 0 to 100. Since the normalization method is substantially the same as the example described with reference to FIG. 12, detailed description thereof will be omitted.
- the proficiency level of the worker to be evaluated for the predetermined work is represented by a score of 0 to 100 with 100 points as the upper limit.
- the longer the distance between the position P22 and the position P21, the greater the difference in feature amount vector between the worker serving as the evaluation reference and the worker to be evaluated. is a lower value than the lower limit of 0 points.
- the evaluation device 150 can, for example, evaluate, for each work unit, the skill level of the worker to be evaluated for the work unit based on the score calculated in S411.
- FIG. 14 is an explanatory diagram for explaining an example of a skill level evaluation method for a series of tasks. showing. Specifically, in the example shown in FIG. 14, the work video used for skill evaluation includes "board installation” and "CPU installation” among a series of work units constituting work related to PC assembly. , and “memory installation” are captured.
- work unit animations corresponding to each of "board installation”, “CPU installation”, and “memory installation” are extracted, and based on the work unit animations, a score for skill evaluation is calculated for each work unit. .
- the evaluation device 150 based on the evaluation results of the proficiency levels of "board installation”, “CPU installation”, and “memory installation”, can determine the entire series of work relating to the assembly of the PC including these work units. It is possible to evaluate the proficiency level regarding
- the evaluation device 150 evaluates the skill level of the worker to be evaluated for a predetermined task, and outputs information according to the evaluation result to a predetermined output destination. For example, the evaluation device 150 transmits information according to the evaluation result of the skill level of the worker to be evaluated for a predetermined work to the terminal device 200 connected via the network, thereby enabling the terminal device 200 to Information according to the result of the evaluation may be presented to the administrator via the system.
- the evaluation device 150 performs work between the evaluation target worker and the evaluation standard worker in the image indicated by the image data used for evaluating the skill level of the evaluation target worker. Areas with different situations are detected as different areas. Specifically, the evaluation device 150 determines the contribution rate to the evaluation of each region in the still image corresponding to each frame of the moving image indicated by the image data used to evaluate the skill level of the worker to be evaluated. Calculate At this time, the evaluation device 150 calculates the contribution rate related to the evaluation of the difference between the output feature amount vectors for each of the worker to be evaluated and the worker to be evaluated as a reference, using the skill level evaluation model.
- the contribution rate it is possible to use a known technique such as GradCAM as described above.
- GradCAM a known technique such as GradCAM as described above.
- the region showing the higher value of the contribution rate is determined by the worker to be evaluated and the evaluation criteria. It is possible to extract an area in which the work execution status differs between the worker and the worker.
- FIG. 15 is a diagram showing an example of an information output method according to the extraction result of the different area.
- the evaluation device 150 superimposes display information V31 indicating the different area at a position corresponding to the different area in the still image from which the different area is extracted.
- the evaluation device 150 displays the display mode ( For example, differences in color, differences in luminance, etc.) may be controlled.
- the display mode For example, differences in color, differences in luminance, etc.
- the evaluation device 150 controls the color of each area of the display information V31 according to the contribution rate calculated for the area.
- the administrator can select the target work among the regions in the image according to the difference in the display mode (for example, the difference in color) of the display information V31 superimposed on the target image.
- An assessment of a person's proficiency makes it possible to identify areas of contribution.
- the image data of each of the series of input unit moving images after division is input to the work moving image division model, whereby the work moving image is divided into the input unit moving images.
- Information indicating the inference result of the work unit is output for the image data of the input unit moving image corresponding to the unit.
- the work situations of "board installation”, “CPU installation”, and “memory installation”, which are the work units of the PC assembly work are imaged.
- Information indicating the corresponding work unit is output as an inference result for the input unit video. That is, in the example shown in FIG. 10, it can be seen that the work units shown as “board mounting”, “CPU mounting”, and “memory mounting” are performed in this order as the PC assembly work.
- the evaluation device 150 may use the characteristics described above to evaluate, for example, whether or not a procedure related to execution of a predetermined work by a worker to be evaluated is a correct procedure. .
- the evaluation device 150 captures the implementation status of a predetermined work for each of a worker to be evaluated (for example, an inexperienced worker) and a worker to be evaluated (for example, a skilled worker).
- the work animation according to the result is divided into work unit animations using the work animation division model.
- the evaluation device 150 reproduces a work unit moving image corresponding to each of a series of work units constituting the work divided from the work moving image between the worker to be evaluated and the worker serving as the evaluation standard.
- the evaluation device 150 attempts to extract differences in the order in which the series of work units are performed between the worker to be evaluated and the worker serving as the evaluation reference. As a result, the evaluation device 150 determines whether the procedure for performing the predetermined work by the worker to be evaluated is correct, depending on whether or not a difference in the order in which each of the series of work units is performed is extracted. It becomes possible to evaluate whether it is a procedure or not. Also, at this time, the evaluation device 150 selects an evaluation target according to the degree of divergence between the work procedure by the worker to be evaluated and the work procedure by the worker as an evaluation criterion. You may evaluate the skill level of the said operation
- the information processing apparatus provides a series of moving images according to imaging results of the execution status of a series of tasks by each of a plurality of workers classified into a plurality of groups different from each other. Based on the machine learning using the second image data of the partial moving image corresponding to each work unit constituting the series of work divided from the first image data of the image as learning data, into a common group Among the workers belonging to each group, the difference in the feature amount between the plurality of second image data corresponding to the common work unit becomes smaller, and among the workers belonging to different groups, the plurality of second image data corresponding to the common work unit becomes smaller.
- a first trained model is constructed by learning a feature amount space relating to the relationship between the plurality of image data so that the feature amount difference between the second image data is larger. Then, based on the first image data of a series of moving images according to the imaging result of the implementation status of the series of work by the worker to be evaluated, and the first learned model, the series of work performed by the worker are evaluated for their proficiency in the work of
- the difference in the implementation status of a common work can be determined for each work. It is also possible to quantitatively evaluate as a difference in feature quantity between image data corresponding to a person. As a result, for example, even if an expert does not directly instruct an inexperienced person, the inexperienced person (evaluation target worker) himself/herself or a manager related to work management can be evaluated for the skill level of various works. By feeding back the results, it is possible to expect the effect of improving the proficiency of the inexperienced worker regarding the work.
- the information processing system according to the present embodiment, it is possible to support skill transfer in a more suitable manner.
- the present invention also includes a program that implements the functions of the above-described embodiments, and a computer-readable recording medium that stores the program.
- model construction device 111 communication unit 112 input/output control unit 113 model construction unit 114 labeling processing unit 115 work moving image division model construction unit 116 skill evaluation model construction unit 117 storage unit 150 evaluation device 151 communication unit 152 input Output control unit 153 Division processing unit 154 Evaluation processing unit 155 Contribution ratio calculation unit 156 Image processing unit 157 Storage unit 200 Terminal device 310 Imaging device
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
Abstract
Description
これにより、例えば、熟練者が未熟者に対して直接指導を行わずとも、当該未熟者自身または作業の管理に係る管理者に対して各種作業の熟練度の評価結果をフィードバックすることで、当該未熟者の当該作業に関する熟練度を向上させる効果を期待することが可能となる。
図1を参照して、本開示の一実施形態に係る情報処理システムのシステム構成の一例について説明する。本実施形態に係る情報処理システム1は、モデル構築装置110と、評価装置150と、1以上の端末装置200と、1以上の撮像装置310とを含む。なお、図1に示す端末装置200a及び200bは、それぞれが端末装置200の一例を示している。以降の説明では、端末装置200a及び200bのそれぞれを特に区別しない場合には、単に端末装置200と称するものとする。また、図1に示す撮像装置310a及び310bは、それぞれが撮像装置310の一例を示している。撮像装置310aは、ユーザU1に装着された状態で使用されるウェアラブルデバイス300(例えば、メガネ型のデバイス等)に支持された撮像装置を模式的に示している。また、撮像装置310bは、ユーザU1を第三者的な視点で撮像するように設置された撮像装置(例えば、所定の位置に設置された撮像装置)を模式的に示している。なお、以降の説明では、撮像装置310a及び310bのそれぞれを特に区別しない場合には、単に撮像装置310と称するものとする。
なお、撮像装置310は、対象となるユーザU1の周囲の状況を撮像することが可能であれば、設置される位置や設置方法等は特に限定はされず、当該ユーザU1の行動範囲や、当該ユーザU1が行う作業の特性等に応じて適宜変更されてもよい。
例えば、図1に示す撮像装置310aは、ウェアラブルデバイス300に支持されており、当該ウェアラブルデバイス300がユーザU1に装着された状態で使用される。このような構成とすることで、例えば、ユーザU1が視線を向けている方向を撮像した、所謂一人称視点の画像を得ることが可能となる。
また、他の一例として、図1に示す撮像装置310bは、例えば、所定の位置に設置された状態で使用される。このような構成とすることで、例えば、ユーザU1や当該ユーザU1の周囲の状況を第三者的な視点から撮像することが可能となる。
また、撮像装置310の数は1台に限らず複数台が使用されてもよい。なお、本実施形態では、情報処理システム1の特徴をよりわかりやすくするために、撮像装置310の数は1台であるものとする。
なお、ネットワークN1の種別は特に限定はされない。具体的な一例として、ネットワークN1は、インターネット、専用線、LAN(Local Area Network)、または、WAN(Wide Area Network)等により構成されていてもよい。また、ネットワークN1は、有線のネットワークにより構成されていてもよいし、5G、LTE(Long Term Evolution)、及びWi-Fi(登録商標)等の通信規格に基づくネットワークのような無線のネットワークにより構成されていてもよい。また、ネットワークN1は、複数のネットワークを含んでもよく、一部のネットワークとして、他のネットワークと異なる種別のネットワークが適用されてもよい。また、上述した各種情報処理装置間の通信が論理的に確立されていればよく、物理的には各種情報処理装置間の通信が他の通信装置等により中継されてもよい。
端末装置200は、例えば、所謂スマートフォン、タブレット端末、及びPC(Personal Computer)等のような通信機能を有する情報処理装置により実現され得る。
具体的には、本実施形態に係るモデル構築装置110は、一連の作業の実施状況の撮像結果に応じた動画像を、当該一連の作業を構成する個々の作業(以下、作業単位とも称する)それぞれに対応する部分的な動画像に分割するために使用される学習済モデルの構築に係る処理を実行する。以降では、当該学習済モデルを、便宜上「作業動画分割モデル」とも称する。作業動画分割モデルは、所望の作業の実施状況の撮像結果に応じた動画像の画像データを入力することで、当該動画像に撮像されたシーンがいずれの作業単位の実施状況を示しているかを推論し、当該推論の結果に応じた情報を出力する学習済モデルである。当該作業動画分割モデルが、「第2の学習済モデル」の一例に相当する。
また、モデル構築装置110は、評価対象となる作業者による作業の熟練度の評価に使用される学習済モデルの構築に係る処理を実行する。以降では、当該学習済モデルを、便宜上「熟練度評価モデル」とも称する。熟練度評価モデルは、各作業者による作業の実施状況の撮像結果に応じた動画像の画像データ間の関係性に関する特徴量空間の学習結果に基づき構築される。このような熟練度評価モデルを利用することで、例えば、評価対象となる作業者がどのようなグループの作業者(例えば、熟練者や未熟者等)に属するかの評価や、異なる複数の作業者間における作業の実施状況の差の評価(例えば、定量的な評価)が可能となる。当該熟練度評価モデルが、「第1の学習済モデル」の一例に相当する。また、評価対象となる作業者が「第1の作業者」の一例に相当する。
なお、作業動画分割モデル及び熟練度評価モデルの特性や、モデル構築装置110によるこれらのモデルの構築に係る処理については、詳細を別途後述する。
具体的には、本実施形態に係る評価装置150は、評価対象となる作業者による一連の作業の実施状況の撮像結果に応じた動画像の画像データを取得し、当該画像データと熟練度評価モデルとを利用して、当該作業者の当該作業の熟練度を評価する。また、この際に、評価装置150は、取得した画像データに対応する動画像を、当該動画像に撮像された一連の作業を構成する作業単位ごとの部分的な動画像に分割したうえで、分割された当該動画像の画像データに基づき作業単位ごとの熟練度を評価してもよい。また、評価装置150は、取得した画像データが示す動画像を作業単位ごとの部分的な動画像に分割する際に、作業動画分割モデルを利用してもよい。
なお、評価装置150の処理については、詳細を別途後述する。
図2を参照して、図1に示した本実施形態に係る情報処理システム1を構成する各種装置(例えば、モデル構築装置110、評価装置150、端末装置200、及びウェアラブルデバイス300等)として適用可能な情報処理装置900のハードウェア構成の一例について説明する。情報処理装置900は、CPU(Central Processing Unit)910と、ROM(Read Only Memory)920と、RAM(Random Access Memory)930と、補助記憶装置940と、ネットワークI/F970とを含む。また、情報処理装置900は、出力装置950と、入力装置960とのうち少なくともいずれかを含んでもよい。CPU910と、ROM920と、RAM930と、補助記憶装置940と、出力装置950と、入力装置960と、ネットワークI/F970とは、バス980を介して相互に接続されている。
図3を参照して、本実施形態に係る情報処理システム1の機能構成の一例について、特にモデル構築装置110及び評価装置150の構成に着目して説明する。
また、記憶部117は、各種学習済モデル(例えば、作業動画分割モデルや熟練度評価モデル等)の構築に使用されるデータ(例えば、教師データ)を記憶してもよい。また、記憶部117は、各種学習済モデルの構築の過程において生成されるデータ等を記憶してもよいし、構築された各種学習済モデルのデータを記憶してもよい。
具体的な一例として、ラベル付処理部114は、作業の実施状況の撮像結果に応じた動画像の画像データに対して、当該作業を示す情報(例えば、作業単位を示す情報)を付帯情報として関連付けてもよい。この際に、ラベル付処理部114は、管理者からの指示に応じて、対象となる画像データに対して、指定されたラベル(例えば、作業単位を示す情報)を関連付けてもよい。
ラベル付処理部114により付帯情報が関連付けられたデータ(すなわち、ラベル付けが行われたデータ)は、例えば、学習済モデルの構築に係る教師データとして使用される。
具体的には、作業動画分割モデル構築部115は、作業動画分割モデルに対して動画像の画像データを入力することで当該作業動画分割モデルから推論の結果として出力される情報と、ラベル付処理部114による当該画像データに対するラベル付けの結果とを比較する。そのうえで、作業動画分割モデル構築部115は、作業動画分割モデルから推論の結果として出力される上記情報が、ラベル付処理部114による上記ラベル付の結果により近づくように、当該作業動画分割モデルのパラメータ(例えば、作業単位の推論に係るパラメータ)を更新する。
なお、作業動画分割モデル構築部115により構築された作業動画分割モデルを評価装置150が参照可能であれば、当該作業動画分割モデルのデータが配置される位置や、当該作業動画分割モデルの組み込み方法等は特に限定はされない。
具体的な一例として、作業動画分割モデル構築部115により構築された作業動画分割モデルのデータが、ネットワークN1を介して評価装置150に送信され、当該評価装置150の記憶部157に記憶されてもよい。また、他の一例として、モデル構築装置110に外付け可能な記録媒体に作業動画分割モデルのデータを記憶させることで、当該記録媒体を利用して評価装置150の記憶部157に当該作業動画分割モデルのデータが記憶されてもよい。これにより、評価装置150は、記憶部157にデータとして記憶された作業動画分割モデルを参照することが可能となる。
また、他の一例として、評価装置150が、他の装置の記憶領域にデータとして記憶された作業動画分割モデルを、ネットワークN1を介して当該他の装置にアクセスすることで参照してもよい。この場合には、作業動画分割モデルのデータは、モデル構築装置110(評価装置150とは異なる他の装置の一例に相当)の記憶部117に記憶されてもよいし、ネットワークストレージやデータベースシステム等として構成された他の装置の記憶領域に記憶されてもよい。
また、上記作業動画分割モデルは、後述する熟練度評価モデル構築部116による熟練度評価モデルの構築時に、対象となる動画像の画像データの分割に使用されてもよい。
この際に、熟練度評価モデル構築部116は、共通のグループに属する作業者間においては、共通の作業単位に対応する複数の画像データ間の特徴量の差がより小さくなるように、熟練度評価モデルの構築を行う。また、熟練度評価モデル構築部116は、それぞれが異なるグループに属する作業者間においては、共通の作業単位に対応する複数の画像データ間の特徴量の差がより大きくなるように、上記熟練度評価モデルの構築を行う。
これにより、例えば、熟練者に相当する複数の作業者それぞれによる共通の作業の実施状況の撮像結果に応じた複数の画像データ間においては、各画像データを入力として熟練度評価モデルから出力される特徴量(換言すると、特徴量ベクトル)の差がより小さくなる。また、共通の作業者による共通の作業の実施状況の撮像結果に応じた複数の画像データ間においても、各画像データを入力として熟練度評価モデルから出力される特徴量の差がより小さくなる。
これに対して、熟練者と未熟者とのように互いに異なるグループに属する複数の作業者それぞれによる共通の作業の実施状況の撮像結果に応じた複数の画像データ間においては、各画像データを入力として熟練度評価モデルから出力される特徴量の差がより大きくなる。
なお、熟練度評価モデル構築部116により構築された熟練度評価モデルを評価装置150が参照可能であれば、当該作熟練度評価モデルのデータが配置される位置や、当該作業動画分割モデルの組み込み方法等は特に限定はされない。これは、前述した作業動画分割モデルの場合と同様のため詳細な説明は省略する。
また、記憶部157は、撮像装置310による撮像結果に応じた動画像の画像データを記憶してもよい。また、記憶部157は、モデル構築装置110により機械学習に基づき構築された学習済モデル(例えば、作業動画分割モデルや熟練度評価モデル等)のデータを記憶してもよい。また、記憶部117は、評価対象となる作業者の作業の熟練度の評価の過程で生成されるデータ等を記憶してもよいし、当該評価の結果に応じた情報等を記憶してもよい。
具体的な一例として、評価処理部154は、評価対象となる作業者と、評価の基準となる作業者(例えば、熟練者)との間で、それぞれに対応する画像データの特徴量の特徴量空間における位置関係に基づき、評価対象となる作業者の一連の作業に関する熟練度の評価を行ってもよい。
また、他の一例として、評価処理部154は、評価対象となる作業者に対応する画像データの特徴量が、特徴量空間中においてどのグループに属する作業者に対応する特徴量により近いかに応じて、評価対象となる作業者の一連の作業に関する熟練度の評価を行ってもよい。
また、評価処理部154は、作業単位ごとに評価対象となる作業者の熟練度を評価してもよいし、一連の作業単位それぞれの評価結果に基づき当該一連の作業単位を含む一連の作業全体について評価対象となる作業者の熟練度を評価してもよい。
なお、評価処理部154による評価対象となる作業者の一連の作業に関する熟練度の評価に係る処理の一例については、詳細を別途後述する。
具体的な一例として、未熟者を評価対象となる作業者とし、熟練者を評価基準とする作業者としたうえで、未熟者が未熟であると評価された場合における、当該評価への寄与率が算出されるものとする。この場合には、例えば、寄与率算出部155は、未熟者と熟練者との間で動きの異なる部分(例えば、静止画像中において異なるビット値を示す部分)が上記評価により寄与しているとの判定に基づき、対象となる画像の各部における寄与率を算出してもよい。
また、他の一例として、未熟者を評価対象となる作業者とし、熟練者を評価基準とする作業者としたうえで、未熟者が熟練していると評価された場合における、当該評価への寄与率が算出されるものとする。この場合には、例えば、寄与率算出部155は、未熟者と熟練者との間で動きがより類似する部分(例えば、静止画像中においてより近似するビット値を示す部分)が上記評価により寄与しているとの判定に基づき、対象となる画像の各部における寄与率を算出してもよい。
なお、上述のような寄与率の評価については、例えば、GradCAM(Gradient-weighted Class Activation Mapping)と称される技術のように、公知の技術を利用することが可能である。
そして、画像処理部156は、画像処理の結果に応じた情報を所定の出力先に出力する。例えば、画像処理部156は、画像処理後の画像を入出力制御部152に出力してもよい。これにより、入出力制御部152は、画像処理後の画像をUI上の所定の領域に表示させることで、当該画像をユーザ(例えば、管理者)に提示することも可能となる。
例えば、モデル構築装置110の一連の構成要素が、複数の装置が協働することで実現されてもよい。具体的な一例として、モデル構築装置110の一連の構成要素のうち、一部の構成要素が当該モデル構築装置110に対して外付けされていてもよい。また、他の一例として、モデル構築装置110の一連の構成要素のうち、少なくとも一部の構成要素の処理に係る負荷が、複数の装置に分散されてもよい。これらは、評価装置150についても同様である。
また、他の一例として、モデル構築装置110と評価装置150とが一体的に構成されていてもよい。すなわち、モデル構築装置110及び評価装置150それぞれの一連の構成要素が、共通のサーバ装置の構成要素として実現されてもよい。
本実施形態に係る情報処理システムの処理の一例について、モデル構築装置110により実行される学習済モデルの構築に係る前処理段階と、評価装置150により実行される構築された学習済モデルを利用した評価に係る本処理段階とに分けてそれぞれ説明する。
前処理段階における処理の一例として、作業動画分割モデルの構築に係る処理と、熟練度評価モデルの構築に係る処理とのそれぞれについて個別に説明する。
まず、図4を参照して、モデル構築装置110による作業動画分割モデルの構築に係る処理の一例について説明する。図4は、モデル構築装置110による作業動画分割モデルの構築に係る処理の一例を示した図である。
モデル構築装置110は、S108において終了条件を満たしていないと判定した場合には、処理をS103に進める。この場合には、モデル構築装置110は、まだ処理対象となっていない入力単位動画の画像データD102について、S103~S107の処理を実行する。
そして、モデル構築装置110は、S108において終了条件を満たしたと判定した場合には、図4に示す一連の処理を終了する。
なお、作業動画の画像データからの作業単位動画の画像データの抽出が可能であればその方法は特に限定はされない。具体的な一例として、ユーザからの指示に応じて所望の画像データが示す作業動画からの作業単位動画の抽出が行われることで、当該作業単位動画の画像データが生成されてもよい。また、他の一例として、図4に示す処理により構築された作業動画分割モデルを利用して作業動画の画像データを作業単位動画の画像データに分割した結果を利用することで、所望の作業単位に対応する作業単位動画の画像データの抽出が行われてもよい。
具体的には、作業単位動画1~Mのそれぞれは、必ずしもフレーム数(換言すると、動画像の長さ)が同じとは限らない。そのため、モデル構築装置110は、例えば、フレーム数が多い作業単位動画ほど、抽出対象とするフレーム間の間隔がより広くなるように制御することで、作業単位動画1~Mのそれぞれから同数のフレームを抽出してもよい。より具体的な一例として、各作業単位動画から10フレームが抽出されるものとする。この場合には、抽出対象となる作業単位動画の総フレーム数が30の場合には、モデル構築装置110は、3フレームごとにフレームを抽出することで、計10フレームを抽出してもよい。また、他の一例として、抽出対象となる作業単位動画の総フレーム数が20の場合には、モデル構築装置110は、2フレームごとにフレームを抽出することで、計10フレームを抽出してもよい。
図8の左側の図に示すように、学習前においては、特徴量空間中における各サンプルの位置が、当該サンプルが属するグループに関わらず無作為に散らばっている。これに対して、図8の右側の図に示すように、学習後においては、同じグループに属するサンプルが、特徴量空間中においてより近傍に位置し、互いに異なるグループに属するサンプルがより離間するように位置している。
このように、モデル構築装置110は、共通のグループに属するサンプル間において特徴量ベクトル間の差がより小さくなり、異なるグループに属するサンプル間において特徴量ベクトルの差がより大きくなるように特徴量空間を学習することで、熟練度評価モデルを更新する。なお、上記に例示したような、熟練度評価モデルの更新については、例えば、確率的勾配降下法と称される手法を適用することが可能である。
モデル構築装置110は、S208において終了条件を満たしていないと判定した場合には、処理をS203に進める。この場合には、モデル構築装置110は、まだ処理対象となっていない入力単位動画の画像データD102について、S203~S207の処理を実行する。
そして、モデル構築装置110は、S208において終了条件を満たしたと判定した場合には、図7に示す一連の処理を終了する。
後処理段階における処理の一例として、作業動画分割モデルを利用した作業動画からの作業単位動画の分割に係る処理と、熟練度評価モデルを利用した作業者の熟練度の評価に係る処理とのそれぞれについて個別に説明する。
まず、図9を参照して、評価装置150による作業動画分割モデルを利用した作業動画からの作業単位動画の分割に係る処理の一例について説明する。図9は、評価装置150による作業動画分割モデルを利用した作業動画からの作業単位動画の分割に係る処理の一例を示した図である。
これにより、共通の作業単位を示す情報がラベル付けされた一連の入力単位動画を時系列に沿ってまとめることで、当該作業単位に対応する作業単位動画を生成することが可能となる。
作業動画を入力単位動画に分割したうえで、分割後の一連の入力単位動画それぞれの画像データを作業動画分割モデルに入力することで、作業単位に対応する入力単位動画の画像データについて当該作業単位の推論結果を示す情報が出力される。
図10に示す例では、分割後の一連の入力単位動画のうち、PCの組み立て作業の作業単位である「ボード取付」、「CPU取付」、及び「メモリ取付」の作業状況が撮像された入力単位動画を対象として、対応する作業単位を示す情報が推論結果として出力されている。また、図10に示す例では、時系列に沿って連続する2つの入力単位動画に対して、当該入力単位動画に撮像されたシーンが、「ボード取付」の作業状況を示しているとの推論結果が出力されている。そのため、この場合には、当該2つの入力単位動画を時系列に沿ってまとめた動画像が、「ボード取付」に対応する作業単位動画となる。これは、「メモリ取付」として示された作業単位についても同様である。
以上のようにして、PCの組み立てに係る一連の作業の実施状況の撮像結果に応じた作業動画の画像データから、「ボード取付」、「CPU取付」、及び「メモリ取付」それぞれに対応する作業単位動画を分割して抽出することが可能となる。
評価装置150は、S306において最後の入力単位動画までS304の処理の対象としていないと判定した場合には、処理をS304に進める。この場合には、評価装置150は、まだ処理対象となっていない入力単位動画の画像データD303について、S304の処理を実行する。
そして、評価装置150は、S306において最後の入力単位動画までS304の処理の対象としたと判定した場合には、図9に示す一連の処理を終了する。
S405において、評価装置150は、S404において作業単位Aの作業単位動画から抽出したフレームに対応する画像データを熟練度評価モデルに入力する。これにより、当該熟練度評価モデルからは、評価対象となる作業者による作業単位Aの実施状況の撮像結果に応じた作業単位動画の特徴量に応じた特徴量空間における位置を示す情報(以下、特徴量ベクトルD406とも称する)が出力される。
S409において、評価装置150は、S408において評価基準となる作業単位動画(作業単位Aの作業単位動画)から抽出したフレームに対応する画像データを熟練度評価モデルに入力する。これにより、当該熟練度評価モデルからは、評価基準となる作業単位動画の特徴量、すなわち、評価基準とする作業者による作業単位Aの実施状況の撮像結果に応じた作業単位動画の特徴量に応じた特徴量空間における位置を示す情報(以下、特徴量ベクトルD410とも称する)が出力される。
なお、評価基準となる作業単位動画については、1つであってもよいし複数であってもよい。また、複数の作業単位動画を評価基準として使用する場合には、所定の作業者に対応する複数の作業単位動画が使用されてもよいし、共通のグループに属する複数の作業者(例えば、熟練者に相当する複数の作業者)それぞれに対応する作業単位動画が使用されてもよい。
このような特性を利用し、評価装置150は、評価対象となる作業者に対応する特徴量ベクトルD406に基づき、当該作業者の所定の作業(例えば、作業単位A)に関する熟練度の評価に係る評価値を算出する。
例えば、図14は、一連の作業を対象とした熟練度の評価方法の一例について説明するための説明図であり、PCの組み立てに係る一連の作業を対象とした熟練度の評価結果の一例を示している。具体的には、図14に示す例では、熟練度の評価に利用された作業動画には、PCの組み立てに係る作業を構成する一連の作業単位のうち、「ボード取付」、「CPU取付」、及び「メモリ取付」それぞれの実施状況が撮像されている。そのため、「ボード取付」、「CPU取付」、及び「メモリ取付」それぞれに対応する作業単位動画が抽出され、当該作業単位動画に基づき各作業単位について熟練度の評価に係る点数が算出されている。これにより、例えば、評価装置150は、「ボード取付」、「CPU取付」、及び「メモリ取付」それぞれの熟練度の評価結果に基づき、これらの作業単位を含むPCの組み立てに係る一連の作業全体に関する熟練度を評価することが可能となる。
具体的には、評価装置150は、評価対象となる作業者の熟練度の評価に利用した画像データが示す動画像の各フレームに対応する静止画像中の各領域における、当該評価への寄与率を算出する。この際に、評価装置150は、熟練度評価モデルによる、評価対象となる作業者と評価基準とする作業者とのそれぞれについて出力する特徴量ベクトル間の差の評価に係る寄与率を算出する。なお、上記寄与率の算出については、前述したようにGradCAM等の公知の技術を利用することが可能である。以上のようにして寄与率が算出されることで、上記各フレームに対応する静止画像中の各領域のうち、当該寄与率がより高い値を示す領域を、評価対象となる作業者と評価基準とする作業者との間で作業の実施状況が異なる領域として抽出することが可能となる。
例えば、図15は、差異領域の抽出結果に応じた情報の出力方法の一例を示した図である。図15に示す例では、評価装置150は、差異領域の抽出元となる静止画像中の当該差異領域に対応する位置に、当該差異領域を示す表示情報V31を重畳表示させている。また、この際に、評価装置150は、差異領域の抽出に利用した上記寄与率に応じて、当該寄与率の算出元となった部分(例えば、画素)に重畳させる表示情報V31の表示態様(例えば、色の違いや輝度の違い等)を制御してもよい。具体的な一例として、図15に示す例では、評価装置150は、表示情報V31の各領域の色を、当該領域について算出された寄与率に応じて制御している。これにより、例えば、管理者は、対象となる画像に重畳表示された表示情報V31の表示態様の違い(例えば、色の違い)に応じて、当該画像中の各領域のうち、対象となる作業者の熟練度の評価により寄与した領域を識別することが可能となる。
本実施形態に係る情報処理システムの変形例について説明する。本変形例では、評価対象となる作業者(例えば、未熟者)が所定の作業を実施する際の、当該作業を構成する一連の作業単位の実施順序(換言すると、当該作業の手順)を評価可能とするための仕組みの一例について説明する。
具体的な一例として、評価装置150は、評価対象となる作業者(例えば、未熟者)と、評価基準とする作業者(例えば、熟練者)とのそれぞれについて、所定の作業の実施状況の撮像結果に応じた作業動画を、作業動画分割モデルを利用して作業単位動画に分割する。また、評価装置150は、評価対象となる作業者と評価基準とする作業者との間で、作業動画から分割された上記作業を構成する一連の作業単位それぞれに対応する作業単位動画が再生される順序を比較する。そのうえで、評価装置150は、上記比較の結果に基づき、評価対象となる作業者と評価基準とする作業者との間で上記一連の作業単位それぞれが実施される順序の違いの抽出を試みる。
これにより、評価装置150は、上記一連の作業単位それぞれが実施される順序の違いが抽出されるか否かに応じて、評価対象となる作業者による上記所定の作業の実施に係る手順が正しい手順か否かを評価することが可能となる。また、この際に、評価装置150は、評価対象となる作業者による作業の手順と、評価基準とする作業者による当該作業の手順と、の間における乖離の度合いに応じて、評価対象となる作業者による当該作業の熟練度を評価してもよい。
以上説明したように、本開示の一実施形態に係る情報処理装置は、互いに異なる複数のグループそれぞれに分類された複数の作業者それぞれによる一連の作業の実施状況の撮像結果に応じた一連の動画像の第1の画像データから分割された、当該一連の作業を構成する作業単位それぞれに対応する部分的な動画像の第2の画像データを学習データとした機械学習に基づき、共通のグループに属する作業者間において、共通の作業単位に対応する複数の第2の画像データ間の特徴量の差がより小さくなり、それぞれが異なるグループに属する作業者間において、共通の作業単位に対応する複数の第2の画像データ間の特徴量の差がより大きくなるように、複数の画像データ間の関係性に関する特徴量空間を学習することで第1の学習済モデルを構築する。そのうえで、評価対象となる作業者による一連の作業の実施状況の撮像結果に応じた一連の動画像の第1の画像データと、上記第1の学習済モデルと、に基づき当該作業者の当該一連の作業に関する熟練度が評価される。
また、本発明には、上述した実施形態の機能を実現するプログラム、および、該プログラムを格納したコンピュータが読み取り可能な記録媒体が含まれる。
110 モデル構築装置
111 通信部
112 入出力制御部
113 モデル構築部
114 ラベル付処理部
115 作業動画分割モデル構築部
116 熟練度評価モデル構築部
117 記憶部
150 評価装置
151 通信部
152 入出力制御部
153 分割処理部
154 評価処理部
155 寄与率算出部
156 画像処理部
157 記憶部
200 端末装置
310 撮像装置
Claims (13)
- 互いに異なる複数のグループそれぞれに分類された複数の作業者それぞれによる一連の作業の実施状況の撮像結果に応じた一連の動画像の第1の画像データから分割された、当該一連の作業を構成する作業単位それぞれに対応する部分的な動画像の第2の画像データを学習データとした機械学習に基づき、共通のグループに属する作業者間において、共通の作業単位に対応する複数の前記第2の画像データ間の特徴量の差がより小さくなり、それぞれが異なるグループに属する作業者間において、共通の作業単位に対応する複数の前記第2の画像データ間の特徴量の差がより大きくなるように、複数の画像データ間の関係性に関する特徴量空間を学習することで第1の学習済モデルを構築する第1のモデル構築手段を備え、
評価対象となる第1の作業者による一連の作業の実施状況の撮像結果に応じた一連の動画像の前記第1の画像データと、前記第1の学習済モデルと、に基づき当該作業者の当該一連の作業に関する熟練度が評価される、
情報処理装置。 - 前記第1の作業者による一連の作業の実施状況の撮像結果に応じた一連の動画像の前記第1の画像データと、前記複数のグループのうちの所定のグループに属する第2の作業者による当該一連の作業の実施状況の撮像結果に応じた一連の動画像の前記第1の画像データと、前記第1の学習済モデルと、に基づき、当該第1の作業者の当該一連の作業に関する熟練度を評価する評価手段を備える、
請求項1に記載の情報処理装置。 - 前記複数のグループそれぞれに分類された前記複数の作業者それぞれに対応する前記第1の画像データから分割された、当該一連の作業を構成する作業単位それぞれに対応する前記第2の画像データに対して、当該作業単位を示す付帯情報を関連付ける関連付け手段と、
前記付帯情報が関連付けられた前記第2の画像データを学習データとした機械学習に基づき、入力された画像データが示す動画像に撮像された一連の作業を構成する作業単位を推論する第2の学習済モデルを構築する第2のモデル構築手段と、
を備え、
前記評価手段は、
前記第1の作業者による一連の作業の実施状況の撮像結果に応じた一連の動画像の前記第1の画像データを前記第2の学習済モデルに入力することで、当該第1の画像データを当該一連の作業を構成する作業単位ごとの前記第2の画像データに分割し、
当該第1の画像データから分割された作業単位ごとの当該第2の画像データを前記第1の学習済モデルに入力することで得られる第1の特徴量と、前記第2の作業者による当該作業単位に対応する前記第2の画像データを前記第1の学習済モデルに入力することで得られる第2の特徴量と、に基づき、前記第1の作業者が実施した前記一連の作業に関する当該第1の作業者の熟練度を評価する、
請求項2に記載の情報処理装置。 - 前記第1のモデル構築手段は、
前記複数のグループそれぞれに分類された複数の作業者それぞれに対応する前記第1の画像データを前記第2の学習済モデルに入力することで、当該第2の学習済モデルから出力される情報に基づき、当該第1の画像データを作業単位ごとの前記第2の画像データに分割し、
分割された当該第2の画像データを学習データとした機械学習に基づき、前記第1の学習済モデルを構築する、
請求項3に記載の情報処理装置。 - 前記評価手段は、前記第1の作業者による一連の作業の実施状況の撮像結果に応じた一連の動画像の前記第1の画像データが所定の期間ごとに分割された第3の画像データそれぞれを前記第2の学習済モデルに入力することで、当該第2の学習済モデルから当該第3の画像データごとに出力される情報に基づき、当該第1の画像データを作業単位ごとの前記第2の画像データに分割する、
請求項4に記載の情報処理装置。 - 前記評価手段は、前記第1の作業者による前記一連の作業の実施状況の撮像結果に応じた前記第1の画像データに対応する前記第1の特徴量と、前記所定のグループに属する一連の前記第2の作業者それぞれによる当該一連の作業の実施状況の撮像結果に応じた前記第1の画像データに対応する前記第2の特徴量の前記特徴量空間中における重心と、に基づき、前記第1の作業者が実施した当該一連の作業に関する当該第1の作業者の熟練度を評価する、
請求項3~5のいずれか1項に記載の情報処理装置。 - 前記評価手段は、前記第1の作業者による前記一連の作業の実施状況の撮像結果に応じた前記第1の画像データに対応する前記第1の特徴量と、前記所定のグループに属する作業者のうちの少なくとも一部の前記第2の作業者による当該一連の作業の実施状況の撮像結果に応じた前記第1の画像データに対応する前記第2の特徴量と、に基づき、前記第1の作業者が実施した当該一連の作業に関する当該第1の作業者の熟練度を評価する、
請求項3~5のいずれか1項に記載の情報処理装置。 - 前記評価手段は、前記第1の特徴量と前記第2の特徴量との前記特徴量空間における距離に基づき、前記第1の作業者が実施した前記一連の作業に関する当該第1の作業者の熟練度を評価する、
請求項3~7のいずれか1項に記載の情報処理装置。 - 前記第1の作業者による前記一連の作業の実施状況の撮像結果に応じた前記第1の画像データに対応する動画像の少なくとも一部のフレームに対応する静止画像の各部における、前記第1の特徴量と前記第2の特徴量とに基づく、前記第1の作業者が実施した前記一連の作業に関する当該第1の作業者の熟練度の評価結果に対する寄与率を算出する算出手段と、
前記寄与率の算出結果に応じた情報が、前記静止画像中の当該寄与率の算出元となる領域に対応付けて出力されるように制御する出力制御手段と、
を備える、請求項3~8のいずれか1項に記載の情報処理装置。 - 前記出力制御手段は、前記寄与率の算出結果に応じた表示情報が、前記静止画像中の当該寄与率の算出元となる領域に重畳表示されるように制御する、
請求項9に記載の情報処理装置。 - 情報処理装置が実行する情報処理方法であって、
互いに異なる複数のグループそれぞれに分類された複数の作業者それぞれによる一連の作業の実施状況の撮像結果に応じた一連の動画像の第1の画像データから分割された、当該一連の作業を構成する作業単位それぞれに対応する部分的な動画像の第2の画像データを学習データとした機械学習に基づき、共通のグループに属する作業者間において、共通の作業単位に対応する複数の前記第2の画像データ間の特徴量の差がより小さくなり、それぞれが異なるグループに属する作業者間において、共通の作業単位に対応する複数の前記第2の画像データ間の特徴量の差がより大きくなるように、複数の画像データ間の関係性に関する特徴量空間を学習することで第1の学習済モデルを構築する第1のモデル構築ステップを含み、
評価対象となる第1の作業者による一連の作業の実施状況の撮像結果に応じた一連の動画像の前記第1の画像データと、前記第1の学習済モデルと、に基づき当該作業者の当該一連の作業に関する熟練度が評価される、
情報処理方法。 - コンピュータに、
互いに異なる複数のグループそれぞれに分類された複数の作業者それぞれによる一連の作業の実施状況の撮像結果に応じた一連の動画像の第1の画像データから分割された、当該一連の作業を構成する作業単位それぞれに対応する部分的な動画像の第2の画像データを学習データとした機械学習に基づき、共通のグループに属する作業者間において、共通の作業単位に対応する複数の前記第2の画像データ間の特徴量の差がより小さくなり、それぞれが異なるグループに属する作業者間において、共通の作業単位に対応する複数の前記第2の画像データ間の特徴量の差がより大きくなるように、複数の画像データ間の関係性に関する特徴量空間を学習することで第1の学習済モデルを構築する第1のモデル構築ステップを実行させ、
評価対象となる第1の作業者による一連の作業の実施状況の撮像結果に応じた一連の動画像の前記第1の画像データと、前記第1の学習済モデルと、に基づき当該作業者の当該一連の作業に関する熟練度が評価される、
プログラム。 - 互いに異なる複数のグループそれぞれに分類された複数の作業者それぞれによる一連の作業の実施状況の撮像結果に応じた一連の動画像の第1の画像データから分割された、当該一連の作業を構成する作業単位それぞれに対応する部分的な動画像の第2の画像データを学習データとした機械学習に基づき、共通のグループに属する作業者間において、共通の作業単位に対応する複数の前記第2の画像データ間の特徴量の差がより小さくなり、それぞれが異なるグループに属する作業者間において、共通の作業単位に対応する複数の前記第2の画像データ間の特徴量の差がより大きくなるように、複数の画像データ間の関係性に関する特徴量空間を学習することで第1の学習済モデルを構築する第1のモデル構築手段と、
評価対象となる第1の作業者による一連の作業の実施状況の撮像結果に応じた一連の動画像の前記第1の画像データと、前記第1の学習済モデルと、に基づき当該作業者の当該一連の作業に関する熟練度を評価する評価手段と、
を備える、情報処理システム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP22926052.6A EP4481714A1 (en) | 2022-02-14 | 2022-11-11 | Information processing device, information processing method, program, and information processing system |
| CN202280091698.5A CN118696340A (zh) | 2022-02-14 | 2022-11-11 | 信息处理装置、信息处理方法、程序以及信息处理系统 |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022-020269 | 2022-02-14 | ||
| JP2022020269A JP7249444B1 (ja) | 2022-02-14 | 2022-02-14 | 情報処理装置、情報処理方法、プログラム、及び情報処理システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2023153036A1 true WO2023153036A1 (ja) | 2023-08-17 |
Family
ID=85772188
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2022/042033 Ceased WO2023153036A1 (ja) | 2022-02-14 | 2022-11-11 | 情報処理装置、情報処理方法、プログラム、及び情報処理システム |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP4481714A1 (ja) |
| JP (1) | JP7249444B1 (ja) |
| CN (1) | CN118696340A (ja) |
| WO (1) | WO2023153036A1 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7615341B1 (ja) * | 2023-04-11 | 2025-01-16 | 三菱電機株式会社 | 技能評価装置、技能評価方法及びプログラム |
| WO2025046832A1 (ja) * | 2023-08-31 | 2025-03-06 | 三菱電機株式会社 | 機械学習装置、技能判定装置、機械学習方法、及び機械学習プログラム |
| JP7586558B1 (ja) | 2024-03-27 | 2024-11-19 | Kddiアジャイル開発センター株式会社 | 情報処理装置、情報処理方法及びプログラム |
| JP7719940B1 (ja) * | 2024-12-10 | 2025-08-06 | Kddi株式会社 | 情報処理装置及び情報処理方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018154709A1 (ja) * | 2017-02-24 | 2018-08-30 | 三菱電機株式会社 | 動作学習装置、技能判別装置および技能判別システム |
| JP2020144233A (ja) | 2019-03-06 | 2020-09-10 | 株式会社日立製作所 | 学習支援システム、学習支援装置及びプログラム |
| WO2020235804A1 (ko) * | 2019-05-17 | 2020-11-26 | 네이버 주식회사 | 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치 |
-
2022
- 2022-02-14 JP JP2022020269A patent/JP7249444B1/ja active Active
- 2022-11-11 EP EP22926052.6A patent/EP4481714A1/en active Pending
- 2022-11-11 CN CN202280091698.5A patent/CN118696340A/zh active Pending
- 2022-11-11 WO PCT/JP2022/042033 patent/WO2023153036A1/ja not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018154709A1 (ja) * | 2017-02-24 | 2018-08-30 | 三菱電機株式会社 | 動作学習装置、技能判別装置および技能判別システム |
| JP2020144233A (ja) | 2019-03-06 | 2020-09-10 | 株式会社日立製作所 | 学習支援システム、学習支援装置及びプログラム |
| WO2020235804A1 (ko) * | 2019-05-17 | 2020-11-26 | 네이버 주식회사 | 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7249444B1 (ja) | 2023-03-30 |
| JP2023117614A (ja) | 2023-08-24 |
| EP4481714A1 (en) | 2024-12-25 |
| CN118696340A (zh) | 2024-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7249444B1 (ja) | 情報処理装置、情報処理方法、プログラム、及び情報処理システム | |
| US10529109B1 (en) | Video stream customization using graphics | |
| US11106920B2 (en) | People flow estimation device, display control device, people flow estimation method, and recording medium | |
| CN106471527B (zh) | 从全局模型进行本地化学习 | |
| JP6248106B2 (ja) | 広告ターゲティングのための否定的なシグナル | |
| JP2016091395A (ja) | 推定方法、推定システム、コンピュータ・システムおよびプログラム | |
| JP2019527395A (ja) | コンテンツを効果的に配信するための動的クリエイティブの最適化 | |
| JP2018534700A (ja) | メディアコンテンツのパフォーマンスの即時予測のための方法及び装置 | |
| JP2022125222A (ja) | 情報処理システム、情報処理方法および情報処理装置 | |
| CN112527115A (zh) | 用户形象生成方法、相关装置及计算机程序产品 | |
| JP2020004248A (ja) | 映像審査装置、情報処理装置、コンピュータプログラム及び映像審査方法 | |
| WO2020049636A1 (ja) | 識別システム、モデル提供方法およびモデル提供プログラム | |
| KR102150307B1 (ko) | 온라인 창의학습 관리 서버 | |
| JP2019040417A (ja) | 情報処理装置及びプログラム | |
| JP2018195133A (ja) | 情報処理装置及び情報処理プログラム | |
| WO2021231484A1 (en) | Machine-learned prediction of decision state and generating feedback information for decision states | |
| JP2017068331A (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
| JP2011141740A (ja) | 目的変数算出装置、目的変数算出方法、プログラムおよび記録媒体 | |
| US20200104644A1 (en) | Training apparatus, training method and recording medium | |
| CN112614124B (zh) | 视频清晰度评估模型训练方法、设备及存储介质 | |
| JP2021033418A (ja) | 作業工程に関する学習を行う機械学習方法及び機械学習装置 | |
| US12272035B2 (en) | Machine learning device, machine learning method, and recording medium storing machine learning program | |
| US11042274B2 (en) | Extracting demonstrations from in-situ video content | |
| JP2024032618A (ja) | 異常送信プログラム、異常送信方法および情報処理装置 | |
| JP2024043680A (ja) | 情報処理プログラム、端末装置および情報処理方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22926052 Country of ref document: EP Kind code of ref document: A1 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 202280091698.5 Country of ref document: CN |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2022926052 Country of ref document: EP |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| ENP | Entry into the national phase |
Ref document number: 2022926052 Country of ref document: EP Effective date: 20240916 |