CN114600134A

CN114600134A - 估计系统、估计装置以及估计方法

Info

Publication number: CN114600134A
Application number: CN202080074614.8A
Authority: CN
Inventors: 桥本敦史; 饭山将晃; 高桥龙平; 园头元春
Original assignee: Omron Corp; Kyoto University NUC
Current assignee: Omron Corp; Kyoto University NUC
Priority date: 2019-11-14
Filing date: 2020-11-09
Publication date: 2022-06-07
Also published as: JP2021081794A; US20220366221A1; EP4060569A4; EP4060569A1; JP7286091B2; WO2021095680A1

Abstract

估计系统包含：学习部，其使用包含被赋予了正解的多个样本数据的第1数据集、和包含未被赋予正解的多个样本数据的第2数据集，生成估计模型；以及估计部，其决定估计结果。估计模型包含编码器，所述编码器根据样本数据，计算不依赖于第1数据集和第2数据集的第1特征量、以及依赖于第1数据集或第2数据集的第2特征量。学习部构成为对编码器进行学习，使得针对第1数据集中包含的第1样本数据、和第2数据集中包含的应被赋予与对第1样本数据赋予的正解相同的正解的第2样本数据的对，根据任意的样本数据都计算出相同的第1特征量。

Description

估计系统、估计装置以及估计方法

技术领域

本发明涉及能够适合于实际运用的机器学习方法。

背景技术

由于近年来计算能力的飞跃性提高，在各种领域中，正在实现利用了计算能力的被称为AI(Artificial Intelligence：人工智能)的解决方案。

这样的举措之一有信息物理系统(CPS：Cyber Physical System)。信息物理系统意识到与现实世界的关系，包含想要利用计算能力来解决社会课题的各种尝试。

为了实现信息物理系统，需要各种要素技术，但其中之一已知有UnsupervisedDomain Adaptation(无监督领域自适应)问题。在非专利文献1、非专利文献2以及非专利文献3中，公开了对Unsupervised Domain Adaptation问题应用被称为cycleGAN的方法。

现有技术文献

非专利文献

非专利文献1：Judy Hoffman,Eric Tzeng,Taesung Park,Jun-Yan Zhu,PhillipIsola,Kate Saenko,Alexei Efros,Trevor Darrell,"CyCADA:Cycle-ConsistentAdversarial Domain Adaptation,"Proceedings of the 35th InternationalConference on Machine Learning,"PMLR 80:1989-1998,2018,[2019年11月8日检索],互联网<URL:https://github.com/jhoffman/cycada_release>

非专利文献2:Paolo Russo,Fabio M.Carlucci,Tatiana Tommasi,BarbaraCaputo,"From Source to Target and Back:Symmetric Bi-Directional AdaptiveGAN,"The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018,pp.8099-8108,[2019年11月8日检索],互联网<URL:http://openaccess.thecvf.com/content_cvpr_2018/html/Russo_From_Source_to_CVPR_2018_paper.html>

非专利文献3:Ashish Shrivastava,Tomas Pfister,Oncel Tuzel,JoshuaSusskind,Wenda Wang,Russell Webb,"Learning From Simulated and UnsupervisedImages Through Adversarial Training,"The IEEE Conference on Computer Visionand Pattern Recognition(CVPR),2017,pp.2107-2116,[2019年11月8日检索],互联网<URL:https://arxiv.org/abs/1612.07828>

发明内容

发明所要解决的课题

本发明的一个目的在于，提供一种与非专利文献1、非专利文献2以及非专利文献3所公开的现有方法相比，能够生成进一步提高了估计性能的已学习模型的技术。

用于解决课题的手段

本发明一例的估计系统包含：学习部，其使用包含被赋予了正解的多个样本数据的第1数据集、和包含未被赋予正解的多个样本数据的第2数据集，生成估计模型；以及估计部，其将可能属于第2数据集的估计对象数据输入到估计模型，决定估计结果。估计模型包含编码器，所述编码器根据样本数据，计算不依赖于第1数据集和第2数据集的第1特征量、以及依赖于第1数据集或第2数据集的第2特征量。学习部构成为对编码器进行学习，使得针对第1数据集中包含的第1样本数据、和第2数据集中包含的应被赋予与对第1样本数据赋予的正解相同的正解的第2样本数据的对，根据第1样本数据和第2样本数据中的任意一个都计算出相同的第1特征量。

根据该结构，使用如下的编码器：根据各数据集中包含的样本数据，计算不依赖于第1数据集和第2数据集的第1特征量、以及依赖于第1数据集或第2数据集的第2特征量。并且，不是着眼于第2特征量，而是着眼于第1特征量，从而不用知道第2数据集的分布形状，就能够提高估计模型的估计精度。

学习部也可以构成为通过作为对抗网络的学习用网络来生成估计模型。根据该结构，能够通过对抗网络高效地学习估计模型。

学习用网络也可以包含：由第1编码器和第1解码器构成的第1编码器/解码器；以及由第2编码器和第2解码器构成的第2编码器/解码器。也可以是，在学习部的学习中，第1数据集中包含的样本被输入到按照第1编码器/解码器和第2编码器/解码器的顺序配置的第1网络，第2数据集中包含的样本被输入到按照第2编码器/解码器和第1编码器/解码器的顺序配置的第2网络。根据该结构，第1编码器/解码器以及第2编码器/解码器共用化并且使配置顺序不同，由此能够通过对抗网络高效地学习估计模型。

也可以是，学习部构成为，通过将第1数据集中包含的样本输入到第1网络，以使从第1编码器输出的第1特征量与从第2编码器输出的第1伪特征量之间的误差最小化的方式，对第1编码器、第1解码器、第2编码器以及第2解码器的模型参数进行优化，学习部构成为，通过将第2数据集中包含的样本输入到第2网络，以使从第2编码器输出的第1特征量与从第1编码器输出的第1伪特征量之间的误差最小化的方式，对第1编码器、第1解码器、第2编码器以及第2解码器的模型参数进行优化。根据该结构，通过使根据样本计算出的第1特征量、与通过解码器和编码器根据该第1特征量计算出的第1伪特征量之间的误差最小化，能够高效地学习估计模型的模型参数。

学习部还可以构成为，基于第1数据集中包含的样本数据以及对应的正解，对被输入来自编码器的输出的识别器进行学习。估计模型也可以还包含识别器。根据该结构，能够高效地进行关于估计模型的估计(识别)的学习。

本发明的另一例的估计装置包含：存储部，其保持估计模型，所述估计模型是通过使用了包含被赋予了正解的多个样本数据的第1数据集、和包含未被赋予正解的多个样本数据的第2数据集的学习而生成的；以及估计部，其将可能属于第2数据集的估计对象数据输入到估计模型，决定估计结果。估计模型包含编码器，所述编码器根据样本数据，计算不依赖于第1数据集和第2数据集的第1特征量、以及依赖于第1数据集或第2数据集的第2特征量。对编码器进行学习，使得针对第1数据集中包含的第1样本数据、和第2数据集中包含的应被赋予与对第1样本数据赋予的正解相同的正解的第2样本数据的对，根据第1样本数据和第2样本数据中的任意一个都计算出相同的第1特征量。

本发明的又一例的估计方法包含如下步骤：使用包含被赋予了正解的多个样本数据的第1数据集、和包含未被赋予正解的多个样本数据的第2数据集，生成估计模型；以及将可能属于第2数据集的估计对象数据输入到估计模型，决定估计结果。估计模型包含编码器，所述编码器根据样本数据，计算不依赖于第1数据集和第2数据集的第1特征量、以及依赖于第1数据集或第2数据集的第2特征量。生成估计模型的步骤包含如下步骤：对编码器进行学习，使得针对第1数据集中包含的第1样本数据、和第2数据集中包含的应被赋予与对第1样本数据赋予的正解相同的正解的第2样本数据的对，根据第1样本数据和第2样本数据中的任意一个都计算出相同的第1特征量。

发明的效果

根据本发明，与现有方法相比，能够生成进一步提高了估计性能的已学习模型。

附图说明

图1是表示本实施方式的机器人系统的结构例的示意图。

图2是表示本实施方式的估计模型的构建以及运用的处理步骤的示意图。

图3是表示本实施方式的机器人系统的硬件结构例的示意图。

图4是用于说明本发明的相关技术的Unsupervised Domain Adaptation问题的解决方法的一例的图。

图5是表示本实施方式的用于通过cycleGAN构建编码器的学习用网络的一例的示意图。

图6是用于概念性地说明图5所示的基于cycleGAN的编码器的构建的图。

图7是表示本实施方式的用于通过cycleGAN构建编码器的学习用网络的一例的示意图。

图8是表示构建利用了图7所示的学习用网络的主目的识别器的方法的一例的示意图。

图9是表示利用图7所示的学习用网络构建的编码器的运用阶段中的网络的一例的示意图。

图10是表示本实施方式的用于生成估计模型的处理步骤的流程图。

图11是用于说明本实施方式的估计模型中的模型参数共享的一例的图。

图12是用于说明本实施方式的估计模型的性能结果的实验例的示意图。

图13是表示图12所示的实验中的性能评价的一例的图。

图14是表示本实施方式的利用估计模型的估计系统的结构例的示意图。

具体实施方式

参照附图对本发明的实施方式进行详细说明。另外，对图中的相同或相应的部分标注相同的标号并不重复其说明。

<A.应用例>

首先，对应用本发明的场景的一例进行说明。

图1是表示本实施方式的机器人系统1的结构例的示意图。参照图1，机器人系统1通过图像识别确定工件8的位置和/或种类，通过配置于臂的末端的手6把持工件8，进行必要的操作。

作为一个例子，机器人2是多关节型机器人，具有相当于关节的多个轴4，通过各个轴4旋转或者移动，能够将配置于末端的手6配置为任意的位置以及任意的姿势。在手部6的附近配置有摄像头20，通过对由摄像头20拍摄到的图像进行识别处理，来确定(估计)工件8的位置和/或种类等。

在本实施方式的机器人系统1中，使用后述那样的通过机器学习而事先构建的作为已学习模型的估计模型。为了提高估计模型的估计精度，需要使用包含多个教师数据的学习用数据集来进行机器学习。

另一方面，需要预先对教师数据赋予正解(标签)，从而不容易准备多个教师数据。因此，大多使用如下方法：在仿真上预先配置位置以及种类(即，正解)已知的工件，并且虚拟地拍摄(渲染或者可视化)该工件，由此准备多个被赋予了正解的图像(即，教师数据)。

通过使用这样的通过仿真而生成的多个教师数据来构建估计模型，能够提高估计精度。

然而，在实际的运用中，由摄像头20拍摄工件8。通过仿真生成的图像和由摄像头20实际拍摄到的图像的拍摄条件等不完全相同，因此多数情况下无法将使用通过仿真生成的多个教师数据构建的估计模型直接用于实际运用。

本实施方式提供如下结构：能够在不一定相同的条件下，运用使用在某个条件下生成的教师数据构建的估计模型。

图2是表示本实施方式的估计模型的构建以及运用的处理步骤的示意图。参照图2，首先，使用包含仿真装置200生成的图像的数据集(以下，也称为“源数据集30”。)，构建估计模型40。

通过使用包含在实际的运用中使用的图像的数据集(以下，也称为“目标数据集50”。)来对该构建出的估计模型40进行适配，生成估计模型60。在实际的运用中，通过对该生成的估计模型60输入数据(以下，也称为“估计对象数据70”。)，来输出估计结果62。估计对象数据70相当于可能属于目标数据集50的样本数据。

此外，未必需要构建估计模型40，也可以根据源数据集30以及目标数据集50直接构建估计模型60。

以下，对作为本发明的具体应用例的机器人系统1的详细结构以及处理进行说明。

<B.机器人系统的硬件结构>

接着，对图1所示的机器人系统1的硬件结构的一例进行说明。

图3是表示本实施方式的机器人系统1的硬件结构例的示意图。参照图3，机器人系统1包含机器人2以及控制机器人2的机器人控制器100。

机器人2除了摄像头20以外，还具有与轴的数量相应的伺服驱动器12及电机14的组。

机器人控制器100是构成本实施方式的估计系统的装置，基于由摄像头20拍摄到的图像来控制机器人2。更具体而言，机器人控制器100对由摄像头20拍摄到的图像进行识别处理，并根据其识别结果，向1个或多个伺服驱动器12输出指令。伺服驱动器12分别按照指令来供给电力，由此所对应的电机14被旋转驱动，与电机14机械地结合的机器人2的关节或臂进行动作。

机器人控制器100典型地使用遵循通用架构的计算机(例如，以通用个人计算机为基础的工业用个人计算机)来实现。

机器人控制器100包含处理器102、主存储器104、储存器110、通信接口122、输入部124、输出部126、摄像头接口128及电机接口130作为组件。

处理器102由CPU(Central Processing Unit：中央处理单元)、MPU(MicroProcessing Unit：微处理单元)、GPU(Graphics Processing Unit：图形处理单元)等构成。作为处理器102，可以采用具有多个核的结构，也可以配置多个处理器102。

主存储器104由DRAM(Dynamic Random Access Memory：动态随机存取存储器)或SRAM(Static Random Access Memory：静态随机存取存储器)等易失性存储装置等构成。储存器110例如由HDD(Hard Disk Drive：硬盘驱动器)或SSD(Solid State Drive：固态硬盘)等非易失性存储装置等构成。处理器102读出储存器110中保存的各种程序，在主存储器104中展开并执行，由此实现后述的各种处理。

在储存器110中，除了用于实现基本功能的OS 112以外，还保存有机器学习程序114、规定估计模型的模型参数116、以及用于控制机器人2的控制应用118。储存器110相当于保持估计模型的存储部。另外，储存器110中有时也保存源数据集30。

处理器102通过执行机器学习程序114来执行学习处理，生成估计模型60。另外，处理器102通过执行控制应用118，作为将估计对象数据70输入到估计模型60来决定估计结果的估计部发挥功能。

通信接口122经由任意的网络对与其他装置之间的数据交换进行中介。

输入部124由键盘、鼠标等构成，受理用户操作。输出部126由显示器、各种指示器、打印机等构成，输出来自处理器102的处理结果。

摄像头接口128接收由摄像头20拍摄到的图像，并且对摄像头20输出所需的指令。

电机接口130根据来自处理器102的指示，向伺服驱动器12输出所需的指令。

机器人控制器100的程序可以经由计算机可读取的记录介质(例如，DVD(DigitalVersatile Disc：数字多功能光盘)等光学记录介质)安装，也可以以从网络上的服务器装置等下载的形式安装。另外，本实施方式的机器人控制器100提供的功能有时也以利用OS提供的模块的一部分的形式实现。

在图3中，示出了通过处理器102执行程序来提供作为机器人控制器100所需的功能的结构例，但也可以使用专用的硬件电路(例如ASIC(Application SpecificIntegrated Circuit：专用集成电路)或者FPGA(Field-Programmable Gate Array：现场可编程门阵列)等)来安装这些所提供的功能的一部分或全部。

<C.Unsupervised Domain Adaptation问题>

首先，说明Unsupervised Domain Adaptation问题。如参照图1以及图2所说明的那样，假设存在具有相互不同的偏差(趋势)的数据集(源数据集30以及目标数据集50)。在此，偏差典型的是由取得源数据集30的环境(以下，也称为“源域”。)与取得目标数据集50的环境(以下，也称为“目标域”。)的差异等引起的。

源数据集30基本上由被赋予了正解的多个样本数据构成。但是，在源数据集30中也可以包含未被赋予正解的样本数据。源数据集30相当于包含被赋予了正解的多个样本数据的第1数据集。

目标数据集50基本上由未被赋予正解的多个样本数据构成。但是，在目标数据集50中也可以包含被赋予了正解的样本数据。目标数据集50相当于包含未被赋予正解的多个样本数据的第2数据集。

参照图1和图2所示的例子，通过仿真生成的环境是源域，由摄像头20实际拍摄的环境相当于目标域。

源域的学习用数据集由(x_s，y_s)的组给出，目标域的学习用数据集仅由(x_t)给出。在此，x_s和x_t分别表示在源域和目标域中包含的样本数据的输入矢量，t_s是指对对应的t_s赋予的正解(标签)。即，假设未对目标域中包含的样本数据赋予正解(标签)。

在这样的前提下，构建能够估计应该对属于目标域的样本数据组X_t赋予的正解Y_t的已学习模型是Unsupervised Domain Adaptation问题的目标。即，目标是在不存在正解Y_t的状态下，构建能够计算出分布Pr(y|X_t)的已学习模型。

相关技术的Unsupervised Domain Adaptation问题的解决方法是构建将成为相同估计值的样本数据x_s～X_s和样本数据x_t～X_t投影到相同特征量z的编码器E(z|x)。

在此，无法确定成为相同的估计值的对(x_s，x_t)，即哪个对(x_s，x_t)成为相同的估计值是未知的。因此，不是以各个对成为相同特征量的方式对编码器进行学习，而是以作为组成为相同特征量的方式对编码器进行学习。即，作为组来对编码器进行学习，使得分布Pr(y|x_s～X_s)和分布Pr(y|x_t～X_t)的形状一致。

图4是用于说明本发明的相关技术的Unsupervised Domain Adaptation问题的解决方法的一例的图。参照图4，设想源数据集30及目标数据集50。在源数据集30与目标数据集50之间存在未知的偏差(或者未知的偏差差异)。

源数据集30(样本数据组X_s)包含被赋予了第1正解(标签)的1个或多个样本数据32、和被赋予了第2正解(标签)的1个或多个样本数据34。

另一方面，目标数据集50(样本数据组X_t)包含应被赋予第1正解(标签)的1个或多个样本数据52、和应被赋予第2正解(标签)的1个或多个样本数据54。但是，目标数据集50中包含的样本数据的正解是未知的。

在此，着眼于将源数据集30以及目标数据集50中包含的样本数据投影到了编码器的特征量空间时的分布。源数据集30中包含的样本数据32以及34分别被投影到了区域36以及38，目标数据集50中包含的样本数据52以及54分别被投影到了区域56以及58。

以区域36及38的分布与区域56及58的分布的形状一致的方式对编码器进行学习。在此基础上，还学习对与第1正解(标签)对应的区域36以及38、和被赋予了第2正解(标签)的区域56以及58进行识别的主目的识别器64。从编码器以及主目的识别器64生成估计模型60(参照图6)。

即使存在包含被赋予了正解的样本数据的源数据集30，对于具有不同的偏差的数据，估计精度也会降低，但通过应用由上述那样的方法构建的编码器，能够防止这样的估计精度的降低。

<D.解决手段>

(d1：课题的发现)

本申请发明人等进行了深入研究，结果发现了上述那样的方法中的本质课题和针对该课题的解决手段。即，在上述方法中，假设分布Pr(y|x_s～X_s)和分布Pr(y|x_t～X_t)的形状一致，但是实际正解Y_t是未知的，因此存在除了特殊情况之外这样的假设只是偶然成立的本质问题。

例如，如参照上述的图1以及图2所说明的那样，在通过仿真生成的图像与由摄像头20实际拍摄到的图像之间，难以使正解的频度分布一致。

其结果，如图4所示，可能产生本来必须投影到区域56的样本数据52中的错误地投影到区域58的样本数据(错误投影样本数据53)，或者产生必须投影到区域58的样本数据54中的错误地投影到区域56的样本数据(错误投影样本数据55)。此外，由于未对目标数据集50中包含的样本数据赋予正解，因此理论上不可能检测这样的错误的投影。

(d2：解决手段的概要)

在本实施方式的解决手段中，不管分布Pr(y|x_s～X_s)和分布Pr(y|x_t～X_t)的形状是否一致，都通过学习来构建编码器E(z|x)，该编码器E(z|x)将样本数据x_s～X_s和样本数据x_t～X_t投影到相同的特征量z。

更具体而言，使用被称为cycleGAN的方法，生成虚拟地成为与样本数据x_s相同的估计值y的1次伪样本数据x’_t。然后，使误差最小化，使得根据样本数据x_s计算出的特征量z与根据1次伪样本数据x’_t计算出的特征量z’表示类似的值。

在本方法中，以使成为相同的估计值的对(pair)一致为目的来对编码器进行学习。即，以将成为相同估计值的样本数据x_s～X_s和样本数据x_t～X_t投影到相同的特征量z为目的，对编码器进行学习。通过采用这种学习方法，即使分布Pr(y|x_s～X_s)和分布Pr(y|x_t～X_t)的形状不同，也能够提高估计精度。

(d3：基本学习用网络)

图5是表示本实施方式的用于通过cycleGAN构建编码器的学习用网络80的一例的示意图。参照图5，学习用网络80是一种对抗网络，是将2种编码器和解码器的组相互组合而成的网络。更具体而言，学习用网络80包含编码器82与解码器84的组、以及编码器86与解码器88的组。

编码器82是用于根据源数据集30中包含的样本数据来计算特征量的已学习模型(StoZ)，解码器84是用于根据特征量来估计目标数据集50中包含的样本数据的已学习模型(ZtoT)。

同样地，编码器86是用于根据目标数据集50中包含的样本数据来计算特征量的已学习模型(TtoZ)，解码器88是用于根据特征量来估计源数据集30中包含的样本数据的已学习模型(ZtoS)。

源数据集30中包含的样本数据x_s～X_s被输入到编码器82和解码器84的组，其输出结果被输入到编码器86和解码器88的组。

同样，目标数据集50中包含的样本数据x_t～X_t被输入到编码器86和解码器88的组，其输出结果被输入到编码器82和解码器84的组。

此外，学习用网络80虽然各包含2个编码器82、86以及2个解码器84、88，但各自共享模型参数。因此，标注有相同的参照标号的编码器以及解码器彼此是相同的模型。

通过将源数据集30中包含的样本数据x_s输入到编码器82，计算出样本数据x_s的特征量z_s。通过将特征量z_s输入到解码器84，计算出模拟属于目标数据集50的样本数据的1次伪样本数据x’_t。

此外，通过将1次伪样本数据x’_t输入到编码器86，计算出1次伪样本数据x’_t的特征量z’_t。通过将特征量z’_t输入到解码器88，计算出模拟属于源数据集30的样本数据的2次伪样本数据x”_s。

另一方面，通过将目标数据集50中包含的样本数据x_t输入到编码器86，计算出样本数据x_t的特征量z_t。通过将特征量z_t输入到解码器88，计算出模拟属于源数据集30的样本数据的1次伪样本数据x’_s。

此外，通过将1次伪样本数据x’_s输入到编码器82，计算出1次伪样本数据x’_s的特征量z’_s。通过将特征量z’_s输入到解码器84，计算出模拟属于目标数据集50的样本数据的2次伪样本数据x”_t。

作为这样的对抗网络的学习用网络80通过以下那样的步骤(1-1)、(1-2)、(2-1)、(2-2)、(3-1)、(3-2)来学习。此外，步骤(3-1)、(3-2)的执行是任意的。

(1-1)将属于源数据集30的样本数据x_s与计算出的2次伪样本数据x”_s之间的误差设为第1-1损失函数，以使第1-1损失函数的值最小化的方式对编码器82、86以及解码器84、88的模型参数进行优化。

(1-2)将属于目标数据集50的样本数据x_t与计算出的2次伪样本数据x”_t之间的误差设为第1-2损失函数，以使第1-2损失函数的值最小化的方式对编码器82、86以及解码器84、88的模型参数进行优化。

(2-1)使用未图示的识别器(Discriminator)，将能够区分属于源数据集30的样本数据x_s和1次伪样本数据x’_s的函数作为第2-1损失函数，以使第2-1损失函数的值最小化的方式(即，以无法区分的方式)，通过minmax策略，对编码器82、86以及解码器84、88的模型参数进行优化。

(2-2)使用与(2-1)同样的识别器，将能够区分属于目标数据集50的样本数据x_t和1次伪样本数据x’_t的函数作为第2-2损失函数，以使第2-2损失函数的值最小化的方式(即，以无法区分的方式)，通过minmax策略，对编码器82、86以及解码器84、88的模型参数进行优化。

在此，也可以将同一性损失(identity loss)作为损失函数，进一步对模型参数进行优化。更具体而言，也可以通过以下那样的步骤(3-1)以及(3-2)来学习。

(3-1)将源数据集30中包含的样本数据x_s、与将该样本数据x_s输入到编码器86以及解码器88而计算出的1次伪样本数据x’_s之间的误差设为第3-1损失函数，以使第3-1损失函数的值最小化的方式对编码器86以及解码器88的模型参数进行优化。

(3-2)将目标数据集50中包含的样本数据x_t、与将该样本数据x_t输入到编码器82以及解码器84而计算出的1次伪样本数据x’_t之间的误差设为第3-2损失函数，以使第3-2损失函数的值最小化的方式对编码器82以及解码器84的模型参数进行优化。

通过以上的步骤，作为对抗网络的学习用网络80的各模型参数被优化。

图6是用于概念性地说明图5所示的基于cycleGAN的编码器的构建的图。参照图6，设想源数据集30及目标数据集50。在源数据集30与目标数据集50之间存在未知的偏差(或者未知的偏差差异)。

在此，对编码器进行学习，使得源数据集30以及目标数据集50中包含的样本数据中的、以第1正解(标签)为估计值的样本数据32与样本数据52的对成为相同的特征量66。

同样地，对编码器进行学习，使得源数据集30以及目标数据集50中包含的样本数据中的、以第2正解(标签)为估计值的样本数据34与样本数据54的对成为相同的特征量68。

即，图5所示的学习用网络80着眼于源数据集30中包含的样本数据与目标数据集中包含的样本数据的对，从一方的样本数据出发并经过特征量空间来计算另一方的伪样本数据(1次伪样本数据)，并且从该另一方的伪样本数据(1次伪样本数据)出发并经过特征量空间来计算一方的伪样本数据(2次伪样本数据)。通过这样的双向的投影(即，沿着双向的路径的计算)，也以任意的数据集中包含的样本数据与对应的2次伪样本数据相同等为目的，执行对抗的学习。

这样，在图5所示的学习用网络80中，以使成为相同的估计值的对一致为目的来对编码器进行学习。即，以将成为相同估计值的样本数据x_s～X_s和样本数据x_t～X_t投影到相同的特征量z为目的，对编码器进行学习。通过采用这样的学习方法，无需以分布Pr(y|x_s～X_s)与分布Pr(y|x_t～X_t)的形状一致为前提，就能够构建高精度的编码器。

(d4：改良学习用网络)

本申请发明人等进行了进一步的深入研究，结果发现图5所示的学习用网络80在以下方面能够进行进一步的改良。

图7是表示本实施方式的用于通过cycleGAN构建编码器的学习用网络90的一例的示意图。参照图7，学习用网络90是一种对抗网络，是将2种编码器和解码器的组相互组合而成的网络。通过作为对抗网络的学习用网络90，生成估计模型60。

更具体而言，学习用网络90包含编码器92与解码器94的组(编码器/解码器)、以及编码器96与解码器98的组(编码器/解码器)。

图7所示的学习用网络90与图5所示的学习用网络80相比，在编码器92、96输出2种特征量z和特征量ζ这一点上不同。将编码器92、96的编码结果设为2种特征量z及特征量ζ的理由如下。

在将变量b作为教师数据学习了根据变量a估计变量b的问题的情况下，无论本来变量a与变量b之间有无依赖关系，变量a都依赖于变量b。对于图5所示的学习用网络80，不论源域和目标域如何，特征量z都应该具有相同的值，但是实际上，由于存在根据特征量z预测样本数据x_s和样本数据x_t的部分，因此根据预测路径而依赖于样本数据x_s或样本数据x_t。

因此，通过分离为保持该依赖关系的特征量ζ和不依赖于预测路径的特征量z，作为整体来看的(z，ζ)虽然依赖于域，但在特征量z单体中能够设为不依赖于域。由此，在以下说明的第4-1以及第4-2损失函数的最小化中能够实现不依赖于域。

换言之，可以认为特征量ζ表示内容的信息，特征量z表示各域的信息。

这样，编码器92、96根据样本数据，计算不依赖于源数据集30及目标数据集50的特征量z(特征量z_s和z_t)、以及依赖于源数据集30或目标数据集50的特征量ζ。

然后，对编码器92、96进行学习，使得针对源数据集30中包含的样本数据x_s、和目标数据集50中包含的应该被赋予与样本数据x_s相同的正解的(即，成为相同的估计值的)样本数据x_t的对，根据样本数据x_s以及样本数据x_t中的任意一个都计算出相同的特征量z(不依赖的特征量z_s和z_t)。

即，以将成为相同估计值的样本数据x_s～X_s和样本数据x_t～X_t投影到相同的特征量z(不依赖的特征量z_s和z_t)为目的，对编码器进行学习。

这样，在学习用网络90中，着眼于不依赖于源数据集30以及目标数据集50的特征量z(特征量z_s和z_t)，对模型参数进行优化。

在使用了学习用网络90的学习中，源数据集30中包含的样本数据x_s被输入到按照编码器92和解码器94的组(第1编码器/解码器)、以及编码器96和解码器98的组(第2编码器/解码器)的顺序配置的网络(第1网络)。

另一方面，目标数据集50中包含的样本数据x_t被输入到按照编码器96和解码器98的组(第2编码器/解码器)、以及编码器92和解码器94的组(第1编码器/解码器)的顺序配置的网络(第2网络)。

图7所示的作为对抗网络的学习用网络90通过以下那样的步骤(1-1)、(1-2)、(2-1)、(2-2)、(3-1)、(3-2)、(4-1)、(4-2)、(5)来学习。此外，步骤(3-1)、(3-2)的执行是任意的。

(1-1)将属于源数据集30的样本数据x_s与计算出的2次伪样本数据x”_s之间的误差设为第1-1损失函数，以使第1-1损失函数的值最小化的方式对编码器92、96和解码器94、98的模型参数进行优化。

(1-2)将属于目标数据集50的样本数据x_t与计算出的2次伪样本数据x”_t之间的误差设为第1-2损失函数，以使第1-2损失函数的值最小化的方式对编码器92、96和解码器94、98的模型参数进行优化。

(2-1)使用未图示的识别器，将能够区分属于源数据集30的样本数据x_s和1次伪样本数据x’_s的函数作为第2-1损失函数，以使第2-1损失函数的值最小化的方式(即，以无法区分的方式)，通过minmax策略，对编码器92、96和解码器94、98的模型参数进行优化。

(2-2)使用与(2-1)同样的识别器，将能够区分属于目标数据集50的样本数据x_t和1次伪样本数据x’_t的函数作为第2-2损失函数，以使第2-2损失函数的值最小化的方式(即，以无法区分的方式)，通过minmax策略，对编码器92、96和解码器94、98的模型参数进行优化。

(3-1)将源数据集30中包含的样本数据x_s、与将该样本数据x_s输入到编码器96和解码器98而计算出的1次伪样本数据x’_s之间的误差设为第3-1损失函数，以使第3-1损失函数的值最小化的方式，对编码器96和解码器98的模型参数进行优化。

(3-2)将目标数据集50中包含的样本数据x_t、与将该样本数据x_t输入到编码器92和解码器94而计算出的1次伪样本数据x’_t之间的误差设为第3-2损失函数，以使第3-2损失函数的值最小化的方式，对编码器92和解码器94的模型参数进行优化。

接着，着眼于特征量z进行学习。

(4-1)关于属于源数据集30的样本数据x_s，将从编码器92输出的特征量z_s与从位于后级的编码器96输出的伪特征量z’_t之间的误差设为第4-1损失函数，以使第4-1损失函数的值最小化的方式，对编码器92、96和解码器94、98的模型参数进行优化。

(4-2)关于属于目标数据集50的样本数据x_t，将从编码器96输出的特征量z_t与从位于后级的编码器92输出的伪特征量z’_s之间的误差设为第4-2损失函数，以使第4-2损失函数的值最小化的方式，对编码器92、96和解码器94、98的模型参数进行优化。

进而，进行关于主目的识别器64的学习。

(5)关于属于源数据集30的样本数据x_s，将从编码器92输出的特征量z_s输入到主目的识别器64而输出的估计值y、与样本数据x_s的正解y_s之间的误差设为第5损失函数，以使第5损失函数的值最小化的方式对编码器92以及主目的识别器64的模型参数进行优化。这样，基于源数据集30中包含的样本数据x_s以及对应的正解，对被输入从编码器92输出的特征量z_s的主目的识别器64进行学习。

此外，也可以利用目标数据集50中包含的样本数据x_t中的被赋予了正解的样本数据来执行处理(5)。即，主目的识别器64也可以基于各数据集(源数据集30和/或目标数据集50)中包含的样本数据以及对应的正解进行学习。

图8是表示构建利用了图7所示的学习用网络90的主目的识别器64的方法的一例的示意图。参照图8，处理(5)着眼于编码器92以及主目的识别器64来执行。

通过以上的步骤，作为对抗网络的学习用网络90的各模型参数被优化。

图9是表示利用图7所示的学习用网络90构建的编码器的运用阶段中的网络的一例的示意图。参照图9，在运用阶段中，将由编码器96以及主目的识别器64构成的网络用作估计模型。即，通过将向编码器96输入任意的样本数据x而计算出的特征量z(不使用特征量ζ)输入到主目的识别器64，来计算估计值y。

图10是表示本实施方式的用于生成估计模型的处理步骤的流程图。典型地，图10所示的各步骤通过处理器102执行机器学习程序114来实现(参照图3)。

参照图10，准备源数据集30和目标数据集50(步骤S100)。

处理器102将构成图7所示的学习用网络90的编码器92、96和解码器94、98的模型参数初始化(步骤S102)。然后，处理器102执行以下那样的模型参数的优化处理。

处理器102以使属于源数据集30的样本数据x_s与计算出的2次伪样本数据x”_s之间的误差最小化的方式，对编码器92、96和解码器94、98的模型参数进行优化(步骤S104)。另外，处理器102以使属于目标数据集50的样本数据x_t与计算出的2次伪样本数据x”_t之间的误差最小化的方式，对编码器92、96和解码器94、98的模型参数进行优化(步骤S106)。

处理器102判断步骤S104和S106的优化处理是否反复执行了预先确定的次数(步骤S108)。如果步骤S104和S106的优化处理未反复执行预先确定的次数(在步骤S108中为“否”)，则反复步骤S104和S106的处理。

如果步骤S104和S106的优化处理反复执行了预先确定的次数(在步骤S108中为“是”)，则处理器102使用识别器，以在属于源数据集30的样本数据x_s与1次伪样本数据x’_s之间没有区别的方式，对编码器92、96和解码器94、98的模型参数进行优化(步骤S110)。另外，处理器102使用识别器，以在属于目标数据集50的样本数据x_t与1次伪样本数据x’_t之间没有区别的方式，对编码器92、96和解码器94、98的模型参数进行优化(步骤S112)。

处理器102判断步骤S110和S112的优化处理是否反复执行了预先确定的次数(步骤S114)。如果步骤S110和S112的优化处理未反复执行预先确定的次数(在步骤S114中为“否”)，则反复步骤S110和S112的处理。

如果步骤S110和S112的优化处理反复执行了预先确定的次数(在步骤S114中为“是”)，则处理器102以使源数据集30中所含的样本数据x_s、与将该样本数据x_s输入到编码器96和解码器98而计算出的1次伪样本数据x’_s之间的误差最小化的方式，对编码器96和解码器98的模型参数进行优化(步骤S116)。另外，处理器102以使目标数据集50中包含的样本数据x_t、与将该样本数据x_t输入到编码器92和解码器94而计算出的1次伪样本数据x’_t之间的误差最小化的方式，使编码器92和解码器94的模型参数进行优化(步骤S118)。

处理器102判断步骤S116和S118的优化处理是否反复执行了预先确定的次数(步骤S120)。如果步骤S116和S118的优化处理未反复执行预先确定的次数(在步骤S120中为“否”)，则反复步骤S116和S118的处理。

如果步骤S116和S118的优化处理反复执行了预先确定的次数(在步骤S120中为“是”)，则处理器102针对属于源数据集30的样本数据x_s，以使从编码器92输出的特征量z_s与从位于后级的编码器96输出的伪特征量z’_t之间的误差最小化的方式，使编码器92、96和解码器94、98的模型参数进行优化(步骤S122)。另外，处理器102针对属于目标数据集50的样本数据x_t，以使从编码器96输出的特征量z_t与从位于后级的编码器92输出的伪特征量z’_s之间的误差最小化的方式，使编码器92、96和解码器94、98的模型参数进行优化(步骤S124)。

处理器102判断步骤S122和S124的优化处理是否反复执行了预先确定的次数(步骤S126)。如果步骤S122和S124的优化处理没有反复执行预先确定的次数(在步骤S126中为“否”)，则反复步骤S122和S124的处理。

如果步骤S122和S124的优化处理反复执行了预先确定的次数(在步骤S126中为“是”)，则处理器102针对属于源数据集30的样本数据x_s，以使将从编码器92输出的特征量z_s输入到主目的识别器64而输出的估计值y、与样本数据x_s的正解y_s之间的误差最小化的方式，使编码器92和主目的识别器64的模型参数进行优化(步骤S128)。

处理器102判断步骤S128的优化处理是否反复执行了预先确定的次数(步骤S130)。如果步骤S128的优化处理未反复执行预先确定的次数(在步骤S130中为“否”)，则反复进行步骤S128的处理。

如果步骤S128的优化处理反复执行了预先确定的次数(在步骤S130中为“是”)，则处理器102将由编码器96和主目的识别器64构成的网络作为估计模型输出(步骤S132)。

通过以上的步骤，估计模型的生成处理结束。而且，能够运用使用了所生成的估计模型的估计处理。

(d5：模型参数的共享)

也可以共享估计模型40(学习用网络90)的模型参数的一部分。

图11是用于说明本实施方式的估计模型中的模型参数共享的一例的图。参照图11，例如，可以在编码器92与解码器94的组(编码器/解码器)、和编码器96与解码器98的组(编码器/解码器)之间共享与特征量ζ的计算相关的模型参数。另外，为了便于说明，未图示与特征量z的计算相关的部分。

在图11的(A)所示的例子中，在编码器92与编码器96之间共享模型参数的一部分。

更具体而言，编码器92包含规定输入侧的内部处理的共享参数921、和规定输出侧的内部处理的独立参数922。同样地，编码器96包含规定输入侧的内部处理的共享参数961、和规定输出侧的内部处理的独立参数962。

在由神经网络构成编码器92和编码器96的情况下，独立参数922和独立参数962相当于规定最终层中的特征量ζ(ζ_s，ζ_t)的输出的部分。独立参数922和独立参数962在编码器92和编码器96中分别具有独立的值。另一方面，输入侧的共享参数921和共享参数961彼此共享。

另外，在图11的(A)所示的例子中，也可以在解码器94与解码器98之间共享模型参数的一部分。

更具体而言，解码器94包含规定输入侧的内部处理的独立参数941、和规定输出侧的内部处理的共享参数942。同样地，解码器98包含规定输入侧的内部处理的独立参数981、和规定输出侧的内部处理的共享参数982。

在由神经网络构成解码器94和解码器98的情况下，独立参数941和独立参数981相当于吸收所输入的特征量ζ(ζ_s，ζ_t)的差异的部分。独立参数941和独立参数981在解码器94和解码器98中分别具有独立的值。另一方面，输出侧的共享参数942和共享参数98彼此共享。

在图11的(B)所示的例子中，在解码器94与解码器98之间共享与特征量ζ(ζ_s，ζ_t)相关的模型参数。更具体而言，解码器94具有共享参数944，并且解码器98具有共享参数984。共享参数944和共享参数984彼此共享。共享参数944和共享参数984被适配为接收特征量ζ_s和ζ_t中任意一方。即，图11的(B)所示的结构相当于在图11的(A)所示的结构中，针对独立参数941以及独立参数981也以彼此共享的方式进行了变形的结构。

这样，通过共享与特征量ζ相关的模型参数，能够更高效地进行估计模型的学习。

另外，通过共享模型参数，能够增加用于决定特征量ζ(ζ_s，ζ_t)的输出的信息量。其结果，对于具有相同的估计值y的输入，容易输出相同的特征量z。

<E.性能结果的实验例>

接着，对本实施方式的估计模型的性能结果的实验例进行说明。

图12是用于说明本实施方式的估计模型的性能结果的实验例的示意图。在图12所示的实验例中，以人物姿势的估计任务为对象。人物姿势的估计任务是来自图像的回归任务的一种。

具体而言，将通过对已知的运动捕捉数据集302中包含的任意的姿势进行渲染(304)而生成的Depth图像用作源数据集308。手动地对各Depth图像赋予关节位置的正解306(标签)。作为Panoptic Segmentation(全景分割)任务的估计结果是所输入的图像中包含的关节位置的种类及其位置。

另一方面，目标数据集314由通过立体摄像头312实际拍摄用户310而得到的Depth图像构成。

构建了与Panoptic Segmentation任务对应的估计模型。

图13是表示图12所示的实验中的性能评价的一例的图。图13所示的性能评价表示将估计对象数据输入到估计模型，针对该输入的估计对象数据的估计结果(关节位置)相对于正解在2维空间内位于10像素以内的概率。图13所示的性能评价对图像上的偏差(2Dpose)进行了评价。

在图13所示的性能评价中，将非专利文献1所公开的“CyCADA”这样的方法作为基线。参照图13可知，本实施方式的估计模型与基线相比，对于任意部位都具有更高的估计精度。

这样，可知通过采用本实施方式的估计模型及其学习方法，与相关技术相比，能够实现更高的估计性能。

<F.变形例>

(f1：分散配置)

虽然例示了上述实施方式的机器人控制器100执行收集目标数据集50的处理以及生成估计模型60的处理的结构，但并不限定于这样的结构，能够采用任意的结构。

图14的(A)中示出机器人控制器100执行收集源数据集30和目标数据集50的处理150、生成估计模型60的处理160、以及使用了估计模型60的估计处理的结构例。

图14的(B)示出机器人控制器100和服务器等外部装置250彼此协作的结构例。在该结构例中，机器人控制器100执行收集源数据集30和目标数据集50的处理150、以及使用了估计模型60的估计处理，外部装置250执行生成估计模型60的处理160。

图14的(C)也示出机器人控制器100和服务器等外部装置250彼此协作的结构例。在该结构例中，外部装置250执行收集源数据集30和目标数据集50的处理150、以及生成估计模型60的处理160，机器人控制器100执行使用了估计模型60的估计处理。

另外，图14示出典型的几个结构例，本发明的技术范围并不限定于这些结构例。根据所要求的要件、规格及目的等，能够采用任意的安装方式。

(f2：数据集以及估计对象数据)

在图1以及图2所示的机器人系统中，示出了根据通过仿真而生成的图像(CG图像)来生成源数据集，并根据由摄像头实际拍摄到的图像(实拍图像)来生成目标数据集的例子，但不限于此，能够将任意的信息用作数据集。此外，也可以使用多个源数据集和/或多个目标数据集。

例如，对于CG图像和实拍图像中的任意一个，也能够生成或取得2D彩色图像(以下，也称为“RGB图像”。)和Depth图像中的双方或一方。在该情况下，能够准备由CG的RGB图像(被赋予了正解)构成的第1源数据集、和由CG的Depth图像(被赋予了正解)构成的第2源数据集，并且能够准备由实拍的RGB图像(无正解)构成的第1目标数据集、和由实拍的Depth图像(无正解)构成的第2源数据集。

使用这样的源数据集以及目标数据集，能够构建输入实拍的RGB图像或者Depth图像作为估计对象数据并输出识别结果的估计模型。

并且，能够准备由包含RGB信息和Depth信息的CG的3D图像(被赋予了正解)构成的第3源数据集、以及由实拍的3D图像(无正解)构成的第3目标数据集。

此外，既可以在源数据集中包含未被赋予正解的数据，也可以在目标数据集中包含被赋予了正解的数据。

(f3：与多个数据集对应的学习用网络)

在使用更多的源数据集以及目标数据集的情况下，只要采用如下学习用网络即可：根据所使用的数据集的数量，适当增加编码器与解码器的组(编码器/解码器)，并且以能够在任意的数据集间构成对抗网络的方式将编码器/解码器彼此连接。

(f4：编码器/解码器的网络结构)

编码器与解码器的组(编码器/解码器)能够采用与所输入的样本数据的维数以及所包含的信息的种类等相应的数据结构的网络。因此，输入源数据集的样本数据的编码器/解码器和输入目标数据集的样本数据的编码器/解码器可以采用相同的网络结构，也可以采用不同的网络结构。

例如，输入RGB图像的编码器/解码器和输入Depth图像的编码器/解码器由于每个像素的通道数不同，所以以输入层为代表的各层中的维数等不同。或者，在使用由图像数据构成的源数据集并且使用由文本数据构成的目标数据集的情况下，也可以使算法本身不同。具体而言，也可以对输入图像数据的编码器/解码器采用CNN，对输入文本数据的编码器/解码器采用RNN或1D-CNN等。

<G.应用例>

在上述的说明中，说明了吸收通过仿真生成的图像(CG图像)与由摄像头实际拍摄到的图像(实拍图像)之间的偏差差异的例子，但本实施方式的估计模型不限于该安装例，能够应用于任意的应用。即，“环境”或“域”能够尽可能宽泛地解释。

由任意的感测设备观测的任意的信息即使观测条件、观测环境不同，也能够通过本实施方式的方法来应用。例如，在FA(Factory Automation：工厂自动化)的技术领域中，通过应用本实施方式的学习方法，能够弥补应用对象的工厂或设备等的环境差。

作为具体的应用例，也可以在使用人工注释的图像数据而学习到的缺陷检查模型中，将在现场收集到的未被赋予正解标签(缺陷的有无)的图像数据作为目标数据集而追加地进行学习，由此生成适应于该现场的缺陷检查模型。或者，也可以拍摄某个产品并将图像数据(赋予正解标签)作为源数据集，将拍摄与该产品相比外观仅稍微变化的同系统的产品而得到的图像数据作为目标数据集，生成也能够应用于该同系统的产品的缺陷检查模型。

另外，本实施方式的方法也能够应用于生成估计作业者的姿势的估计模型的情况。例如，在想要掌握作业者的行动的情况下，无法在该作业者的正面配置摄像头的情况也较多。在这样的情况下，不得不在作业者的上方配置摄像头，从正上方拍摄该作业者。在将摄像头配置于作业者的上方的情况下，难以适当地注释未被拍摄到摄像头的视野内的作业者的关节位置等。但是，根据本实施方式的方法，能够生成与实际配置了摄像头的位置对应的视野中的CG图像(源数据集)，因此通过使用这样生成的源数据集来生成姿势估计模型，能够根据实际由摄像头拍摄到的图像容易地估计作业者的姿势。

并且，通过将仿真的结果用作源数据集，也能够虚拟地实现现实中不存在的传感器。例如，将对通过仿真生成的CG图像赋予了能够与图像内的坐标系位置对准后的状态的力场数据作为正解标签的数据集作为源数据集。另外，将由摄像头等拍摄到的图像数据(观测数据)(无正解标签)设为目标域。使用这样的源数据集和目标数据集来生成力场估计模型，并且将在任意的定时拍摄到的图像数据作为估计对象数据输入到力场估计模型，由此能够估计在任意的位置产生的力场。

在仿真中，对于物体彼此接触而产生作用力、反作用力的部位，能够将产生的力表现为力场(将这样的力场作为估计对象)。另一方面，现实中难以测量这样的力场。

使用通过本实施方式的方法生成的力场估计模型，能够估计以往仅通过图像无法观测的力场。即，也能够虚拟地实现现实中不存在的传感器。

此外，不仅可以应用于在感测设备中观察到的物理信息，而且还可以应用于EC(electronic commerce：电子商务)网站上的销售业绩这些人为信息。例如，设想基于某EC网站中的销售业绩来估计其他EC网站中的销售业绩这样的应用。

这样，本实施方式的学习方法以及通过该学习方法生成的估计模型的应用对象能够应用于现实世界中存在的各种可观测的信息。

<H.附记>

如上所述的本实施方式包含以下这样的技术思想。

[结构1]

一种估计系统(1)，其中，该估计系统(1)具有：

学习部(102；114)，其使用包含被赋予了正解的多个样本数据的第1数据集(30)、和包含未被赋予正解的多个样本数据的第2数据集(50)，生成估计模型(60)；以及

估计部(102；118)，其将可能属于所述第2数据集的估计对象数据(70)输入到所述估计模型，决定估计结果(62)，

所述估计模型包含编码器(96)，所述编码器(96)根据样本数据，计算不依赖于所述第1数据集和所述第2数据集的第1特征量、以及依赖于所述第1数据集或所述第2数据集的第2特征量，

所述学习部构成为对所述编码器进行学习，使得针对所述第1数据集中包含的第1样本数据、和所述第2数据集中包含的应被赋予与对所述第1样本数据赋予的正解相同的正解的第2样本数据的对，根据所述第1样本数据和所述第2样本数据中的任意一个都计算出相同的第1特征量。

[结构2]

在结构1所记载的估计系统中，

所述学习部构成为通过作为对抗网络的学习用网络(90)来生成所述估计模型。

[结构3]

在结构2所记载的估计系统中，

所述学习用网络包含：

由第1编码器(92)和第1解码器(94)构成的第1编码器/解码器；以及由第2编码器(96)和第2解码器(98)构成的第2编码器/解码器，

在所述学习部的学习中，

所述第1数据集中包含的样本被输入到按照所述第1编码器/解码器和所述第2编码器/解码器的顺序配置的第1网络(92、94、96、98)，

所述第2数据集中包含的样本被输入到按照所述第2编码器/解码器和所述第1编码器/解码器的顺序配置的第2网络(96、98、92、94)。

[结构4]

在结构3所记载的估计系统中，

所述学习部构成为，通过将所述第1数据集中包含的样本输入到第1网络，以使从所述第1编码器输出的所述第1特征量与从所述第2编码器输出的第1伪特征量之间的误差最小化的方式，对所述第1编码器、所述第1解码器、所述第2编码器以及所述第2解码器的模型参数进行优化，

所述学习部构成为，通过将所述第2数据集中包含的样本输入到第2网络，以使从所述第2编码器输出的所述第1特征量与从所述第1编码器输出的第1伪特征量之间的误差最小化的方式，对所述第1编码器、所述第1解码器、所述第2编码器以及所述第2解码器的模型参数进行优化。

[结构5]

在结构1～4中的任意一项所记载的估计系统中，

所述学习部还构成为，基于所述第1数据集中包含的样本数据以及对应的正解，对被输入来自所述编码器的输出的识别器(64)进行学习，

所述估计模型还包含所述识别器。

[结构6]

一种估计装置，其中，该估计装置具有：

存储部(110)，其保持估计模型(60)，所述估计模型(60)是通过使用了包含被赋予了正解的多个样本数据的第1数据集(30)、和包含未被赋予正解的多个样本数据的第2数据集(50)的学习而生成的；以及

对所述编码器进行学习，使得针对所述第1数据集中包含的第1样本数据、和所述第2数据集中包含的应被赋予与对所述第1样本数据赋予的正解相同的正解的第2样本数据的对，根据所述第1样本数据和所述第2样本数据中的任意一个都计算出相同的第1特征量。

[结构7]

一种估计方法，其中，该估计方法具有如下步骤：

使用包含被赋予了正解的多个样本数据的第1数据集(30)、和包含未被赋予正解的多个样本数据的第2数据集(50)，生成估计模型(60)；以及

将可能属于所述第2数据集的估计对象数据(70)输入到所述估计模型，决定估计结果(62)，

生成所述估计模型的步骤包含如下步骤：对所述编码器进行学习，使得针对所述第1数据集中包含的第1样本数据、和所述第2数据集中包含的应被赋予与对所述第1样本数据赋予的正解相同的正解的第2样本数据的对，根据所述第1样本数据和所述第2样本数据中的任意一个都计算出相同的第1特征量。

<I.效果>

根据本实施方式，能够生成进一步提高了估计性能的已学习模型。

应该认为本次公开的实施方式在所有方面都是例示而不是限制性的。本发明的范围由权利要求书、而不由上述的说明来表示，意在包含与权利要求书等同的意思以及范围内的所有变更。

标号说明

1：机器人系统；2：机器人；4：轴；6：手；8：工件；12：伺服驱动器；14：电机；20：摄像头；30、308：源数据集；32、34、52、54：样本数据；36、56、58：区域；40、60：估计模型；50、314：目标数据集；53、55：投影样本数据；62：估计结果；64：主目的识别器；66、68：特征量；70：估计对象数据；80、90：学习用网络；82、86、92、96：编码器；84、88、94、98：解码器；100：机器人控制器；102：处理器；104：主存储器；110：储存器；114：机器学习程序；116：模型参数；118：控制应用；122：通信接口；124：输入部；126：输出部；128：摄像头接口；130：电机接口；150、160：处理；200：仿真装置；250：外部装置；302：运动捕捉数据集；306：正解；310：用户；312：立体摄像头；921、942、944、961、982、984：共享参数；922、941、962、981：独立参数。

Claims

1.一种估计系统，其中，该估计系统具有：

学习部，其使用包含被赋予了正解的多个样本数据的第1数据集、和包含未被赋予正解的多个样本数据的第2数据集，生成估计模型；以及

估计部，其将可能属于所述第2数据集的估计对象数据输入到所述估计模型，决定估计结果，

所述估计模型包含编码器，所述编码器根据样本数据，计算不依赖于所述第1数据集和所述第2数据集的第1特征量、以及依赖于所述第1数据集或所述第2数据集的第2特征量，

2.根据权利要求1所述的估计系统，其中，

所述学习部构成为通过作为对抗网络的学习用网络来生成所述估计模型。

3.根据权利要求2所述的估计系统，其中，

所述学习用网络包含：

由第1编码器和第1解码器构成的第1编码器/解码器；以及

由第2编码器和第2解码器构成的第2编码器/解码器，

在所述学习部的学习中，

所述第1数据集中包含的样本被输入到按照所述第1编码器/解码器和所述第2编码器/解码器的顺序配置的第1网络，

所述第2数据集中包含的样本被输入到按照所述第2编码器/解码器和所述第1编码器/解码器的顺序配置的第2网络。

4.根据权利要求3所述的估计系统，其中，

5.根据权利要求1～4中的任意一项所述的估计系统，其中，

所述学习部还构成为，基于所述第1数据集中包含的样本数据以及对应的正解，对被输入来自所述编码器的输出的识别器进行学习，

所述估计模型还包含所述识别器。

6.一种估计装置，其中，该估计装置具有：

存储部，其保持估计模型，所述估计模型是通过使用了包含被赋予了正解的多个样本数据的第1数据集、和包含未被赋予正解的多个样本数据的第2数据集的学习而生成的；以及

7.一种估计方法，其中，该估计方法具有如下步骤：

使用包含被赋予了正解的多个样本数据的第1数据集、和包含未被赋予正解的多个样本数据的第2数据集，生成估计模型；以及

将可能属于所述第2数据集的估计对象数据输入到所述估计模型，决定估计结果，