控制设备移动的方法、装置、存储介质及电子设备
技术领域
本公开涉及导航领域,具体地,涉及一种控制设备移动的方法、装置、存储介质及电子设备。
背景技术
随着科技的不断进步,无人驾驶车辆、机器人等移动设备的自动导航技术逐渐成为一个研究热点,近年来,深度学习得到不断发展,尤其是深度学习中的卷积神经网络(Convolutional Neural Network,CNN)在目标识别、图像分类等领域取得巨大飞跃,基于深度学习的自动驾驶、智能机器人导航等相关技术也不断涌现。
现有技术中,多采用端到端的学习算法(如DeepDriving技术、Nvidia技术等)实现上述移动设备的自动导航,但是,这种端到端的学习算法需要人工标注样本,并且考虑到实际的训练场景中,需要花费较大的人力物力收集样本,从而使得现有导航算法的实用性及通用性较差。
发明内容
本公开提供一种控制设备移动的方法、装置、存储介质及电子设备。
根据本公开实施例的第一方面,提供一种控制设备移动的方法,所述方法包括:在目标设备移动时,按照预设周期采集所述目标设备周围环境的第一RGB-D图像;从所述第一RGB-D图像中获取预设帧数的第二RGB-D图像;获取预先训练的深度强化学习模型DQN训练模型,并根据所述第二RGB-D图像对所述DQN训练模型进行迁移训练,得到目标DQN模型;获取所述目标设备当前周围环境的目标RGB-D图像;将所述目标RGB-D图像输入所述目标DQN模型得到所述目标输出参数,并根据所述目标输出参数确定目标控制策略;控制所述目标设备按照所述目标控制策略移动。
可选地,所述根据所述第二RGB-D图像对所述DQN训练模型进行迁移训练,得到目标DQN模型包括:将所述第二RGB-D图像作为所述DQN训练模型的输入,得到所述DQN训练模型的第一输出参数;根据所述第一输出参数确定第一控制策略,并控制所述目标设备按照所述第一控制策略移动;获取所述目标设备与周围障碍物的相对位置信息;根据所述相对位置信息对所述第一控制策略进行评价得到评分值;获取DQN校验模型,所述DQN校验模型包括根据所述DQN训练模型的模型参数生成的DQN模型;根据所述评分值和所述DQN校验模型对所述DQN训练模型进行迁移训练,得到目标DQN模型。
可选地,所述DQN训练模型包括卷积层和与所述卷积层连接的全连接层,所述将所述第二RGB-D图像作为所述DQN训练模型的输入,得到所述DQN训练模型的第一输出参数包括:将预设帧数的所述第二RGB-D图像输入至卷积层提取第一图像特征,并将所述第一图像特征输入至全连接层,得到所述DQN训练模型的第一输出参数。
可选地,所述DQN训练模型包括多个卷积神经网络CNN网络和多个循环神经网络RNN网络以及全连接层,不同的CNN网络连接不同的RNN网络,且所述RNN网络的目标RNN网络与所述全连接层连接,所述目标RNN网络包括所述RNN网络中的任一个RNN网络,多个所述RNN网络依次连接,所述将所述第二RGB-D图像作为所述DQN训练模型的输入,得到所述DQN训练模型的第一输出参数包括:将每一帧所述第二RGB-D图像分别输入不同的CNN网络提取第二图像特征;循环执行特征提取步骤,直至满足特征提取终止条件,所述特征提取步骤包括:将所述第二图像特征输入至与所述CNN网络连接的当前RNN网络,并根据所述第二图像特征和上一RNN网络输入的第三图像特征,通过所述当前RNN网络得到第四图像特征,并将所述第四图像特征输入至下一RNN网络;将所述下一RNN网络确定为更新的当前RNN网络;所述特征提取终止条件包括:获取到所述目标RNN网络输出的第五图像特征;在获取到所述第五图像特征后,将所述第五图像特征输入至全连接层,得到所述DQN训练模型的第一输出参数。
可选地,所述根据所述评分值和所述DQN校验模型对所述DQN训练模型进行迁移训练,得到目标DQN模型包括:获取所述目标设备的当前周围环境的第三RGB-D图像;将所述第三RGB-D图像输入至所述DQN校验模型得到第二输出参数;根据所述评分值和所述第二输出参数计算得到期望输出参数;根据所述第一输出参数和所述期望输出参数得到训练误差;获取预设误差函数,并根据所述训练误差和所述预设误差函数按照反向传播算法对所述DQN训练模型进行训练,得到所述目标DQN模型。
可选地,所述将所述目标RGB-D图像输入所述目标DQN模型得到所述目标输出参数包括:将所述目标RGB-D图像输入所述目标DQN模型得到多个待确定输出参数;将多个所述待确定输出参数中的最大参数确定为所述目标输出参数。
根据本公开实施例的第二方面,提供一种控制设备移动的装置,所述装置包括:图像采集模块,用于在目标设备移动时,按照预设周期采集所述目标设备周围环境的第一RGB-D图像;第一获取模块,用于从所述第一RGB-D图像中获取预设帧数的第二RGB-D图像;训练模块,用于获取预先训练的深度强化学习模型DQN训练模型,并根据所述第二RGB-D图像对所述DQN训练模型进行迁移训练,得到目标DQN模型;第二获取模块,用于获取所述目标设备当前周围环境的目标RGB-D图像;确定模块,用于将所述目标RGB-D图像输入所述目标DQN模型得到所述目标输出参数,并根据所述目标输出参数确定目标控制策略;控制模块,用于控制所述目标设备按照所述目标控制策略移动。
可选地,所述训练模块包括:第一确定子模块,用于将所述第二RGB-D图像作为所述DQN训练模型的输入,得到所述DQN训练模型的第一输出参数;控制子模块,用于根据所述第一输出参数确定第一控制策略,并控制所述目标设备按照所述第一控制策略移动;第一获取子模块,用于获取所述目标设备与周围障碍物的相对位置信息;第二确定子模块,用于根据所述相对位置信息对所述第一控制策略进行评价得到评分值;第二获取子模块,用于获取DQN校验模型,所述DQN校验模型包括根据所述DQN训练模型的模型参数生成的DQN模型;训练子模块,用于根据所述评分值和所述DQN校验模型对所述DQN训练模型进行迁移训练,得到目标DQN模型。
可选地,所述DQN训练模型包括卷积层和与所述卷积层连接的全连接层,所述第一确定子模块用于将预设帧数的所述第二RGB-D图像输入至卷积层提取第一图像特征,并将所述第一图像特征输入至全连接层,得到所述DQN训练模型的第一输出参数。
可选地,所述DQN训练模型包括多个卷积神经网络CNN网络和多个循环神经网络RNN网络以及全连接层,不同的CNN网络连接不同的RNN网络,且所述RNN网络的目标RNN网络与所述全连接层连接,所述目标RNN网络包括所述RNN网络中的任一个RNN网络,多个所述RNN网络依次连接,所述第一确定子模块用于将每一帧所述第二RGB-D图像分别输入不同的CNN网络提取第二图像特征;循环执行特征提取步骤,直至满足特征提取终止条件,所述特征提取步骤包括:将所述第二图像特征输入至与所述CNN网络连接的当前RNN网络,并根据所述第二图像特征和上一RNN网络输入的第三图像特征,通过所述当前RNN网络得到第四图像特征,并将所述第四图像特征输入至下一RNN网络;将所述下一RNN网络确定为更新的当前RNN网络;所述特征提取终止条件包括:获取到所述目标RNN网络输出的第五图像特征;在获取到所述第五图像特征后,将所述第五图像特征输入至全连接层,得到所述DQN训练模型的第一输出参数。
可选地,所述训练子模块用于获取所述目标设备的当前周围环境的第三RGB-D图像;将所述第三RGB-D图像输入至所述DQN校验模型得到第二输出参数;根据所述评分值和所述第二输出参数计算得到期望输出参数;根据所述第一输出参数和所述期望输出参数得到训练误差;获取预设误差函数,并根据所述训练误差和所述预设误差函数按照反向传播算法对所述DQN训练模型进行训练,得到所述目标DQN模型。
可选地,所述确定模块包括:第三确定子模块,用于将所述目标RGB-D图像输入所述目标DQN模型得到多个待确定输出参数;第四确定子模块,用于将多个所述待确定输出参数中的最大参数确定为所述目标输出参数。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
通过上述技术方案,在目标设备移动时,按照预设周期采集所述目标设备周围环境的第一RGB-D图像;从所述第一RGB-D图像中获取预设帧数的第二RGB-D图像;获取预先训练的深度强化学习模型DQN训练模型,并根据所述第二RGB-D图像对所述DQN训练模型进行迁移训练,得到目标DQN模型;获取所述目标设备当前周围环境的目标RGB-D图像;将所述目标RGB-D图像输入所述目标DQN模型得到所述目标输出参数,并根据所述目标输出参数确定目标控制策略;控制所述目标设备按照所述目标控制策略移动,这样,可以通过深度强化学习(Deep Q Network,DQN)模型让该目标设备自主学习控制策略,无需人工标注样本,在节省人力物力的同时,也提高了模型的通用性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种控制设备移动的方法的流程图;
图2是根据一示例性实施例示出的又一种控制设备移动的方法的流程图;
图3是根据一示例性实施例示出的一种DQN模型结构示意图;
图4是根据一示例性实施例示出的又一种DQN模型结构示意图;
图5是根据一示例性实施例示出的第一种控制设备移动的装置的框图;
图6是根据一示例性实施例示出的第二种控制设备移动的装置的框图;
图7是根据一示例性实施例示出的第三种控制设备移动的装置的框图;
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本公开提供一种控制设备移动的方法、装置、存储介质及电子设备,在在目标设备移动时,按照预设周期采集该目标设备周围环境的第一RGB-D图像;从该第一RGB-D图像中获取预设帧数的第二RGB-D图像;获取预先训练的深度强化学习模型DQN训练模型,并根据该第二RGB-D图像对该DQN训练模型进行迁移训练,得到目标DQN模型;获取该目标设备当前周围环境的目标RGB-D图像;将该目标RGB-D图像输入该目标DQN模型得到该目标输出参数,并根据该目标输出参数确定目标控制策略;控制该目标设备按照该目标控制策略移动,这样,可以通过深度强化学习(Deep Q Network,DQN)模型让该目标设备自主学习控制策略,无需人工标注样本,在节省人力物力的同时,也提高了模型的通用性。
下面结合附图对本公开的具体实施方式进行详细说明。
图1是根据一示例性实施例示出的一种控制设备移动的方法,如图1所示,该方法包括以下步骤:
S101,在目标设备移动时,按照预设周期采集该目标设备周围环境的第一RGB-D图像。
其中,该目标设备可以包括机器人、自动驾驶车辆等可移动设备,该RGB-D图像可以为既包括RGB彩色图像特征又包括深度图像特征的RGB-D四通道图像,该RGB-D图像相比于传统的RGB图像,可以为导航决策提供更丰富的信息。
在一种可能的实现方式中,可以通过RGB-D图像采集装置(如RGB-D相机或者双目相机)按照该预设周期采集该目标设备周围环境的第一RGB-D图像。
S102,从该第一RGB-D图像中获取预设帧数的第二RGB-D图像。
考虑到本公开的目的在于根据最新采集的该目标设备周围环境的图像信息确定该目标设备的导航控制策略,因此,在一种可能的实现方式中,可以输入隐含该目标设备周围环境中障碍物的位置及速度信息的多帧RGB-D图像序列,该多帧RGB-D图像序列即为预设帧数的第二RGB-D图像。
S103,获取预先训练的深度强化学习模型DQN训练模型,并根据该第二RGB-D图像对该DQN训练模型进行迁移训练,得到目标DQN模型。
由于深度强化学习模型的训练过程是通过尝试和反馈实现的,即学习过程中目标设备会发生碰撞等危险情况,因此,为提高深度强化学习模型导航时的安全系数,在一种可能的实现方式中,可以预先在模拟环境中进行训练,得到该DQN训练模型,例如,可以采用AirSim、CARLA等自动驾驶模拟环境完成自动驾驶导航模型的预先训练过程,可以采用Gazebo机器人模拟环境对机器人的自动导航模型进行预先训练。
另外,考虑到模拟环境与真实环境会有差别,例如,模拟环境的光照条件、图像纹理等与真实环境存在差异,使得在真实环境下采集到的RGB-D图像与模拟环境下采集到的RGB-D图像的亮度、纹理等图像特征也会存在差异,因此,如果将模拟环境训练得到的该DQN训练模型直接应用于真实环境进行导航,会使得在真实环境下利用该DQN训练模型导航时的误差较大,此时,为使得该DQN训练模型可以适用于真实环境,在一种可能的实现方式中,可以采集真实环境的该RGB-D图像,并将该真实环境下采集的该RGB-D图像作为该DQN训练模型的输入,对该DQN训练模型进行迁移训练,从而得到适用于真实环境的该目标DQN模型,这样,在减轻模型训练难度的同时也能加快整个网络的训练速度。
在本步骤中,可以将该第二RGB-D图像作为该DQN训练模型的输入,得到该DQN训练模型的第一输出参数;根据该第一输出参数确定第一控制策略,并控制该目标设备按照该第一控制策略移动;获取该目标设备与周围障碍物的相对位置信息;根据该相对位置信息对该第一控制策略进行评价得到评分值;获取DQN校验模型,该DQN校验模型可以包括根据该DQN训练模型的模型参数生成的DQN模型;根据该评分值和该DQN校验模型对该DQN训练模型进行迁移训练,得到目标DQN模型。
其中,该第一输出参数可以包括多个待确定输出参数中的最大参数,也可以在该多个待确定输出参数中随机选择一个输出参数,作为该第一输出参数(这样可以提高该DQN模型的泛化能力),该输出参数可以包括DQN模型输出的Q值,该待确定输出参数可以包括多个预设控制策略(如加速、减速、刹车、左转、右转等控制策略)分别对应的Q值;该相对位置信息可以包括该目标设备与该目标设备周围障碍物的距离信息或者角度信息等;该DQN校验模型用于在DQN模型训练过程中更新模型的期望输出参数。
在将该第二RGB-D图像作为该DQN训练模型的输入,得到该DQN训练模型的第一输出参数时,可以通过以下两种方式中的任意一种方式实现:
方式一,该DQN训练模型可以包括卷积层和与该卷积层连接的全连接层,基于本方式一中的DQN训练模型的模型结构,可以将预设帧数的该第二RGB-D图像输入至卷积层提取第一图像特征,并将该第一图像特征输入至全连接层,得到该DQN训练模型的第一输出参数。
方式二,该DQN训练模型可以包括多个卷积神经网络(Convolutional NeuralNetwork,CNN)CNN网络和多个循环神经网络(Recurrent Neural Network,RNN)RNN网络以及全连接层,不同的CNN网络连接不同的RNN网络,且该RNN网络的目标RNN网络与该全连接层连接,该目标RNN网络包括该RNN网络中的任一个RNN网络,多个该RNN网络依次连接,基于本方式二中的DQN训练模型的模型结构,可以将每一帧该第二RGB-D图像分别输入不同的CNN网络提取第二图像特征;循环执行特征提取步骤,直至满足特征提取终止条件,该特征提取步骤包括:将该第二图像特征输入至与该CNN网络连接的当前RNN网络,并根据该第二图像特征和上一RNN网络输入的第三图像特征,通过该当前RNN网络得到第四图像特征,并将该第四图像特征输入至下一RNN网络;将该下一RNN网络确定为更新的当前RNN网络;该特征提取终止条件包括:获取到该目标RNN网络输出的第五图像特征;在获取到该第五图像特征后,将该第五图像特征输入至全连接层,得到该DQN训练模型的第一输出参数。
其中,该RNN网络可以包括长短期记忆网络(Long Short-Term Memory,LSTM)。
需要说明的是,常规卷积神经网络包括卷积层以及与该卷积层连接的池化层,卷积层用于提取图像特征,池化层则用于将卷积层提取的图像特征进行降维处理(例如均值采样或者最大值采样),而在方式二的DQN模型结构中的CNN卷积神经网络不包含池化层,这样,可以保留卷积层提取的全部的图像特征,从而为模型确定最优的导航控制策略提供更多的参考信息,提高模型导航的准确率。
另外,在根据该评分值和该DQN校验模型对该DQN训练模型进行迁移训练,得到目标DQN模型时,可以获取该目标设备的当前周围环境的第三RGB-D图像;将该第三RGB-D图像输入至该DQN校验模型得到第二输出参数;根据该评分值和该第二输出参数计算得到期望输出参数;根据该第一输出参数和该期望输出参数得到训练误差;获取预设误差函数,并根据该训练误差和该预设误差函数按照反向传播算法对该DQN训练模型进行训练,得到该目标DQN模型。
其中,该第三RGB-D图像可以包括在控制该目标设备按照该第一控制策略移动后采集的该RGB-D图像,该第二输出参数可以包括该DQN校验模型输出的多个待确定输出参数中的最大参数。
还需说明的是,该目标设备被上电后,该目标设备的RGB-D图像采集装置既可以按照该预设周期采集该目标设备周围环境的RGB-D图像,在通过迁移训练得到该目标DQN模型之前,可以根据最新采集的预设帧数的RGB-D图像通过该DQN训练模型确定控制策略,从而控制该目标设备启动。
S104,获取该目标设备当前周围环境的目标RGB-D图像。
S105,将该目标RGB-D图像输入该目标DQN模型得到该目标输出参数,并根据该目标输出参数确定目标控制策略。
在本步骤中,可以将该目标RGB-D图像输入该目标DQN模型得到多个待确定输出参数;将多个该待确定输出参数中的最大参数确定为该目标输出参数。
S106,控制该目标设备按照该目标控制策略移动。
采用上述方法,可以通过深度强化学习模型让该目标设备自主学习控制策略,无需人工标注样本,在节省人力物力的同时,也提高了模型的通用性。
图2是根据一示例性实施例示出的一种控制设备移动的方法的流程图,如图2所示,该方法包括以下步骤:
S201,在目标设备移动时,按照预设周期采集该目标设备周围环境的第一RGB-D图像。
其中,该目标设备可以包括机器人、自动驾驶车辆等可移动设备,该RGB-D图像可以为既包括RGB彩色图像特征又包括深度图像特征的RGB-D四通道图像,该RGB-D图像相比于传统的RGB图像,可以为导航决策提供更丰富的信息。
在一种可能的实现方式中,可以通过RGB-D图像采集装置(如RGB-D相机或者双目相机)按照该预设周期采集该目标设备周围环境的第一RGB-D图像。
S202,从该第一RGB-D图像中获取预设帧数的第二RGB-D图像。
考虑到本公开的目的在于根据最新采集的该目标设备周围环境的图像信息确定该目标设备的导航控制策略,因此,在一种可能的实现方式中,可以输入隐含该目标设备周围环境中障碍物的位置及速度信息的多帧RGB-D图像序列,该多帧RGB-D图像序列即为预设帧数的第二RGB-D图像,例如,如图3和图4所示,该预设帧数的第二RGB-D图像包括第1帧RGB-D图像、第2帧RGB-D图像、......、第n帧RGB-D图像。
S203,获取预先训练的深度强化学习模型DQN训练模型。
由于深度强化学习模型的训练过程是通过尝试和反馈实现的,即学习过程中目标设备会发生碰撞等危险情况,因此,为提高深度强化学习模型导航时的安全系数,在一种可能的实现方式中,可以预先在模拟环境中进行训练,得到该DQN训练模型,例如,可以采用AirSim、CARLA等自动驾驶模拟环境完成自动驾驶导航模型的预先训练过程,可以采用Gazebo机器人模拟环境对机器人的自动导航模型进行预先训练。
另外,考虑到模拟环境与真实环境会有差别,例如,模拟环境的光照条件、图像纹理等与真实环境存在差异,使得在真实环境下采集到的RGB-D图像与模拟环境下采集到的RGB-D图像的亮度、纹理等图像特征也会存在差异,因此,如果将模拟环境训练得到的该DQN训练模型直接应用于真实环境进行导航,会使得在真实环境下利用该DQN训练模型导航时的误差较大,此时,为使得该DQN训练模型可以适用于真实环境,在一种可能的实现方式中,可以采集真实环境的该RGB-D图像,并将该真实环境下采集的该RGB-D图像作为该DQN训练模型的输入,对该DQN训练模型进行迁移训练,从而得到适用于真实环境的该目标DQN模型,这样,在减轻模型训练难度的同时也能加快整个网络的训练速度。
在本实施例中,可以通过执行S204至S213对该DQN训练模型进行迁移训练,确定该目标DQN模型。
S204,将该第二RGB-D图像作为该DQN训练模型的输入,得到该DQN训练模型的第一输出参数。
其中,该第一输出参数可以包括多个待确定输出参数中的最大参数,也可以在该多个待确定输出参数中随机选择一个输出参数,作为该第一输出参数(这样可以提高该DQN模型的泛化能力),该输出参数可以包括DQN模型输出的Q值,该待确定输出参数可以包括多个预设控制策略(如加速、减速、刹车、左转、右转等控制策略)分别对应的Q值。
在本步骤中,可以通过以下两种方式中的任意一种方式实现:
方式一,如图3所示,该DQN训练模型可以包括卷积层和与该卷积层连接的全连接层,基于本方式一中的DQN训练模型的模型结构,可以将预设帧数的该第二RGB-D图像输入至卷积层提取第一图像特征,并将该第一图像特征输入至全连接层,得到该DQN训练模型的第一输出参数。
例如,如图3所示,将N帧RGB-D图像(即为图3所示的第1帧RGB-D图像、第2帧RGB-D图像、......第n帧RGB-D图像)输入至该DQN训练模型的卷积层;另外,由于每帧RGB-D图像均为四通道图像,因此,基于图3所示的DQN模型结构,可以将N*4通道的RGB-D图像信息堆叠输入至卷积层提取图像特征,这样,可以使得该DQN模型可以基于更丰富的图像特征确定最优控制策略。
方式二,如图4所示,该DQN训练模型可以包括多个卷积神经网络CNN网络和多个循环神经网络RNN网络以及全连接层,不同的CNN网络连接不同的RNN网络,且该RNN网络的目标RNN网络与该全连接层连接,该目标RNN网络包括该RNN网络中的任一个RNN网络,多个该RNN网络依次连接,基于本方式二中的DQN训练模型的模型结构,可以将每一帧该第二RGB-D图像分别输入不同的CNN网络提取第二图像特征;循环执行特征提取步骤,直至满足特征提取终止条件,该特征提取步骤包括:将该第二图像特征输入至与该CNN网络连接的当前RNN网络,并根据该第二图像特征和上一RNN网络输入的第三图像特征,通过该当前RNN网络得到第四图像特征,并将该第四图像特征输入至下一RNN网络;将该下一RNN网络确定为更新的当前RNN网络;该特征提取终止条件包括:获取到该目标RNN网络输出的第五图像特征;在获取到该第五图像特征后,将该第五图像特征输入至全连接层,得到该DQN训练模型的第一输出参数。
其中,该RNN网络可以包括长短期记忆网络LSTM。
需要说明的是,常规卷积神经网络包括卷积层以及与该卷积层连接的池化层,卷积层用于提取图像特征,而池化层则用于将卷积层提取的图像特征进行降维处理(例如均值采样或者最大值采样),而在方式二的DQN模型结构中的CNN卷积神经网络不包含池化层,这样,可以保留卷积层提取的全部的图像特征,从而为模型确定最优的导航控制策略提供更多的参考信息,提高模型导航的准确率。
S205,根据该第一输出参数确定第一控制策略,并控制该目标设备按照该第一控制策略移动。
示例地,以该预设控制策略包括左转、右转、加速三个控制策略为例进行说明,其中左转对应的输出参数为Q1,右转对应的输出参数为Q2,加速对应的输出参数为Q3,在该第一输出参数为Q1时,可以确定该第一控制策略为与Q1对应的左转,此时,可以控制该目标设备左转,上述示例只是举例说明,本公开对此不作限定。
S206,获取该目标设备与周围障碍物的相对位置信息。
其中,该相对位置信息可以包括该目标设备与该目标设备周围障碍物的距离信息或者角度信息等。
在一种可能的实现方式中,可以通过碰撞检测传感器获取该相对位置信息。
S207,根据该相对位置信息对该第一控制策略进行评价得到评分值。
在一种可能的实现方式中,可以根据预设评分规则对该第一控制策略进行评价得到该评分值,并且该预设评分规则可以根据实际的应用场景具体设置。
示例地,以该目标设备为自动驾驶车辆,当该相对位置信息为该车辆与周围障碍物的距离信息时,该预设评分规则可以是:当确定该车辆与障碍物的距离大于或者等于10米时,该评分值为10分;当确定该车辆与障碍物的距离大于或者等于5米,并且小于10米时,该评分值为5分;当确定该车辆与障碍物的距离大于3米,并且小于5米时,该评分值为3分;当确定该车辆与障碍物的距离小于或者等于3米时,该评分值为0分;此时,在按照该第一控制策略控制该车辆移动后,可以根据该车辆与该障碍物的距离信息基于上述的预设评分规则确定该评分值。另外,当该相对位置信息为该车辆与周围障碍物的角度信息时,该预设评分规则可以是:当确定该车辆相对于障碍物的角度大于或者等于30度时,该评分值为10分;当确定该车辆相对于障碍物的角度大于或者等于15度,并且小于30度时,该评分值为5分;当确定该车辆相对于障碍物的角度小于或者等于15度时,该评分值为0分,此时,在按照该第一控制策略控制该车辆移动后,可以根据该车辆相对于障碍物的角度信息基于上述的预设评分规则确定该评分值,上述只是举例说明,本公开对此不作限定。
S208,获取DQN校验模型,该DQN校验模型包括根据该DQN训练模型的模型参数生成的DQN模型。
其中,该DQN校验模型用于在DQN模型训练过程中更新模型的期望输出参数。
在生成该DQN校验模型时,在初始时刻可以将预先训练得到的该DQN训练模型的模型参数赋值给该DQN校验模型,然后通过迁移训练更新该DQN训练模型的模型参数,之后可以每隔预设时间段将最新更新的该DQN训练模型的模型参数赋给该DQN校验模型,以便更新该DQN校验模型。
S209,获取该目标设备的当前周围环境的第三RGB-D图像。
其中,该第三RGB-D图像可以包括在控制该目标设备按照该第一控制策略移动后采集的该RGB-D图像。
S210,将该第三RGB-D图像输入至该DQN校验模型得到第二输出参数。
其中,该第二输出参数可以包括该DQN校验模型输出的多个待确定输出参数中的最大参数。
S211,根据该评分值和该第二输出参数计算得到期望输出参数。
在本步骤中,可以根据该评分值和该第二输出参数通过以下公式确定该期望输出参数。
Qo=r+γMAXaQ(st+1,a)
其中,Qo表示该期望输出参数,r表示该评分值,γ表示调节因子,st+1表示该第三RGB-D图像,Q(st+1,a)表示将预设帧数的该第三RGB-D图像输入该DQN校验模型后,得到的多个待确定输出参数,MAXaQ(st+1,a)表示该第二输出参数(即为该多个待确定输出参数中的最大参数),a表示与该第二输出参数对应的第二控制策略。
需要说明的是,在一种可能的实现方式中,在该第二输出参数为该多个待确定输出参数中的最大参数时,该第二控制策略即为在将该第三RGB-D图像输入至该DQN校验模型后得到的最优控制策略。
S212,根据该第一输出参数和该期望输出参数得到训练误差。
在本步骤中,可以将第一输出参数与该期望输出参数差值的平方确定为该训练误差。
S213,获取预设误差函数,并根据该训练误差和该预设误差函数按照反向传播算法对该DQN训练模型进行训练,得到该目标DQN模型。
在本步骤的具体实现方式可以参考现有技术中的相关描述,在此不再赘述。
在得到该目标DQN模型后,可以通过执行S214至S216根据该目标DQN模型输出的目标输出参数确定目标控制策略,并控制该目标设备按照该目标控制策略移动,从而控制该目标设备移动。
S214,获取该目标设备当前周围环境的目标RGB-D图像。
S215,将该目标RGB-D图像输入该目标DQN模型得到多个待确定输出参数,并将多个该待确定输出参数中的最大参数确定为该目标输出参数。
S216,根据该目标输出参数确定目标控制策略,并控制该目标设备按照该目标控制策略移动。
采用上述方法,可以通过深度强化学习模型让该目标设备自主学习控制策略,无需人工标注样本,在节省人力物力的同时,也提高了模型的通用性。
图5是根据一示例性实施例示出的一种控制设备移动的装置的框图,如图5所示,该装置包括:
图像采集模块501,用于在目标设备移动时,按照预设周期采集该目标设备周围环境的第一RGB-D图像;
第一获取模块502,用于从该第一RGB-D图像中获取预设帧数的第二RGB-D图像;
训练模块503,用于获取预先训练的深度强化学习模型DQN训练模型,并根据该第二RGB-D图像对该DQN训练模型进行迁移训练,得到目标DQN模型;
第二获取模块504,用于获取该目标设备当前周围环境的目标RGB-D图像;
确定模块505,用于将该目标RGB-D图像输入该目标DQN模型得到该目标输出参数,并根据该目标输出参数确定目标控制策略;
控制模块506,用于控制该目标设备按照该目标控制策略移动。
可选地,图6是根据图5所示实施例示出的一种控制设备移动的装置的框图,如图6所示,该训练模块503包括:
第一确定子模块5031,用于将该第二RGB-D图像作为该DQN训练模型的输入,得到该DQN训练模型的第一输出参数;
控制子模块5032,用于根据该第一输出参数确定第一控制策略,并控制该目标设备按照该第一控制策略移动;
第一获取子模块5033,用于获取该目标设备与周围障碍物的相对位置信息;
第二确定子模块5034,用于根据该相对位置信息对该第一控制策略进行评价得到评分值;
第二获取子模块5035,用于获取DQN校验模型,该DQN校验模型包括根据该DQN训练模型的模型参数生成的DQN模型;
训练子模块5036,用于根据该评分值和该DQN校验模型对该DQN训练模型进行迁移训练,得到目标DQN模型。
可选地,该DQN训练模型包括卷积层和与该卷积层连接的全连接层,该第一确定子模块5031用于将预设帧数的该第二RGB-D图像输入至卷积层提取第一图像特征,并将该第一图像特征输入至全连接层,得到该DQN训练模型的第一输出参数。
可选地,该DQN训练模型包括多个卷积神经网络CNN网络和多个循环神经网络RNN网络以及全连接层,不同的CNN网络连接不同的RNN网络,且该RNN网络的目标RNN网络与该全连接层连接,该目标RNN网络包括该RNN网络中的任一个RNN网络,多个该RNN网络依次连接,该第一确定子模块5031用于将每一帧该第二RGB-D图像分别输入不同的CNN网络提取第二图像特征;循环执行特征提取步骤,直至满足特征提取终止条件,该特征提取步骤包括:将该第二图像特征输入至与该CNN网络连接的当前RNN网络,并根据该第二图像特征和上一RNN网络输入的第三图像特征,通过该当前RNN网络得到第四图像特征,并将该第四图像特征输入至下一RNN网络;将该下一RNN网络确定为更新的当前RNN网络;该特征提取终止条件包括:获取到该目标RNN网络输出的第五图像特征;在获取到该第五图像特征后,将该第五图像特征输入至全连接层,得到该DQN训练模型的第一输出参数。
可选地,该训练子模块5036用于获取该目标设备的当前周围环境的第三RGB-D图像;将该第三RGB-D图像输入至该DQN校验模型得到第二输出参数;根据该评分值和该第二输出参数计算得到期望输出参数;根据该第一输出参数和该期望输出参数得到训练误差;获取预设误差函数,并根据该训练误差和该预设误差函数按照反向传播算法对该DQN训练模型进行训练,得到该目标DQN模型。
可选地,图7是根据图5示实施例示出的一种控制设备移动的装置的框图,如图7所示,该确定模块505包括:
第三确定子模块5051,用于将该目标RGB-D图像输入该目标DQN模型得到多个待确定输出参数;
第四确定子模块5052,用于将多个该待确定输出参数中的最大参数确定为该目标输出参数。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
采用上述装置,可以通过深度强化学习模型让该目标设备自主学习控制策略,无需人工标注样本,在节省人力物力的同时,也提高了模型的通用性。
图8是根据一示例性实施例示出的一种电子设备800的框图。如图8所示,该电子设备800可以包括:处理器801,存储器802。该电子设备800还可以包括多媒体组件803,输入/输出(I/O)接口804,以及通信组件805中的一者或多者。
其中,处理器801用于控制该电子设备800的整体操作,以完成上述的控制设备移动的方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该电子设备800的操作,这些数据例如可以包括用于在该电子设备800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该电子设备800与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件805可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的控制设备移动的方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的控制设备移动的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器802,上述程序指令可由电子设备800的处理器801执行以完成上述的控制设备移动的方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。