CN118123799A

CN118123799A - 机器人智能控制方法、系统、电子设备及介质

Info

Publication number: CN118123799A
Application number: CN202410309152.3A
Authority: CN
Inventors: 韩定强; 余驿; 高党波
Original assignee: Hangzhou Ezviz Network Co Ltd
Current assignee: Hangzhou Ezviz Network Co Ltd
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-06-04

Abstract

本申请实施例提供机器人智能控制方法、系统、电子设备及介质。本实施例通过大语言模型将当前任务分解出子任务序列；在对应的子任务执行之前，依据局部三维语义地图和/或全局三维语义地图规划机器人执行该子任务的任务执行信息，如无碰撞落脚点、机器人的位置姿态、抓取路径等任务执行信息。这样能够自动将内容较为复杂的当前任务分解为内容较为单一且易执行的各个子任务，再为每个子任务去规划出机器人执行该子任务的任务执行信息，以基于任务执行信息完成该子任务，从而提高了机器人控制的智能性。

Description

机器人智能控制方法、系统、电子设备及介质

技术领域

本申请涉及机器人技术领域，尤其涉及机器人智能控制方法、系统、电子设备及介质。

背景技术

近年来随着科技的不断发展，各种类型的机器人(如移动机器人)在技术和市场方面发展迅速；所谓机器人可以是指自动执行工作的机器装置，是依靠自身动力和控制能力来实现各种功能的机器。

在实际应用中，机器人通常一次只能实现内容较为单一的一个任务(如对某目标物体的抓取任务)，若要实现更多任务则需要用户对应输入更多的相关指令，这样就导致机器人的智能性不高。

发明内容

有鉴于此，本申请提供了机器人智能控制方法、系统、电子设备及介质，以提高机器人的智能性。

本申请实施例提供一种机器人智能控制方法，该方法包括：

通过大语言模型将当前任务分解出子任务序列；

在对应的子任务执行之前规划机器人执行该子任务的任务执行信息；其中，当子任务为移动至目标位置时，基于全局三维语义地图规划机器人的无碰撞落脚点，当子任务为抓取目标物时，基于局部三维语义地图规划出机器人的位置姿态和抓取路径；

其中，局部三维语义地图是依据机器人在子任务执行过程中感知的工作环境中的感知信息确定的；感知信息至少包括：工作环境中的物体属性、物体点云、环境点云；

全局三维语义地图为已记录的全局三维语义地图，或者基于已记录的全局三维语义地图和最新得到的局部三维语义地图进行拼接生成的。

本申请实施例还提供一种机器人智能控制系统，该系统包括：决策模块、感知模块、以及至少一个规划模块；

决策模块，用于通过大语言模型将当前任务分解出子任务序列，并为子任务序列中各子任务分配对应的规划模块；

任一规划模块，用于在对应的子任务执行之前规划机器人执行该子任务的任务执行信息；其中，当子任务为移动至目标位置时，该子任务被分配的规划模块基于全局三维语义地图规划机器人的无碰撞落脚点，当子任务为抓取目标物时，该子任务被分配的规划模块基于局部三维语义地图规划出机器人的位置姿态和抓取路径；

其中，局部三维语义地图是通过感知模块依据机器人在子任务执行过程中感知的工作环境中的感知信息确定的；感知信息至少包括：工作环境中的物体属性、物体点云、环境点云；

全局三维语义地图为已记录的全局三维语义地图，或者基于已记录的全局三维语义地图和感知模块最新得到的局部三维语义地图进行拼接生成的。

本申请实施例还提供一种电子设备，包括：

处理器和用于存储计算机程序指令的存储器，计算机程序指令在被处理器运行时使得处理器执行如上方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该存储介质存储有计算机程序指令，当该计算机程序指令被执行时，能够实现如上方法的步骤。

由以上技术方案可以看出，本实施例中，通过大语言模型将当前任务分解出子任务序列；在对应的子任务执行之前，依据局部三维语义地图和/或全局三维语义地图规划机器人执行该子任务的任务执行信息，如无碰撞落脚点、机器人的位置姿态、抓取路径等任务执行信息。这样能够自动将内容较为复杂的当前任务分解为内容较为单一且易执行的各个子任务，再为每个子任务去规划出机器人执行该子任务的任务执行信息，以基于任务执行信息完成该子任务，从而提高了机器人控制的智能性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本申请的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种机器人智能控制方法的流程示意图。

图2为本申请实施例提供的机器人控制系统的实现示意图。

图3为本申请实施例提供的一种机器人智能控制系统的结构示意图。

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为便于理解本申请实施例的技术方案，以下对本申请实施例涉及的技术概念进行解释。

点云：是一种用于描述三维空间中对象表面的数据表示方式。它由大量的点构成，每个点都包含了空间坐标和可能的其他属性信息，如颜色、法线方向等；如可用于重建三维物体模型、地形表面模型、建筑物模型等。

大语言模型：是指参数数量较大、训练数据较多的语言模型。它通过深度学习技术使用大规模的文本数据进行训练，以学习和预测语言的概率分布和模式。大语言模型可以应用于多个自然语言处理任务，如语言生成、文本分类、机器翻译、语义理解等。

三维语义地图：是指在三维环境中以语义信息为基础的地图表示。它将环境中的物体、场景和结构以及它们之间的关系进行建模和描述，包括物体的位置、形状、大小、类别、姿态等信息。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

参见图1，图1为本申请实施例提供的一种机器人智能控制方法的流程示意图。可选的，该流程可应用于机器人如移动机器人，本实施例对此不作具体限定。

如图1所示，该流程可包括以下步骤：

S101、通过大语言模型将当前任务分解出子任务序列。

在本实施例中，大语言模型可以是预先已训练好的用于任务分解的模型。当前任务可以是指当前所接收到的任务；此处对任务的具体内容不作限定，如任务可以为“帮我拿一个苹果”、“帮我关一下旁边的窗户”、“帮我关一下厨房里的窗户”等。

可选的，作为一个实施例，上述通过大语言模型将当前任务分解出子任务序列的具体实现方式有很多，比如，若已记录的历史任务集合中存在与当前任务相关联的至少一个目标历史子任务，则将各目标历史子任务、当前任务以及已记录的语言化全局地图作为输入数据输入至大语言模型中得到子任务序列；否则，将当前任务以及已记录的语言化全局地图作为输入数据输入至大语言模型中得到子任务序列；其中，历史任务集合包括机器人在指定时间段内所执行过的符合设定条件的至少一个历史子任务；任一历史子任务至少携带有指示该历史子任务是否执行成功的执行结果；设定条件至少包括任务类型为目标类型。

这里，指定时间段可根据实际需求进行灵活设定，比如可以为设定历史时间点至当前时间点之间的时间段，其中对设定历史时间点也不作具体限定，如可以是当天0点、前一天的0点等。作为一个实施例，上述目标类型可根据实际需求灵活设定，如可以是指需要较长时间才能被执行完成的任务类型(如子任务的执行时间大于设定时间)，或者也可以是需要控制开或关的任务类型(比如开关窗户，开关卧室门等)。

作为一个实施例，确定已记录的历史任务集合中是否存在与当前任务相关联的至少一个目标历史子任务的具体实现方式有很多，比如，可先基于当前任务确定至少一个关键词，如当前任务是“帮我关一下厨房里的窗户”，则对应的关键词可以包括：帮我、关、厨房、窗户等；然后依据当前任务对应的至少一个关键词从历史任务集合中进行匹配，若存在与各关键词相匹配的历史子任务，则将所匹配出的历史子任务确定为目标历史子任务；比如目标历史子任务可以包括在A时间段内执行运动到厨房的窗户附近的子任务且该子任务被执行成功，在B时间段内执行关掉该窗户的子任务且该子任务被执行成功等。

在此基础上，作为一个实施例，上述将各目标历史子任务、当前任务以及已记录的语言化全局地图作为输入数据输入至大语言模型中得到子任务序列的具体实现方式有很多，比如，通过大语言模型先依据已记录的语言化全局地图将当前任务分解为一个子任务序列，再将子任务序列中与被执行成功的目标历史子任务相同的子任务去掉以得到新的子任务序列，该新的子任务序列即可认为是最终所得到的子任务序列，这样能够避免重复执行某些子任务，从而有效提高当前任务的执行效率。比如，若当前任务为“帮我关掉厨房里的窗户，并拿一个苹果给我”，则由于各目标历史子任务已指示厨房里的窗户已关掉，可表明无需再次对厨房里的窗户进行关闭处理。

作为另一个实施例，任一历史子任务还可以携带有该历史子任务对应的执行起始时间点，以用于获知该历史子任务的被执行时间距当前时间的大小。在此基础上，通过大语言模型先依据已记录的语言化全局地图将当前任务分解为一个子任务序列，然后基于目标历史子任务所携带的执行起始时间点将距离当前时间点超过设定阈值的目标历史子任务去掉，再将子任务序列中与剩余目标历史子任务中被执行成功的目标历史子任务相同的子任务去掉以得到新的子任务序列，该新的子任务序列即可认为是最终所得到的子任务序列。这样，假设一个目标历史子任务(如关掉厨房窗户这个子任务)被执行的时间距离当前时间过久，则在这段时间内可能会存在厨房窗户被其他机器人或人工关掉的情况，因此该目标历史子任务就需要被去掉，以保证当前任务被执行的完整性。

可选的，作为一个实施例，在通过大语言模块将当前任务分解出子任务序列之后，还可以为子任务序列中各子任务分配对应的规划模块；此处为子任务序列中各子任务分配对应的规划模块的具体实现方式有很多，比如，各规划模块可以为预先根据实际需求配置的，如可按照任务类型来配置用于子任务规划的规划模块，如规划模块可包括用于抓取任务的规划模块，用于环境探索任务的规划模块，用于移动任务的规划模块，用于开关任务的规划模块等。在此基础上，可以依据子任务序列中各子任务的任务类型，从预配置的各规划模块中确定出与各子任务所匹配的规划模块；比如子任务为“抓起苹果”，则为该子任务分配的规划模块为用于抓取任务的规划模块，以此类推。

S102、在对应的子任务执行之前规划机器人执行该子任务的任务执行信息。

在本实施例中，任务执行信息可理解为用于任务执行的信息，如无碰撞落脚点、抓取点、机器人的位置姿态、抓取路径、机器人的无碰撞移动路径等信息，此处对此不作具体限定。

其中，当子任务为移动至目标位置时，基于全局三维语义地图规划机器人的无碰撞落脚点，当子任务为抓取目标物时，基于局部三维语义地图规划出机器人的位置姿态和抓取路径。这里，目标位置如可以是指苹果所在的位置；目标物如可以是指苹果。位置姿态可以是指物体在空间中的位置、朝向、旋转状态等信息。

在本实施例中，局部三维语义地图是依据机器人在子任务执行过程中感知的工作环境中的感知信息确定的；感知信息至少包括：工作环境中的物体属性、物体点云、环境点云。这里，物体属性如可以包括物体的类别、颜色、表面文字、纹理、形状等属性信息。环境可理解为无法被识别出的物体，如地面、桌面、障碍物等，如障碍物可以是凳子、盆栽等。可选的，作为一个实施例，可以通过感知模块依据机器人在子任务执行过程中感知的工作环境中的感知信息确定局部三维语义地图；其中感知模块如可以指一个相机或由多个相机构成的相机组。

可选的，作为一个实施例，确定已记录的全局三维语义地图的具体实现方式有很多，比如，周期性的采集图像，所采集的图像可理解为当前采集范围下的局部工作环境的图像；针对每次所采集的图像，依据该次所采集的图像得到机器人的工作环境中的感知信息，如通过对所采集的图像进行物体检测、轮廓分割、属性识别等处理得到机器人的工作环境中的感知信息；基于感知信息进行融合处理得到局部三维语义地图，并更新已记录的局部三维语义地图为该局部三维语义地图；基于局部三维语义地图和已记录的全局三维语义地图进行拼接得到全局三维语义地图，这样就能得到包含更多更全面工作环境信息的全局三维语义地图，并更新已记录的全局三维语义地图为全局三维语义地图。

可选的，作为一个实施例，在基于局部三维语义地图和已记录的全局三维语义地图进行拼接得到全局三维语义地图之后，该方法进一步包括：基于全局三维语义地图进行压缩处理，并基于压缩处理后的全局三维语义地图进行语言化处理得到语言化全局地图，这里语言化全局地图可以是指将全局三维语义地图中三维环境的物体、场景和语义信息以自然语言的形式进行表达和描述的文本信息；并更新已记录的语言化全局地图为语言化全局地图。这里对压缩处理的方法不作具体限定，如可以为PCA主成分分析算法。

可选的，作为一个实施例，上述基于全局三维语义地图规划机器人的无碰撞落脚点的具体实现方式有很多，比如，基于全局三维语义地图确定全局三维语义地图中目标位置的点云；基于目标位置的点云和机器人的属性信息确定采样范围；对全局三维语义地图中位于该采样范围内的点云进行均匀间隔采样得到多个采样点；针对任一采样点，确定全局三维语义地图中位于第一目标范围内的点云中是否存在障碍物点云；第一目标范围依赖于该采样点确定；若不存在障碍物点云，则确定该采样点为参考无碰撞落脚点；基于各参考无碰撞落脚点确定机器人的无碰撞落脚点。

作为一个实施例，上述机器人的属性信息如可以包括；机器人的形态(如机器人上半径为R的圆形底盘)、可抓取范围等信息。上述基于目标位置的点云和机器人的属性信息确定采样范围的具体实现方式有很多，比如，以目标位置的点云为中心，以可抓取范围为半径得到一个采样范围。上述第一目标范围依赖于该采样点确定的具体实现方式有很多，比如，第一目标范围可以为以该采样点为圆心，以设定大小为半径所确定的范围。上述基于各参考无碰撞落脚点确定机器人的无碰撞落脚点的具体实现方式有很多，比如，可将距离机器人最近的参考碰撞落脚点确定为机器人的无碰撞落脚点。

可选的，作为一个实施例，上述基于局部三维语义地图规划出机器人的位置姿态和抓取路径的具体实现有很多，比如，基于局部三维语义地图中目标物的点云规划出机器人的位置姿态；基于局部三维语义地图中目标物的点云和位于第二目标范围内的点云规划出机器人的抓取路径；第二目标范围依赖于目标物的点云确定。这里，作为一个实施例，如第二目标范围可以为以目标物的点云为中心点，以预设大小为半径所确定的范围。

在本实施例中，可理解的是，子任务序列中的各子任务按照指定的顺序依次被执行。其中，在执行完当前的子任务之后，才会触发继续执行下一个子任务，直至执行完所有子任务。

可选的，作为一个实施例，该方法进一步包括：针对任一子任务，获得机器人执行该子任务的执行结果；在执行结果指示该子任务被执行失败的情况下，若该子任务的执行失败总次数未达到设定次数，则依据已记录的语言化全局地图和/或已记录的全局三维语义地图重新规划机器人执行该子任务的任务执行信息；若该子任务的执行失败总次数达到设定次数，则依据已记录的语言化全局地图和指示该子任务被执行失败的执行结果，通过大语言模型将当前任务重新分解出新子任务序列，继续执行在对应的子任务执行之前规划机器人执行该子任务的任务执行信息的步骤。这里设定次数如可以为3次、5次等。

作为一个实施例，上述依据已记录的语言化全局地图和指示该子任务被执行失败的执行结果，通过大语言模型将当前任务重新分解出新子任务序列的具体实现方式有很多，比如，先依据指示该子任务被执行失败的执行结果确定该子任务与重新分解得到的与该子任务对应的新子任务不能相同，比如该子任务为抓取苹果1，依据已记录的语言化全局地图确定出所处工作环境中的任一个与苹果1不同的苹果2，那么与该子任务对应的新子任务即为抓取苹果2，相应的在此基础上，通过大语言模型，依据已记录的语言化全局地图将当前任务重新分解得到新的子任务序列。

可选的，作为一个实施例，若该子任务的执行失败总次数达到设定次数，则将指示该子任务被执行失败的事件信息反馈至下发该当前任务的目标用户，以由目标用户来进行下一步的决策。

可选的，作为一个实施例，针对任一子任务，在该子任务执行之前，还可以依据已记录的局部三维语义地图判断是否需要执行该子任务；若判断需要执行该子任务，则规划机器人执行该子任务的任务执行信息。具体的，比如，假设子任务为“打扫主卧室”，那么在该子任务执行之前可以依据已记录的局部三维语义地图判断是否需要打扫主卧室，比如依据已记录的局部三维语义地图判断出主卧室目前地面干净(如无灰尘和乱放的障碍物等)，则可确定主卧室无需打扫，则确定该子任务无需执行，可跳过该子任务继续去执行下一子任务。此处对上述如何依据已记录的局部三维语义地图判断是否需要执行该子任务不作具体限定，如可以通过相应的深度学习算法处理已记录的局部三维语义地图以分析得到是否需要执行该子任务。

至此，完成图1所示流程。

通过图1所示流程可以看出，本实施例通过大语言模型将当前任务分解出子任务序列；在对应的子任务执行之前，依据局部三维语义地图和/或全局三维语义地图规划机器人执行该子任务的任务执行信息，如无碰撞落脚点、机器人的位置姿态、抓取路径等任务执行信息。这样能够自动将内容较为复杂的当前任务分解为内容较为单一且易执行的各个子任务，再为每个子任务去规划出机器人执行该子任务的任务执行信息，以基于任务执行信息完成该子任务，从而提高了机器人控制的智能性。

为了便于理解上述机器人智能控制的具体实现过程，下面通过具体实施例进行举例描述。

目前相关的机器人控制方案中只能实现单一的抓取任务，无法进行移动抓取等更加复杂的任务，不具备机器人的自主决策以及智能的体现。另外使用物体位姿用来抓取，导致无法抓整体尺寸超过夹爪、机械手的物体。

本申请实施例所提供的方案是视觉模型输出能检测到的全部物体存储到记忆模块中形成语义地图，然后通过信息压缩技术将语义地图语言化，大语言模型结合用户指令与语言化的地图信息把用户指令中指示的目标任务分解为多个子任务，然后再通过规划模块完成相应的子任务规划，在执行抓取子任务过程中不需要用到6自由度位姿，而是可以直接使用相应的点云数据进行抓取点规划；本实施例中，用户只需要下发指令即可让机器人在开放式环境下自动完成多种任务，机器人具备一定的自主决策能力。

参见图2所示的机器人控制系统的实现示意图，整个机器人控制系统可由五个模块组成：感知模块、记忆模块、决策模块、规划模块和执行模块；这五个模块可配置于机器人上。

感知模块输出能检测到的物体，将所检测到的物体信息融合为局部三维语义地图，输出到记忆模块中，通过定位、建图形成全局三维语义地图，然后通过信息压缩将语义地图语言化；大语言模型结合用户指令与语言化的地图信息把用户指令指示的目标任务分解为多个子任务，然后再通过规划模块完成相应的子任务规划得到可执行的目标点、移动轨迹等，最后通过执行模块来控制机器人完成相应动作；其中规划模块包含多个子任务规划器，如抓取、探索环境、移动、开关抽屉等类别的子任务规划器；用户只需要下发指令即可让机器人在开放式环境下自动完成多种任务，机器人具备一定的自主决策能力。

在本实施例中，如图2所示，基于上述机器人控制系统实现机器人控制的具体过程如下：

感知模块(如可包括至少一个相机)：此处的感知模块会识别机器人所在环境中所有的能识别的物体，并将这些物体转换为点云数据+文字信息；该感知模块由视觉识别和信息融合两个子模块组成，首先相机的RGB、深度等信息(即通过相机所采集的图像)输入到视觉识别子模块中，经过物体检测、轮廓分割、属性识别等处理后输出物体属性信息(如包括类别、颜色、表面文字等特征)、物体点云信息(物体即为所识别出的物体)、环境点云信息(环境可由未识别的物体如地面、桌面、障碍物等构成)，然后输入到信息融合子模块，通过融合上述所得到的这些信息得到局部三维语义地图，并将局部三维语义地图分别输入给记忆模块和规划模块。

记忆模块：该记忆模块输入激光雷达、imu、底盘编码器等传感器采集的相应数据，同时基于感知模块传输的局部三维语义地图，由记忆模块中的定位、建图处理将局部三维语义地图进行拼接生成最终的全局三维语义地图，该地图包含比较完整的物体属性、物体点云、环境点云信息；然后全局三维语义地图输出给信息压缩子模块，对全局三维语义地图中物体的点云信息进行信息压缩处理(如PCA主成分分析算法)得到物体的中心位置，然后对每个物体进行编号(防止混淆同类别物体，如苹果1、苹果2等)；最终输出语言化的地图信息包括物体id号(即物体序号)、名称、物体点云中心位置、颜色/文字等特征属性信息等。同时记忆模块也会保存决策模块中的历史关键事件描述(即可认为是指机器人在指定时间段内所执行过的至少一个历史子任务和任一历史子任务对应的指示该历史子任务是否执行成功的执行结果信息)，为后续的决策提供信息参考。

决策模块：该决策模块具体可为通过大语言模型生成序列化子任务；当检测到用户输入语音或文本等指令时，决策模块基于记忆模块所最新传输的当前关联环境信息(即记忆模块最新传输的语言化的地图信息(即语言化全局地图)+与用户指令关联的历史关键事件(即目标历史子任务))，然后同时把用户指令和当前关联环境信息输入到大语言模型中，由大语言模型按照预先设置的规则将用户指令进行分解以得到序列化的子任务；可理解的是，初始时历史关键事件为空；

示例性的，用户输入指令：帮我拿一个苹果；

决策模块的决策过程：依据记忆模块当前最新传输的语言化地图信息确定苹果位置、用户位置等信息，以及从记忆模块获取与上述用户指令相关联的历史关键事件(若没有则为空)；生成序列化子任务：子任务1、运动到苹果附近；子任务2、抓起苹果；子任务3、运动用户附近；子任务4、递交苹果；若环境中不存在苹果则会生成先探索未知区域寻找苹果的指令；本实施例通过大语言模型本身具备的智能，可以做出灵活的决策。

规划模块：该规划模块输入感知模块传输的局部三维语义地图、记忆模块传输的全局三维语义地图，以及决策模块生成的序列化子任务，根据子任务类别选取相应的子任务规划子模块(即图中的子任务动作规划器)，然后输出机器人可以执行的具体目标点、运动轨迹等控制指令；其中全局三维语义地图可用于规划机器人的无碰撞落脚点等指令，局部三维语义地图用于为规划模块提供实时并且未经过压缩的环境信息，从而基于详细的环境信息规划出具体的机器人位置姿态，如通过物体的点云数据进行抓取点的规划，通过环境的点云数据进行机械臂无碰撞路径的规划等；规划模块也会接收来自执行模块的状态反馈，从而判断子任务是否执行成功；针对任一子任务，若该子任务多次被执行失败后会上传指示该子任务被执行失败的状态信息到决策模块，由决策模块重新决策或反馈给用户；规划模块可以包括预先配置的多个子任务规划子模块，子模块数量越多机器人的功能越强大越全面；

示例性的：子任务1-运动到苹果附近，规划模块会从记忆模块当前最新生成的全局三维语义地图中找到苹果以及周围的局部地图信息，然后根据机器人的形态(例如圆形半径为R的底盘)、可抓取空间等信息规划出一个机器人无碰撞且能抓起物体的落脚点；比如具体方法为以苹果为圆心，以不同的可抓取范围为半径形成的圆上进行均匀间隔采样，计算每个采样点距离R范围内是否存在物体/障碍物点云，若不存则为可到达点，最后对所有的可到达点按照距离当前机器人由近到远的规则进行排序，从而选择最佳合适点作为目标点(如距离当前机器人最近的可到达点)；最后将该目标点发给执行模块，由其完成机器人到达目标点的指令；

子任务2-抓起苹果，获取感知模块最新生成的局部三维语义地图，通过苹果的点云数据规划出抓取点和抓取姿态(如dexnet等规划抓取点的算法)，然后根据局部三维语义地图中其它障碍物点云数据规划出一条机械臂无碰撞的路径(如RRT算法)，最后发给执行模块来完成抓取任务。

执行模块：该执行模块可由机械臂控制、机械手/夹爪控制、基于导航的运动控制三部分组成，分别接收执行来自规划模块的指令，并反馈是否完成等状态信息；其中，比如机械臂控制可接收关节位置、末端位置、接触力等指令，返回状态为是否到达目标点；机械手/夹爪控制可接收关节位置、抓取力等指令，返回状态为是否抓住物体；基于导航的运动控制可以面向于轮式、足式等机器人，控制机器人在房间内位置、朝向，同时在运动过程中可以自动避开障碍物，返回状态为是否到达目标点。

在本实施例中，结合大语言模型、视觉识别技术、机器人规划控制技术等，提出了感知、记忆、决策、规划、执行五大模块的实现以及关联方法，以实现具有一定智能的服务机器人/机器人管家；且本实施例的整个方案实现为模块化思路，机器人的功能可以持续叠加并完善(如通过增加子任务规划子模块来实现)，而且不影响之前本身具备的功能。

至此，完成本实施例提供的方法描述，下面对本申请实施例提供的机器人控制装置进行描述：

参见图3，图3为本申请实施例提供的一种机器人智能控制系统的结构示意图。

如图3所示，该机器人智能控制系统300包括：决策模块301、感知模块302、以及至少一个规划模块303；

决策模块301，用于通过大语言模型将当前任务分解出子任务序列，并为子任务序列中各子任务分配对应的规划模块303；

任一规划模块303，用于在对应的子任务执行之前规划机器人执行该子任务的任务执行信息；其中，当子任务为移动至目标位置时，该子任务被分配的规划模块303基于全局三维语义地图规划机器人的无碰撞落脚点，当子任务为抓取目标物时，该子任务被分配的规划模块303基于局部三维语义地图规划出机器人的位置姿态和抓取路径；

其中，局部三维语义地图是通过感知模块302依据机器人在子任务执行过程中感知的工作环境中的感知信息确定的；感知信息至少包括：工作环境中的物体属性、物体点云、环境点云；

全局三维语义地图为已记录的全局三维语义地图，或者基于已记录的全局三维语义地图和感知模块302最新得到的局部三维语义地图进行拼接生成的。

作为一个实施例，已记录的全局三维语义地图按照以下步骤确定：

通过感知模块周期性的采集图像；针对每次所采集的图像，依据该次所采集的图像得到机器人的工作环境中的感知信息；

基于感知信息进行融合处理得到局部三维语义地图，并更新已记录的局部三维语义地图为局部三维语义地图；

基于局部三维语义地图和已记录的全局三维语义地图进行拼接得到全局三维语义地图，并更新已记录的全局三维语义地图为全局三维语义地图。

作为一个实施例，在基于局部三维语义地图和已记录的全局三维语义地图进行拼接得到全局三维语义地图之后，该方法进一步包括：

基于全局三维语义地图进行压缩处理，并基于压缩处理后的全局三维语义地图进行语言化处理得到语言化全局地图；

更新已记录的语言化全局地图为语言化全局地图。

作为一个实施例，通过大语言模型将当前任务分解出子任务序列，包括：

若已记录的历史任务集合中存在与当前任务相关联的至少一个目标历史子任务，则将各目标历史子任务、当前任务以及已记录的语言化全局地图作为输入数据输入至大语言模型中得到子任务序列；

否则，将当前任务以及已记录的语言化全局地图作为输入数据输入至大语言模型中得到子任务序列；

其中，历史任务集合包括机器人在指定时间段内所执行过的符合设定条件的至少一个历史子任务；任一历史子任务至少携带有指示该历史子任务是否执行成功的执行结果；设定条件至少包括任务类型为目标类型。

作为一个实施例，该方法进一步包括：

针对任一子任务，获得机器人执行该子任务的执行结果；

在执行结果指示该子任务被执行失败的情况下，若该子任务的执行失败总次数未达到设定次数，则依据已记录的语言化全局地图和/或已记录的全局三维语义地图重新规划机器人执行该子任务的任务执行信息；

若该子任务的执行失败总次数达到设定次数，则依据已记录的语言化全局地图和指示该子任务被执行失败的执行结果，通过大语言模型将当前任务重新分解出新子任务序列，继续执行为新子任务序列中各子任务分配对应的规划模块的步骤。

作为一个实施例，基于全局三维语义地图规划机器人的无碰撞落脚点，包括：

基于全局三维语义地图确定全局三维语义地图中目标位置的点云；

基于目标位置的点云和机器人的属性信息确定采样范围；对全局三维语义地图中位于该采样范围内的点云进行均匀间隔采样得到多个采样点；

针对任一采样点，确定全局三维语义地图中位于第一目标范围内的点云中是否存在障碍物点云；第一目标范围依赖于该采样点确定；

若不存在障碍物点云，则确定该采样点为参考无碰撞落脚点；

基于各参考无碰撞落脚点确定机器人的无碰撞落脚点。

作为一个实施例，基于局部三维语义地图规划出机器人的位置姿态和抓取路径，包括：

基于局部三维语义地图中目标物的点云规划出机器人的位置姿态；

基于局部三维语义地图中目标物的点云和位于第二目标范围内的点云规划出机器人的抓取路径；第二目标范围依赖于目标物的点云确定。

上述机器人智能控制系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于机器人智能控制系统的实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的机器人智能控制系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

请参见图4，为本申请一示例性实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器401、通信接口402、存储器403和通信总线404。处理器401、通信接口402以及存储器403通过通信总线404完成相互间的通信。其中，存储器403上存放有计算机程序；处理器401可以通过执行存储器403上所存放的程序，执行上述实施例描述的方法的步骤。该电子设备根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种机器人智能控制方法，其特征在于，所述方法包括：

通过大语言模型将当前任务分解出子任务序列；

在对应的子任务执行之前规划机器人执行该子任务的任务执行信息；其中，当子任务为移动至目标位置时，基于全局三维语义地图规划所述机器人的无碰撞落脚点，当子任务为抓取目标物时，基于局部三维语义地图规划出机器人的位置姿态和抓取路径；

其中，所述局部三维语义地图是依据所述机器人在子任务执行过程中感知的工作环境中的感知信息确定的；所述感知信息至少包括：所述工作环境中的物体属性、物体点云、环境点云；

所述全局三维语义地图为已记录的全局三维语义地图，或者基于已记录的全局三维语义地图和最新得到的所述局部三维语义地图进行拼接生成的。

2.根据权利要求1所述的方法，其特征在于，所述已记录的全局三维语义地图按照以下步骤确定：

周期性的采集图像；针对每次所采集的图像，依据该次所采集的图像得到所述机器人的工作环境中的感知信息；

基于所述感知信息进行融合处理得到局部三维语义地图，并更新已记录的局部三维语义地图为所述局部三维语义地图；

基于所述局部三维语义地图和已记录的全局三维语义地图进行拼接得到全局三维语义地图，并更新已记录的全局三维语义地图为所述全局三维语义地图。

3.根据权利要求2所述的方法，其特征在于，在基于所述局部三维语义地图和已记录的全局三维语义地图进行拼接得到全局三维语义地图之后，该方法进一步包括：

基于所述全局三维语义地图进行压缩处理，并基于压缩处理后的全局三维语义地图进行语言化处理得到语言化全局地图；

更新已记录的语言化全局地图为所述语言化全局地图。

4.根据权利要求1所述的方法，其特征在于，所述通过大语言模型将当前任务分解出子任务序列，包括：

若已记录的历史任务集合中存在与当前任务相关联的至少一个目标历史子任务，则将各目标历史子任务、所述当前任务以及已记录的语言化全局地图作为输入数据输入至所述大语言模型中得到所述子任务序列；

否则，将所述当前任务以及已记录的语言化全局地图作为输入数据输入至所述大语言模型中得到所述子任务序列；

其中，所述历史任务集合包括所述机器人在指定时间段内所执行过的符合设定条件的至少一个历史子任务；任一历史子任务至少携带有指示该历史子任务是否执行成功的执行结果；所述设定条件至少包括任务类型为目标类型。

5.根据权利要求1所述的方法，其特征在于，该方法进一步包括：

针对任一子任务，获得所述机器人执行该子任务的执行结果；

在所述执行结果指示该子任务被执行失败的情况下，若该子任务的执行失败总次数未达到设定次数，则依据已记录的语言化全局地图和/或已记录的全局三维语义地图重新规划机器人执行该子任务的任务执行信息；

若该子任务的执行失败总次数达到设定次数，则依据已记录的语言化全局地图和指示该子任务被执行失败的执行结果，通过大语言模型将所述当前任务重新分解出新子任务序列，继续执行在对应的子任务执行之前规划机器人执行该子任务的任务执行信息的步骤。

6.根据权利要求1所述的方法，其特征在于，所述基于全局三维语义地图规划所述机器人的无碰撞落脚点，包括：

基于所述全局三维语义地图确定所述全局三维语义地图中所述目标位置的点云；

基于所述目标位置的点云和所述机器人的属性信息确定采样范围；对所述全局三维语义地图中位于该采样范围内的点云进行均匀间隔采样得到多个采样点；

针对任一采样点，确定所述全局三维语义地图中位于第一目标范围内的点云中是否存在障碍物点云；所述第一目标范围依赖于该采样点确定；

基于各参考无碰撞落脚点确定所述机器人的无碰撞落脚点。

7.根据权利要求1所述的方法，其特征在于，所述基于局部三维语义地图规划出机器人的位置姿态和抓取路径，包括：

基于所述局部三维语义地图中所述目标物的点云规划出所述机器人的位置姿态；

基于所述局部三维语义地图中所述目标物的点云和位于第二目标范围内的点云规划出所述机器人的抓取路径；所述第二目标范围依赖于所述目标物的点云确定。

8.一种机器人智能控制系统，其特征在于，所述系统包括：决策模块、感知模块、以及至少一个规划模块；

所述决策模块，用于通过大语言模型将当前任务分解出子任务序列，并为所述子任务序列中各子任务分配对应的规划模块；

任一规划模块，用于在对应的子任务执行之前规划机器人执行该子任务的任务执行信息；其中，当子任务为移动至目标位置时，该子任务被分配的规划模块基于全局三维语义地图规划所述机器人的无碰撞落脚点，当子任务为抓取目标物时，该子任务被分配的规划模块基于局部三维语义地图规划出机器人的位置姿态和抓取路径；

其中，所述局部三维语义地图是通过所述感知模块依据所述机器人在子任务执行过程中感知的工作环境中的感知信息确定的；所述感知信息至少包括：所述工作环境中的物体属性、物体点云、环境点云；

所述全局三维语义地图为已记录的全局三维语义地图，或者基于已记录的全局三维语义地图和所述感知模块最新得到的所述局部三维语义地图进行拼接生成的。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行权利要求1至7任一所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1至7任一所述方法中的步骤。