CN119168835A - 一种机械臂抓取预测方法、电子设备及存储介质 - Google Patents
一种机械臂抓取预测方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN119168835A CN119168835A CN202411168309.1A CN202411168309A CN119168835A CN 119168835 A CN119168835 A CN 119168835A CN 202411168309 A CN202411168309 A CN 202411168309A CN 119168835 A CN119168835 A CN 119168835A
- Authority
- CN
- China
- Prior art keywords
- model
- robot
- grasping
- mechanical arm
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0014—Image feed-back for automatic industrial control, e.g. robot with camera
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/02—Sensing devices
- B25J19/021—Optical sensing devices
- B25J19/023—Optical sensing devices including video camera means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/16—Automatic learning of transformation rules, e.g. from examples
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种机械臂抓取预测方法、电子设备及存储介质,属于机械臂视觉技术领域,搭建机械臂抓取姿态校正平台,获取执行器位姿的RGB图像;采用LLaMA‑Adapter构造多模态大模型;通过CLIP模型提取RGB图像的视觉特征,并使用预训练的LLaMA分词器对视觉特征提示进行解析,得到RGB图像内容的文本信息和图像信息;基于连续思维微调推理抓取策略,对处理后的文本信息和图像信息所对应的机械臂末端执行器的操作姿势进行预测;实时获取机械臂末端执行器的操作姿势运行数据,基于指数移动平均法对多模态大模型进行校验。方法提供了连续的策略学习方法,增强了模型对当前场景配置的适应性,降低了专家干预的频率,使机械臂满足使用需求。
Description
技术领域
本发明属于机械臂视觉技术领域,尤其涉及一种基于自校正多模态大模型的机械臂抓取预测方法、电子设备及存储介质。
背景技术
现有技术中,机械臂视觉抓取技术已经在多领域内广泛使用。在实际应用中,机械臂所处的环境往往复杂多变,存在光照变化、遮挡、反光等干扰因素,这些因素会影响图像的质量,进而降低视觉反馈的准确性和可靠性。
机械臂的快速运动可能导致图像模糊,特别是在高速抓取时,图像模糊会严重影响视觉反馈的精度,增加抓取失败的风险。当前的机械臂视觉抓取系统往往针对特定任务或对象进行优化,缺乏足够的灵活性和适应性。这也导致机器人操纵策略无法满足动作性能要求,对机械臂的使用造成影响。
发明内容
本发明提供一种机械臂抓取预测方法,方法提供了连续的策略学习方法,增强了模型对当前场景配置的适应性,降低了专家干预的频率,使机械臂满足使用需求。
方法包括:
S101:搭建机械臂抓取姿态预测平台,使用Franka Panda机器人作为机械臂姿态预测模型,获取执行器位姿的RGB图像;
S102:采用LLaMA-Adapter构造多模态大模型;
S103:通过多模态大模型的CLIP模型提取RGB图像的视觉特征,并使用预训练的LLaMA分词器对视觉特征提示进行解析,得到RGB图像内容的文本信息和图像信息;
S104:基于连续思维微调推理抓取策略,对处理后的文本信息和图像信息所对应的机械臂末端执行器的操作姿势进行预测;
S105:实时获取机械臂末端执行器的操作姿势运行数据,基于指数移动平均法对多模态大模型进行校验。
进一步需要说明的是,步骤S101中,采用SAPIEN数据集和PartNet-Mobility数据集来搭建机械臂抓取姿态校正平台。
进一步需要说明的是,步骤S101中,机械臂抓取姿态校正平台配置有VulkanRenderer高效渲染器。
进一步需要说明的是,方法中,使用SAPIEN数据集提供的数据集加载器,加载数据集中的对象模型和Franka Panda机器人及执行器的URDF文件。
进一步需要说明的是,步骤S103中,CLIP模型配置有文本编码器和图像编码器;
文本编码器选择为训练网络,图像编码器以深度卷积网络为训练网络,图像编码器的输入形式为[n,h,w,c],n是批次大小,h,w,c是图像的大小。
进一步需要说明的是,步骤S103中,CLIP模型对文本信息和图像信息进行预训练,得到图像内容与自然语言描述关联关系;
预训练包括如下步骤:
S1031:将文本信息和图像信息处理成特征向量;
S1032:构建关系矩阵,关系矩阵中的每一个元素均是每一个图像特征向量和文本特征向量的余弦相似度;
S1033:预训练的对比学习方法中采用的损失函数公式如下:
τ为设定的超参数;q为编码特征;k编码样本;k+为高匹配样本。
进一步需要说明的是,方法中,将抓取运动类型分为旋转和平移,并基于Affordance map模型获取到机械臂末端执行器的操作姿势移动方位;
Affordance map模型A∈RH×W,基于如下式获得:
基于D∈RH×W计算机械臂移动前后位置的欧式距离,A为每个像素的可运动性概率。
进一步需要说明的是,步骤S105中,指数移动平均法的策略公式为μτ=αμτ-1+(1-α)μτ
其中,τ是时间步长,μ表示多模态大模型,α=0.99。
根据本申请的另一个实施例,提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述机械臂抓取预测方法的步骤。
根据本申请的又一个实施例,还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述机械臂抓取预测方法的步骤。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供的机械臂抓取预测方法通过RGB图像的视觉特征和文本信息,能够更全面地理解抓取场景,从而更准确地预测机械臂末端执行器的最佳操作姿势。多模态融合的方式比单一模态更能捕捉到复杂环境中的细微差别,提高预测的准确性和鲁棒性。
本发明利用预训练的LLaMA分词器和CLIP模型,能够处理不同来源和格式的输入数据,增强了模型的泛化能力。还可以适应不同的工作环境和任务需求。
机械臂抓取预测方法通过实时获取机械臂末端执行器的操作姿势运行数据,并使用指数移动平均法对多模态大模型进行校验,能够实现模型的在线学习和自我优化。能够确保模型在长时间运行后仍然保持较高的预测精度。
方法通过自动化地预测和校正机械臂的抓取姿势,提升了工业自动化生产的效率和可靠性。融合了深度学习、计算机视觉、自然语言处理等多个领域的技术,提高预测精度、增强泛化能力、实现实时自校正。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为机械臂抓取预测方法的流程图;
图2为电子设备示意图。
具体实施方式
以下详细描述本申请涉及的机械臂抓取预测方法,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。
应当理解的是,当在本申请说明书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
应当理解的是,本申请提及的“一个或多个”是指一个、两个或两个以上,本申请提及的“多个”是指两个或两个以上。在本申请的描述中,除非另有说明,“/”表示或的意思,比如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,比如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
在本申请中描述的“一个实施例”或“一些实施例”等语句意味着在本申请的一个或多个实施例中包括该实施例描述的特定特征、结构或特点。由此,在本申请中的不同之处出现的“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等语句不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1所示是一具体实施例中机械臂抓取预测方法的流程图,方法包括:
S101:搭建机械臂抓取姿态校正平台,使用Franka Panda机器人作为机械臂姿态预测模型,获取执行器位姿的RGB图像。
在一些实施例中,使用Franka Panda机器人作为实验平台,该机器人以其高精度和灵活性著称,适合用于复杂的机械臂姿态预测任务。
本实施例在机械臂的工作区域内安装高分辨率摄像头,用于捕捉执行器位姿的RGB图像。同时,安装必要的传感器(如力传感器、位置传感器等)以获取更全面的机械臂运行状态数据。将摄像头和传感器与计算机或数据处理中心连接,确保实时数据传输和处理。
在一些具体的实施例中,选择Franka Panda机器人作为实验平台,安装的高分辨率摄像头于机械臂工作区域,确保能够清晰捕捉执行器位姿的RGB图像。
在机械臂抓取姿态校正平台中配置用于接收和处理来自摄像头和传感器的数据。建立数据接口,确保摄像头和传感器能够实时、稳定地将数据传输到数据处理中心。
在一些实施例中,SAPIEN是一个基于物理的、面向家用场景机器人的仿真环境,机械臂抓取姿态校正平台可以采用SAPIEN数据集和PartNet-Mobility数据集来设置一个交互环境,使用SAPIEN提供的数据集加载器,加载数据集中的对象模型和Franka Panda机器人及末端执行器URDF文件,使用基于高效分光栅化的高效渲染器VulkanRenderer,在可移动部分随机选择一个接触点,并使用其法向量的相反方向作为执行器方向与目标交互,将其成功实现操作,记录为成功样本。
可选地,记录离线采样约10,000个操作成功样本,覆盖20个类别。
S102:采用LLaMA-Adapter构造多模态大模型。
在一些实施例中,机械臂抓取姿态校正平台选用LLaMA-Adapter作为基础模型,可以使支持高效的微调,且能够处理多模态输入的文本信息和图像信息。
本实施例加载预训练的LLaMA模型,并冻结大部分参数,仅微调LLaMA-Adapter中的适应层,减少计算量避免过拟合,可以提升自校正效率。
本实施例设置的模型以接受RGB图像和文本指令作为输入。使用CLIP模型(或类似模型)的视觉编码器来提取图像的视觉特征,并使用预训练的LLaMA分词器处理文本指令。
对于LLaMA-Adapter构造的多模态大模型来讲,使用少量自指令(self-instruct)数据对LLaMA-Adapter进行训练,以使其适应机械臂姿态预测任务。
S103:通过多模态大模型的CLIP模型提取RGB图像的视觉特征,并使用预训练的LLaMA分词器对视觉特征提示进行解析,得到RGB图像内容的文本信息和图像信息。
在一些实施例中,将摄像头捕捉到的RGB图像作为输入传递给CLIP模型的视觉编码器。CLIP模型对图像进行编码,提取出高层次的视觉特征向量。将视觉特征向量传递给多模态大模型,与预训练的LLaMA分词器处理的文本提示相结合。
这样,在多模态大模型内部,通过特定的融合机制将视觉特征和文本提示进行融合,形成统一的输入表示。
S104:基于连续思维微调推理抓取策略,对处理后的文本信息和图像信息所对应的机械臂末端执行器的操作姿势进行预测。
在一些实施例中,在LLaMA-Adapter中,将CLIP提取的视觉特征与文本提示进行融合,通过模型内部的自适应提示层进行处理。
本实施例的模型可以根据融合的输入信息,预测机械臂末端执行器的最佳操作姿势。可选地,可以包括接触点的位置、抓取器的方向和力度等。
本实施例还利用连续思维(如模仿人类思考过程的快慢系统)对模型进行微调,以优化预测结果。例如,在预测错误时,模型能够自我反思并生成新的预测。
在本实施例中,多模态大模型根据融合后的输入表示,预测机械臂末端执行器的最佳操作姿势。其中,预测结果包括接触点的位置、抓取器的方向和力度等关键参数。
本实施例通过引入连续思维机制(如快慢系统模型),对预测策略进行微调。当预测结果与实际执行结果存在偏差时,模型能够自我反思并生成新的预测策略。通过持续学习和优化,提高模型对特定场景和任务的适应性。
S105:实时获取机械臂末端执行器的操作姿势运行数据,基于指数移动平均法对多模态大模型进行校验。
在一些实施例中,通过传感器实时获取机械臂末端执行器的操作姿势和运行数据。将实际运行数据与模型预测结果进行对比,使用指数移动平均法(EMA)对模型的预测性能进行平滑评估。EMA可以帮助模型更好地适应短期内的数据波动,同时保留长期趋势。
本实施例可以根据校验结果,对多模态大模型进行必要的调整。如果预测误差较大,可以重新训练或微调模型的部分参数。同时,利用成功校正的样本进行持续策略学习,提高模型对特定场景配置的适应性。
在一些具体的实施例中,实时获取机械臂末端执行器的操作姿势运行数据可以通过传感器实时获取机械臂末端执行器的操作姿势和运行数据。对收集到的数据进行预处理和清洗,确保数据的准确性和完整性。
之后,使用指数移动平均法(EMA)对多模态大模型的预测性能进行平滑评估。将实际运行数据与模型预测结果进行对比分析,计算预测误差和准确率等指标。
本实施例还可以对反馈调整与持续优化。具体可以根据校验结果对多模态大模型进行必要的调整和优化。利用成功校正的样本进行持续策略学习,提高模型对特定场景配置的适应性。定期对模型进行更新和迭代,以应对机械臂的使用需求。
通过以上步骤,可以构建一个基于多模态大模型的机械臂姿态自校正平台,平台能够实时预测并校正机械臂的操作姿势,提高机械臂操作的准确性和稳定性。
在本发明的一种实施例中,基于机械臂抓取预测方法,以下将给出一种可能的实施例对其具体的实施方案进行非限制性阐述。
本实施例中,多模态预训练实施过程采用LLaMA-Adapter构造多模态大模型(MLLM),通过CLIP模型提取RGB图像的视觉特征,并使用预训练的LLaMA分词器对文本提示进行编码。
本实施例的CLIP模型包括文本编码器和图像编码器,文本编码器选择TextTransformer为训练网络,图像编码器以深度卷积网络为训练网络,图像编码器的输入形式是[n,h,w,c],n是批次大小,h,w,c是图像的大小。
比如224×224×3;文字编码器的输入形式是[n,l],由于是图像文本对,所以文本编码器中的批次是与图像编码器中的批次是一样的,l是序列长度。然后计算文本向量和图像向量的相似度以预测它们是否为一对,采取了对比学习的方法来预训练CLIP,CLIP模型通过对大量的图片-文本对进行预训练,得到图像内容与自然语言描述关联关系。
本实施例的预训练阶段具体步骤如下:
①.输入的文本和图像分别经过各自的Encoder处理成特征向量;
②.构建关系矩阵。关系矩阵中的每一个元素都是每一个图像特征向量和其他文本特征向量的余弦相似度。该矩阵中主对角线的元素都是匹配的(图像和文本特征完全对应),其他地方的元素并不匹配。
③.预训练的对比学习方法中采用的损失函数公式如下:
τ为设定的超参数;q为编码特征;k编码样本;k+为高匹配样本。
在一些具体的实施例中,利用MLLM的推理能力,配置连续思维微调推理抓取策略(ManipLLM),以实现具有鲁棒性和可解释性的执行器位姿预测。
本实施例在预收集训练数据过程中,在模拟器中捕捉RGB图像及其对应的成功操纵末端执行器姿势。在推理过程中,专注于预测图像上接触像素的2D坐标[x,y],然后利用深度信息将其转换为3D坐标。同时,我们根据几何关系从其向上和向前的方向获取抓夹的左方(Z轴方向)。
本实施例的MLLM通过一个投影层将视觉特征与大语言模型(LLM)的嵌入空间对齐,使LLaMA能够进行多模态理解并生成相应的答案。在训练过程中,我们仅对LLM中的注入适配器进行微调,同时保持主要的预训练参数不变,以保留现有MLLM的强大能力并增强模型在操纵和失败纠正方面的功能。
这里可以利用MLLM的推理能力,配置连续思维微调推理抓取策略(ManipLLM),以实现具有鲁棒性和可解释性的执行器位姿预测。基于连续思维微调推理抓取策略可以包括:机械臂末端执行器的操作类别理解、先验力场推理、以机械臂末端执行器为中心的姿态预测。
对于机械臂末端执行器的操作分类,可以基于目标类别识别(OCI),采用深度学习的方法将不同类别的操纵目标按照几何属性进行分类。
本实施例还使用先验力场推理。将抓取运动类型分为“旋转”和“平移”,并搜集相应的Affordance map模型这个阶段旨在使模型了解哪些物体区域可以被操作。首先找到物体移动部件并使物体部件沿着轴移动。Affordance map模型A∈RH×W如下式获得
D∈RH×W计算移动前后3D位置(对应到每个像素)的欧式距离。A为每个像素的可运动性概率。
在本申请的一个具体实施例中,以物体为中心的姿态预测,收集到训练数据后,将记录RGB图像和相应的执行器位姿,作为模型输入和结果的奖励值,通过RGB图像和文字提示信息,预测末端执行器的2D坐标姿态[x,y]。
利用深度相机提供的深度帧信息通过内参数转换将深度值转换为空间中的Z坐标。同时,根据几何关系从其向上和向前的方向获取抓夹的Z轴方向,推理生成精确的初始接触执行器位姿解释性。
本实施例中,由于在每次操作过程中机器人和物体的相对位置会发生变化,为了使机械臂抓取姿态预测平台具有操纵和故障校正能力,配置了连续策略学习方法。这种方法旨在增强姿势预测能力,而不需要专家反馈提示,因此,探索使用指数移动平均法(EMA)来不断从新数据中学习,获得成功校正的样本。策略公式为:μτ=αμτ-1+(1-α)μτ。
其中,τ是时间步长,μ表示本发明的模型。可以基于设置了更新权重α=0.99。通过对每个场景配置执行重复的闭环校正和连续的策略学习会话,评估了EMA方案在动作连续学习中的有效性。
这样,本发明实现了多模态大型模型的使用,以同时预测机械臂末端执行器的操作姿势,并能够自主识别和纠正失败的操作动作。
本申请还提供一种电子设备,电子设备用于实现所述机械臂抓取预测方法的步骤。
本实施例的电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。
图2是本申请实施例提供的一种电子设备的结构示意图。电子设备500包括但不限于:网络模块502、音频输出单元503、输入单元504、显示单元506、用户输入单元507、接口单元508、存储器509、处理器501、以及电源模块511等部件。
处理器501可以包括一个或多个处理单元,比如:处理器501可以包括中央处理器(central processing unit,CPU)等)、应用处理器(application processor,AP)、调制解调处理器、图形处理器(graphics processing unit,GPU)、图像信号处理器(image signalprocessor,ISP)、控制器、存储器、视频编解码器、数字信号处理器(digital signalprocessor,DSP)、基带处理器、和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit,GPU和麦克风,图形处理器对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。
用户输入单元507可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元507包括触控面板以及其他输入设备。
在本申请中还提供存储介质中,存储有能够实现本说明书上述机械臂抓取预测方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种机械臂抓取预测方法,其特征在于,方法包括:
S101:搭建机械臂抓取姿态预测平台,使用Franka Panda机器人作为机械臂姿态预测模型,获取执行器位姿的RGB图像;
S102:采用LLaMA-Adapter构造多模态大模型;
S103:通过多模态大模型的CLIP模型提取RGB图像的视觉特征,并使用预训练的LLaMA分词器对视觉特征提示进行解析,得到RGB图像内容的文本信息和图像信息;
S104:基于连续思维微调推理抓取策略,对处理后的文本信息和图像信息所对应的机械臂末端执行器的操作姿势进行预测;
S105:实时获取机械臂末端执行器的操作姿势运行数据,基于指数移动平均法对多模态大模型进行校验。
2.根据权利要求1所述的机械臂抓取预测方法,其特征在于,
步骤S101中,采用SAPIEN数据集和PartNet-Mobility数据集来搭建机械臂抓取姿态校正平台。
3.根据权利要求1所述的机械臂抓取预测方法,其特征在于,步骤S101中,机械臂抓取姿态校正平台配置有VulkanRenderer高效渲染器。
4.根据权利要求2所述的机械臂抓取预测方法,其特征在于,方法中,使用SAPIEN数据集提供的数据集加载器,加载数据集中的对象模型和Franka Panda机器人及执行器的URDF文件。
5.根据权利要求1所述的机械臂抓取预测方法,其特征在于,步骤S103中,CLIP模型配置有文本编码器和图像编码器;
文本编码器选择为训练网络,图像编码器以深度卷积网络为训练网络,图像编码器的输入形式为[n,h,w,c],n是批次大小,h,w,c是图像的大小。
6.根据权利要求5所述的机械臂抓取预测方法,其特征在于,步骤S103中,CLIP模型对文本信息和图像信息进行预训练,得到图像内容与自然语言描述关联关系;
预训练包括如下步骤:
S1031:将文本信息和图像信息处理成特征向量;
S1032:构建关系矩阵,关系矩阵中的每一个元素均是每一个图像特征向量和文本特征向量的余弦相似度;
S1033:预训练的对比学习方法中采用的损失函数公式如下:
τ为设定的超参数;q为编码特征;k编码样本;k+为高匹配样本。
7.根据权利要求5所述的机械臂抓取预测方法,其特征在于,方法中,将抓取运动类型分为旋转和平移,并基于Affordance map模型获取到机械臂末端执行器的操作姿势移动方位;
Affordance map模型A∈RH×W,基于如下式获得:
基于D∈RH×W计算机械臂移动前后位置的欧式距离,A为每个像素的可运动性概率。
8.根据权利要求5所述的机械臂抓取预测方法,其特征在于,步骤S105中,指数移动平均法的策略公式为μτ=αμτ-1+(1-α)μτ
其中,τ是时间步长,μ表示多模态大模型,α=0.99。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述机械臂抓取预测方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述机械臂抓取预测方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411168309.1A CN119168835A (zh) | 2024-08-23 | 2024-08-23 | 一种机械臂抓取预测方法、电子设备及存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411168309.1A CN119168835A (zh) | 2024-08-23 | 2024-08-23 | 一种机械臂抓取预测方法、电子设备及存储介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN119168835A true CN119168835A (zh) | 2024-12-20 |
Family
ID=93880853
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202411168309.1A Pending CN119168835A (zh) | 2024-08-23 | 2024-08-23 | 一种机械臂抓取预测方法、电子设备及存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN119168835A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120580475A (zh) * | 2025-05-20 | 2025-09-02 | 北京智源人工智能研究院 | 机器人抓取姿态预测方法、装置、设备及存储介质 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117773920A (zh) * | 2023-12-21 | 2024-03-29 | 浙江大学 | 一种自然语言驱动的机械臂抓取方法 |
-
2024
- 2024-08-23 CN CN202411168309.1A patent/CN119168835A/zh active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117773920A (zh) * | 2023-12-21 | 2024-03-29 | 浙江大学 | 一种自然语言驱动的机械臂抓取方法 |
Non-Patent Citations (3)
| Title |
|---|
| AI大道理: "CLIP:万物分类(视觉语言大模型)", Retrieved from the Internet <URL:https://blog.csdn.net/qq_42734492/article/details/134387789> * |
| JIAMING LIU ET AL.: "Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation", ARXIV, 27 May 2024 (2024-05-27), pages 1 - 18 * |
| XIAOQI LI ET AL.: "ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation", ARXIV, 24 December 2023 (2023-12-24) * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120580475A (zh) * | 2025-05-20 | 2025-09-02 | 北京智源人工智能研究院 | 机器人抓取姿态预测方法、装置、设备及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20230311335A1 (en) | Natural language control of a robot | |
| US20200086483A1 (en) | Action prediction networks for robotic grasping | |
| Wang et al. | Hierarchical policies for cluttered-scene grasping with latent plans | |
| Simeonov et al. | A long horizon planning framework for manipulating rigid pointcloud objects | |
| CN112512755B (zh) | 使用从2.5d视觉数据预测的域不变3d表示的机器人操纵 | |
| Wu et al. | Pixel-attentive policy gradient for multi-fingered grasping in cluttered scenes | |
| JP2023525676A (ja) | 自然言語に基づくロボット制御において使用するための機械学習モデルを訓練および/または利用すること | |
| Zhang et al. | Modular deep q networks for sim-to-real transfer of visuo-motor policies | |
| US20220402125A1 (en) | System and method for determining a grasping hand model | |
| Gao et al. | An improved SAC-based deep reinforcement learning framework for collaborative pushing and grasping in underwater environments | |
| Aslan et al. | New CNN and hybrid CNN-LSTM models for learning object manipulation of humanoid robots from demonstration | |
| CN117523206A (zh) | 一种基于跨源点云与多模态信息的自动化装配方法 | |
| CN118013838B (zh) | 一种面向3c产品的智能柔性装配方法 | |
| CN119526422A (zh) | 一种基于视触-语言-动作多模态模型的可变形物体交互操作控制方法 | |
| CN117772648B (zh) | 基于具身智能的零件分拣处理方法、装置、设备及介质 | |
| CN119168835A (zh) | 一种机械臂抓取预测方法、电子设备及存储介质 | |
| CN118664590A (zh) | 一种基于语言交互的机械臂推抓协同操作系统及其控制方法 | |
| Peng et al. | A pushing-grasping collaborative method based on deep Q-network algorithm in dual viewpoints | |
| Park et al. | Sim-to-real visual grasping via state representation learning based on combining pixel-level and feature-level domain adaptation | |
| Tsai et al. | Visually guided picking control of an omnidirectional mobile manipulator based on end-to-end multi-task imitation learning | |
| CN112045680B (zh) | 一种基于行为克隆的布料码垛机器人控制系统及控制方法 | |
| CN119897874A (zh) | 基于三维高斯和触感图像融合的智能机器人安全操作方法 | |
| US20240412063A1 (en) | Demonstration-driven reinforcement learning | |
| Luan et al. | Dynamic hand gesture recognition for robot ARM teaching based on improved LRCN model | |
| EP4643272A1 (en) | Open-vocabulary robotic control using multi-modal language models |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |