CN120303696A

CN120303696A - 使用机器学习模型的三维对象部分分割

Info

Publication number: CN120303696A
Application number: CN202380073537.8A
Authority: CN
Inventors: M·刘; 朱银浩; 蔡弘; F·M·波里克利; H·苏
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2022-11-02
Filing date: 2023-09-13
Publication date: 2025-07-11
Also published as: US20240144589A1; EP4612651A1; US12229883B2

Abstract

提供了用于部分分割的系统和技术。例如，用于执行部分分割的过程可以包括获得对象的三维捕获。该方法可以包括从该对象的该三维捕获中生成该对象的一个或多个二维图像。该方法还可以包括处理该对象的该一个或多个二维图像以生成与该对象的部分相关联的至少一个二维边界框。该方法可以包括基于从该对象的该一个或多个二维图像和该至少一个二维边界框生成的三维点云并且基于被合并到与该对象的该部分相关联的子组中的语义标记的超点来执行该对象的该部分的三维部分分割。

Description

使用机器学习模型的三维对象部分分割

技术领域

本公开的各方面整体涉及对象分割。例如，本公开的各方面涉及用于通过应用三维数据与从机器学习模型或系统(例如，视觉语言预训练的模型)输出的二维数据的三维融合，来执行三维部分分割(例如，0次拍摄和/或少次拍摄三维部分分割)的系统和技术。

背景技术

三维对象部分分割可以包括使用对象的三维表示来标识和分割对象的不同部分。例如，座椅的部分可以包括椅背、扶手、椅座、椅腿等。在一些情况下，系统可能仅对某些关键部分感兴趣(例如，柜子的把手、电器上的按钮等)。然而，系统可以不被训练或设计成标识或分割此类关键部分。

发明内容

以下呈现与本文所公开的一个或多个方面相关的简化发明内容。因此，以下发明内容既不应被认为是与所有构想的方面相关的详尽纵览，也不应被认为标识与所有构想的方面相关的关键性或决定性元素或描绘与任何特定方面相关联的范围。因此，以下发明内容的唯一目的是在以下呈现的具体实施方式之前以简化形式呈现与涉及本文所公开的机制的一个或多个方面相关的某些概念。

公开了使用视觉语言预训练的模型或类似模型来实现0次拍摄和少次拍摄三维对象部分分割的系统和技术。根据至少一个示例，提供了一种用于执行部分分割的装置。该装置包括至少一个存储器和至少一个处理器，该处理器耦合到至少一个存储器并且被配置为：从对象的三维捕获中生成对象的一个或多个二维图像；接收标识对象的部分的数据；处理该对象的一个或多个二维图像，以生成至少一个二维边界框，该边界框基于视觉语言预训练模型和数据标识对象的部分；执行该对象的三维捕获的部分分割以生成与该对象相关联的多个超点；基于该至少一个二维边界框，对该多个超点中的每个超点进行语义标记，以生成多个语义标记的超点；基于该多个语义标记的超点，合并来自多个超点的与该对象的部分相关联的至少一个子组的超点，以生成三维点云；以及基于该三维点云，对该对象的部分执行三维部分分割。

在另一个示例中，提供了一种执行部分分割的方法。该方法包括：从对象的三维捕获中生成对象的一个或多个二维图像；接收标识对象的部分的数据；处理该对象的一个或多个二维图像，以生成至少一个二维边界框，该边界框基于视觉语言预训练模型和数据标识对象的部分；执行该对象的三维捕获的部分分割以生成与该对象相关联的多个超点；基于该至少一个二维边界框，对该多个超点中的每个超点进行语义标记，以生成多个语义标记的超点；基于该多个语义标记的超点，合并来自多个超点的与该对象的部分相关联的至少一个子组的超点，以生成三维点云；以及基于该三维点云，对该对象的部分执行三维部分分割。

在另一个示例中，提供了一种非暂态计算机可读介质，该非暂态计算机可读介质在其上存储有指令，该指令当由一个或多个处理器执行时使该一个或多个处理器从对象的三维捕获中生成该对象的一个或多个二维图像；接收标识对象的部分的数据；处理该对象的一个或多个二维图像，以生成至少一个二维边界框，该边界框基于视觉语言预训练模型和数据标识对象的部分；执行该对象的三维捕获的部分分割以生成与该对象相关联的多个超点；基于该至少一个二维边界框，对该多个超点中的每个超点进行语义标记，以生成多个语义标记的超点；基于该多个语义标记的超点，合并来自多个超点的与该对象的部分相关联的至少一个子组的超点，以生成三维点云；以及基于该三维点云，对该对象的部分执行三维部分分割。

在另一个示例中，提供了一种用于执行部分分割的装置。该装置包括：用于从对象的三维捕获中生成对象的一个或多个二维图像的部件；用于接收标识对象的部分的数据的部件；用于处理该对象的一个或多个二维图像，以生成至少一个二维边界框的部件，该边界框基于视觉语言预训练模型和数据标识对象的部分；用于执行该对象的三维捕获的部分分割以生成与该对象相关联的多个超点的部件；用于基于该至少一个二维边界框，对该多个超点中的每个超点进行语义标记，以生成多个语义标记的超点的部件；用于基于该多个语义标记的超点，合并来自多个超点的与该对象的部分相关联的至少一个子组的超点，以生成三维点云的部件；以及用于基于三维点云对对象的部分执行三维部分分割的部件。

在另一个示例中，一种用于执行部分分割的装置包括至少一个存储器和至少一个处理器，该至少一个处理器耦合到至少一个存储器并且被配置为：接收对象的三维图像；从该对象的三维图像接收与由模型生成的该对象的一个或多个二维图像相关联的一个或多个二维边界框，该一个或多个二维边界框与该对象的至少一个部分相关联；以及基于该对象的三维图像和该一个或多个二维边界框来执行该对象的该至少一个部分的三维部分分割。

在另一个示例中，一种用于执行部分分割的方法包括：接收对象的三维图像；从该对象的三维图像接收与由模型生成的该对象的一个或多个二维图像相关联的一个或多个二维边界框，该一个或多个二维边界框与该对象的至少一个部分相关联；以及基于该对象的三维图像和该一个或多个二维边界框来执行该对象的该至少一个部分的三维部分分割。

在另一个示例中，提供了一种其上存储有指令的非暂态计算机可读介质，指令在由一个或多个处理器执行时使一个或多个处理器：接收对象的三维图像；从该对象的三维图像接收与由模型生成的该对象的一个或多个二维图像相关联的一个或多个二维边界框，该一个或多个二维边界框与该对象的至少一个部分相关联；以及基于该对象的三维图像和该一个或多个二维边界框来执行该对象的该至少一个部分的三维部分分割。

在另一个示例中，一种用于执行部分分割的装置包括：用于接收对象的三维图像的部件；以及用于从该对象的三维图像接收与由模型生成的该对象的一个或多个二维图像相关联的一个或多个二维边界框的部件，该一个或多个二维边界框与该对象的至少一个部分相关联；以及用于基于该对象的三维图像和该一个或多个二维边界框来执行该对象的该至少一个部分的三维部分分割的部件。

在一些方面，本文所描述的装置中的一个或多个装置是和/或包括以下内容和/或作为以下内容的一部分：扩展现实(XR)设备或系统(例如，虚拟现实(VR)设备、增强现实(AR)设备或混合现实(MR)设备)、移动设备(例如，移动电话或其他移动设备)、可穿戴设备、无线通信设备、相机、个人计算机、膝上型计算机、交通工具或交通工具的计算设备或组件、服务器计算机或服务器设备(例如，基于边缘或云的服务器、充当服务器设备的个人计算机、诸如充当服务器设备的移动电话的移动设备、充当服务器设备的XR设备、充当服务器设备的交通工具、网络路由器或充当服务器设备的其他设备)、另一个设备或它们的组合。在一些方面，该装置包括用于捕获一个或多个图像的一个相机或多个相机。在一些方面，该装置还包括用于显示一个或多个图像、通知和/或其他可显示数据的显示器。在一些方面，上述装置可以包括一个或多个传感器(例如，一个或多个惯性测量单元(IMU)，诸如一个或多个陀螺仪、一个或多个陀螺测试仪、一个或多个加速度计、它们的任何组合和/或其他传感器)。

上文已经相当广泛地概述了根据本公开的示例的特征和技术优点，以便可以更好地理解下面的具体实施方式。下文将描述附加特征和优点。所公开的概念和特定示例可容易地被用作用于修改或设计用于实现本公开的相同目的的其他结构的基础。此类等效构造不脱离所附权利要求书的范围。本文所公开的概念的特性在其组织和操作方法两方面以及相关联的优势将因结合附图来考虑以下描述而被更好地理解。提供附图中的每个附图是出于例示和描述的目的，而不是作为权利要求的限制的定义。

虽然在本公开中通过对一些示例的例示来描述各方面，但本领域技术人员将理解，此类方面可在许多不同布置和场景中实现。本文所描述的技术可使用不同的平台类型、设备、系统、形状、大小和/或封装布置来实现。例如，一些方面可经由集成芯片具体实施或其他基于非模块组件的设备(例如，最终用户设备、交通工具、通信设备、计算设备、工业装备、零售/购物设备、医疗设备和/或人工智能设备)来实现。各方面可在芯片级组件、模块化组件、非模块化组件、非芯片级组件、设备级组件和/或系统级组件中实现。纳入所描述的各方面和特征的设备可包括用于实现和实践所要求保护并描述的各方面的附加组件和特征。本文所描述的各方面旨在可在各种大小、形状和构成的各种各样的设备、组件、系统、分布式布置和/或终端用户设备中实践。

基于附图和具体实施方式，与本文所公开的各方面相关联的其他目的和优势对于本领域的技术人员将是显而易见的。该发明内容不旨在标识所要求保护的主题的关键或必要特征，其也不旨在孤立地用于确定所要求保护的主题的范围。本主题应当参考本专利的整个说明书的合适部分、任何或所有附图以及每项权利要求来理解。

前述内容以及其他特征和方面将在参照以下说明书、权利要求书和所附附图时变得更明显。

附图说明

呈现附图以帮助描述本公开的各种方面，并且提供附图仅用于例示而非限制各方面。

图1例示根据一些示例的其中当可以准确地标识对象的不同部分时可以改进对象的机器人操纵的使用情况；

图2例示根据一些示例的座椅和标识座椅上的部分的有界区域；

图3A是例示根据一些示例的用于执行三维对象部分分割的示例系统的示图；

图3B是例示根据一些示例的用于使用柜子作为输入来执行三维对象部分分割的示例系统的示图；

图4例示根据一些实施方案的座椅，其中特定部分的不同部分被突出显示。

图5例示根据一些示例的标识座椅部分的各种边界框；

图6是例示根据一些示例的与三维对象部分分割相关联的聚集过程的示图；

图7是例示根据一些示例的使用所公开的原理和传统方法之间的不同部分分割过程的示图；

图8是例示根据一些示例的与本文所公开的对象分割过程相关联的提示调谐结果的示图；

图9是例示根据一些示例的用于执行三维对象部分分割的过程的示例的流程图；

图10是例示根据一些示例的用于执行三维对象部分分割的过程的另一个示例的流程图；并且

图11是例示根据一些示例的计算系统的示例的框图。

具体实施方式

出于例示性目的，以下提供了本公开的某些方面。在不脱离本公开的范围的情况下，可设计出另选方面。附加地，将不详细描述或将省略本公开的众所周知的元件，以免使本公开的相关细节难以理解。本文所描述的一些方面可以被独立地应用，并且它们中的一些可以组合应用，这对于本领域技术人员来说是显而易见的。在以下描述中，出于解释目的阐述了具体细节以提供对本申请的各方面的透彻理解。然而，显然的是，可以在没有这些具体细节的情况下实践各种方面。各附图和描述不旨在是限制性的。

以下描述仅提供了示例方面，并且并不旨在限定本公开的范围、适用性或配置。相反，对示例方面的以下描述将向本领域技术人员提供能够用于实现示例方面的描述。应当理解的是，在不脱离如所附权利要求所阐述的本申请的范围的情况下，可以对元件的功能和布置做出各种改变。

对象分割在一些情况下(诸如当试图标识对象的某个部分或某些部分时)可能是困难的。例如，可能缺乏用于训练机器学习模型(例如，神经网络模型)以执行三维部分分割的标记的数据，例如在可用数据的数量和部分的类别方面。此类数据的缺乏对基于学习的方法(例如，神经网络模型的监督学习或训练)提出了挑战。例如，标准监督训练仅允许机器学习模型(例如，设计成处理3D点云输入的神经网络)识别在训练期间观察到的对象部分(例如，在训练图像的数据集中标记的那些对象部分)。在一个例示性示例中，图像的训练数据集可以仅包括二十个对象部分类别。经训练以使用此类数据集执行对象分割的模型(例如，常规3D神经网络)不能标识或分割未包括在数据集中的新的部分。即使对于包括在训练数据集中的部分，由于各种各样的对象和/或部分外观以及缺乏训练数据，所以识别性能在测试/部署期间也可能不会令人满意。

此外，涉及二维(2D)预测的任务可能存在问题，诸如语义分割和深度估计。单眼网络消耗单个图像并且输出对该单个图像的预测。在一些场景中，可能会获得多张具有重叠视图的摆拍图像(例如，针对每张图像的测量的相机位置和/或取向)，其中几张图像可以由机器学习模型或系统进行集体处理。然而，现有的单眼网络无法利用此类摆拍图像，因为它们只能对单张图像进行操作。

部分分割信息可以极大地有益于各种系统，诸如机器人操纵系统(例如，用于场景导航、对象操控等)、车辆系统(例如，用于自动驾驶或半自动驾驶、安全预警系统等)，等等。例如，分割信息可以允许或帮助机器人标识在何处施加力/动作以移动对象，诸如通过在特定方向上推动座椅来移动座椅、通过抓握把手来打开柜子门等。图1例示根据一些示例的其中当可以准确地标识对象的不同部分时可以改进对象的机器人操纵的使用情况。如图所示，机器人100包括以两个视图示出的机器人102，该机器人操纵诸如柜子104a或柜子104b中的抽屉之类的对象；机器人106的两个视图，该机器人操纵诸如容器108之类的对象(以两个视图示出)；机器人110的两个视图，该机器人操纵诸如柜子112a或柜子112b中的门之类的对象；以及机器人114的两个视图，该机器人操纵诸如座椅116a或柜子抽屉116b之类的对象。对象104、108、112a、112b和116中的每一者是不同的并且具有不同的部分，诸如把手或盖子或扶手或椅腿。根据机器人的任务，对于机器人来说重要的是正确地标识各个部分，使得它们可以由机器人操纵。

需要用于改进的部分分割的方案，该方案能够利用各种类型的模型，甚至具有如上所描述的限制的模型。本文所描述的系统和技术可以利用预训练的机器学习模型(例如，视觉语言预训练(VLP)的模型)来执行三维(3D)部分分割(例如，0次拍摄和/或少次拍摄3D部分分割)。例如，可以在二维(2D)图像-文本数据上广泛地预训练机器学习模型(例如，VLP模型)。在一个示例中，给定图像，VLP模型可以基于所提供的可以标识一个或多个部分的数据或文本来识别一个或多个对象以及该一个或多个对象的一个或多个部分。在一些情况下，系统和技术可以应用于任何2D视觉预测任务，诸如语义分割和深度估计。视觉预测任务可以是许多应用或系统的组成部分，诸如扩展现实(XR)、车辆系统(例如，自动驾驶或半自动驾驶、安全系统等)、相机图像/视频处理、机器人(例如，如图1中所示)和/或其他应用或系统。

本文所描述的系统和技术可以应用的一个示例使用情况是人体部位分割。识别人体不同部位(例如，手臂、腿、头部等)的能力对于许多应用或任务(例如，扩展现实(XR)、车辆系统、医疗应用等)而言非常有用。在一个例示性示例中，3D部分分割可以用于分割在一个或多个图像中描绘的人的不同部位，并且虚拟衣服/附件可以被放置在人的部位上。在另一个例示性示例中，可以执行3D部分分割以分割在一个或多个图像中描绘的车辆的不同部分，这可以允许机器人系统识别车辆的不同部分并且便于车辆在物理世界中的组装和修理任务。其它使用情况可以包括建筑、家具制造与操纵、设备制造与操纵、精密喷涂与涂层等。

预训练模型可以包括任何类型的机器学习模型。开源模型的非限制性例示性示例包括CLIP(对比语言图像预训练)、GLIP(基础语言图像预训练)。预训练模型(例如，VLP模型)的输出是二维的并且可以包括边界区域，诸如边界框或者具有另一个形状的边界区或区域。例如，预训练模型的输出不是三维的。图2例示座椅200和标识座椅201上的部分(座椅的背部)的有界区域202(示出为边界框)。当然，座椅的其他部分也可由边界区域202标识，诸如椅座、椅腿、滚轮等等。该系统和技术可以包括3D融合引擎，该3D融合引擎基于来自模型的2D输出执行3D部分分割。

图3A是例示用于执行3D对象部分分割的系统300的示例的示图。给定对象的3D捕获302，系统300可以分割所请求的部分而不必训练机器学习模型。在一些情况下，系统300可以使用预训练机器学习模型306，诸如VLP模型或其他类型的机器学习模型。在某些方面，可以使用少量标记的数据来改进模型(例如，通过使用少量标记的数据，诸如使用监督学习，进一步训练预训练模型来微调模型)。

系统300可以接收对象的3D捕获302作为输入。该过程可以包括从3D捕获中渲染多视图2D图像304。系统300还可以接收与诸如座椅的“椅背”或“椅腿”之类的部分相关联的部分数据308(例如，诸如文本)。在一些情况下，系统300可接收其它数据，诸如标识特定部分的数据(例如，图像、音频数据、视频数据或其它类型的数据)。分割可以被认为是“0次拍摄”，这意味着在目标任务域中没有给出任何种类的标记的数据。例如，如果任务是标识把手，则不存在“把手”部分的标记的数据。系统300可以从对象的3D捕获302生成多视图2D图像304。使用多视图2D图像304和部分数据308，机器学习模型306(例如，VLP模型)可以确定或生成标识部分的一个或多个2D边界框314。一个或多个2D边界框314被提供给还接收对象的3D捕获302的3D融合引擎312。3D融合引擎312可以输出具有部分分割的对象的3D点云310。

为了生成具有部分分割的3D点云310，3D融合引擎312可以执行一个或多个操作。例如，3D融合引擎312可以执行过度分割。为了执行过度分割，3D融合引擎312可基于3D捕获302的点云中的每个点处的相应3D法向将3D捕获302(其可以被假定为点云)分割成“超点”(例如，子部分)。图4是例示座椅400的3D捕获的示图。例如，图4的座椅400的对象部分(例如，椅背404、椅座406、椅腿408等)可在过分割期间被分割成多个子部分。在一个例示性示例中，椅腿408可以被分割成第一子部分410和第二子部分412。椅座406或座椅400的任何其他部分也可以被分割成子部分。

3D融合引擎312还可以基于从机器学习模型306输出的2D边界框314来执行每个超点(或者在其他情况下少于所有超点)的语义标记。对于每个部分(p)类别i和每个超点(sp)j，可以使用图像k来计算分数，诸如使用以下等式：

该等式使用“bbox”来表示边界框。分数指示相应超点被包括在一个或多个2D图像中与相应部分类别相关联的一个或多个边界框中的量(例如，超点在所有视图上被某个类别的边界框覆盖了多少)，其中该一个或多个2D图像包括与相应部分类别相关联的部分。3D融合引擎312可以标准化分数[i]。对于每个超点j，3D融合引擎312可以将其标记为argmax_i(score[i,j])。

3D融合引擎312还可以合并属于同一部分的超点。例如，如果两个超点具有相同的语义标记并且如果两个超点在3D捕获302中彼此相邻，则3D融合引擎312可以合并两个超点。在另一个种情况下，3D融合引擎312可以合并两个超点，其中对于其中两个超点可见的视图(例如，来自不同视图的图像)，给定每个边界框，两个超点均在边界框中或均不在边界框中。

图3B是例示用于使用柜子334的3D捕获302(例如，使用来自相机336或其他传感器的数据生成的对象的点云渲染)作为输入来执行3D对象部分分割的示例系统的系统330。由系统332提供的0次拍摄方法可以包括接收3D捕获302作为输入并且生成被提供给机器学习模型342(例如，VLP模型)的2D图像338。部分文本344(例如，其可以是文本提示或其他数据)也可以被提供作为输入，如先前所描述的。

在一些情况下，可以执行用于提供视图间一致性(也被称为视图间聚集或特征聚集)的视图间一致性处理340，如图6进一步所示。例如，视图间一致性处理340可以提供三维中的多视图特征聚集以增强关于2D预测任务的单视图机器学习模型(例如，神经网络)。该方法可以使用非学习聚集方案，例如特征平均/合并，其可以在推理时间直接在用于2D预测任务的任何现有单眼网络上使用。视图间一致性处理340可以应用于网络的任何层。该方法是改进任何2D密集预测网络的性能的通用技术。在一些情况下，短序列图像可用作输入数据(例如，短视频、图像突发等)。还可经由一个或多个传感器(例如，惯性测量单元(IMU)、加速计、陀螺仪等)、视觉惯性测距(VIO)系统和/或其它设备或系统获得相机姿态。因此，所提出的方案可以广泛应用于不同的场景和任务。

在一些方面，系统可利用基于学习的聚集方案，例如，可与单眼网络一起训练的小神经网络。当测试该方法时，已经显示出性能改进。对于2D检测任务，经由该方法，mAP50从0.68提高到0.74。“mAP50”是平均精度的平均值，其边界框匹配阈值为平均交并比(mIoU)＝50％。

虽然针对2D检测任务进行数值评估，但所提出的方案可用于任何2D密集预测任务，例如分割、深度估计、去噪等。

机器学习模型342(例如，VLP模型)的输出346可以包括具有检测到的框的各种图像，该检测到的框被提供给将2D边界框融合到3D分割的3D融合引擎312。输出是具有部分分割的3D点云348。可进一步实现调谐过程349以输出具有地面实况分割350的3D形状。该调谐过程349可以被称为“少次拍摄”或“少次拍摄提示调谐”方法，其中输入被提供用于调谐。

本文公开的方法利用机器学习模型306/342来实现0次拍摄3D部分分割。另外的创新包括利用感兴趣对象的多个视图来提高准确性以及提供高效的调谐过程349。该方案可以消耗非常少量的标记的2D数据以显著提高准确度(例如，使用少次拍摄的3D部分分割)。

系统330的表现可以根据交并比(mIoU)通过分割准确度来测量。IoU值由预测的地面实况(GT)分割掩码的交集除以预测的GT分割掩码的并集来定义。在一个测试中，在81个椅形上进行语义分割mIoU，执行1次拍摄，并且不同部分的准确度范围从63％到超过88％。

图5例示标识座椅部分500的各种边界框，并且示出了多视图特征聚集可以如何发生。座椅以各种视图示出，并且机器学习模型306/342可以在一些视图上预测好的结果，而在其他视图上预测差的结果。座椅502示出了用于整个座椅的一个边界框504和用于椅座的另一个边界框506。在图5的边界框的每个边界框中示出了每个相应边界框如何良好地捕获特定部分的相应分数或置信度。例如，边界框504的分数或置信度为0.60，表示其捕获椅座的效果。分数或置信度可以是多个部分类别中的相应部分类别的相应分数/置信度。该分数或置信度可以指示在包括与相应部分类别相关联的部分的二维图像中，与相应部分类别相关联的一个或多个边界框中包括相应超点的量。边界框506具有0.52的分数或置信度。座椅508示出了用于座椅侧视图的一个边界框512和用于椅座的另一个边界框510。座椅514从后视图示出用于座椅的一个边界框516。座椅518以侧视图示出用于座椅的一个边界框520和用于椅座的另一个边界框522。座椅524具有用于顶视图的一个边界框526，并且座椅528示出用于侧视图的一个边界框530。对所公开的系统的输入3D捕获302是3D形状，并且在多点云渲染与机器学习模型306/342的2D输出之间存在对应关系。

图6是例示与3D对象部分分割相关联的聚集过程的示图600。给定来自n个视图的n个特征图(例如，50x50)，该过程可以生成n个融合特征图。对于每个相应3D点(例如，参见在座椅视图602、604、606、608、610上标识的点)，该过程可以在不同视图上对对应2D像素特征求平均。3D像素特征是指与图像上的2D像素位置相关联的特征。对于每个2D像素，可以存在多个3D点，并且该过程可以对对应点特征求平均。点特征是指与3D点相关联的特征。例如，它可以是来自3D点的不同视图的求平均的2D特征。因为对于每个2D像素，可能存在多个关联的3D点，所以该方法是对来自3D点的点特征求平均以获得该2D像素的特征。可选的方法还包括忽略边界像素。曲线图612示出了3D点上的数据的聚集。

图7是例示使用所公开的原理与传统方法之间的不同部分分割过程的示图700。没有融合702的方法可以导致图中所示的示例视图，诸如具有与扶手相关联的边界框710和708的座椅706。座椅712可以具有与椅座相关联的边界框716和另一个边界框713。座椅718可以具有边界框720和另一个边界框722，每个边界框与椅背相关联。座椅724可以具有与椅背相关联的边界框726和另一个边界框728。如图7所示，边界框728看起来更集中于座椅的扶手而不是座椅的椅背。座椅730可以具有用于椅腿的边界框732。没有融合702的各种座椅和边界框例示如何生成多个边界框，这可能会导致关于相应边界框应关联的具体部分的混淆。

通过融合过程704，结果可以更好。座椅734具有用于扶手的边界框736。座椅738具有用于椅座的边界框740。座椅742示出了用于椅背的边界框744。座椅746示出了用于椅背的边界框748。座椅750示出了用于一条腿的边界框752、用于另一个条腿的另一个边界框754以及用于另一个条腿的第三边界框756。当使用融合时，与特定部分相关联的边界框的准确度的改进是明显的。

图8是例示与本文所公开的对象分割过程相关联的调谐结果的示图800。图8的调谐结果例示调谐过程(诸如相对于图3B所描述的调谐过程349)的结果。一组图像例示调谐802之前的对象分割。茶壶806包括覆盖整个图像的嘴边界框808。示出了由边界框808适当覆盖的茶壶的嘴的概率或成功值0.55。茶壶810包括用于把手的边界框812和用于整个茶壶的另一个框814。钳子824包括用于整个钳子集合的把手边界框816，并且钳子834还包括用于该把手的把手边界框836以及更小且更集中的另一个把手边界框837。在仅用一个形状调整804之后，系统可以学习文本映射并且可以将其推广到其他实例。茶壶826被示出在更加准确的壶嘴边界框818中，该边界框覆盖了茶壶的壶嘴，而不是整个茶壶，其评分为0.89。茶壶820具有壶嘴边界框822，该边界框更加准确，其评分为0.94。钳子828具有第一边界框830和第二边界框832，每个边界框围绕具有评分为0.74和0.71的把手。钳子838包括更加准确地围绕钳子838的两个把手(评分为0.70)的把手边界框840和围绕钳子838的一个把手(评分为0.71)的另一个框842。

图9是例示执行三维对象部分分割的处理900的示例的流程图。过程900的操作可以被实现为在一个或多个处理器(例如，图11的处理器1110和/或其他处理器)上执行和运行的软件组件。

在框902，过程900可以包括从对象t的三维捕获(例如，图3A和/或图3B的3D捕获302)生成对象的一个或多个二维图像。三维捕获可以包括初始三维点云。在一个方面，过程900可以包括获得对象的三维捕获。

在框904，过程900可以包括接收标识对象的部分(例如，图3A的部分文本308)的数据。数据可以是任何形式。一个示例形式是标识对象的部分的文本。三维捕获可以是三维点云，并且过程900可以包括基于对象的至少一个部分的三维部分分割来生成修改的三维点云(例如，图3A和/或图3B的3D点云310/334)。

在框906处，过程900可以包括处理对象的一个或多个二维图像以生成至少一个二维边界框(例如，图3A和/或图3B的2D边界框314/346)，该至少一个二维边界框基于视觉语言预训练模型和数据来标识对象的部分。例如，至少一个二维边界框可以基于机器学习模型(例如，图3A和/或图3B的模型306/342)的训练来标识对象的至少一个部分，如例如图3B中所示。在一个例示性示例中，机器学习模型是视觉语言预训练(VLP)的模型。

在一些情况下，机器学习模型可在二维图像和文本数据(例如，图3A和/或图3B的部分数据或文本308/344)上预训练，如本文所描述。例如，文本/数据可以标识对象的至少一个部分。在一个例示性示例中，过程900可以包括接收标识配置有对象的感兴趣部分的数据或文本。过程900可以基于接收的数据或文本来处理对象的一个或多个二维图像以生成与对象的至少一个部分相关联的至少一个二维边界框。

在框908处，过程900可以包括执行对象的三维捕获的部分分割以生成与对象相关联的多个超点。多个超点可以包括基于在多个超点的每个点处的三维法向的对象的部分的子部分。在一个方面，基于与多个超点中的每个点相关联的相应三维法向，多个超点可以与对象的一个或多个子部分相关。基于执行对象的至少一个部分的三维部分分割，过程900可以输出具有部分分割的对象的三维表示(例如，3D点云)。

在框910处，过程900可以包括基于该至少一个二维边界框，对该多个超点中的每个超点进行语义标记，以生成多个语义标记的超点；在一个方面，作为过程900的一部分，基于至少一个二维边界框对多个超点中的每个超点进行语义标记可以包括产生多个部分类别中的相应部分类别的相应分数及与相应部分类别相关联的相应超点。在一个示例中，相应分数可以指示相应超点被包括在一个或多个二维图像的至少一个二维图像中的与相应部分类别相关联的一个或多个边界框中的量，该至少一个二维图像包括与相应部分类别相关联的部分。

在框912处，过程900可以包括基于多个语义标记的超点，合并来自多个超点的与该对象的部分相关联的至少一个子组的超点以生成三维点云。在一个方面，作为过程900的一部分，合并与对象的部分相关联的至少一个子组的超点可以包括基于以下中的至少一者来合并两个超点：具有相同语义标记的两个超点、两个超点中的第一超点相邻于两个超点中的第二超点、或两个超点是否被包括在包括两个超点的一个或多个二维图像中的二维图像的相应边界框中。

在框914处，过程900可以包括基于三维点云对对象的部分执行三维部分分割。在一个方面，可以基于初始三维点云来生成三维点云。在一个方面，执行对象的部分的三维部分分割还包括执行多视图特征聚集。在另一个方面，作为过程900的部分而执行多视图特征聚集还包括针对对象的三维捕获中的每个三维点，对对象的一个或多个二维图像上的对应二维像素特征求平均。

在一些方面，执行多视图特征聚集的过程900还包括针对对象的一个或多个二维图像中的每个二维像素，对来自对象的三维捕获的对应三维点特征求平均。

在另一个方面，一种用于执行部分分割的装置包括至少一个存储器；和至少一个处理器，该处理器耦合到至少一个存储器并且被配置为：从对象的三维捕获中生成对象的一个或多个二维图像；接收标识对象的部分的数据；处理该对象的一个或多个二维图像，以生成至少一个二维边界框，该边界框基于视觉语言预训练模型和数据标识对象的部分；执行该对象的三维捕获的部分分割以生成与该对象相关联的多个超点；基于该至少一个二维边界框，对该多个超点中的每个超点进行语义标记，以生成多个语义标记的超点；基于该多个语义标记的超点，合并来自多个超点的与该对象的部分相关联的至少一个子组的超点，以生成三维点云；以及基于该三维点云，对该对象的部分执行三维部分分割。

图10是例示执行三维对象部分分割的过程1000的示例的另一个流程图。过程1000可以由任何设备或设备组来执行。过程1000的操作可以被实现为在一个或多个处理器(例如，图11的处理器1110和/或其他处理器)上执行和运行的软件组件。

在框1002处，过程1000可以包括接收对象的三维图像。在框1004处，过程1000可以包括从该对象的三维图像接收与由模型生成的该对象的一个或多个二维图像相关联的一个或多个二维边界框，该一个或多个二维边界框与该对象的至少一个部分相关联；在框1006处，过程1000可以包括基于对象的三维图像和一个或多个二维边界框执行对象的至少一个部分的三维部分分割。

在一些示例中，本文所描述的过程(例如，本文所描述的过程900、过程1000和/或其他过程)可由计算设备或装置(例如，网络节点，诸如UE、基站、基站的一部分等)来执行。例如，如上所描述，过程900可由UE执行，并且过程1000可由基站或基站的一部分执行。在另一个示例中，过程900和/或过程1000可由具有图11中所示的计算系统1100的计算设备来执行。例如，具有图11所示的计算架构的无线通信设备可包括UE的组件，并且可实现图9和/或图10的操作。

在一些情况下，计算设备或装置可包括各种组件，诸如一个或多个输入设备、一个或多个输出设备、一个或多个处理器、一个或多个微处理器、一个或多个微型计算机、一个或多个相机、一个或多个传感器和/或被配置为执行本文所描述的过程的步骤的其他组件。在一些示例中，计算设备可以包括显示器、被配置为传达和/或接收数据的一个或多个网络接口、它们的任何组合和/或其他组件。一个或多个网络接口可被配置为传达和/或接收有线和/或无线数据，包括根据3G、4G、5G和/或其他蜂窝标准的数据、根据WiFi(802.11x)标准的数据、根据蓝牙^TM标准的数据、根据互联网协议(IP)标准的数据和/或其他类型的数据。

计算设备的组件可在电路中实现。例如，组件可包括电子电路或其他电子硬件，并且/或者可使用电子电路或其他电子硬件来实现，这些电子电路或其他电子硬件可包括一个或多个可编程电子电路(例如，微处理器、图形处理单元(GPU)、数字信号处理器(DSP)、中央处理单元(CPU)、和/或其他合适的电子电路)，并且/或者可包括用于执行本文所描述的各种操作的计算机软件、固件或它们的任何组合并且/或者可使用用于执行本文所描述的各种操作的计算机软件、固件或它们的任何组合来实现。

过程900和过程1000被例示为逻辑流程图，这些逻辑流程图的操作表示可在硬件、计算机指令或它们的组合中实现的操作序列。在计算机指令的上下文中，各操作表示存储在一个或多个计算机可读存储介质上的计算机可执行指令，该指令在由一个或多个处理器执行时执行所叙述的操作。一般来讲，计算机可执行指令包括执行特定功能或实现特定数据类型的例程、程序、对象、组件、数据结构等。描述操作的次序不旨在被解释为限制，并且任何数量的所描述的操作可按任何次序和/或并行地组合以实现过程。

另外，过程900、过程1000和/或本文所描述的其他过程可在被配置有可执行指令的一个或多个计算机系统的控制下执行，并且可以被实现为在一个或多个处理器上、通过硬件或它们的组合共同执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用程序)。如上文所指出，代码可存储在计算机可读或机器可读存储介质上，例如，呈包括可由一个或多个处理器执行的多个指令的计算机程序的形式。计算机可读或机器可读存储介质可以是非暂态的。

图11是例示用于实现本公开技术的某些方面的系统的示例的示图。具体地，图11例示计算系统1100的示例，该计算系统可以是例如构成内部计算系统、远程计算系统、相机或它们的任何组件的任何计算设备，其中系统的组件使用连接1105来彼此通信。连接1105可以是使用总线的物理连接，或者到处理器1110中的直接连接，诸如在芯片集架构中。连接1105还可以是虚拟连接、联网连接或逻辑连接。

在一些方面，计算系统1100是分布式系统，其中本公开描述的功能可分布在一个数据中心、多个数据中心、对等网络等内。在一些方面，描述的系统组件中的一个或多个系统组件表示各自均执行组件被描述用于的功能中的一些或全部功能的许多此类组件。在一些方面，组件可以是物理或虚拟设备。

示例系统1100包括至少一个处理单元(CPU或处理器)1110和连接1105，该连接将包括系统存储器1115(诸如只读存储器(ROM)1120和随机存取存储器(RAM)1125)的各种系统组件通信地耦合到处理器1110。计算系统1100可以包括高速存储器的与处理器1110直接连接、紧密接近该处理器或集成为该处理器的一部分的高速缓存1115。

处理器1110可以包括任何通用处理器和硬件服务或软件服务，诸如存储在存储设备1130中的服务1132、1134和1136，这些服务被配置为控制处理器1110以及其中软件指令被并入到实际处理器设计中的专用处理器。处理器1110可以基本上是完全独立的计算系统，该计算系统包括多个核或处理器、总线、存储器控制器、高速缓存等。多核处理器可以是对称或非对称的。

为了实现用户交互，计算系统1100包括可表示任何数量的输入机构的输入设备1145，诸如用于语音的麦克风、用于手势或图形输入的触敏屏幕、键盘、鼠标、运动输入、语音等。计算系统1100还可以包括可以是多个输出机构中的一个或多个输出机构的输出设备1135。在一些情况下，多模式系统可使得用户能够提供多种类型的输入/输出以与计算系统1100通信。

计算系统1100可以包括通信接口1140，该通信接口通常可支配和管理用户输入和系统输出。通信接口可执行或促成使用有线和/或无线收发器接收和/或发送有线或无线通信，包括利用音频插孔/插头、麦克风插孔/插头、通用串行总线(USB)端口/插头、Apple^TMLightning^TM端口/插头、以太网端口/插头、光纤端口/插头、专用有线端口/插头、3G、4G、5G和/或其他蜂窝数据网络无线信号传递、蓝牙^TM无线信号传递、蓝牙^TM低能耗(BLE)无线信号传递、IBEACON^TM无线信号传递、射频标识(RFID)无线信号传递、近场通信(NFC)无线信号传递、专用短程通信(DSRC)无线信号传递、802.11Wi-Fi无线信号传递、无线局域网(WLAN)信号传递、可见光通信(VLC)、微波接入全球互通(WiMAX)、红外(IR)通信无线信号传递、公共交换电话网(PSTN)信号传递、集成服务数字网(ISDN)信号传递、自组织网络信号传递、无线电波信号传递、微波信号传递、红外信号传递、可见光信号传递、紫外光信号传递、沿电磁频谱的无线信号传递、或它们的某种组合的那些通信。通信接口1140还可以包括一个或多个全球导航卫星系统(GNSS)接收器或收发器，该一个或多个全球导航卫星系统(GNSS)接收器或收发器用于基于从与一个或多个GNSS系统相关联的一个或多个卫星接收到一个或多个信号来确定计算系统1100的位置。GNSS系统包括但不限于美国的全球定位系统(GPS)、俄罗斯的全球导航卫星系统(GLONASS)、中国的北斗导航卫星系统(BDS)以及欧洲的伽利略GNSS。对在任何特定硬件布置上进行操作不存在任何限制，并且因此可容易地替换此处的基础特征以随着它们被开发而获得改进的硬件或固件布置。

存储设备1130可以是非易失性和/或非暂态和/或计算机可读存储器设备，并且可以是可存储可由计算机访问的数据的硬盘或其他类型的计算机可读介质，诸如盒式磁带、闪存存储器卡、固态存储器设备、数字多功能碟、卡带、软磁盘、软盘、硬盘、磁带、磁条/磁性条、任何其他磁存储介质、闪存、忆阻器存储器、任何其他固态存储器、压缩盘只读存储器(CD-ROM)光盘、可重写压缩盘(CD)光盘、数字视频盘(DVD)光盘、蓝光盘(BDD)光盘、全息光盘、另一个光学介质、安全数字(SD)卡、微型安全数字(microSD)卡、Memory卡、智能卡芯片、EMV芯片、订户身份模块(SIM)卡、迷你/微型/纳米/微微SIM卡、另一个集成电路(IC)芯片/卡、随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存EPROM(FLASHEPROM)、高速缓存存储器(例如，层1(L1)高速缓存、层2(L2)高速缓存、层3(L3)高速缓存、层4(L4)高速缓存、层5(L5)高速缓存、其他(L#)高速缓存)、电阻式随机存取存储器(RRAM/ReRAM)、相变存储器(PCM)、自旋转移扭矩RAM(STT-RAM)、另一个存储器芯片或盒和/或它们的组合。

存储设备1130可以包括软件服务、服务器、服务等，当定义此类软件的代码由处理器1110执行时，该代码使系统执行功能。在一些方面，执行特定功能的硬件服务可以包括存储在与必要的硬件组件(诸如处理器1110、连接1105、输出设备1135等)进行连接的计算机可读介质中以进行功能的软件组件。术语“计算机可读介质”包括但不限于便携式或非便携式存储设备、光学存储设备以及能够存储、包含或携带指令和/或数据的各种其他介质。计算机可读介质可包括非暂态介质，该非暂态介质中可存储数据并且不包括无线地或通过有线连接传播的载波和/或暂态电子信号。非暂态介质的示例可以包括但不限于磁盘或磁带、光学存储介质(诸如压缩光盘(CD)或数字多功能盘(DVD))、闪存存储器、存储器或存储器设备。计算机可读介质可以在其上存储有代码和/或机器可执行指令，该代码和/或机器可执行指令可以表示规程、函数、子程序、程序、例程、子例程、模块、软件包、类别，或者指令、数据结构或程序语句的任何组合。通过传递和/或接收信息、数据、自变量、参数或存储器内容，代码段可耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可经由任何合适的手段来传递、转发或发送，这些手段包括存储器共享、消息传递、令牌传递、网络发送等。

在上述描述中提供了具体细节以提供对本文中所提供的各方面和各示例的透彻理解，但是本领域技术人员将认识到本申请并不限于此。因此，尽管本申请的例示性方面已经在本文中详细描述，但是要理解，各个发明概念可以其他各种方式被体现和采用，并且所附权利要求书不旨在被解释为包括这些变型，除非受到现有技术的限制。上述应用的各种特征和方面可单独地或联合地使用。此外，在不脱离说明书的更广泛的范围的情况下，各方面可在超出本文所描述的那些环境和应用的任何数量的环境和应用中加以利用。因此，说明书和附图应当被认为是例示性的而非限制性的。出于例示的目的，按照特定次序来描述各方法。应当领会，在另选方面，各方法可按与所描述的顺序不同的顺序来执行。

为了解释的清楚，在一些实例中，本技术可以被呈现为包括单独的功能块，该单独的功能块包括以软件或硬件和软件的组合体现的方法中的设备、设备组件、步骤或例程。可以使用除附图所示和/或本文所描述的那些组件之外的附加组件。例如，电路、系统、网络、过程和其他组件可以用框图形式示为组件以避免使这些方面混淆在不必要的细节中。在其他实例中，可以在没有不必要的细节的情况下示出公知的电路、过程、算法、结构和技术以避免混淆各方面。

此外，本领域的技术人员应理解，结合本文所公开的各方面描述的各种例示性逻辑块、模块、电路和算法步骤可被实现为电子硬件、计算机软件或两者的组合。为了清楚地例示硬件和软件的这种可互换性，上文已经在其功能性方面大致描述了各种例示性组件、框、模块、电路和步骤。将此类功能性实现为硬件还是软件取决于特定应用和对整个系统提出的设计约束。本领域的技术人员可针对每个特定应用以不同的方式实现描述的功能性，但此类具体实施决策不应被解释为导致脱离本公开的范围。

各个方面在上文可以被描述为过程或方法，该过程或方法被描绘为流程图、流程图示、数据流图、结构图或框图。尽管流程图可将操作描述为顺序过程，但是操作中的许多操作可并行地或并发地执行。此外，可重新排列操作的次序。当过程的操作完成时过程被终止，但是过程可具有附图中未包括的附加步骤。过程可对应于方法、函数、规程、子例程、子程序等。当过程对应于函数时，过程的终止可对应于该函数返回到调用函数或主函数。

根据上述示例的过程和方法可使用被存储的计算机可执行指令或以其他方式从计算机可读介质可用的计算机可执行指令来实现。此类指令可包括例如使或以其他方式将通用计算机、专用计算机或处理设备配置为执行某一功能或功能组的指令和数据。可通过网络访问所使用的计算机资源的部分。计算机可执行指令可以是例如二进制、诸如汇编语言、固件、源代码的中间格式指令。可以用于存储指令、所用的信息和/或在根据所描述的示例的方法期间创建的信息的计算机可读介质的示例包括磁盘或光盘、闪速存储器、具有非易失性存储器的USB设备、联网存储设备等。

在一些方面，计算机可读存储设备、介质和存储器可包括含有位流等的线缆或无线信号。然而，在被提及时，非暂态计算机可读存储介质明确排除诸如功耗、载波信号、电磁波以及信号本身等介质。

本领域的技术人员应理解，信息和信号可使用多种不同的技术和方法中的任何技术和方法来表示。例如，贯穿以上描述可能被述及的数据、指令、命令、信息、信号、比特、符号以及芯片可以在一些情形中部分地取决于具体应用、部分地取决于所期望的设计、部分地取决于对应技术等而由电压、电流、电磁波、磁场或磁粒子、光场或光粒子、或它们的任何组合来表示。

结合本文中所公开的各方面来描述的各种例示性逻辑块、模块和电路可使用硬件、软件、固件、中间件、微代码、硬件描述语言、或它们的任何组合来实现或执行，并且可采用各种形状因子中的任何形状因子。当以软件、固件、中间件或微代码实现时，用于执行必要任务的程序代码或代码段(例如，计算机程序产品)可以被存储在计算机可读或机器可读介质中。处理器可执行必要任务。各形状因子的示例包括：膝上型设备、智能电话、移动电话、平板设备、或其他小形状因子的个人计算机、个人数字助理、机架式设备、自立设备等。本文所描述的功能也可被体现在外围设备或内插式卡中。借由进一步的示例，此类功能性还可被实现在单个设备上执行的不同芯片或不同过程当中的电路板上。

指令、用于输送此类指令的介质、用于执行它们的计算资源以及用于支持此类计算资源的其他结构是用于提供本公开所述的功能的示例部件。

本文所描述的技术还可以被实现在电子硬件、计算机软件、固件或它们的任何组合中。此类技术可以被实现在多种设备中的任何设备中，多种设备诸如通用计算机、无线通信设备手机、或具有多种用途的集成电路设备，多种用途包括在无线通信设备手机和其他设备中的应用。被描述为模块或组件的任何特征可一起被实现在集成逻辑设备中或分开地实现为分立但可互操作的逻辑设备。如果被实现在软件中，则技术可至少部分地由包括程序代码的计算机可读数据存储介质来实现，该程序代码包括在被执行时执行上述的方法、算法和/或操作中的一者或多者的指令。计算机可读数据存储介质可形成计算机程序产品的一部分，该计算机程序产品可以包括封装材料。计算机可读介质可以包括存储器或数据存储介质，诸如随机存取存储器(RAM)(诸如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存存储器、磁性或光学数据存储介质等。另外或另选地，技术可至少部分地由计算机可读通信介质来实现，该计算机可读通信介质承载或传达以指令或数据结构形式的并且可由计算机存取、读取和/或执行的程序代码，诸如传播的信号或波。

程序代码可由处理器执行，该处理器可以包括一个或多个处理器，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效集成或分立逻辑电路。这种处理器可以被配置为执行本公开中描述的技术中的任何技术。通用处理器可以是微处理器；但在另选方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心结合的一个或多个微处理器，或任何其他此类配置。因此，如本文所用的术语“处理器”可指前述结构中的任何结构、前述结构的任何组合或适合于实现本文所描述的技术的任何其他结构或装置。

本领域普通技术人员将领会，本文所使用的小于(“<”)和大于(“>”)符号或术语可以分别用小于等于(“≤”)和大于等于(“≥”)符号来代替而不背离本说明书的范围。

在组件被描述为“被配置为”执行某些操作的情况下，可例如通过设计电子电路或其他硬件以执行操作、通过编程可编程电子电路(例如，微处理器或其他合适的电子电路)以执行操作、或它们的任何组合来实现此类配置。

短语“耦合到”或“通信地耦合到”指的是任何组件直接或间接地物理连接到另一组件，和/或任何组件直接或间接地与另一组件处于通信(例如，通过有线或无线连接和/或其他合适的通信接口连接到该另一组件)。

记载集合“中的至少一者”和/或集合中的“一者或多者”的权利要求语言或其他语言指示集合中的一个成员或集合中的多个成员(以任何组合)满足权利要求。例如，阐述“A和B中的至少一者”或者“A或B中的至少一者”的权利要求语言意指A、B或A和B。在另一示例中，阐述“A、B和C中的至少一者”或者“A、B或C中的至少一者”的权利要求语言意指A、B、C、或A和B、或A和C、或B和C、A和B和C或任何重复是信息或数据(例如，A和A、B和B、C和C、A和A和B等)，或A、B和C的任何其他排序、重复或组合。语言集合“中的至少一者”和/或集合中的“一者或多者”不将集合限制为集合中所列的项目。例如，阐述“A和B中的至少一者”或“A或B中的至少一者”的权利要求语言可意指A、B、或A和B，并且可附加地包括在A和B的集合中未列出的项目。

本公开的例示性方面包括：

方面1.一种用于执行部分分割的装置，所述装置包括：至少一个存储器；以及至少一个处理器，所述至少一个处理器耦合到至少一个存储器并且被配置为：获得对象的三维捕获；从所述对象的所述三维捕获生成所述对象的一个或多个二维图像；处理所述对象的所述一个或多个二维图像以生成与所述对象的至少一个部分相关联的至少一个二维边界框；以及基于所述对象的所述一个或多个二维图像和所述至少一个二维边界框来执行所述对象的所述至少一个部分的三维部分分割。

方面2.根据方面1所述的装置，其中所述至少一个二维边界框基于机器学习模型的训练来标识所述对象的所述至少一个部分。

方面3.根据方面2所述的装置，其中所述机器学习模型是视觉语言预训练(VLP)模型。

方面4.根据方面2或3中任一项所述的装置，其中所述机器学习模型在二维图像和文本数据上被预训练。

方面5.根据方面4所述的装置，其中所述文本数据标识所述对象的所述至少一个部分。

方面6.根据方面1至5中任一项所述的装置，其中至少一个处理器被进一步配置为：接收标识配置有所述对象的感兴趣部分的文本；以及处理所述对象的所述一个或多个二维图像，以基于所接收的文本生成与所述对象的所述至少一个部分相关联的所述至少一个二维边界框。

方面7.根据方面1至6中任一项所述的装置，其中所述三维捕获是三维点云，并且其中至少一个处理器被进一步配置为：基于所述对象的所述至少一个部分的所述三维部分分割来生成修改的三维点云。

方面8.根据方面1至7中任一项所述的装置，其中为了执行所述对象的所述三维部分分割，所述至少一个处理器被配置为：分割所述对象的所述三维捕获以生成与所述对象相关联的多个超点；基于所述至少一个二维边界框对所述多个超点中的每个超点进行语义标记；以及合并来自与同一部分相关联的所述多个超点的至少一个子组的超点。

方面9.根据方面8所述的装置，其中基于与所述多个超点中的每个点相关联的相应三维法向，所述多个超点与所述对象的一个或多个子部分相关。

方面10.根据方面8或9中任一项所述的装置，其中为了基于所述至少一个二维边界框对所述多个超点中的每个超点进行语义标记，所述至少一个处理器被配置为生成针对多个部分类别中的相应部分类别的相应分数以及与所述相应部分类别相关联的相应超点。

方面11.根据方面10所述的装置，其中所述相应分数指示所述相应超点被包括在所述一个或多个二维图像中的至少一个二维图像中的与所述相应部分类别相关联的一个或多个边界框中的量，所述至少一个二维图像包括与所述相应部分类别相关联的部分。

方面12.根据方面8至11中任一项所述的装置，其中为了合并与所述同一部分相关联的所述至少一个子组的超点，所述至少一个处理器被配置为基于以下中的至少一者来合并两个超点：具有相同语义标记的所述两个超点、所述两个超点中的第一超点相邻于所述两个超点中的第二超点、或所述两个超点是否被包括在包括所述两个超点的所述一个或多个二维图像中的二维图像的相应边界框中。

方面13.根据方面1至12中任一项所述的装置，其中为了执行所述对象的所述至少一个部分的所述三维部分分割，所述至少一个处理器被配置为执行多视图特征聚集。

方面14.根据方面13所述的装置，其中为了执行所述多视图特征聚集，所述至少一个处理器被配置为针对所述对象的所述三维捕获中的每个三维点，对所述对象的所述一个或多个二维图像上的对应二维像素特征求平均。

方面15.根据方面14所述的装置，其中为了执行所述多视图特征聚集，所述至少一个处理器被进一步配置为针对所述对象的所述一个或多个二维图像中的每个二维像素，对来自所述对象的所述三维捕获的对应三维点特征求平均。

方面16.一种用于执行部分分割的装置，所述装置包括：至少一个存储器；以及至少一个处理器，所述至少一个处理器耦合到至少一个存储器并且被配置为：接收对象的三维图像；从所述对象的所述三维图像接收与由模型生成的所述对象的一个或多个二维图像相关联的一个或多个二维边界框，所述一个或多个二维边界框与所述对象的至少一个部分相关联；以及基于所述对象的所述三维图像和所述一个或多个二维边界框来执行所述对象的所述至少一个部分的三维部分分割。

方面17.一种用于执行部分分割的方法，所述方法包括：获得对象的三维捕获；从所述对象的所述三维捕获生成所述对象的一个或多个二维图像；处理所述对象的所述一个或多个二维图像以生成与所述对象的至少一个部分相关联的至少一个二维边界框；以及基于所述对象的所述一个或多个二维图像和所述至少一个二维边界框来执行所述对象的所述至少一个部分的三维部分分割。

方面18.根据方面17所述的方法，其中所述至少一个二维边界框基于机器学习模型的训练来标识所述对象的所述至少一个部分。

方面19.根据方面18所述的方法，其中所述机器学习模型是视觉语言预训练(VLP)模型。

方面20.根据方面18或19中任一项所述的方法，其中所述机器学习模型在二维图像和文本数据上被预训练。

方面21.根据方面20所述的方法，其中所述文本数据标识所述对象的所述至少一个部分。

方面22.根据方面17至21中任一项所述的方法，所述方法还包括：接收标识配置有所述对象的感兴趣部分的文本；以及处理所述对象的所述一个或多个二维图像，以基于所接收的文本生成与所述对象的所述至少一个部分相关联的所述至少一个二维边界框。

方面23.根据方面17至22中任一项所述的方法，其中所述三维捕获是三维点云，并且所述方法还包括：基于所述对象的所述至少一个部分的所述三维部分分割来生成修改的三维点云。

方面24.根据方面17至23中任一项所述的方法，其中执行所述对象的所述三维部分分割包括：分割所述对象的所述三维捕获以生成与所述对象相关联的多个超点；基于所述至少一个二维边界框对所述多个超点中的每个超点进行语义标记；以及合并来自与同一部分相关联的所述多个超点的至少一个子组的超点。

方面25.根据方面24所述的方法，其中基于与所述多个超点中的每个点相关联的相应三维法向，所述多个超点与所述对象的一个或多个子部分相关。

方面26.根据方面24或25中任一项所述的方法，其中基于所述至少一个二维边界框对所述多个超点中的每个超点进行语义标记包括生成针对多个部分类别中的相应部分类别的相应分数以及与所述相应部分类别相关联的相应超点。

方面27.根据方面26所述的方法，其中所述相应分数指示所述相应超点被包括在所述一个或多个二维图像中的至少一个二维图像中的与所述相应部分类别相关联的一个或多个边界框中的量，所述至少一个二维图像包括与所述相应部分类别相关联的部分。

方面28.根据方面24至26中任一项所述的方法，其中合并与所述同一部分相关联的所述至少一个子组的超点包括基于以下中的至少一者来合并两个超点：具有相同语义标记的所述两个超点、所述两个超点中的第一超点相邻于所述两个超点中的第二超点、或所述两个超点是否被包括在包括所述两个超点的所述一个或多个二维图像中的二维图像的相应边界框中。

方面29.根据方面17至28中任一项所述的方法，其中执行所述对象的所述至少一个部分的所述三维部分分割包括执行多视图特征聚集。

方面30.根据方面29所述的方法，其中执行所述多视图特征聚集包括针对所述对象的所述三维捕获中的每个三维点，对所述对象的所述一个或多个二维图像上的对应二维像素特征求平均。

方面31.根据方面30所述的方法，其中执行所述多视图特征聚集包括针对所述对象的所述一个或多个二维图像中的每个二维像素，对来自所述对象的所述三维捕获的对应三维点特征求平均。

方面32.一种用于执行部分分割的方法，所述方法包括：接收对象的三维图像；从所述对象的所述三维图像接收与由模型生成的所述对象的一个或多个二维图像相关联的一个或多个二维边界框，所述一个或多个二维边界框与所述对象的至少一个部分相关联；以及基于所述对象的所述三维图像和所述一个或多个二维边界框来执行所述对象的所述至少一个部分的三维部分分割。

方面33.根据方面32所述的方法，所述方法还包括执行根据方面17至31中任一项所述的操作。

方面34.一种用于执行部分分割的装置，所述装置包括：至少一个存储器；以及至少一个处理器，所述至少一个处理器耦合到至少一个存储器并且被配置为：接收对象的三维图像；从所述对象的所述三维图像接收与由模型生成的所述对象的一个或多个二维图像相关联的一个或多个二维边界框，所述一个或多个二维边界框与所述对象的至少一个部分相关联；以及基于所述对象的所述三维图像和所述一个或多个二维边界框来执行所述对象的所述至少一个部分的三维部分分割。

方面35.一种用于执行部分分割的方法，所述方法包括：接收对象的三维图像；从所述对象的所述三维图像接收与由模型生成的所述对象的一个或多个二维图像相关联的一个或多个二维边界框，所述一个或多个二维边界框与所述对象的至少一个部分相关联；以及基于所述对象的所述三维图像和所述一个或多个二维边界框来执行所述对象的所述至少一个部分的三维部分分割。

方面36.一种非暂态计算机可读介质，所述非暂态计算机可读介质上具有存储在其上的指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据方面17至33和/或35中任一项所述的操作。

方面37.一种用于在分布式系统中生成虚拟内容的装置，所述装置包括用于执行根据方面17至33和/或35中任一项所述的操作的一个或多个部件。

方面38.一种用于执行部分分割的装置，所述装置包括：至少一个存储器；以及至少一个处理器，所述处理器耦合到至少一个存储器并且被配置为：从对象的三维捕获中生成所述对象的一个或多个二维图像；接收标识所述对象的部分的数据；处理所述对象的所述一个或多个二维图像，以生成至少一个二维边界框，所述至少一个二维边界框基于视觉语言预训练模型和所述数据标识所述对象的所述部分；执行所述对象的所述三维捕获的部分分割以生成与所述对象相关联的多个超点；基于所述至少一个二维边界框，对所述多个超点中的每个超点进行语义标记，以生成多个语义标记的超点；基于所述多个语义标记的超点，合并来自所述多个超点的与所述对象的所述部分相关联的至少一个子组的超点，以生成三维点云；以及基于所述三维点云，对所述对象的所述部分执行三维部分分割。

方面39.根据方面38所述的装置，其中所述数据包括标识所述对象的所述部分的文本。

方面40.根据方面38至39中任一项所述的装置，其中所述多个超点包括基于所述多个超点的每个点处的三维法向的所述对象的所述部分的子部分。

方面41.根据方面38至40中任一项所述的装置，其中所述三维捕获包括初始三维点云，并且其中至少一个处理器被进一步配置为：基于所述初始三维点云，基于执行所述部分分割来生成所述三维点云。

方面42.根据方面38至41中任一项所述的装置，其中基于与所述多个超点中的每个点相关联的相应三维法向，所述多个超点与所述对象的一个或多个子部分相关。

方面43.根据方面38至42中任一项所述的装置，其中为了基于所述至少一个二维边界框对所述多个超点中的每个超点进行语义标记，所述至少一个处理器被配置为生成针对多个部分类别中的相应部分类别的相应分数以及与所述相应部分类别相关联的相应超点。

方面44.根据方面38至43中任一项所述的装置，其中所述相应分数指示所述相应超点被包括在所述一个或多个二维图像中的至少一个二维图像中的与所述相应部分类别相关联的一个或多个边界框中的量，所述至少一个二维图像包括与所述相应部分类别相关联的部分。

方面45.根据方面38至44中任一项所述的装置，其中为了合并与所述对象的所述部分相关联的所述至少一个子组的超点，所述至少一个处理器被配置为基于以下中的至少一者来合并两个超点：具有相同语义标记的所述两个超点、所述两个超点中的第一超点相邻于所述两个超点中的第二超点、或所述两个超点是否被包括在包括所述两个超点的所述一个或多个二维图像中的二维图像的相应边界框中。

方面46.根据方面38至45中任一项所述的装置，其中所述至少一个处理器被配置为获得所述对象的所述三维捕获。

方面47.根据方面38至46中任一项所述的装置，其中为了执行所述对象的所述部分的所述三维部分分割，所述至少一个处理器被配置为执行多视图特征聚集。

方面48.根据方面38至47中任一项所述的装置，其中为了执行所述多视图特征聚集，所述至少一个处理器被配置为针对所述对象的所述三维捕获中的每个三维点，对所述对象的所述一个或多个二维图像上的对应二维像素特征求平均。

方面49.根据方面48所述的装置，其中为了执行所述多视图特征聚集，所述至少一个处理器被进一步配置为针对所述对象的所述一个或多个二维图像中的每个二维像素，对来自所述对象的所述三维捕获的对应三维点特征求平均。

方面50.一种用于执行部分分割的方法，所述方法包括：从对象的三维捕获中生成所述对象的一个或多个二维图像；接收标识所述对象的部分的数据；处理所述对象的所述一个或多个二维图像，以生成至少一个二维边界框，所述至少一个二维边界框基于视觉语言预训练模型和所述数据标识所述对象的所述部分；执行所述对象的所述三维捕获的部分分割以生成与所述对象相关联的多个超点；基于所述至少一个二维边界框，对所述多个超点中的每个超点进行语义标记，以生成多个语义标记的超点；基于所述多个语义标记的超点，合并来自所述多个超点的与所述对象的所述部分相关联的至少一个子组的超点，以生成三维点云；以及基于所述三维点云，对所述对象的所述部分执行三维部分分割。

方面51.根据方面50所述的方法，其中所述数据包括标识所述对象的所述部分的文本。

方面52.根据方面50至51中任一项所述的方法，其中所述多个超点包括基于所述多个超点的每个点处的三维法向的所述对象的所述部分的子部分。

方面53.根据方面50至52中任一项所述的方法，其中所述三维捕获包括初始三维点云，并且其中所述方法还包括：基于所述初始三维点云，基于执行所述部分分割来生成所述三维点云。

方面54.根据方面50至53中任一项所述的所述的方法，其中基于与所述多个超点中的每个点相关联的相应三维法向，所述多个超点与所述对象的一个或多个子部分相关。

方面55.根据方面50至54中任一项所述的方法，其中基于所述至少一个二维边界框对所述多个超点中的每个超点进行语义标记还包括生成针对多个部分类别中的相应部分类别的相应分数以及与所述相应部分类别相关联的相应超点。

方面56.根据方面55所述的方法，其中所述相应分数指示所述相应超点被包括在所述一个或多个二维图像中的至少一个二维图像中的与所述相应部分类别相关联的一个或多个边界框中的量，所述至少一个二维图像包括与所述相应部分类别相关联的部分。

方面57.根据方面50至56中任一项所述的方法，其中合并与所述对象的所述部分相关联的所述至少一个子组的超点还包括基于以下中的至少一者来合并两个超点：具有相同语义标记的所述两个超点、所述两个超点中的第一超点相邻于所述两个超点中的第二超点、或所述两个超点是否被包括在包括所述两个超点的所述一个或多个二维图像中的二维图像的相应边界框中。

方面58.根据方面50至57中任一项所述的方法，所述方法还包括：获得所述对象的所述三维捕获。

方面59.根据方面58所述的方法，其中执行所述对象的所述部分的所述三维部分分割还包括执行多视图特征聚集。

方面60.根据方面59所述的方法，其中执行所述多视图特征聚集还包括针对所述对象的所述三维捕获中的每个三维点，对所述对象的所述一个或多个二维图像上的对应二维像素特征求平均。

方面61.根据方面60所述的方法，其中执行所述多视图特征聚集还包括针对所述对象的所述一个或多个二维图像中的每个二维像素，对来自所述对象的所述三维捕获的对应三维点特征求平均。

方面62.一种非暂态计算机可读介质，所述非暂态计算机可读介质具有存储在其上的指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据方面50至61中任一项所述的操作。

方面63.一种用于在分布式系统中生成虚拟内容的装置，所述装置包括用于执行根据方面50至61中任一项所述的操作的一个或多个部件。

Claims

1.一种用于执行部分分割的装置，所述装置包括：

至少一个存储器；和

至少一个处理器，所述至少一个处理器耦合到至少一个存储器并且被配置为：

从对象的三维捕获中生成所述对象的一个或多个二维图像；

接收标识所述对象的部分的数据；

处理所述对象的所述一个或多个二维图像，以生成至少一个二维边界框，所述至少一个二维边界框基于视觉语言预训练模型和所述数据标识所述对象的所述部分；

执行所述对象的所述三维捕获的部分分割以生成与所述对象相关联的多个超点；

基于所述至少一个二维边界框，对所述多个超点中的每个超点进行语义标记，以生成多个语义标记的超点；

基于所述多个语义标记的超点，合并来自所述多个超点与所述对象的所述部分相关联的至少一个子组的超点，以生成三维点云；以及

基于所述三维点云，对所述对象的所述部分执行三维部分分割。

2.根据权利要求1所述的装置，其中所述数据包括标识所述对象的所述部分的文本。

3.根据权利要求1所述的装置，其中所述多个超点包括基于所述多个超点的每个点处的三维法向的所述对象的所述部分的子部分。

4.根据权利要求1所述的装置，其中所述三维捕获包括初始三维点云，并且其中至少一个处理器被进一步配置为：

基于所述初始三维点云，基于执行所述部分分割来生成所述三维点云。

5.根据权利要求1所述的装置，其中基于与所述多个超点中的每个点相关联的相应三维法向，所述多个超点与所述对象的一个或多个子部分相关。

6.根据权利要求1所述的装置，其中为了基于所述至少一个二维边界框对所述多个超点中的每个超点进行语义标记，所述至少一个处理器被配置为生成针对多个部分类别中的相应部分类别的相应分数以及与所述相应部分类别相关联的相应超点。

7.根据权利要求6所述的装置，其中所述相应分数指示所述相应超点被包括在所述一个或多个二维图像中的至少一个二维图像中的与所述相应部分类别相关联的一个或多个边界框中的量，所述至少一个二维图像包括与所述相应部分类别相关联的部分。

8.根据权利要求1所述的装置，其中为了合并与所述对象的所述部分相关联的所述至少一个子组的超点，所述至少一个处理器被配置为基于以下中的至少一者来合并两个超点：具有相同语义标记的所述两个超点、所述两个超点中的第一超点相邻于所述两个超点中的第二超点、或所述两个超点是否被包括在包括所述两个超点的所述一个或多个二维图像中的二维图像的相应边界框中。

9.根据权利要求1所述的装置，其中所述至少一个处理器被配置为获得所述对象的所述三维捕获。

10.根据权利要求1所述的装置，其中为了执行所述对象的所述部分的所述三维部分分割，所述至少一个处理器被配置为执行多视图特征聚集。

11.根据权利要求10所述的装置，其中为了执行所述多视图特征聚集，所述至少一个处理器被配置为针对所述对象的所述三维捕获中的每个三维点，对所述对象的所述一个或多个二维图像上的对应二维像素特征求平均。

12.根据权利要求11所述的装置，其中为了执行所述多视图特征聚集，所述至少一个处理器被进一步配置为针对所述对象的所述一个或多个二维图像中的每个二维像素，对来自所述对象的所述三维捕获的对应三维点特征求平均。

13.一种用于执行部分分割的方法，所述方法包括：

从对象的三维捕获中生成所述对象的一个或多个二维图像；

接收标识所述对象的部分的数据；

基于所述多个语义标记的超点，合并来自所述多个超点的与所述对象的所述部分相关联的至少一个子组的超点，以生成三维点云；以及

14.根据权利要求13所述的方法，其中所述数据包括标识所述对象的所述部分的文本。

15.根据权利要求13所述的方法，其中所述多个超点包括基于所述多个超点的每个点处的三维法向的所述对象的所述部分的子部分。

16.根据权利要求13所述的方法，其中所述三维捕获包括初始三维点云，并且其中所述方法还包括：

17.根据权利要求13所述的方法，其中基于与所述多个超点中的每个点相关联的相应三维法向，所述多个超点与所述对象的一个或多个子部分相关。

18.根据权利要求13所述的方法，其中基于所述至少一个二维边界框对所述多个超点中的每个超点进行语义标记还包括生成针对多个部分类别中的相应部分类别的相应分数以及与所述相应部分类别相关联的相应超点。

19.根据权利要求18所述的方法，其中所述相应分数指示所述相应超点被包括在所述一个或多个二维图像中的至少一个二维图像中的与所述相应部分类别相关联的一个或多个边界框中的量，所述至少一个二维图像包括与所述相应部分类别相关联的部分。

20.根据权利要求13所述的方法，其中合并与所述对象的所述部分相关联的所述至少一个子组的超点还包括基于以下中的至少一者来合并两个超点：具有相同语义标记的所述两个超点、所述两个超点中的第一超点相邻于所述两个超点中的第二超点、或所述两个超点是否被包括在包括所述两个超点的所述一个或多个二维图像中的二维图像的相应边界框中。

21.根据权利要求13所述的方法，所述方法还包括：

获得所述对象的所述三维捕获。

22.根据权利要求21所述的方法，其中执行所述对象的所述部分的所述三维部分分割还包括执行多视图特征聚集。

23.根据权利要求22所述的方法，其中执行所述多视图特征聚集还包括针对所述对象的所述三维捕获中的每个三维点，对所述对象的所述一个或多个二维图像上的对应二维像素特征求平均。

24.根据权利要求23所述的方法，其中执行所述多视图特征聚集还包括针对所述对象的所述一个或多个二维图像中的每个二维像素，对来自所述对象的所述三维捕获的对应三维点特征求平均。