牛津最新DreamUp3D,端到端3D场景重建与物体姿态估计

牛津最新DreamUp3D,端到端3D场景重建与物体姿态估计

首页休闲益智重建物体更新时间:2024-06-30

来源:3D视觉工坊

添加小助理:dddvision,备注:三维重建,拉你入群。文末附行业细分群


论文题目:DreamUp3D: Object-Centric Generative Models for Single-View 3D Scene Understanding and Real-to-Sim Transfer

作者:Yizhe Wu等

作者机构:Applied AI Lab, Oxford Robotics Institute等

论文链接:https://arxiv.org/pdf/2402.16308.pdf

对于机器人应用的3D场景理解具有一套独特的要求,包括实时推理、面向对象的潜在表示学习、准确的6D姿态估计和物体的3D重建。当前的场景理解方法通常依赖于训练模型与明确或学习到的体积表示的组合,所有这些方法都有各自的缺点和限制。我们介绍了DreamUp3D,这是一种新颖的面向对象的生成模型(OCGM),专门设计用于仅通过单个RGB-D图像对3D场景进行推理。DreamUp3D是一个自监督模型,端到端训练,能够分割对象、提供3D对象重建、生成面向对象的潜在表示和准确的逐个对象的6D姿态估计。我们将DreamUp3D与包括、预训练的CLIP特征、ObSurf和ObPose在内的基线进行了比较,涉及3D场景重建、物体匹配和物体姿态估计等一系列任务。我们的实验表明,在显示其在机器人应用中的适用性的同时,我们的模型在真实场景中比所有基线表现出更好的性能,满足了机器人应用中表现出的严格要求。

读者理解:

这篇论文介绍了一种名为DreamUp3D的方法,用于3D对象中心场景推断、对象级别表示学习和6D姿态估计。这个方法在处理场景理解和对象识别方面具有很高的效率和鲁棒性,特别是在无需重新训练和多次视角采集的情况下。它对于机器人领域的应用有着很大的潜力,可以帮助机器人更好地理解周围环境并执行复杂任务。但是,作者也指出了一些挑战,比如处理具有反射表面的场景以及如何将3D重建与对象操作相结合。总体来说,这是一篇很有意义的论文,为解决实际问题提供了有希望的方法和思路。

1 引言

本文介绍了在真实世界中部署的机器人面临的独特挑战,这些机器人作为在结构化3D环境中运作的代理,只能获得部分可观察性。因此,从有限观察中进行3D场景理解对于促进任务(如实际到虚拟的转换和物体操作)至关重要。在在线应用中,观察需要通过3D感知系统频繁处理,以对场景中的变化做出反应。此外,任务级规划需要一种通常是面向对象的场景表示。因此,在这些环境中操作的机器人的要求是实时操作、基于单视图观察的3D重建、面向对象的潜在表示和准确的逐个对象的6D姿态。

当前,NeRFs被用作隐式表示3D场景感知和理解的方法,并且它们在机器人学中得到了广泛探索。最近的研究已经测试了它们在机器人学中用于抓取、定位和触觉感知等方面的能力。然而,NeRFs面临着重大局限性,因为它们被设计为表示环境作为一个统一的实体。与NeRFs相比,OCGMs在本质上是面向对象的,并且在推理时实时操作。OCGMs利用不同的注意机制,促进场景分解的解缠。然后,将各个组件编码为面向对象的潜在表示,并解码以重建场景。OCGMs还可以与NeRFs结合使用来建模3D场景。

在本文中,我们提出了DreamUp3D,这是一种OCGM,它集成了生成辐射场(GRAFs)来增强3D场景理解,克服了过去模型的限制。DreamUp3D通过一个形状完成模块实现了跨真实环境的转移,并通过一种形状蒸馏机制训练形状完成模块,该机制重用了GRAF预测作为训练信号。这显著减少了计算需求,通过最小化对NeRF模型进行重复评估以检索对象形状的需求,传统上涉及使用射线追踪进行数千次评估。在实验中,我们根据机器人任务的3D场景理解的要求评估了DreamUp3D。具体来说,我们在场景重建、面向对象的表示学习和姿态估计方面评估了DreamUp3D。

2 DREAMUP3D

DreamUp3D模型分为具有不同功能的模块,从数据预处理开始,到用于提取物体掩码的场景分割,再到姿态估计和形状完成以改善估计结果,然后是对象的GRAF表示,最后是对模型训练的概述。整个模型流程如图1所示。此外,我们模型的架构图可在图2中找到。

2.1 数据预处理

数据预处理模块负责将单个RGB-D图像输入转换为点云,并采用聚类算法过滤噪声点观测。然后,将点云下采样到固定数量的点,并结合RGB颜色作为输入传递给类似于U-Net的骨干模块。这个模块包含多个KPConv层,它们扩展了标准的2D卷积层,以保持点云输入的平移不变性。最后,通过两个MLP头,将U-Net产生的输出编码分别用于场景分割和特征编码,为后续的场景重建和其他任务提供了基础数据。

2.2 场景分割

在场景分割模块中,利用实例着色棒破碎过程(IC-SBP)对点云嵌入进行处理,预测出K个软注意力掩码,将观察到的场景点云分割成多个对象点云。该过程中,第一个注意力掩码表示背景,最后一个表示多余范围。整个过程通过随机采样聚类种子实现掩码的随机排序。

2.3 使用形状补全进行姿态估计

在姿态估计与形状补全模块中,首先,将每个观察到的对象点云Pobs k转换为规范姿态Pcan k,方法如下:通过将每个点云中的点转换为规范姿态来实现,其中Tk是IC-SBP算法中对象掩码mk的采样种子的位置,Rk是旋转矩阵。然后,对于每个对象,形状补全模块将经过转换的点云Pcan k和通过KPConv-based自动编码器编码的掩码场景嵌入ζfeat k ⊙ mk进行编码,得到形状嵌入ek。接下来,使用基于三平面的GRAF(πshape),对每个形状嵌入ek进行解码,得到用于形状补全的体素化表示。GRAF是一种生成式NeRF,通过预测任何给定查询点p的占用和颜色来建模对象的3D几何和纹理。为了减少近似对象3D形状的计算开销,将每个对象边界框划分为S个沿各维度的体素。然后,评估每个体素的中心位置pv,k,根据公式计算其占用概率标量值,根据阈值ϕT确定占用体素。最后,使用包含Pcomp k和Pobs k的最小体积边界框来表示对象的姿态。

2.4 场景重建

场景重建模块中,首先使用基于KPConv的编码器对更新的Pcan k和ζfeat k进行编码,创建潜在嵌入zk。然后,将zk参数化为高斯分布,并使用基于三平面的GRAF解码每个对象的3D形状和颜色。我们将解码对象嵌入zk的GRAF称为对象GRAF。根据对象嵌入预测每个对象的颜色和占用概率。要重建整个场景,每个对象必须与背景组件一起单独重建。首先,通过使用KPConv编码器对观察到的点云和掩码场景嵌入ζfeat 0 = ζfeat ⊙ m0进行编码,预测背景潜在嵌入zbg,然后由第三个基于三平面的背景GRAF解码背景的占用和颜色。根据对象和背景GRAF的输出,可以如下计算整个场景的占用概率ϕscene(p)和颜色cscene(p,d)。

2.5 训练

训练部分包括以下步骤:

3 实验

实验结果表明,DreamUp3D在场景重建方面表现优异。与基线方法相比,DreamUp3D在测试时间推理方面显著提高,仅需几秒钟的时间即可完成。在重建准确性方面,DreamUp3D也表现出色,明显优于基线方法。此外,DreamUp3D能够从单个视角的RGB-D图像中重建场景并想象出缺失的部分,这表明了其在对象中心场景分解方面的能力。在对象匹配任务中,DreamUp3D通过学习到的对象中心潜在表示实现了显著提高的匹配精度,相较于其他基于预训练对象特征的方法。在无监督姿态估计方面,DreamUp3D相较于ObPose模型表现出更好的性能,尤其在处理场景中的遮挡和噪声观测时表现更为稳健。这些结果表明了DreamUp3D在提高场景理解能力方面的潜力和优势。

4 总结

本文介绍了DreamUp3D,这是一种用于3D对象中心场景推断、对象级别表示学习和6D姿态估计的高效且强大的方法。与其他方法相比,DreamUp3D在测试时无需对新场景进行重新训练,也不需要多次查看静态场景,因此更适合于机器人任务。与最近的基线方法相比,DreamUp3D展示了更好的重建质量,并且能够在输入图像中想象被遮挡或缺失的对象部分。然而,需要进一步的研究来处理具有挑战性的场景,例如具有反射表面的场景,并且将3D重建纳入对象操纵以提高抓取效果是未来的研究方向。

下载

在公众号「3D视觉工坊」后台,回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理:dddvisiona,备注:加群 方向 学校|公司, 小助理会拉你入群。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved