浙大最新！不限数量！SAP3D从任意数量的图像中进行3D重建！（重建物体）

编辑：计算机视觉工坊
添加小助理：dddvision，备注：3D重建，拉你入群。文末附行业细分群

0.这篇文章干了啥？

这篇文章介绍了一种名为SAP3D的系统，旨在从少数未定位的图像中进行3D对象重建和新视图合成。作者提出了一个三阶段的方法：初始化相机姿态、优化相机姿态和扩展实例特定的2D扩散模型，以实现这一目标。

初始化相机姿态：使用RelPose 模型对输入图像进行相机姿态初始化。作者通过重新训练RelPose 模型来提高对未定位对象的相机姿态估计精度。

优化相机姿态：通过在测试时对初始扩散模型和相机姿态进行优化，实现从不同视角融合信息。作者使用了测试时间优化来获得实例特定的视图条件扩散模型，并改进图像的相机姿态估计，从而提高了后续新视图合成和3D重建的质量。

扩展实例特定的2D扩散模型：通过将大规模图像数据集中学习到的3D先验知识融入到3D重建过程中。作者使用了Zero-1-to-3模型作为2D扩散模型，通过测试时间优化来实现实例特定的3D先验知识。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：The More You See in 2D, the More You Perceive in 3D

作者：Xinyang Han, Zelin Gao等

作者机构：UC Berkeley,Zhejiang University等

论文链接：https://arxiv.org/pdf/2404.03652.pdf

2. 摘要

人类可以根据过去的经验从物体的二维图像中推断出三维结构，并随着观察更多图像而提高他们的三维理解能力。受到这种行为的启发，我们引入了SAP3D，一个从任意数量的未定位图像进行三维重建和新视角合成的系统。给定物体的几个未定位图像，我们通过测试时微调来调整一个预先训练好的视角条件扩散模型以及图像的摄像机姿态。调整后的扩散模型和获取的摄像机姿态然后被用作实例特定的先验，用于三维重建和新视角合成。我们表明，随着输入图像数量的增加，我们方法的性能提高，弥合了基于优化的无先验三维重建方法与基于单幅图像到三维的扩散方法之间的差距。我们在真实图像和标准合成基准上展示了我们的系统。我们的消融研究证实了这种适应行为对于更准确的三维理解至关重要。

3. 效果展示

使用一张或多张图像的3D重建。对于实际图像（左列）和合成GSO数据集中实例（右列）的SAP3D进行1、3和5个视图的定性可视化。注意，随着视图数量的增加，鹰的翅膀、绿色龟的尖刺武器和黄色兔子的花束等细节变得更加详细和准确。

SAP3D新视角的定性结果。我们展示了1、3和5个输入图像的结果。随着输入图像的增加，SAP3D提高了生成的3D细节的保真度。

4. 主要贡献

这篇文章的主要贡献是提出了一个名为SAP3D的系统，用于从少量未定位图像中进行3D物体重建和新视图合成。该系统包括三个阶段：初始化阶段、细化阶段和测试时优化阶段。通过使用视角条件的2D扩散模型和测试时优化来处理相对摄像机姿态，SAP3D能够从少量图像中生成实例特定的3D模型，从而提高了对对象形状和外观的重建质量。实验结果表明，随着输入图像数量的增加，SAP3D的性能得到了显著提高，从而证明了该系统的有效性。

5. 基本原理是啥？

该系统的基本原理是利用视角条件的2D扩散模型和相对摄像机姿态的测试时优化，从少量未定位的图像中生成实例特定的3D模型。它包括三个主要阶段：

初始化阶段：在这个阶段，系统首先根据输入的少量图像估计相对的摄像机姿态，并使用预训练的视角条件2D扩散模型来提供3D先验信息。
细化阶段：在这个阶段，系统对相对摄像机姿态和扩散模型进行细化，通过测试时优化来获取实例特定的3D先验，进一步提高重建质量。
测试时优化阶段：系统利用测试时优化来处理不同数量的视图，通过对扩散模型和摄像机姿态进行微调，生成更准确的3D模型和新视图。

通过结合这些阶段，SAP3D能够从少量未定位的图像中重建对象的3D结构，并合成新的视图，从而提高对对象形状和外观的理解和重建质量。

6. 实验结果

实现细节：首先，他们详细描述了系统的实现细节。包括初始化相对摄像机姿态、使用视角条件2D扩散模型以及测试时优化的具体参数设置和步骤。
多视角效果验证：通过实验验证 SAP3D 在处理多视角输入时的效果。他们使用谷歌扫描的对象数据集，在随机选择的20个对象上渲染不同数量的视图，从1到5个。评估指标包括PSNR、SSIM和LPIPS等用于评估外观，Chamfer Distance、F1 score和VolumeIoU等用于评估几何形状，以及相对旋转误差用于评估相机姿态。结果表明，随着视图数量的增加，3D重建和新视图合成的质量都得到了显著提高。
系统设计选择验证：实验验证了系统设计选择及其对3D重建和2D新视图合成质量的影响。他们通过去除不同组件或修改系统中的不同部分来进行验证。结果表明，系统的不同部分对最终结果有着重要影响，例如相对摄像机姿态的初始估计、测试时优化等。
数据集验证：使用谷歌扫描的对象数据集进行实验验证，并提供了实际对象的定性结果。
相对姿态估计的改进：实验验证了通过大规模预训练相对姿态估计器来改进初始相对姿态估计的有效性。
测试时优化的影响：实验验证了测试时优化对3D重建和新视图合成的影响。结果表明，测试时优化可以显著改善结果的质量。

7. 总结 & 未来工作

这篇论文提出了一种系统，可以从少量图像中实现3D重建和生成新视角，并随着图像数量的增加而改进。主要贡献在于系统能够从任意数量的图像中进行3D重建和新视角生成，并且随着图像数量的增加而改进。他们讨论了两个主要的局限性，并表示未来将尝试端到端的方法来提高系统性能。这项研究为使用少量图像进行3D重建和新视角生成的方法提供了一个有效的解决方案，对未来相关领域的研究具有指导意义。

本文仅做学术分享，如有侵权，请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向学校/公司昵称（如3D点云清华小草莓）, 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C 、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。